JP7468360B2

JP7468360B2 - 情報処理装置および情報処理方法

Info

Publication number: JP7468360B2
Application number: JP2020559745A
Authority: JP
Inventors: 真一河野; 亮平安田
Original assignee: Sony Corp; Sony Group Corp
Current assignee: Sony Corp; Sony Group Corp
Priority date: 2018-12-03
Filing date: 2019-09-27
Publication date: 2024-04-16
Anticipated expiration: 2039-09-27
Also published as: WO2020116001A1; US11513768B2; JPWO2020116001A1; US20210382685A1

Description

本開示は、情報処理装置および情報処理方法に関する。

近年、キーボードやマウスなどの入力デバイスに依らず、文字の入力や表示される情報の選択を行う技術が開発されている。例えば、特許文献１には、音声認識技術によりユーザの発話を文字列に変換し、またユーザの視線に基づいて当該文字列の編集位置を特定する技術が開示されている。

特開２００５－２２２１０３号公報

しかし、特許文献１に記載の技術で文字列の編集位置を特定しようとする場合、非常に高い視線認識精度が求められる。また、視線のブレなどにより、編集位置が頻繁に変更される可能性がある。

本開示によれば、ユーザの言動に基づいて、表示される視覚情報の中からユーザが所望する選択箇所を特定する特定部、を備え、前記特定部は、前記ユーザの非言語動作と言語動作とに基づいて、前記選択箇所を特定する、情報処理装置が提供される。

また、本開示によれば、プロセッサが、ユーザの言動に基づいて、表示される視覚情報の中からユーザが所望する選択箇所を特定すること、を含み、前記特定することは、前記ユーザの非言語動作と言語動作とに基づいて、前記選択箇所を特定すること、をさらに含む、情報処理方法が提供される。

本開示の一実施形態に係る分解能について説明するための図である。同実施形態の概要について説明するための図である。同実施形態の概要について説明するための図である。同実施形態の概要について説明するための図である。同実施形態に係る情報処理システムの構成例を示すブロック図である。同実施形態に係る情報処理端末の機能構成例を示すブロック図である。同実施形態に係る情報処理サーバの機能構成例を示すブロック図である。同実施形態に係る候補箇所に複数の対象文字列が含まれる場合の選択箇所の特定について説明するための図である。同実施形態に係る候補箇所に複数の対象文字列が含まれる場合の選択箇所の特定について説明するための図である。同実施形態に係る候補箇所に複数の対象文字列が含まれる場合の選択箇所の特定について説明するための図である。同実施形態に係る特定部がユーザの視線および発話に基づいて画像中から選択箇所を特定する場合の例を示す図である。同実施形態に係る特定部がユーザの視線および発話に基づいて画像中から選択箇所を特定する場合の例を示す図である。同実施形態に係る候補箇所に複数の対象オブジェクトが含まれる場合の選択箇所の特定について説明するための図である。同実施形態に係る候補箇所に複数の対象オブジェクトが含まれる場合の選択箇所の特定について説明するための図である。同実施形態に係る特定部１４０がユーザの視線および発話に基づいて波形データ中から選択箇所を特定する場合の例を示す図である。同実施形態に係る視覚特性に基づいた視覚情報の表示態様制御について説明するための図である。同実施形態に係る視覚特性に基づいた視覚情報の表示態様制御について説明するための図である。同実施形態に係る発話ガイドについて説明するための図である。同実施形態に係る情報処理システムの処理の流れを示すフローチャートである。本開示の一実施形態に係るハードウェア構成例を示す図である。

以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

なお、説明は以下の順序で行うものとする。
１．実施形態
１．１．概要
１．２．システム構成例
１．３．情報処理端末１０の機能構成例
１．４．情報処理サーバ２０の機能構成例
１．５．機能の詳細
１．６．処理の流れ
２．ハードウェア構成例
３．まとめ

＜１．実施形態＞
＜＜１．１．概要＞＞
まず、本開示の一実施形態の概要について説明する。上述したように、近年においては、キーボードやマウスなどの入力デバイスを用いない入力手段や選択手段が開発されている。例えば、特許文献１では、ユーザの視線に基づいて文字列の編集位置を特定する技術が記載されている。

しかし、一般的な大きさで表示される文字列の編集位置を一般的な性能の視線認識技術で特定しようとする場合、文字レベルの単位で編集位置を特定することは非常に困難である。

また、人は一点を注視し続けることは困難であることから、ユーザの視線にはブレが生じるのが通常である。このため、特許文献１に記載の技術では、視線のブレに応じて編集位置が頻繁に変更される可能性がある。

そこで、本開示の一実施形態では、認識精度に係る分解能を考慮することで、上記のような点を解決する。ここで、本実施形態に係る分解能とは、システムが視線等に基づいて認識可能な最小な領域の単位を指すと共に、ある点を指定しようとするユーザの視線等がブレ得る領域を含む。

図１は、本実施形態に係る分解能について説明するための図である。図１には、情報処理端末１０の表示部１６０に表示されるテキストＴが示されている。ここでは、ユーザが、テキストＴから、下向きの黒い三角形で示す箇所（ｉｎｆｏｒｍａｔｉｏｎとｗｈｉｃｈとの間）を選択しようとする場合を想定する。

しかし、ここで、システムが視線等に基づいて認識可能な最小領域や、視線等がブレ得る領域が、図中右下に二点鎖線で示す領域ほどの大きさである場合、黒い三角形で示す箇所（以下、選択箇所、と称する）を一意に特定することは不可能である。本実施形態では、図中に二点鎖線で示す領域を分解能ｒｅｓとして定義する。なお、以降の図面においては、テキストＴとの文字の重なりを避けるために分解能ｒｅｓに係る符号を省略する。

このように、分解能の観点から、ユーザの視線のみに基づいて選択箇所を特定することは非常に困難である。

本開示の一実施形態に係る技術思想は上記の点に着目して発想されたものであり、ユーザが所望する選択箇所をより精度高く特定することを可能とする。このために、本開示の一実施形態に係る情報処理端末１０は、ユーザの言動に基づいて、表示される視覚情報の中からユーザが所望する選択箇所を特定する特定部１４０を備える。また、本開示の一実施形態に係る特定部１４０は、ユーザの非言語動作と言語動作とに基づいて、上記選択箇所を特定すること、を特徴の一つとする。

ここで、上記の言語動作とは、コミュニケーションにおいて言語的な意図を発信するための動作全般を指す。このため、本実施形態に係る言語動作は、例えば、発話に代表される。一方、本実施形態に係る言語動作は、必ずしも有声を伴う動作に限定されず、例えば、唇の動き、無声のささやきなども含まれ得る。

また、上記の非言語動作には、ユーザにより行われる、言語動作以外の動作が広く含まれる。本実施形態に係る非言語動作には、例えば、眼球運動、指や手の動きおよび形状、頭部の動きおよび向きなどが含まれてよい。すなわち、本開示の一実施形態に係る特定部は、ユーザの視線やジェスチャなどに基づいて選択箇所を特定してよい。

図２Ａ～図２Ｃは、本開示の一実施形態の概要について説明するための図である。なお、以下においては、本実施形態に係る特定部１４０が、ユーザの視線と発話とに基づいて文字列から選択箇所を特定する場合を例に説明する。このように、本実施形態に係る視覚情報には、文字列が含まれる。また、図２Ａ～図２Ｃにおいては、ユーザの眼球ＵＥおよび視線が模式的に示されている。

まず、図２Ａに示すように、ユーザは、表示部１６０に表示されるテキストＴにおいて、所望する選択箇所を注視する。なお、図２Ａにおいては、図示が省略されているが、上記選択箇所は、図１に示した選択箇所と同一、すなわち、ｉｎｆｏｒｍａｔｉｏｎとｗｈｉｃｈとの間であってよい。

しかし、ここでは、分解能が文字レベルの単位よりも大きいことから、上記の選択箇所を視線のみに基づいて一意に特定することができないため、特定部１４０は、まずユーザの視線と分解能とに基づいて定まる注視領域（すなわち、二点鎖線で示す領域）を候補箇所として選択する。なお、注視領域は、例えば強調表示などによりユーザに示されてもよい。

次に、ユーザは、図２Ｂに示すように、特定部１４０による選択箇所の特定を補助するための発話ＵＯ１を行う。ここでは、ユーザは、選択箇所の直前の単語に該当する“ｉｎｆｏｒｍａｔｉｏｎ”という発話を行っている。

この際、テキストＴには、“ｉｎｆｏｒｍａｔｉｏｎ”という文字列が５つ含まれているが、図２Ｂに示す一例において、候補箇所と重なるのは、４行目の“ｉｎｆｏｒｍａｔｉｏｎ”のみである。

このことから、本実施形態に係る特定部１４０は、図２Ｃに示すように、検索により取得した５つの“ｉｎｆｏｒｍａｔｉｏｎ”のうち、４行目の“ｉｎｆｏｒｍａｔｉｏｎ”の直後を選択箇所として特定することが可能である。より具体的には、本実施形態に係る特定部１４０は、候補箇所に含まれる文字列とユーザの発話ＵＯ１から認識された文字列とのマッチングにより上記の選択箇所を特定することができる。なお、図２Ｃには、特定部１４０が上記箇所を選択箇所として特定したことにより表示されるキャレットＣＲが示されている。

以上、本実施形態の概要について説明した。このように、本実施形態に係る特定部１４０によれば、言語動作および非言語動作の両方の認識結果を利用することで、ユーザが所望する選択箇所を段階的に絞り込み、精度高く特定することが可能となる。

なお、上記では、特定部１４０が、ユーザの視線に基づいて文字列から単一の候補箇所を限定し、ユーザの発話に基づいて、当該候補箇所から選択箇所を特定する場合を例に説明した。

しかし、本実施形態に係る選択箇所の特定の流れは係る例に限定されない。本実施形態に係る特定部１４０は、ユーザの視線または発話のいずれか一方に基づいて視覚情報の中から候補箇所を限定し、他方に基づいて当該候補箇所から選択箇所を特定してよい。

すなわち、本実施形態に係る特定部１４０は、ユーザの発話に基づいて視覚情報の中から複数の候補箇所を限定し、当該ユーザの視線に基づいて、複数の選択箇所の中から選択箇所を特定することも可能である。

この場合、ユーザは、まず図２Ａに示したように発話により“ｉｎｆｏｒｍａｔｉｏｎ”等の単語を検索し、強調表示された複数の“ｉｎｆｏｒｍａｔｉｏｎ”から編集を行いたい選択箇所を視線により指定することができる。上記のような処理は、ユーザが、希望する編集位置を自力で特定できない場合などに特に有効である。

また、上記では、本実施形態に係る非言語動作が眼球運動であり、言語動作が発話である場合を例に述べたが、本実施形態に係る特定部１４０は、例えば、指差しなどのジェスチャと唇の動きから認識される文字列や意図に基づいて、選択箇所を特定することも可能である。このように、本実施形態に係る非言語動作および言語動作の組み合わせは任意に変更可能である。

＜＜１．２．システム構成例＞＞
次に、本実施形態に係る情報システムの構成例について説明する。図３は、本実施形態に係る情報処理システムの構成例を示すブロック図である。図３に示すように、本実施形態に係る情報処理システムは、情報処理端末１０および情報処理サーバ２０を備える。また、情報処理端末１０と情報処理サーバ２０とは、互いに通信が行えるようにネットワーク３０を介して接続される。

（情報処理端末１０）
本実施形態に係る情報処理端末１０は、ユーザの非言語動作と言語動作とに基づいて、視覚情報の中からユーザが所望する選択箇所を特定する情報処理装置である。本実施形態に係る情報処理端末１０は、例えば、ユーザの眼球の画像を取得可能なヘッドマウントディスプレイやデジタルサイネージ端末、または専用装置であってもよい。

（情報処理サーバ２０）
本実施形態に係る情報処理サーバ２０は、情報処理端末１０が収集したセンシング情報に基づく各種の認識処理を行う情報処理装置である。例えば、本実施形態に係る情報処理サーバ２０は、情報処理端末１０が撮影したユーザの眼球の画像に基づいて視線認識処理を実行する。また、本実施形態に係る情報処理サーバ２０は、情報処理端末１０が収集したユーザの音声に基づいて音声認識処理や自然言語理解処理を実行する。なお、本実施形態に係る情報処理サーバ２０が行う認識処理の種別は、採用する非言語動作や言語動作に応じて設計される。

（ネットワーク３０）
ネットワーク３０は、情報処理端末１０と情報処理サーバ２０とを接続する機能を有する。ネットワーク３０は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ｅｔｈｅｒｎｅｔ（登録商標）を含む各種のＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）などを含んでもよい。また、ネットワーク３０は、ＩＰ－ＶＰＮ（ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ－ＶｉｒｔｕａｌＰｒｉｖａｔｅＮｅｔｗｏｒｋ）などの専用回線網を含んでもよい。また、ネットワーク３０は、Ｗｉ－Ｆｉ（登録商標）、Ｂｌｕｅｔｏｏｔｈ（登録商標）など無線通信網を含んでもよい。

以上、本実施形態に係る情報処理システムの構成例について述べた。なお、図３を用いて説明した上記の構成はあくまで一例であり、本実施形態に係る情報処理システムの構成は係る例に限定されない。例えば、情報処理端末１０と情報処理サーバ２０が有する機能は、単一の装置により実現されてもよいし、３台以上の装置により実現されてもよい。本実施形態に係る情報処理システムの構成は、仕様や運用に応じて柔軟に変形可能である。

＜＜１．３．情報処理端末１０の機能構成例＞＞
次に、本実施形態に係る情報処理端末１０の機能構成例について述べる。図４は、本実施形態に係る情報処理端末１０の機能構成例を示すブロック図である。図４に示すように、本実施形態に係る情報処理端末１０は、音入力部１１０、撮影部１２０、操作入力部１３０、特定部１４０、表示制御部１５０、表示部１６０、およびサーバ通信部１７０を備える。

（音入力部１１０）
本実施形態に係る音入力部１１０は、ユーザの発話などの音を収集する。このために、本実施形態に係る音入力部１１０は、マイクロフォンなどの集音装置を備える。

（撮影部１２０）
本実施形態に係る撮影部１２０は、ユーザの眼球などを撮影する。このために、本実施形態に係る撮影部１２０は、撮像センサを備える。また、本実施形態に係る撮影部１２０は、ユーザの視線認識に用いる画像を撮影するために、赤外光ＬＥＤなどの光源を備えてもよい。

（操作入力部１３０）
本実施形態に係る操作入力部１３０は、ユーザによる操作入力を検出する。このために、本実施形態に係る操作入力部１３０は、例えば、タッチパネルやスイッチ、ボタンなどを備える。

（特定部１４０）
本実施形態に係る特定部１４０は、ユーザの言動に基づいて、表示部１６０が表示する視覚情報の中からユーザが所望する選択箇所を特定する。この際、本実施形態に係る特定部１４０は、ユーザの非言語動作と言語動作とに基づいて選択箇所を特定すること、を特徴の一つとする。

例えば、上述したように、本実施形態に係る特定部１４０は、ユーザの視線に基づいて視覚情報の中から単一の候補箇所を限定し、ユーザの発話に基づいて当該候補箇所の中から選択箇所を特定してもよい。

この際、本実施形態に係る特定部１４０は、ユーザの発話から認識された文字列や意図に基づいて、候補箇所の中から選択箇所を特定することが可能である。

（表示制御部１５０）
本実施形態に係る表示制御部１５０は、表示部１６０による視覚情報の表示を制御する。本実施形態に係る視覚情報には、例えば、文字列、画像、各種の波形データなどが含まれる。本実施形態に係る表示制御部１５０が有する機能の詳細については別途後述する。

（表示部１６０）
本実施形態に係る表示部１６０は、表示制御部１５０による制御に基づいて視覚情報を表示する。このために、本実施形態に係る表示部１６０は、各種のディスプレイを備える。

（サーバ通信部１７０）
本実施形態に係るサーバ通信部１７０は、ネットワーク３０を介して情報処理サーバ２０との情報通信を行う。例えば、本実施形態に係るサーバ通信部１７０は、音入力部１１０が収集した音声に係る音情報や、撮影部１２０が撮影した画像情報を情報処理サーバ２０に送信し、認識処理結果を受信する。

以上、本実施形態に係る情報処理端末１０の機能構成例について述べた。なお、図４を用いて説明した上記の構成はあくまで一例であり、本実施形態に係る情報処理端末１０の機能構成は係る例に限定されない。例えば、上述した特定部１４０や表示制御部１５０など有する機能は、情報処理サーバ２０の機能として備えられてもよい。本実施形態に係る情報処理端末１０の機能構成は、仕様や運用に応じて柔軟に変形可能である。

＜＜１．４．情報処理サーバ２０の機能構成例＞＞
次に、本実施形態に係る情報処理サーバ２０の機能構成例について述べる。図５は、本実施形態に係る情報処理サーバ２０の機能構成例を示すブロック図である。図５に示すように、本実施形態に係る情報処理サーバ２０は、音声認識部２１０、自然言語処理部２２０、視線認識部２４０、および端末通信部２５０を備える。

（音声認識部２１０）
本実施形態に係る音声認識部２１０は、情報処理端末１０が収集したユーザの発話に係る音情報に基づいて、自動音声認識（ＡｕｔｏｍａｔｉｃＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ，ＡＳＲ）を行い、ユーザの発話を文字列に変換する。音声認識部２１０は、公知の技術を用いて音声認識を行ってよい。

（自然言語処理部２２０）
本実施形態に係る自然言語処理部２２０は、音声認識部２１０が生成した文字列に基づく自然言語理解（Ｎａｔｕｒａｌｌａｎｇｕａｇｅｕｎｄｅｒｓｔａｎｄｉｎｇ，ＮＬＵ）処理を行い、ユーザの発話の意図を抽出する。自然言語処理部２２０は、公知の技術を用いて自然言語理解処理を行ってよい。

（画像認識部２３０）
本実施形態に係る画像認識部２３０は、画像中における各種のオブジェクトやテキストを認識する。本実施形態に係る画像認識部２３０は、公知の一般物体認識技術を用いてオブジェクトの認識を行ってよい。

（視線認識部２４０）
本実施形態に係る視線認識部２４０は、情報処理端末１０が撮影したユーザの眼球画像に基づいて、当該ユーザの視線の位置を認識する。本実施形態に係る視線認識部２４０は、公知の技術を用いて視線認識を行ってよい。

（端末通信部２５０）
本実施形態に係る端末通信部２５０は、ネットワーク３０を介して情報処理端末１０との情報通信を行う。例えば、本実施形態に係る端末通信部２５０は、情報処理端末１０から音情報、画像情報を受信し、上記の各構成による処理の結果を情報処理端末１０に送信する。

以上、本開示の一実施形態に係る情報処理サーバ２０の機能構成例について述べた。なお、図５を用いて説明した上記の構成はあくまで一例であり、本実施形態に係る情報処理サーバ２０の機能構成は係る例に限定されない。本実施形態に係る情報処理サーバ２０に備えられる機能は、認識の対象となる非言語動作および言語動作に応じて設計されてよい。本実施形態に係る情報処理サーバ２０の機能構成は、仕様や運用に応じて柔軟に変形可能である。

＜＜１．５．機能の詳細＞＞
次に、本実施形態に係る情報処理端末１０が有する機能について詳細に説明する。上述したように、本実施形態に係る特定部１４０は、例えば、ユーザの視線に基づいて候補箇所を限定し、ユーザの発話に基づいて当該候補箇所の中から選択箇所を特定することが可能である。

しかし、この際、候補箇所の中には、発話の音声認識結果に対応する文字列が複数含まれる場合も想定される。図６Ａ～図６Ｃは、本実施形態に係る候補箇所に複数の対象文字列が含まれる場合の選択箇所の特定について説明するための図である。

図６Ａには、ユーザが下から３行目末尾の“ｉｎｆｏｒｍａｔｉｏｎ”の直後を注視し、“ｉｎｆｏｒｍａｔｉｏｎ”という発話ＵＯ２を行った場合の状況が示されている。

この際、視線認識部２４０による視線認識の結果に基づいて特定部１４０が限定する候補箇所には、“ｉｎｆｏｒｍａｔｉｏｎ”に対応する２つの文字列が含まれていることから、特定部１４０は、当段階では選択箇所を特定することができない。

このように、特定部１４０が候補箇所にユーザの発話から特定可能な対象が複数含まれると判定した場合、本実施形態に係る表示制御部１５０は、図６Ｂに示すように、表示部１６０に候補箇所を拡大して表示させてよい。

この際、ユーザは、拡大表示された候補箇所において所望する選択箇所を再度注視し、また発話ＵＯ３により選択箇所の指定を行う。

上記の流れによれば、特定部１４０は、拡大された候補箇所の中からユーザの視線に基づいて第２の候補箇所を限定し、ユーザの発話に基づいて当該第２の候補箇所の中から選択箇所を特定することができる。

図６Ｃには、特定部１４０が、上記の拡大表示におけるユーザの視線に基づいて、下から３行目末尾の“ｉｎｆｏｒｍａｔｉｏｎ”の直後を選択箇所として正しく特定していることが示されている。

なお、上記のような処理を実現するために、本実施形態に係る表示制御部１５０は、視線認識に係る分解能に基づいて、複数の対象がユーザの視線により分離可能な倍率で表示部１６０に候補箇所を拡大表示させてよい。

例えば、図６Ｂに示す一例の場合、表示制御部１５０は、下から３行目末尾の“ｉｎｆｏｒｍａｔｉｏｎ”と、下から４行目末尾の“ｉｎｆｏｒｍａｔｉｏｎ”とが、分解能に依存して認識される注視領域中に同時に含まれないよう、拡大倍率を調整している。

以上説明したように、本実施形態に係る特定部１４０と表示制御部１５０によれば、候補箇所の中に発話から特定可能な対象が複数含まれている場合であっても、ユーザが所望する選択箇所を正確に特定することが可能となる。

続いて、本実施形態に係る視覚情報が画像であり、選択箇所が当該画像の一部である場合の制御例について述べる。図７および図８は、本実施形態に係る特定部１４０がユーザの視線および発話に基づいて画像中から選択箇所を特定する場合の例を示す図である。

例えば、図７に示す一例の場合、画像ＩＭには、色が異なる５つのビルＢ１～Ｂ５が含まれている。ここで、ユーザは、画像ＩＭ中においてビルＢ４をマークし、待ち合わせの場所を示す画像として他のユーザに送信しようとしている。

この際、文字列の場合と同様に、ユーザは、まずビルＢ４を注視する。特定部１４０は、視線認識部２４０が分解能に基づいて認識した注視領域を候補箇所として特定する。

この際、図７に示す一例では、候補箇所の中に３つのビルＢ３～Ｂ５が含まれているが、特定部１４０は、ユーザの発話ＵＯ４に係る自然言語理解処理の結果、および画像ＩＭの一般物体認識の結果に基づいて、３つのビルＢ３～Ｂ５の中で唯一赤い色をしたビルＢ４を選択箇所として特定することができる。

また、図８に示す一例の場合、ユーザは、表示される複数の楽曲イメージＡ１～Ａ１０を確認しながら、再生する楽曲を選択しようとしている。ここで、楽曲イメージＡ１～Ａ１０に対応する各楽曲は、いずれも“Ｙｏｕ”という名称であるとする。この場合も同様に、特定部１４０は、まず、視線認識部２４０が認識したユーザの注視領域を候補箇所として限定する。

この際、候補箇所には、３つの楽曲イメージＡ６、Ａ７、およびＡ１０が含まれているが、特定部１４０は、ユーザの発話ＵＯ５に係る自然言語理解処理の結果、および一般物体認識の結果に基づいて、３つの楽曲イメージＡ６、Ａ７、およびＡ１０の中で唯一アーティストＤＥＦの楽曲に対応する楽曲イメージＡ６を選択箇所として特定することができる。

このように、本実施形態に係る特定部１４０は、候補箇所に含まれるオブジェクトのうち、ユーザの発話から認識された意図とマッチングするオブジェクトを選択箇所として特定してよい。

また、視覚情報が画像である場合にも、発話から特定可能な対象オブジェクトが候補箇所中に複数含まれる場合がある。図９および図１０は、本実施形態に係る候補箇所に複数の対象オブジェクトが含まれる場合の選択箇所の特定について説明するための図である。

例えば、図９に示す一例の場合、候補箇所中には、３つのビルＢ３～Ｂ５が含まれている。この際、特定部１４０は、緑色のビルを指定する旨の発話ＵＯ６のみでは、選択箇所を特定することができない。

一方、ユーザが続けて右側のビルを指定する旨の発話ＵＯ７を行った場合、特定部１４０は、発話ＵＯ６およびＵＯ７に係る自然言語理解処理の結果に基づいて、ビルＢ５を選択箇所として特定することが可能である。このように、本実施形態に係る特定部１４０は、ユーザの複数の発話に基づいて、候補箇所に含まれる複数の対象オブジェクトの中から選択箇所を特定してもよい。

また、図９に示す一例のように、候補箇所中に複数の対象オブジェクトが含まれる場合、特定部１４０は、例えば、「どちらのですか？」などのシステム音声を出力させることで、選択箇所の特定に有用なユーザの発話を促すこともできる。なお、後述する発話ガイドを表示することにより、ユーザの発話を促すことも可能である。

また、文字列の場合と同様に、表示制御部１５０は、複数の対象オブジェクトがユーザの視線により分離可能な倍率で表示部１６０に候補箇所を拡大して表示させてもよい。

例えば、図１０に示す一例の場合、特定部１４０は、候補箇所の拡大画像ＥＩＭにおけるユーザの視線の認識結果から第２の候補箇所を特定し、また、緑色のビルを指定する旨の発話ＵＯ８の自然言語理解処理の結果から、ビルＢ５を選択箇所として特定することができる。

続いて、本実施形態に係る視覚情報が、時系列に収集されたセンシング情報に対応する波形データであり、選択箇所が当該波形データの一部である場合の制御例について述べる。図１１は、本実施形態に係る特定部１４０がユーザの視線および発話に基づいて波形データ中から選択箇所を特定する場合の例を示す図である。

図１１には、ユーザがある楽曲に係るオーディオ波形ＡＷにおいて任意の箇所を指定し、評価のタグ付けを行う場合の一例が示されている。この際、ユーザは、まずオーディオ波形ＡＷにおいてタグ付けを行う箇所を注視する。特定部１４０は、視線認識部２４０が分解能に基づいて認識した注視領域を候補箇所として特定する。

また、ユーザは、続けて、タグ付けを行う箇所を指定するための発話を行う。図１１に示す一例では、ユーザは、楽曲のコーラス部分を指定する発話をＵＯ９を行っている。この場合、本実施形態に係る特定部１４０は、候補箇所に対応するメタデータ（本例の場合、例えば、楽曲の構成情報や楽譜など）と、発話ＵＯ９から認識された意図とのマッチングにより、コーラスの開始地点ＣＳを選択箇所として特定することができる。

なお、本実施形態に係るメタデータは、人手により付与されてもよいし、各種の認識処理により動的に付与されてもよい。例えば、楽曲に係る波形データの場合、音声認識部２１０が認識した文字列がメタデータとして付与され得る。この場合、特定部１４０は、ユーザが発話した歌詞の一部から認識された文字列と、メタデータ中の歌詞とをマッチングすることにより、該当する歌詞に対応する箇所を選択箇所として特定することができる。

また、例えば、動画像に係る波形データの場合、音声認識部２１０が認識した文字列や画像認識部２３０による一般物体認識の結果がメタデータとして付与されてもよい。この場合、特定部１４０は、例えば、人物名や物体名、シーンの特徴などを示す発話と上記メタデータとに基づいて選択箇所を特定することが可能である。

なお、本実施形態に係る波形データには、音声や動画の他、例えば、加速度や角速度などのセンシング情報も広く含まれる。本実施形態に係る特定部１４０によれば、波形データの加工などを行う際、形状のみから選択箇所を指定することが困難な場合であっても、視線と発話により容易かつ精度高く選択箇所を指定することが可能となる。

続いて、本実施形態に係るユーザのプロファイルに基づく視覚情報の表示制御について説明する。本実施形態に係る表示制御部１５０は、ユーザのプロファイルに基づいて、視覚情報の表示態様を制御する機能を有する。例えば、表示制御部１５０は、ユーザのプロファイルが示す当該ユーザの特性に基づき、ユーザごとに適した表示態様で視覚情報を表示部１６０に表示させることができる。

本実施形態に係るユーザのプロファイルは、例えば、ユーザの視覚特性を含む。図１２および図１３は、本実施形態に係る視覚特性に基づいた視覚情報の表示態様制御について説明するための図である。

例えば、図１２には、ユーザが黄斑円孔や加齢黄斑変性などの中心が見えづらい視覚特性を有している場合の表示態様制御の一例が示されている。

表示制御部１５０は、ユーザのプロファイルが上記のような視覚特性を示す場合において、候補箇所中に発話から特定される文字列が含まれている場合、図示するように、当該文字列を候補箇所の周辺など中心視野から外れた位置に拡大して表示させてもよい。

また、例えば、図１３には、ユーザが色覚に異常を抱えている場合の表示態様制御の一例が示されている。なお、図１３では、候補箇所を示す二点鎖線が省略されているが、図１３においては、候補箇所中に３つのオブジェクトＯ１～Ｏ３が含まれているものとする。

ここで、図１３の上段に示すように、候補箇所中に色の異なる複数のオブジェクトＯ１～Ｏ３が含まれている場合、ユーザは、色の違いを認識することができず、発話により任意のオブジェクトＯを指定することが困難である。

この場合、本実施形態に係る表示制御部１５０は、例えば、図中下段に示すように、オブジェクトＯ１～Ｏ３を加工し、例えば、同一色の濃淡によりオブジェクトＯ１～Ｏ３が区別可能となるよう制御を行う。

本実施形態に係る表示制御部１５０による上記の制御によれば、ユーザが、例えば、「一番濃いリンゴ」などの発話を行うことによりオブジェクトＯ３を指定することなどが可能となる。

また、本実施形態に係る表示制御部１５０は、視覚情報に発話ガイドを付与することで、ユーザの発話による選択箇所の指定を補助してもよい。図１４は、本実施形態に係る発話ガイドについて説明するための図である。なお、本実施形態に係る発話ガイドとは、選択箇所を指定するための発話をユーザに促す各種の情報であってよい。

図１４には、図１３と同様に、ユーザが色覚に異常を抱えている場合の表示態様制御の一例が示されている。なお、図１４においても、候補箇所を示す二点鎖線が省略されているが、図１３と同様に、候補箇所中に３つのオブジェクトＯ１～Ｏ３が含まれているものとする。

ここで、図１４の上段に示すように、候補箇所中に色の異なる複数のオブジェクトＯ１～Ｏ３が含まれている場合、ユーザは、色の違いを認識することができず、発話により任意のオブジェクトＯを指定することが困難である。

このように、特定部１４０が候補箇所中複数の対象が含まれると判定した場合、本実施形態に係る表示制御部１５０は、当該複数の対象のそれぞれに異なる発話ガイドを対応づけて表示部１６０に表示させる。

図１４の下段に示す一例の場合、表示制御部１５０は、オブジェクトＯ１～Ｏ３のそれぞれに発話ガイドとして「１」～「３」の番号を対応付けている。このような制御によれば、ユーザが番号を発話することで容易に任意のオブジェクトＯを指定することが可能となる。また、この際、本実施形態に係る特定部１４０は、ユーザの発話に対応する発話ガイドに対応付けられた対象を選択箇所として特定してよい。

なお、図１４では、ユーザが特別な視覚特性を有する場合を例に説明したが、本実施形態に係る表示制御部１５０は、ユーザのプロファイルに依らず、各種の視覚情報に発話ガイドを対応付けてよい。本実施形態に係る発話ガイドは、文字列、画像、波形データ中における選択箇所の特定に非常に有効である。

＜＜１．６．処理の流れ＞＞
次に、本実施形態に係る情報処理システムの処理の流れについて詳細に説明する。図１５は、本実施形態に係る情報処理システムの処理の流れを示すフローチャートである。

図１５を参照すると、まず、視線認識部２４０が、ユーザの眼球画像に基づいて、当該ユーザの視線位置が閾値時間以上あるポイントに滞留しているか否かを判定する（Ｓ１１０１）。

ここで、閾値時間以上の視線位置の滞留が認められない場合（Ｓ１１０１：Ｎｏ）、情報処理システムは、ステップＳ１１０１に復帰する。

一方、閾値時間以上の視線位置の滞留が認められる場合（Ｓ１１０１：Ｙｅｓ）、特定部１４０は、滞留が認められたポイントを候補箇所とし、当該候補箇所に含まれる情報を取得する（Ｓ１１０２）。

次に、音声認識部２１０は、ユーザの発話が入力されているか否かを判定する（Ｓ１１０３）。

また、視線認識部２４０は、ユーザの注視が継続しているか否かを判定する（Ｓ１１０４）。

ここで、発話が入力されていない場合（Ｓ１１０３：Ｎｏ）や、ユーザの注視が継続していない場合（Ｓ１１０４：Ｎｏ）、情報処理システムはステップＳ１１０１に復帰する。

一方、発話が入力され（Ｓ１１０３：Ｙｅｓ）、かつユーザの注視が継続している場合（Ｓ１１０４：Ｙｅｓ）、音声認識部２１０および自然言語処理部２２０は、それぞれ自動音声認識処理と自然言語理解処理を実行する（Ｓ１１０５）。

次に、特定部１４０は、ステップＳ１１０５における自動音声認識処理により得られた文字列や、自然言語理解処理により得られた発話意図に基づいて、候補箇所中から選択箇所を特定する（Ｓ１１０６）。

＜２．ハードウェア構成例＞
次に、本開示の一実施形態に係る情報処理端末１０と情報処理サーバ２０に共通するハードウェア構成例について説明する。図１６は、本開示の一実施形態に係る情報処理端末１０および情報処理サーバ２０のハードウェア構成例を示すブロック図である。図１６に示すように、情報処理端末１０および情報処理サーバ２０は、例えば、プロセッサ８７１と、ＲＯＭ８７２と、ＲＡＭ８７３と、ホストバス８７４と、ブリッジ８７５と、外部バス８７６と、インターフェース８７７と、入力装置８７８と、出力装置８７９と、ストレージ８８０と、ドライブ８８１と、接続ポート８８２と、通信装置８８３と、を有する。なお、ここで示すハードウェア構成は一例であり、構成要素の一部が省略されてもよい。また、ここで示される構成要素以外の構成要素をさらに含んでもよい。

（プロセッサ８７１）
プロセッサ８７１は、例えば、演算処理装置又は制御装置として機能し、ＲＯＭ８７２、ＲＡＭ８７３、ストレージ８８０、又はリムーバブル記録媒体９０１に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。

（ＲＯＭ８７２、ＲＡＭ８７３）
ＲＯＭ８７２は、プロセッサ８７１に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。ＲＡＭ８７３には、例えば、プロセッサ８７１に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。

（ホストバス８７４、ブリッジ８７５、外部バス８７６、インターフェース８７７）
プロセッサ８７１、ＲＯＭ８７２、ＲＡＭ８７３は、例えば、高速なデータ伝送が可能なホストバス８７４を介して相互に接続される。一方、ホストバス８７４は、例えば、ブリッジ８７５を介して比較的データ伝送速度が低速な外部バス８７６に接続される。また、外部バス８７６は、インターフェース８７７を介して種々の構成要素と接続される。

（入力装置８７８）
入力装置８７８には、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、及びレバー等が用いられる。さらに、入力装置８７８としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ（以下、リモコン）が用いられることもある。また、入力装置８７８には、マイクロフォンなどの音声入力装置が含まれる。

（出力装置８７９）
出力装置８７９は、例えば、ＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ）、ＬＣＤ、又は有機ＥＬ等のディスプレイ装置、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。また、本開示に係る出力装置８７９は、触覚刺激を出力することが可能な種々の振動デバイスを含む。

（ストレージ８８０）
ストレージ８８０は、各種のデータを格納するための装置である。ストレージ８８０としては、例えば、ハードディスクドライブ（ＨＤＤ）等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。

（ドライブ８８１）
ドライブ８８１は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体９０１に記録された情報を読み出し、又はリムーバブル記録媒体９０１に情報を書き込む装置である。

（リムーバブル記録媒体９０１）
リムーバブル記録媒体９０１は、例えば、ＤＶＤメディア、Ｂｌｕ－ｒａｙ（登録商標）メディア、ＨＤＤＶＤメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記録媒体９０１は、例えば、非接触型ＩＣチップを搭載したＩＣカード、又は電子機器等であってもよい。

（接続ポート８８２）
接続ポート８８２は、例えば、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）ポート、ＩＥＥＥ１３９４ポート、ＳＣＳＩ（ＳｍａｌｌＣｏｍｐｕｔｅｒＳｙｓｔｅｍＩｎｔｅｒｆａｃｅ）、ＲＳ－２３２Ｃポート、又は光オーディオ端子等のような外部接続機器９０２を接続するためのポートである。

（外部接続機器９０２）
外部接続機器９０２は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はＩＣレコーダ等である。

（通信装置８８３）
通信装置８８３は、ネットワークに接続するための通信デバイスであり、例えば、有線又は無線ＬＡＮ、Ｂｌｕｅｔｏｏｔｈ（登録商標）、又はＷＵＳＢ（ＷｉｒｅｌｅｓｓＵＳＢ）用の通信カード、光通信用のルータ、ＡＤＳＬ（ＡｓｙｍｍｅｔｒｉｃＤｉｇｉｔａｌＳｕｂｓｃｒｉｂｅｒＬｉｎｅ）用のルータ、又は各種通信用のモデム等である。

＜３．まとめ＞
以上説明したように、本開示の一実施形態に係る情報処理端末１０は、ユーザの言動に基づいて、表示される視覚情報の中からユーザが所望する選択箇所を特定する特定部１４０を備える。また、本開示の一実施形態に係る特定部１４０は、ユーザの非言語動作と言語動作とに基づいて、上記選択箇所を特定すること、を特徴の一つとする。係る構成によれば、ユーザが所望する選択箇所をより精度高く特定することが可能となる。

以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

また、コンピュータに内蔵されるＣＰＵ、ＲＯＭおよびＲＡＭなどのハードウェアに、情報処理端末１０が有する構成と同等の機能を発揮させるためのプログラムも作成可能であり、当該プログラムを記録した、コンピュータに読み取り可能な非一過性の記録媒体も提供され得る。

また、本明細書の情報処理システムの処理に係る各ステップは、必ずしもフローチャートに記載された順序に沿って時系列に処理される必要はない。例えば、情報処理システムの処理に係る各ステップは、フローチャートに記載された順序と異なる順序で処理されても、並列的に処理されてもよい。

なお、以下のような構成も本開示の技術的範囲に属する。
（１）
ユーザの言動に基づいて、表示される視覚情報の中からユーザが所望する選択箇所を特定する特定部、
を備え、
前記特定部は、前記ユーザの非言語動作と言語動作とに基づいて、前記選択箇所を特定する、
情報処理装置。
（２）
前記非言語動作は、少なくとも前記ユーザの眼球運動を含み、
前記特定部は、前記ユーザの視線と前記言語動作とに基づいて、前記選択箇所を特定する、
前記（１）に記載の情報処理装置。
（３）
前記言語動作は、少なくとも前記ユーザの発話を含み、
前記特定部は、前記ユーザの視線と発話とに基づいて、前記選択箇所を特定する、
前記（２）に記載の情報処理装置。
（４）
前記特定部は、前記ユーザの視線または発話のいずれか一方に基づいて前記視覚情報の中から候補箇所を限定し、他方に基づいて前記候補箇所から前記選択箇所を特定する、
前記（３）に記載の情報処理装置。
（５）
前記特定部は、前記ユーザの視線に基づいて前記視覚情報の中から単一の前記候補箇所を限定し、前記ユーザの発話に基づいて、前記候補箇所の中から前記選択箇所を特定する、
前記（４）に記載の情報処理装置。
（６）
前記特定部は、前記ユーザの視線と視線認識に係る分解能とに基づいて定まる注視領域を前記候補箇所とする、
前記（５）に記載の情報処理装置。
（７）
前記特定部は、前記ユーザの発話から認識された文字列または意図に基づいて、前記候補箇所の中から前記選択箇所を特定する、
前記（５）または（６）に記載の情報処理装置。
（８）
前記視覚情報は、少なくとも文字列を含み、
前記特定部は、前記候補箇所に含まれる文字列と前記ユーザの発話から認識された文字列とのマッチングにより前記選択箇所を特定する、
前記（５）～（７）のいずれかに記載の情報処理装置。
（９）
前記視覚情報は、少なくとも画像を含み、
前記特定部は、前記候補箇所に含まれるオブジェクトのうち、前記ユーザの発話から認識された意図とマッチするオブジェクトを前記選択箇所として特定する、
前記（５）～（８）のいずれかに記載の情報処理装置。
（１０）
前記視覚情報は、少なくとも波形データを含み、
前記特定部は、前記候補箇所に対応するメタデータと、前記ユーザの発話から認識された文字列または意図とのマッチングにより、前記選択箇所を特定する、
前記（５）～（９）のいずれかに記載の情報処理装置。
（１１）
前記視覚情報の表示を制御する表示制御部、
をさらに備える、
前記（５）～（１０）のいずれかに記載の情報処理装置。
（１２）
前記表示制御部は、前記特定部が前記候補箇所に前記ユーザの発話から特定可能な対象が複数含まれると判定した場合、前記候補箇所を拡大して表示させる、
前記（１１）に記載の情報処理装置。
（１３）
前記表示制御部は、視線認識に係る分解能に基づいて、前記複数の対象が前記ユーザの視線により分離可能な倍率で前記候補箇所を拡大して表示させる、
前記（１２）に記載の情報処理装置。
（１４）
前記特定部は、拡大された前記候補箇所の中から前記ユーザの視線に基づいて第２の候補箇所を限定し、前記ユーザの発話に基づいて前記第２の候補箇所の中から前記選択箇所を特定する、
前記（１３）に記載の情報処理装置。
（１５）
前記表示制御部は、前記特定部が前記候補箇所に複数の対象が含まれると判定した場合、前記複数の対象のそれぞれに異なる発話ガイドを対応付けて表示させる、
前記（１２）に記載の情報処理装置。
（１６）
前記特定部は、前記ユーザの発話に対応する前記発話ガイドに対応付けられた前記対象を前記選択箇所として特定する、
前記（１５）に記載の情報処理装置。
（１７）
前記表示制御部は、前記ユーザのプロファイルに基づいて、前記視覚情報の表示態様を制御する、
前記（１１）～（１６）のいずれかに記載の情報処理装置。
（１８）
前記ユーザのプロファイルは、少なくとも前記ユーザの視覚特性を含み、
前記表示制御部は、前記ユーザの視覚特性に応じた表示態様で前記視覚情報を表示させる、
前記（１７）に記載の情報処理装置。
（１９）
前記特定部は、前記ユーザの発話に基づいて前記視覚情報の中から複数の前記候補箇所を限定し、前記ユーザの視線に基づいて、複数の前記候補箇所の中から前記選択箇所を特定する、
前記（４）に記載の情報処理装置。
（２０）
プロセッサが、ユーザの言動に基づいて、表示される視覚情報の中からユーザが所望する選択箇所を特定すること、
を含み、
前記特定することは、前記ユーザの非言語動作と言語動作とに基づいて、前記選択箇所を特定すること、
をさらに含む、
情報処理方法。

１０情報処理端末
１１０音入力部
１２０撮影部
１３０操作入力部
１４０特定部
１５０表示制御部
１６０表示部
１７０サーバ通信部
２０情報処理サーバ
２１０音声認識部
２２０自然言語処理部
２３０画像認識部
２４０視線認識部
２５０端末通信部

Claims

ユーザの言動に基づいて、表示される視覚情報の中からユーザが所望する選択箇所を特定する特定部、
を備え、
前記特定部は、前記ユーザの非言語動作と言語動作とに基づいて、前記選択箇所を特定し、前記ユーザの視線と前記言語動作とに基づいて、前記選択箇所を特定し、前記ユーザの視線と発話とに基づいて、前記選択箇所を特定し、前記ユーザの視線または発話のいずれか一方に基づいて前記視覚情報の中から候補箇所を限定し、他方に基づいて前記候補箇所から前記選択箇所を特定し、前記ユーザの視線に基づいて前記視覚情報の中から単一の前記候補箇所を限定し、前記ユーザの発話に基づいて、前記候補箇所の中から前記選択箇所を特定し、
前記視覚情報の表示を制御する表示制御部、
をさらに備え
前記非言語動作は、少なくとも前記ユーザの眼球運動を含み、
前記言語動作は、少なくとも前記ユーザの発話を含み、
前記表示制御部は、前記特定部が限定した前記候補箇所に含まれている前記ユーザの発話から特定可能な対象を前記候補箇所から外れた位置に拡大して表示させる、
情報処理装置。
前記特定部は、前記ユーザの視線と視線認識に係る分解能とに基づいて定まる注視領域を前記候補箇所とする、
請求項１に記載の情報処理装置。
前記特定部は、前記ユーザの発話から認識された文字列または意図に基づいて、前記候補箇所の中から前記選択箇所を特定する、
請求項１に記載の情報処理装置。
前記視覚情報は、少なくとも文字列を含み、
前記特定部は、前記候補箇所に含まれる文字列と前記ユーザの発話から認識された文字列とのマッチングにより前記選択箇所を特定する、
請求項１に記載の情報処理装置。
前記視覚情報は、少なくとも画像を含み、
前記特定部は、前記候補箇所に含まれるオブジェクトのうち、前記ユーザの発話から認識された意図とマッチするオブジェクトを前記選択箇所として特定する、
請求項１に記載の情報処理装置。
前記視覚情報は、少なくとも波形データを含み、
前記特定部は、前記候補箇所に対応するメタデータと、前記ユーザの発話から認識された文字列または意図とのマッチングにより、前記選択箇所を特定する、
請求項１に記載の情報処理装置。
前記表示制御部は、視線認識に係る分解能に基づいて、複数の前記対象が前記ユーザの視線により分離可能な倍率で前記候補箇所を拡大して表示させる、
請求項１に記載の情報処理装置。
前記特定部は、拡大された前記候補箇所の中から前記ユーザの視線に基づいて第２の候補箇所を限定し、前記ユーザの発話に基づいて前記第２の候補箇所の中から前記選択箇所を特定する、
請求項７に記載の情報処理装置。
前記表示制御部は、前記特定部が前記候補箇所に複数の対象が含まれると判定した場合、前記複数の対象のそれぞれに異なる発話ガイドを対応付けて表示させる、
請求項１に記載の情報処理装置。
前記特定部は、前記ユーザの発話に対応する前記発話ガイドに対応付けられた前記対象を前記選択箇所として特定する、
請求項９に記載の情報処理装置。
前記表示制御部は、前記ユーザのプロファイルに基づいて、前記視覚情報の表示態様を制御する、
請求項１に記載の情報処理装置。
前記ユーザのプロファイルは、少なくとも前記ユーザの視覚特性を含み、
前記表示制御部は、前記ユーザの視覚特性に応じた表示態様で前記視覚情報を表示させる、
請求項１１に記載の情報処理装置。
前記特定部は、前記ユーザの発話に基づいて前記視覚情報の中から複数の前記候補箇所を限定し、前記ユーザの視線に基づいて、複数の前記候補箇所の中から前記選択箇所を特定する、
請求項１に記載の情報処理装置。
プロセッサが、ユーザの言動に基づいて、表示される視覚情報の中からユーザが所望する選択箇所を特定すること、
を含み、
前記特定することは、前記ユーザの眼球運動を含む非言語動作と前記ユーザの発話を含む言語動作とに基づいて、前記選択箇所を特定すること、前記ユーザの視線と前記言語動作とに基づいて、前記選択箇所を特定すること、前記ユーザの視線と発話とに基づいて、前記選択箇所を特定し、前記ユーザの視線または発話のいずれか一方に基づいて前記視覚情報の中から候補箇所を限定し、他方に基づいて前記候補箇所から前記選択箇所を特定すること、前記ユーザの視線に基づいて前記視覚情報の中から単一の前記候補箇所を限定し、前記ユーザの発話に基づいて、前記候補箇所の中から前記選択箇所を特定すること、
前記限定した前記候補箇所に含まれている前記ユーザの発話から特定可能な対象を前記候補箇所から外れた位置に拡大して表示させること
をさらに含む、
情報処理方法。