JP7468360B2 - 情報処理装置および情報処理方法 - Google Patents

情報処理装置および情報処理方法 Download PDF

Info

Publication number
JP7468360B2
JP7468360B2 JP2020559745A JP2020559745A JP7468360B2 JP 7468360 B2 JP7468360 B2 JP 7468360B2 JP 2020559745 A JP2020559745 A JP 2020559745A JP 2020559745 A JP2020559745 A JP 2020559745A JP 7468360 B2 JP7468360 B2 JP 7468360B2
Authority
JP
Japan
Prior art keywords
user
information processing
candidate
speech
identification unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020559745A
Other languages
English (en)
Other versions
JPWO2020116001A1 (ja
Inventor
真一 河野
亮平 安田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Sony Group Corp
Original Assignee
Sony Corp
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp, Sony Group Corp filed Critical Sony Corp
Publication of JPWO2020116001A1 publication Critical patent/JPWO2020116001A1/ja
Application granted granted Critical
Publication of JP7468360B2 publication Critical patent/JP7468360B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04842Selection of displayed objects or displayed text elements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/038Indexing scheme relating to G06F3/038
    • G06F2203/0381Multimodal input, i.e. interface arrangements enabling the user to issue commands by simultaneous use of input devices of different nature, e.g. voice plus gesture on digitizer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/048Indexing scheme relating to G06F3/048
    • G06F2203/04806Zoom, i.e. interaction techniques or interactors for controlling the zooming operation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本開示は、情報処理装置および情報処理方法に関する。
近年、キーボードやマウスなどの入力デバイスに依らず、文字の入力や表示される情報の選択を行う技術が開発されている。例えば、特許文献1には、音声認識技術によりユーザの発話を文字列に変換し、またユーザの視線に基づいて当該文字列の編集位置を特定する技術が開示されている。
特開2005-222103号公報
しかし、特許文献1に記載の技術で文字列の編集位置を特定しようとする場合、非常に高い視線認識精度が求められる。また、視線のブレなどにより、編集位置が頻繁に変更される可能性がある。
本開示によれば、ユーザの言動に基づいて、表示される視覚情報の中からユーザが所望する選択箇所を特定する特定部、を備え、前記特定部は、前記ユーザの非言語動作と言語動作とに基づいて、前記選択箇所を特定する、情報処理装置が提供される。
また、本開示によれば、プロセッサが、ユーザの言動に基づいて、表示される視覚情報の中からユーザが所望する選択箇所を特定すること、を含み、前記特定することは、前記ユーザの非言語動作と言語動作とに基づいて、前記選択箇所を特定すること、をさらに含む、情報処理方法が提供される。
本開示の一実施形態に係る分解能について説明するための図である。 同実施形態の概要について説明するための図である。 同実施形態の概要について説明するための図である。 同実施形態の概要について説明するための図である。 同実施形態に係る情報処理システムの構成例を示すブロック図である。 同実施形態に係る情報処理端末の機能構成例を示すブロック図である。 同実施形態に係る情報処理サーバの機能構成例を示すブロック図である。 同実施形態に係る候補箇所に複数の対象文字列が含まれる場合の選択箇所の特定について説明するための図である。 同実施形態に係る候補箇所に複数の対象文字列が含まれる場合の選択箇所の特定について説明するための図である。 同実施形態に係る候補箇所に複数の対象文字列が含まれる場合の選択箇所の特定について説明するための図である。 同実施形態に係る特定部がユーザの視線および発話に基づいて画像中から選択箇所を特定する場合の例を示す図である。 同実施形態に係る特定部がユーザの視線および発話に基づいて画像中から選択箇所を特定する場合の例を示す図である。 同実施形態に係る候補箇所に複数の対象オブジェクトが含まれる場合の選択箇所の特定について説明するための図である。 同実施形態に係る候補箇所に複数の対象オブジェクトが含まれる場合の選択箇所の特定について説明するための図である。 同実施形態に係る特定部140がユーザの視線および発話に基づいて波形データ中から選択箇所を特定する場合の例を示す図である。 同実施形態に係る視覚特性に基づいた視覚情報の表示態様制御について説明するための図である。 同実施形態に係る視覚特性に基づいた視覚情報の表示態様制御について説明するための図である。 同実施形態に係る発話ガイドについて説明するための図である。 同実施形態に係る情報処理システムの処理の流れを示すフローチャートである。 本開示の一実施形態に係るハードウェア構成例を示す図である。
以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
なお、説明は以下の順序で行うものとする。
1.実施形態
1.1.概要
1.2.システム構成例
1.3.情報処理端末10の機能構成例
1.4.情報処理サーバ20の機能構成例
1.5.機能の詳細
1.6.処理の流れ
2.ハードウェア構成例
3.まとめ
<1.実施形態>
<<1.1.概要>>
まず、本開示の一実施形態の概要について説明する。上述したように、近年においては、キーボードやマウスなどの入力デバイスを用いない入力手段や選択手段が開発されている。例えば、特許文献1では、ユーザの視線に基づいて文字列の編集位置を特定する技術が記載されている。
しかし、一般的な大きさで表示される文字列の編集位置を一般的な性能の視線認識技術で特定しようとする場合、文字レベルの単位で編集位置を特定することは非常に困難である。
また、人は一点を注視し続けることは困難であることから、ユーザの視線にはブレが生じるのが通常である。このため、特許文献1に記載の技術では、視線のブレに応じて編集位置が頻繁に変更される可能性がある。
そこで、本開示の一実施形態では、認識精度に係る分解能を考慮することで、上記のような点を解決する。ここで、本実施形態に係る分解能とは、システムが視線等に基づいて認識可能な最小な領域の単位を指すと共に、ある点を指定しようとするユーザの視線等がブレ得る領域を含む。
図1は、本実施形態に係る分解能について説明するための図である。図1には、情報処理端末10の表示部160に表示されるテキストTが示されている。ここでは、ユーザが、テキストTから、下向きの黒い三角形で示す箇所(informationとwhichとの間)を選択しようとする場合を想定する。
しかし、ここで、システムが視線等に基づいて認識可能な最小領域や、視線等がブレ得る領域が、図中右下に二点鎖線で示す領域ほどの大きさである場合、黒い三角形で示す箇所(以下、選択箇所、と称する)を一意に特定することは不可能である。本実施形態では、図中に二点鎖線で示す領域を分解能resとして定義する。なお、以降の図面においては、テキストTとの文字の重なりを避けるために分解能resに係る符号を省略する。
このように、分解能の観点から、ユーザの視線のみに基づいて選択箇所を特定することは非常に困難である。
本開示の一実施形態に係る技術思想は上記の点に着目して発想されたものであり、ユーザが所望する選択箇所をより精度高く特定することを可能とする。このために、本開示の一実施形態に係る情報処理端末10は、ユーザの言動に基づいて、表示される視覚情報の中からユーザが所望する選択箇所を特定する特定部140を備える。また、本開示の一実施形態に係る特定部140は、ユーザの非言語動作と言語動作とに基づいて、上記選択箇所を特定すること、を特徴の一つとする。
ここで、上記の言語動作とは、コミュニケーションにおいて言語的な意図を発信するための動作全般を指す。このため、本実施形態に係る言語動作は、例えば、発話に代表される。一方、本実施形態に係る言語動作は、必ずしも有声を伴う動作に限定されず、例えば、唇の動き、無声のささやきなども含まれ得る。
また、上記の非言語動作には、ユーザにより行われる、言語動作以外の動作が広く含まれる。本実施形態に係る非言語動作には、例えば、眼球運動、指や手の動きおよび形状、頭部の動きおよび向きなどが含まれてよい。すなわち、本開示の一実施形態に係る特定部は、ユーザの視線やジェスチャなどに基づいて選択箇所を特定してよい。
図2A~図2Cは、本開示の一実施形態の概要について説明するための図である。なお、以下においては、本実施形態に係る特定部140が、ユーザの視線と発話とに基づいて文字列から選択箇所を特定する場合を例に説明する。このように、本実施形態に係る視覚情報には、文字列が含まれる。また、図2A~図2Cにおいては、ユーザの眼球UEおよび視線が模式的に示されている。
まず、図2Aに示すように、ユーザは、表示部160に表示されるテキストTにおいて、所望する選択箇所を注視する。なお、図2Aにおいては、図示が省略されているが、上記選択箇所は、図1に示した選択箇所と同一、すなわち、informationとwhichとの間であってよい。
しかし、ここでは、分解能が文字レベルの単位よりも大きいことから、上記の選択箇所を視線のみに基づいて一意に特定することができないため、特定部140は、まずユーザの視線と分解能とに基づいて定まる注視領域(すなわち、二点鎖線で示す領域)を候補箇所として選択する。なお、注視領域は、例えば強調表示などによりユーザに示されてもよい。
次に、ユーザは、図2Bに示すように、特定部140による選択箇所の特定を補助するための発話UO1を行う。ここでは、ユーザは、選択箇所の直前の単語に該当する“information”という発話を行っている。
この際、テキストTには、“information”という文字列が5つ含まれているが、図2Bに示す一例において、候補箇所と重なるのは、4行目の“information”のみである。
このことから、本実施形態に係る特定部140は、図2Cに示すように、検索により取得した5つの“information”のうち、4行目の“information”の直後を選択箇所として特定することが可能である。より具体的には、本実施形態に係る特定部140は、候補箇所に含まれる文字列とユーザの発話UO1から認識された文字列とのマッチングにより上記の選択箇所を特定することができる。なお、図2Cには、特定部140が上記箇所を選択箇所として特定したことにより表示されるキャレットCRが示されている。
以上、本実施形態の概要について説明した。このように、本実施形態に係る特定部140によれば、言語動作および非言語動作の両方の認識結果を利用することで、ユーザが所望する選択箇所を段階的に絞り込み、精度高く特定することが可能となる。
なお、上記では、特定部140が、ユーザの視線に基づいて文字列から単一の候補箇所を限定し、ユーザの発話に基づいて、当該候補箇所から選択箇所を特定する場合を例に説明した。
しかし、本実施形態に係る選択箇所の特定の流れは係る例に限定されない。本実施形態に係る特定部140は、ユーザの視線または発話のいずれか一方に基づいて視覚情報の中から候補箇所を限定し、他方に基づいて当該候補箇所から選択箇所を特定してよい。
すなわち、本実施形態に係る特定部140は、ユーザの発話に基づいて視覚情報の中から複数の候補箇所を限定し、当該ユーザの視線に基づいて、複数の選択箇所の中から選択箇所を特定することも可能である。
この場合、ユーザは、まず図2Aに示したように発話により“information”等の単語を検索し、強調表示された複数の“information”から編集を行いたい選択箇所を視線により指定することができる。上記のような処理は、ユーザが、希望する編集位置を自力で特定できない場合などに特に有効である。
また、上記では、本実施形態に係る非言語動作が眼球運動であり、言語動作が発話である場合を例に述べたが、本実施形態に係る特定部140は、例えば、指差しなどのジェスチャと唇の動きから認識される文字列や意図に基づいて、選択箇所を特定することも可能である。このように、本実施形態に係る非言語動作および言語動作の組み合わせは任意に変更可能である。
<<1.2.システム構成例>>
次に、本実施形態に係る情報システムの構成例について説明する。図3は、本実施形態に係る情報処理システムの構成例を示すブロック図である。図3に示すように、本実施形態に係る情報処理システムは、情報処理端末10および情報処理サーバ20を備える。また、情報処理端末10と情報処理サーバ20とは、互いに通信が行えるようにネットワーク30を介して接続される。
(情報処理端末10)
本実施形態に係る情報処理端末10は、ユーザの非言語動作と言語動作とに基づいて、視覚情報の中からユーザが所望する選択箇所を特定する情報処理装置である。本実施形態に係る情報処理端末10は、例えば、ユーザの眼球の画像を取得可能なヘッドマウントディスプレイやデジタルサイネージ端末、または専用装置であってもよい。
(情報処理サーバ20)
本実施形態に係る情報処理サーバ20は、情報処理端末10が収集したセンシング情報に基づく各種の認識処理を行う情報処理装置である。例えば、本実施形態に係る情報処理サーバ20は、情報処理端末10が撮影したユーザの眼球の画像に基づいて視線認識処理を実行する。また、本実施形態に係る情報処理サーバ20は、情報処理端末10が収集したユーザの音声に基づいて音声認識処理や自然言語理解処理を実行する。なお、本実施形態に係る情報処理サーバ20が行う認識処理の種別は、採用する非言語動作や言語動作に応じて設計される。
(ネットワーク30)
ネットワーク30は、情報処理端末10と情報処理サーバ20とを接続する機能を有する。ネットワーク30は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(Wide Area Network)などを含んでもよい。また、ネットワーク30は、IP-VPN(Internet Protocol-Virtual Private Network)などの専用回線網を含んでもよい。また、ネットワーク30は、Wi-Fi(登録商標)、Bluetooth(登録商標)など無線通信網を含んでもよい。
以上、本実施形態に係る情報処理システムの構成例について述べた。なお、図3を用いて説明した上記の構成はあくまで一例であり、本実施形態に係る情報処理システムの構成は係る例に限定されない。例えば、情報処理端末10と情報処理サーバ20が有する機能は、単一の装置により実現されてもよいし、3台以上の装置により実現されてもよい。本実施形態に係る情報処理システムの構成は、仕様や運用に応じて柔軟に変形可能である。
<<1.3.情報処理端末10の機能構成例>>
次に、本実施形態に係る情報処理端末10の機能構成例について述べる。図4は、本実施形態に係る情報処理端末10の機能構成例を示すブロック図である。図4に示すように、本実施形態に係る情報処理端末10は、音入力部110、撮影部120、操作入力部130、特定部140、表示制御部150、表示部160、およびサーバ通信部170を備える。
(音入力部110)
本実施形態に係る音入力部110は、ユーザの発話などの音を収集する。このために、本実施形態に係る音入力部110は、マイクロフォンなどの集音装置を備える。
(撮影部120)
本実施形態に係る撮影部120は、ユーザの眼球などを撮影する。このために、本実施形態に係る撮影部120は、撮像センサを備える。また、本実施形態に係る撮影部120は、ユーザの視線認識に用いる画像を撮影するために、赤外光LEDなどの光源を備えてもよい。
(操作入力部130)
本実施形態に係る操作入力部130は、ユーザによる操作入力を検出する。このために、本実施形態に係る操作入力部130は、例えば、タッチパネルやスイッチ、ボタンなどを備える。
(特定部140)
本実施形態に係る特定部140は、ユーザの言動に基づいて、表示部160が表示する視覚情報の中からユーザが所望する選択箇所を特定する。この際、本実施形態に係る特定部140は、ユーザの非言語動作と言語動作とに基づいて選択箇所を特定すること、を特徴の一つとする。
例えば、上述したように、本実施形態に係る特定部140は、ユーザの視線に基づいて視覚情報の中から単一の候補箇所を限定し、ユーザの発話に基づいて当該候補箇所の中から選択箇所を特定してもよい。
この際、本実施形態に係る特定部140は、ユーザの発話から認識された文字列や意図に基づいて、候補箇所の中から選択箇所を特定することが可能である。
(表示制御部150)
本実施形態に係る表示制御部150は、表示部160による視覚情報の表示を制御する。本実施形態に係る視覚情報には、例えば、文字列、画像、各種の波形データなどが含まれる。本実施形態に係る表示制御部150が有する機能の詳細については別途後述する。
(表示部160)
本実施形態に係る表示部160は、表示制御部150による制御に基づいて視覚情報を表示する。このために、本実施形態に係る表示部160は、各種のディスプレイを備える。
(サーバ通信部170)
本実施形態に係るサーバ通信部170は、ネットワーク30を介して情報処理サーバ20との情報通信を行う。例えば、本実施形態に係るサーバ通信部170は、音入力部110が収集した音声に係る音情報や、撮影部120が撮影した画像情報を情報処理サーバ20に送信し、認識処理結果を受信する。
以上、本実施形態に係る情報処理端末10の機能構成例について述べた。なお、図4を用いて説明した上記の構成はあくまで一例であり、本実施形態に係る情報処理端末10の機能構成は係る例に限定されない。例えば、上述した特定部140や表示制御部150など有する機能は、情報処理サーバ20の機能として備えられてもよい。本実施形態に係る情報処理端末10の機能構成は、仕様や運用に応じて柔軟に変形可能である。
<<1.4.情報処理サーバ20の機能構成例>>
次に、本実施形態に係る情報処理サーバ20の機能構成例について述べる。図5は、本実施形態に係る情報処理サーバ20の機能構成例を示すブロック図である。図5に示すように、本実施形態に係る情報処理サーバ20は、音声認識部210、自然言語処理部220、視線認識部240、および端末通信部250を備える。
(音声認識部210)
本実施形態に係る音声認識部210は、情報処理端末10が収集したユーザの発話に係る音情報に基づいて、自動音声認識(Automatic Speech Recognition, ASR)を行い、ユーザの発話を文字列に変換する。音声認識部210は、公知の技術を用いて音声認識を行ってよい。
(自然言語処理部220)
本実施形態に係る自然言語処理部220は、音声認識部210が生成した文字列に基づく自然言語理解(Natural language understanding, NLU)処理を行い、ユーザの発話の意図を抽出する。自然言語処理部220は、公知の技術を用いて自然言語理解処理を行ってよい。
(画像認識部230)
本実施形態に係る画像認識部230は、画像中における各種のオブジェクトやテキストを認識する。本実施形態に係る画像認識部230は、公知の一般物体認識技術を用いてオブジェクトの認識を行ってよい。
(視線認識部240)
本実施形態に係る視線認識部240は、情報処理端末10が撮影したユーザの眼球画像に基づいて、当該ユーザの視線の位置を認識する。本実施形態に係る視線認識部240は、公知の技術を用いて視線認識を行ってよい。
(端末通信部250)
本実施形態に係る端末通信部250は、ネットワーク30を介して情報処理端末10との情報通信を行う。例えば、本実施形態に係る端末通信部250は、情報処理端末10から音情報、画像情報を受信し、上記の各構成による処理の結果を情報処理端末10に送信する。
以上、本開示の一実施形態に係る情報処理サーバ20の機能構成例について述べた。なお、図5を用いて説明した上記の構成はあくまで一例であり、本実施形態に係る情報処理サーバ20の機能構成は係る例に限定されない。本実施形態に係る情報処理サーバ20に備えられる機能は、認識の対象となる非言語動作および言語動作に応じて設計されてよい。本実施形態に係る情報処理サーバ20の機能構成は、仕様や運用に応じて柔軟に変形可能である。
<<1.5.機能の詳細>>
次に、本実施形態に係る情報処理端末10が有する機能について詳細に説明する。上述したように、本実施形態に係る特定部140は、例えば、ユーザの視線に基づいて候補箇所を限定し、ユーザの発話に基づいて当該候補箇所の中から選択箇所を特定することが可能である。
しかし、この際、候補箇所の中には、発話の音声認識結果に対応する文字列が複数含まれる場合も想定される。図6A~図6Cは、本実施形態に係る候補箇所に複数の対象文字列が含まれる場合の選択箇所の特定について説明するための図である。
図6Aには、ユーザが下から3行目末尾の“information”の直後を注視し、“information”という発話UO2を行った場合の状況が示されている。
この際、視線認識部240による視線認識の結果に基づいて特定部140が限定する候補箇所には、“information”に対応する2つの文字列が含まれていることから、特定部140は、当段階では選択箇所を特定することができない。
このように、特定部140が候補箇所にユーザの発話から特定可能な対象が複数含まれると判定した場合、本実施形態に係る表示制御部150は、図6Bに示すように、表示部160に候補箇所を拡大して表示させてよい。
この際、ユーザは、拡大表示された候補箇所において所望する選択箇所を再度注視し、また発話UO3により選択箇所の指定を行う。
上記の流れによれば、特定部140は、拡大された候補箇所の中からユーザの視線に基づいて第2の候補箇所を限定し、ユーザの発話に基づいて当該第2の候補箇所の中から選択箇所を特定することができる。
図6Cには、特定部140が、上記の拡大表示におけるユーザの視線に基づいて、下から3行目末尾の“information”の直後を選択箇所として正しく特定していることが示されている。
なお、上記のような処理を実現するために、本実施形態に係る表示制御部150は、視線認識に係る分解能に基づいて、複数の対象がユーザの視線により分離可能な倍率で表示部160に候補箇所を拡大表示させてよい。
例えば、図6Bに示す一例の場合、表示制御部150は、下から3行目末尾の“information”と、下から4行目末尾の“information”とが、分解能に依存して認識される注視領域中に同時に含まれないよう、拡大倍率を調整している。
以上説明したように、本実施形態に係る特定部140と表示制御部150によれば、候補箇所の中に発話から特定可能な対象が複数含まれている場合であっても、ユーザが所望する選択箇所を正確に特定することが可能となる。
続いて、本実施形態に係る視覚情報が画像であり、選択箇所が当該画像の一部である場合の制御例について述べる。図7および図8は、本実施形態に係る特定部140がユーザの視線および発話に基づいて画像中から選択箇所を特定する場合の例を示す図である。
例えば、図7に示す一例の場合、画像IMには、色が異なる5つのビルB1~B5が含まれている。ここで、ユーザは、画像IM中においてビルB4をマークし、待ち合わせの場所を示す画像として他のユーザに送信しようとしている。
この際、文字列の場合と同様に、ユーザは、まずビルB4を注視する。特定部140は、視線認識部240が分解能に基づいて認識した注視領域を候補箇所として特定する。
この際、図7に示す一例では、候補箇所の中に3つのビルB3~B5が含まれているが、特定部140は、ユーザの発話UO4に係る自然言語理解処理の結果、および画像IMの一般物体認識の結果に基づいて、3つのビルB3~B5の中で唯一赤い色をしたビルB4を選択箇所として特定することができる。
また、図8に示す一例の場合、ユーザは、表示される複数の楽曲イメージA1~A10を確認しながら、再生する楽曲を選択しようとしている。ここで、楽曲イメージA1~A10に対応する各楽曲は、いずれも“You”という名称であるとする。この場合も同様に、特定部140は、まず、視線認識部240が認識したユーザの注視領域を候補箇所として限定する。
この際、候補箇所には、3つの楽曲イメージA6、A7、およびA10が含まれているが、特定部140は、ユーザの発話UO5に係る自然言語理解処理の結果、および一般物体認識の結果に基づいて、3つの楽曲イメージA6、A7、およびA10の中で唯一アーティストDEFの楽曲に対応する楽曲イメージA6を選択箇所として特定することができる。
このように、本実施形態に係る特定部140は、候補箇所に含まれるオブジェクトのうち、ユーザの発話から認識された意図とマッチングするオブジェクトを選択箇所として特定してよい。
また、視覚情報が画像である場合にも、発話から特定可能な対象オブジェクトが候補箇所中に複数含まれる場合がある。図9および図10は、本実施形態に係る候補箇所に複数の対象オブジェクトが含まれる場合の選択箇所の特定について説明するための図である。
例えば、図9に示す一例の場合、候補箇所中には、3つのビルB3~B5が含まれている。この際、特定部140は、緑色のビルを指定する旨の発話UO6のみでは、選択箇所を特定することができない。
一方、ユーザが続けて右側のビルを指定する旨の発話UO7を行った場合、特定部140は、発話UO6およびUO7に係る自然言語理解処理の結果に基づいて、ビルB5を選択箇所として特定することが可能である。このように、本実施形態に係る特定部140は、ユーザの複数の発話に基づいて、候補箇所に含まれる複数の対象オブジェクトの中から選択箇所を特定してもよい。
また、図9に示す一例のように、候補箇所中に複数の対象オブジェクトが含まれる場合、特定部140は、例えば、「どちらのですか?」などのシステム音声を出力させることで、選択箇所の特定に有用なユーザの発話を促すこともできる。なお、後述する発話ガイドを表示することにより、ユーザの発話を促すことも可能である。
また、文字列の場合と同様に、表示制御部150は、複数の対象オブジェクトがユーザの視線により分離可能な倍率で表示部160に候補箇所を拡大して表示させてもよい。
例えば、図10に示す一例の場合、特定部140は、候補箇所の拡大画像EIMにおけるユーザの視線の認識結果から第2の候補箇所を特定し、また、緑色のビルを指定する旨の発話UO8の自然言語理解処理の結果から、ビルB5を選択箇所として特定することができる。
続いて、本実施形態に係る視覚情報が、時系列に収集されたセンシング情報に対応する波形データであり、選択箇所が当該波形データの一部である場合の制御例について述べる。図11は、本実施形態に係る特定部140がユーザの視線および発話に基づいて波形データ中から選択箇所を特定する場合の例を示す図である。
図11には、ユーザがある楽曲に係るオーディオ波形AWにおいて任意の箇所を指定し、評価のタグ付けを行う場合の一例が示されている。この際、ユーザは、まずオーディオ波形AWにおいてタグ付けを行う箇所を注視する。特定部140は、視線認識部240が分解能に基づいて認識した注視領域を候補箇所として特定する。
また、ユーザは、続けて、タグ付けを行う箇所を指定するための発話を行う。図11に示す一例では、ユーザは、楽曲のコーラス部分を指定する発話をUO9を行っている。この場合、本実施形態に係る特定部140は、候補箇所に対応するメタデータ(本例の場合、例えば、楽曲の構成情報や楽譜など)と、発話UO9から認識された意図とのマッチングにより、コーラスの開始地点CSを選択箇所として特定することができる。
なお、本実施形態に係るメタデータは、人手により付与されてもよいし、各種の認識処理により動的に付与されてもよい。例えば、楽曲に係る波形データの場合、音声認識部210が認識した文字列がメタデータとして付与され得る。この場合、特定部140は、ユーザが発話した歌詞の一部から認識された文字列と、メタデータ中の歌詞とをマッチングすることにより、該当する歌詞に対応する箇所を選択箇所として特定することができる。
また、例えば、動画像に係る波形データの場合、音声認識部210が認識した文字列や画像認識部230による一般物体認識の結果がメタデータとして付与されてもよい。この場合、特定部140は、例えば、人物名や物体名、シーンの特徴などを示す発話と上記メタデータとに基づいて選択箇所を特定することが可能である。
なお、本実施形態に係る波形データには、音声や動画の他、例えば、加速度や角速度などのセンシング情報も広く含まれる。本実施形態に係る特定部140によれば、波形データの加工などを行う際、形状のみから選択箇所を指定することが困難な場合であっても、視線と発話により容易かつ精度高く選択箇所を指定することが可能となる。
続いて、本実施形態に係るユーザのプロファイルに基づく視覚情報の表示制御について説明する。本実施形態に係る表示制御部150は、ユーザのプロファイルに基づいて、視覚情報の表示態様を制御する機能を有する。例えば、表示制御部150は、ユーザのプロファイルが示す当該ユーザの特性に基づき、ユーザごとに適した表示態様で視覚情報を表示部160に表示させることができる。
本実施形態に係るユーザのプロファイルは、例えば、ユーザの視覚特性を含む。図12および図13は、本実施形態に係る視覚特性に基づいた視覚情報の表示態様制御について説明するための図である。
例えば、図12には、ユーザが黄斑円孔や加齢黄斑変性などの中心が見えづらい視覚特性を有している場合の表示態様制御の一例が示されている。
表示制御部150は、ユーザのプロファイルが上記のような視覚特性を示す場合において、候補箇所中に発話から特定される文字列が含まれている場合、図示するように、当該文字列を候補箇所の周辺など中心視野から外れた位置に拡大して表示させてもよい。
また、例えば、図13には、ユーザが色覚に異常を抱えている場合の表示態様制御の一例が示されている。なお、図13では、候補箇所を示す二点鎖線が省略されているが、図13においては、候補箇所中に3つのオブジェクトO1~O3が含まれているものとする。
ここで、図13の上段に示すように、候補箇所中に色の異なる複数のオブジェクトO1~O3が含まれている場合、ユーザは、色の違いを認識することができず、発話により任意のオブジェクトOを指定することが困難である。
この場合、本実施形態に係る表示制御部150は、例えば、図中下段に示すように、オブジェクトO1~O3を加工し、例えば、同一色の濃淡によりオブジェクトO1~O3が区別可能となるよう制御を行う。
本実施形態に係る表示制御部150による上記の制御によれば、ユーザが、例えば、「一番濃いリンゴ」などの発話を行うことによりオブジェクトO3を指定することなどが可能となる。
また、本実施形態に係る表示制御部150は、視覚情報に発話ガイドを付与することで、ユーザの発話による選択箇所の指定を補助してもよい。図14は、本実施形態に係る発話ガイドについて説明するための図である。なお、本実施形態に係る発話ガイドとは、選択箇所を指定するための発話をユーザに促す各種の情報であってよい。
図14には、図13と同様に、ユーザが色覚に異常を抱えている場合の表示態様制御の一例が示されている。なお、図14においても、候補箇所を示す二点鎖線が省略されているが、図13と同様に、候補箇所中に3つのオブジェクトO1~O3が含まれているものとする。
ここで、図14の上段に示すように、候補箇所中に色の異なる複数のオブジェクトO1~O3が含まれている場合、ユーザは、色の違いを認識することができず、発話により任意のオブジェクトOを指定することが困難である。
このように、特定部140が候補箇所中複数の対象が含まれると判定した場合、本実施形態に係る表示制御部150は、当該複数の対象のそれぞれに異なる発話ガイドを対応づけて表示部160に表示させる。
図14の下段に示す一例の場合、表示制御部150は、オブジェクトO1~O3のそれぞれに発話ガイドとして「1」~「3」の番号を対応付けている。このような制御によれば、ユーザが番号を発話することで容易に任意のオブジェクトOを指定することが可能となる。また、この際、本実施形態に係る特定部140は、ユーザの発話に対応する発話ガイドに対応付けられた対象を選択箇所として特定してよい。
なお、図14では、ユーザが特別な視覚特性を有する場合を例に説明したが、本実施形態に係る表示制御部150は、ユーザのプロファイルに依らず、各種の視覚情報に発話ガイドを対応付けてよい。本実施形態に係る発話ガイドは、文字列、画像、波形データ中における選択箇所の特定に非常に有効である。
<<1.6.処理の流れ>>
次に、本実施形態に係る情報処理システムの処理の流れについて詳細に説明する。図15は、本実施形態に係る情報処理システムの処理の流れを示すフローチャートである。
図15を参照すると、まず、視線認識部240が、ユーザの眼球画像に基づいて、当該ユーザの視線位置が閾値時間以上あるポイントに滞留しているか否かを判定する(S1101)。
ここで、閾値時間以上の視線位置の滞留が認められない場合(S1101:No)、情報処理システムは、ステップS1101に復帰する。
一方、閾値時間以上の視線位置の滞留が認められる場合(S1101:Yes)、特定部140は、滞留が認められたポイントを候補箇所とし、当該候補箇所に含まれる情報を取得する(S1102)。
次に、音声認識部210は、ユーザの発話が入力されているか否かを判定する(S1103)。
また、視線認識部240は、ユーザの注視が継続しているか否かを判定する(S1104)。
ここで、発話が入力されていない場合(S1103:No)や、ユーザの注視が継続していない場合(S1104:No)、情報処理システムはステップS1101に復帰する。
一方、発話が入力され(S1103:Yes)、かつユーザの注視が継続している場合(S1104:Yes)、音声認識部210および自然言語処理部220は、それぞれ自動音声認識処理と自然言語理解処理を実行する(S1105)。
次に、特定部140は、ステップS1105における自動音声認識処理により得られた文字列や、自然言語理解処理により得られた発話意図に基づいて、候補箇所中から選択箇所を特定する(S1106)。
<2.ハードウェア構成例>
次に、本開示の一実施形態に係る情報処理端末10と情報処理サーバ20に共通するハードウェア構成例について説明する。図16は、本開示の一実施形態に係る情報処理端末10および情報処理サーバ20のハードウェア構成例を示すブロック図である。図16に示すように、情報処理端末10および情報処理サーバ20は、例えば、プロセッサ871と、ROM872と、RAM873と、ホストバス874と、ブリッジ875と、外部バス876と、インターフェース877と、入力装置878と、出力装置879と、ストレージ880と、ドライブ881と、接続ポート882と、通信装置883と、を有する。なお、ここで示すハードウェア構成は一例であり、構成要素の一部が省略されてもよい。また、ここで示される構成要素以外の構成要素をさらに含んでもよい。
(プロセッサ871)
プロセッサ871は、例えば、演算処理装置又は制御装置として機能し、ROM872、RAM873、ストレージ880、又はリムーバブル記録媒体901に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。
(ROM872、RAM873)
ROM872は、プロセッサ871に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。RAM873には、例えば、プロセッサ871に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。
(ホストバス874、ブリッジ875、外部バス876、インターフェース877)
プロセッサ871、ROM872、RAM873は、例えば、高速なデータ伝送が可能なホストバス874を介して相互に接続される。一方、ホストバス874は、例えば、ブリッジ875を介して比較的データ伝送速度が低速な外部バス876に接続される。また、外部バス876は、インターフェース877を介して種々の構成要素と接続される。
(入力装置878)
入力装置878には、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、及びレバー等が用いられる。さらに、入力装置878としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ(以下、リモコン)が用いられることもある。また、入力装置878には、マイクロフォンなどの音声入力装置が含まれる。
(出力装置879)
出力装置879は、例えば、CRT(Cathode Ray Tube)、LCD、又は有機EL等のディスプレイ装置、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。また、本開示に係る出力装置879は、触覚刺激を出力することが可能な種々の振動デバイスを含む。
(ストレージ880)
ストレージ880は、各種のデータを格納するための装置である。ストレージ880としては、例えば、ハードディスクドライブ(HDD)等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。
(ドライブ881)
ドライブ881は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体901に記録された情報を読み出し、又はリムーバブル記録媒体901に情報を書き込む装置である。
(リムーバブル記録媒体901)
リムーバブル記録媒体901は、例えば、DVDメディア、Blu-ray(登録商標)メディア、HD DVDメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記録媒体901は、例えば、非接触型ICチップを搭載したICカード、又は電子機器等であってもよい。
(接続ポート882)
接続ポート882は、例えば、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)、RS-232Cポート、又は光オーディオ端子等のような外部接続機器902を接続するためのポートである。
(外部接続機器902)
外部接続機器902は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はICレコーダ等である。
(通信装置883)
通信装置883は、ネットワークに接続するための通信デバイスであり、例えば、有線又は無線LAN、Bluetooth(登録商標)、又はWUSB(Wireless USB)用の通信カード、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ、又は各種通信用のモデム等である。
<3.まとめ>
以上説明したように、本開示の一実施形態に係る情報処理端末10は、ユーザの言動に基づいて、表示される視覚情報の中からユーザが所望する選択箇所を特定する特定部140を備える。また、本開示の一実施形態に係る特定部140は、ユーザの非言語動作と言語動作とに基づいて、上記選択箇所を特定すること、を特徴の一つとする。係る構成によれば、ユーザが所望する選択箇所をより精度高く特定することが可能となる。
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
また、コンピュータに内蔵されるCPU、ROMおよびRAMなどのハードウェアに、情報処理端末10が有する構成と同等の機能を発揮させるためのプログラムも作成可能であり、当該プログラムを記録した、コンピュータに読み取り可能な非一過性の記録媒体も提供され得る。
また、本明細書の情報処理システムの処理に係る各ステップは、必ずしもフローチャートに記載された順序に沿って時系列に処理される必要はない。例えば、情報処理システムの処理に係る各ステップは、フローチャートに記載された順序と異なる順序で処理されても、並列的に処理されてもよい。
なお、以下のような構成も本開示の技術的範囲に属する。
(1)
ユーザの言動に基づいて、表示される視覚情報の中からユーザが所望する選択箇所を特定する特定部、
を備え、
前記特定部は、前記ユーザの非言語動作と言語動作とに基づいて、前記選択箇所を特定する、
情報処理装置。
(2)
前記非言語動作は、少なくとも前記ユーザの眼球運動を含み、
前記特定部は、前記ユーザの視線と前記言語動作とに基づいて、前記選択箇所を特定する、
前記(1)に記載の情報処理装置。
(3)
前記言語動作は、少なくとも前記ユーザの発話を含み、
前記特定部は、前記ユーザの視線と発話とに基づいて、前記選択箇所を特定する、
前記(2)に記載の情報処理装置。
(4)
前記特定部は、前記ユーザの視線または発話のいずれか一方に基づいて前記視覚情報の中から候補箇所を限定し、他方に基づいて前記候補箇所から前記選択箇所を特定する、
前記(3)に記載の情報処理装置。
(5)
前記特定部は、前記ユーザの視線に基づいて前記視覚情報の中から単一の前記候補箇所を限定し、前記ユーザの発話に基づいて、前記候補箇所の中から前記選択箇所を特定する、
前記(4)に記載の情報処理装置。
(6)
前記特定部は、前記ユーザの視線と視線認識に係る分解能とに基づいて定まる注視領域を前記候補箇所とする、
前記(5)に記載の情報処理装置。
(7)
前記特定部は、前記ユーザの発話から認識された文字列または意図に基づいて、前記候補箇所の中から前記選択箇所を特定する、
前記(5)または(6)に記載の情報処理装置。
(8)
前記視覚情報は、少なくとも文字列を含み、
前記特定部は、前記候補箇所に含まれる文字列と前記ユーザの発話から認識された文字列とのマッチングにより前記選択箇所を特定する、
前記(5)~(7)のいずれかに記載の情報処理装置。
(9)
前記視覚情報は、少なくとも画像を含み、
前記特定部は、前記候補箇所に含まれるオブジェクトのうち、前記ユーザの発話から認識された意図とマッチするオブジェクトを前記選択箇所として特定する、
前記(5)~(8)のいずれかに記載の情報処理装置。
(10)
前記視覚情報は、少なくとも波形データを含み、
前記特定部は、前記候補箇所に対応するメタデータと、前記ユーザの発話から認識された文字列または意図とのマッチングにより、前記選択箇所を特定する、
前記(5)~(9)のいずれかに記載の情報処理装置。
(11)
前記視覚情報の表示を制御する表示制御部、
をさらに備える、
前記(5)~(10)のいずれかに記載の情報処理装置。
(12)
前記表示制御部は、前記特定部が前記候補箇所に前記ユーザの発話から特定可能な対象が複数含まれると判定した場合、前記候補箇所を拡大して表示させる、
前記(11)に記載の情報処理装置。
(13)
前記表示制御部は、視線認識に係る分解能に基づいて、前記複数の対象が前記ユーザの視線により分離可能な倍率で前記候補箇所を拡大して表示させる、
前記(12)に記載の情報処理装置。
(14)
前記特定部は、拡大された前記候補箇所の中から前記ユーザの視線に基づいて第2の候補箇所を限定し、前記ユーザの発話に基づいて前記第2の候補箇所の中から前記選択箇所を特定する、
前記(13)に記載の情報処理装置。
(15)
前記表示制御部は、前記特定部が前記候補箇所に複数の対象が含まれると判定した場合、前記複数の対象のそれぞれに異なる発話ガイドを対応付けて表示させる、
前記(12)に記載の情報処理装置。
(16)
前記特定部は、前記ユーザの発話に対応する前記発話ガイドに対応付けられた前記対象を前記選択箇所として特定する、
前記(15)に記載の情報処理装置。
(17)
前記表示制御部は、前記ユーザのプロファイルに基づいて、前記視覚情報の表示態様を制御する、
前記(11)~(16)のいずれかに記載の情報処理装置。
(18)
前記ユーザのプロファイルは、少なくとも前記ユーザの視覚特性を含み、
前記表示制御部は、前記ユーザの視覚特性に応じた表示態様で前記視覚情報を表示させる、
前記(17)に記載の情報処理装置。
(19)
前記特定部は、前記ユーザの発話に基づいて前記視覚情報の中から複数の前記候補箇所を限定し、前記ユーザの視線に基づいて、複数の前記候補箇所の中から前記選択箇所を特定する、
前記(4)に記載の情報処理装置。
(20)
プロセッサが、ユーザの言動に基づいて、表示される視覚情報の中からユーザが所望する選択箇所を特定すること、
を含み、
前記特定することは、前記ユーザの非言語動作と言語動作とに基づいて、前記選択箇所を特定すること、
をさらに含む、
情報処理方法。
10 情報処理端末
110 音入力部
120 撮影部
130 操作入力部
140 特定部
150 表示制御部
160 表示部
170 サーバ通信部
20 情報処理サーバ
210 音声認識部
220 自然言語処理部
230 画像認識部
240 視線認識部
250 端末通信部

Claims (14)

  1. ユーザの言動に基づいて、表示される視覚情報の中からユーザが所望する選択箇所を特定する特定部、
    を備え、
    前記特定部は、前記ユーザの非言語動作と言語動作とに基づいて、前記選択箇所を特定し、前記ユーザの視線と前記言語動作とに基づいて、前記選択箇所を特定し、前記ユーザの視線と発話とに基づいて、前記選択箇所を特定し、前記ユーザの視線または発話のいずれか一方に基づいて前記視覚情報の中から候補箇所を限定し、他方に基づいて前記候補箇所から前記選択箇所を特定し、前記ユーザの視線に基づいて前記視覚情報の中から単一の前記候補箇所を限定し、前記ユーザの発話に基づいて、前記候補箇所の中から前記選択箇所を特定し、
    前記視覚情報の表示を制御する表示制御部、
    をさらに備え
    前記非言語動作は、少なくとも前記ユーザの眼球運動を含み、
    前記言語動作は、少なくとも前記ユーザの発話を含み、
    前記表示制御部は、前記特定部が限定した前記候補箇所に含まれている前記ユーザの発話から特定可能な対象を前記候補箇所から外れた位置に拡大して表示させる、
    情報処理装置。
  2. 前記特定部は、前記ユーザの視線と視線認識に係る分解能とに基づいて定まる注視領域を前記候補箇所とする、
    請求項1に記載の情報処理装置。
  3. 前記特定部は、前記ユーザの発話から認識された文字列または意図に基づいて、前記候補箇所の中から前記選択箇所を特定する、
    請求項1に記載の情報処理装置。
  4. 前記視覚情報は、少なくとも文字列を含み、
    前記特定部は、前記候補箇所に含まれる文字列と前記ユーザの発話から認識された文字列とのマッチングにより前記選択箇所を特定する、
    請求項1に記載の情報処理装置。
  5. 前記視覚情報は、少なくとも画像を含み、
    前記特定部は、前記候補箇所に含まれるオブジェクトのうち、前記ユーザの発話から認識された意図とマッチするオブジェクトを前記選択箇所として特定する、
    請求項1に記載の情報処理装置。
  6. 前記視覚情報は、少なくとも波形データを含み、
    前記特定部は、前記候補箇所に対応するメタデータと、前記ユーザの発話から認識された文字列または意図とのマッチングにより、前記選択箇所を特定する、
    請求項1に記載の情報処理装置。
  7. 前記表示制御部は、視線認識に係る分解能に基づいて、複数の前記対象が前記ユーザの視線により分離可能な倍率で前記候補箇所を拡大して表示させる、
    請求項1に記載の情報処理装置。
  8. 前記特定部は、拡大された前記候補箇所の中から前記ユーザの視線に基づいて第2の候補箇所を限定し、前記ユーザの発話に基づいて前記第2の候補箇所の中から前記選択箇所を特定する、
    請求項7に記載の情報処理装置。
  9. 前記表示制御部は、前記特定部が前記候補箇所に複数の対象が含まれると判定した場合、前記複数の対象のそれぞれに異なる発話ガイドを対応付けて表示させる、
    請求項1に記載の情報処理装置。
  10. 前記特定部は、前記ユーザの発話に対応する前記発話ガイドに対応付けられた前記対象を前記選択箇所として特定する、
    請求項9に記載の情報処理装置。
  11. 前記表示制御部は、前記ユーザのプロファイルに基づいて、前記視覚情報の表示態様を制御する、
    請求項1に記載の情報処理装置。
  12. 前記ユーザのプロファイルは、少なくとも前記ユーザの視覚特性を含み、
    前記表示制御部は、前記ユーザの視覚特性に応じた表示態様で前記視覚情報を表示させる、
    請求項11に記載の情報処理装置。
  13. 前記特定部は、前記ユーザの発話に基づいて前記視覚情報の中から複数の前記候補箇所を限定し、前記ユーザの視線に基づいて、複数の前記候補箇所の中から前記選択箇所を特定する、
    請求項1に記載の情報処理装置。
  14. プロセッサが、ユーザの言動に基づいて、表示される視覚情報の中からユーザが所望する選択箇所を特定すること、
    を含み、
    前記特定することは、前記ユーザの眼球運動を含む非言語動作と前記ユーザの発話を含む言語動作とに基づいて、前記選択箇所を特定すること、前記ユーザの視線と前記言語動作とに基づいて、前記選択箇所を特定すること、前記ユーザの視線と発話とに基づいて、前記選択箇所を特定し、前記ユーザの視線または発話のいずれか一方に基づいて前記視覚情報の中から候補箇所を限定し、他方に基づいて前記候補箇所から前記選択箇所を特定すること、前記ユーザの視線に基づいて前記視覚情報の中から単一の前記候補箇所を限定し、前記ユーザの発話に基づいて、前記候補箇所の中から前記選択箇所を特定すること、
    前記限定した前記候補箇所に含まれている前記ユーザの発話から特定可能な対象を前記候補箇所から外れた位置に拡大して表示させること
    をさらに含む、
    情報処理方法。
JP2020559745A 2018-12-03 2019-09-27 情報処理装置および情報処理方法 Active JP7468360B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2018226604 2018-12-03
JP2018226604 2018-12-03
PCT/JP2019/038071 WO2020116001A1 (ja) 2018-12-03 2019-09-27 情報処理装置および情報処理方法

Publications (2)

Publication Number Publication Date
JPWO2020116001A1 JPWO2020116001A1 (ja) 2021-10-14
JP7468360B2 true JP7468360B2 (ja) 2024-04-16

Family

ID=70973589

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020559745A Active JP7468360B2 (ja) 2018-12-03 2019-09-27 情報処理装置および情報処理方法

Country Status (3)

Country Link
US (1) US11513768B2 (ja)
JP (1) JP7468360B2 (ja)
WO (1) WO2020116001A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7346375B2 (ja) * 2020-10-22 2023-09-19 キヤノン株式会社 電子機器及びその制御方法及びプログラム及び記録媒体

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000194532A (ja) 1998-12-24 2000-07-14 Casio Comput Co Ltd オブジェクト選択処理装置、及び記憶媒体
JP2008225794A (ja) 2007-03-12 2008-09-25 Fujitsu Ltd 情報表示方法、情報表示装置及び情報表示システム
JP2009251658A (ja) 2008-04-01 2009-10-29 Fujifilm Corp 携帯型電子装置及びその制御方法
WO2012133272A1 (ja) 2011-03-25 2012-10-04 京セラ株式会社 電子機器
US20140337740A1 (en) 2013-05-07 2014-11-13 Samsung Electronics Co., Ltd. Method and apparatus for selecting object
JP2016218868A (ja) 2015-05-22 2016-12-22 富士通株式会社 表示制御方法、情報処理装置及び表示制御プログラム
JP2017174198A (ja) 2016-03-24 2017-09-28 Kddi株式会社 携帯端末、情報処理方法、及びプログラム
JP2017183937A (ja) 2016-03-29 2017-10-05 京セラドキュメントソリューションズ株式会社 文書読解支援システム
JP2018515817A (ja) 2015-03-20 2018-06-14 フェイスブック,インク. 視線追跡と音声認識とを組み合わせることにより制御を改善する方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005222103A (ja) 2004-02-03 2005-08-18 Dainippon Printing Co Ltd 音声視線複合入力システム
CN102195893B (zh) * 2010-03-03 2014-03-05 腾讯科技(深圳)有限公司 网络平台互动的方法和***
US9823742B2 (en) * 2012-05-18 2017-11-21 Microsoft Technology Licensing, Llc Interaction and management of devices using gaze detection
JP2014203288A (ja) * 2013-04-05 2014-10-27 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
JP6155821B2 (ja) * 2013-05-08 2017-07-05 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
US10025378B2 (en) * 2013-06-25 2018-07-17 Microsoft Technology Licensing, Llc Selecting user interface elements via position signal
JP2015056141A (ja) * 2013-09-13 2015-03-23 ソニー株式会社 情報処理装置、および情報処理方法
JP6555272B2 (ja) * 2014-11-12 2019-08-07 富士通株式会社 ウェアラブルデバイス、表示制御方法、及び表示制御プログラム
US10019987B2 (en) * 2014-12-30 2018-07-10 Paypal, Inc. Audible proximity messaging
KR20170014353A (ko) * 2015-07-29 2017-02-08 삼성전자주식회사 음성 기반의 화면 내비게이션 장치 및 방법
CA3059234A1 (en) * 2017-04-19 2018-10-25 Magic Leap, Inc. Multimodal task execution and text editing for a wearable system
US11157073B2 (en) * 2017-10-04 2021-10-26 Tectus Corporation Gaze calibration for eye-mounted displays
US10831265B2 (en) * 2018-04-20 2020-11-10 Microsoft Technology Licensing, Llc Systems and methods for gaze-informed target manipulation

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000194532A (ja) 1998-12-24 2000-07-14 Casio Comput Co Ltd オブジェクト選択処理装置、及び記憶媒体
JP2008225794A (ja) 2007-03-12 2008-09-25 Fujitsu Ltd 情報表示方法、情報表示装置及び情報表示システム
JP2009251658A (ja) 2008-04-01 2009-10-29 Fujifilm Corp 携帯型電子装置及びその制御方法
WO2012133272A1 (ja) 2011-03-25 2012-10-04 京セラ株式会社 電子機器
US20140337740A1 (en) 2013-05-07 2014-11-13 Samsung Electronics Co., Ltd. Method and apparatus for selecting object
JP2018515817A (ja) 2015-03-20 2018-06-14 フェイスブック,インク. 視線追跡と音声認識とを組み合わせることにより制御を改善する方法
JP2016218868A (ja) 2015-05-22 2016-12-22 富士通株式会社 表示制御方法、情報処理装置及び表示制御プログラム
JP2017174198A (ja) 2016-03-24 2017-09-28 Kddi株式会社 携帯端末、情報処理方法、及びプログラム
JP2017183937A (ja) 2016-03-29 2017-10-05 京セラドキュメントソリューションズ株式会社 文書読解支援システム

Also Published As

Publication number Publication date
WO2020116001A1 (ja) 2020-06-11
US11513768B2 (en) 2022-11-29
JPWO2020116001A1 (ja) 2021-10-14
US20210382685A1 (en) 2021-12-09

Similar Documents

Publication Publication Date Title
JP6635049B2 (ja) 情報処理装置、情報処理方法およびプログラム
JP6392374B2 (ja) ヘッドマウントディスプレイシステム及びヘッドマウントディスプレイ装置の操作方法
US11317018B2 (en) Camera operable using natural language commands
KR102193029B1 (ko) 디스플레이 장치 및 그의 화상 통화 수행 방법
JP2010067104A (ja) デジタルフォトフレーム、情報処理システム、制御方法、プログラム及び情報記憶媒体
JP2015018365A (ja) 情報処理装置、情報処理方法およびプログラム
RU2684475C2 (ru) Изменение визуального контента для содействия усовершенствованному распознаванию речи
WO2015059976A1 (ja) 情報処理装置、情報処理方法、及びプログラム
CN113678133A (zh) 用于对话中断检测的具有全局和局部编码的上下文丰富的注意记忆网络的***和方法
WO2016152200A1 (ja) 情報処理システムおよび情報処理方法
US11900931B2 (en) Information processing apparatus and information processing method
JP6176041B2 (ja) 情報処理装置及びプログラム
US20170068512A1 (en) Electronic apparatus and information processing method thereof
WO2018105373A1 (ja) 情報処理装置、情報処理方法、および情報処理システム
JPWO2016103809A1 (ja) 情報処理装置、情報処理方法およびプログラム
JP7468360B2 (ja) 情報処理装置および情報処理方法
JP6798258B2 (ja) 生成プログラム、生成装置、制御プログラム、制御方法、ロボット装置及び通話システム
JP6969576B2 (ja) 情報処理装置、および情報処理方法
US11978252B2 (en) Communication system, display apparatus, and display control method
JP2017211430A (ja) 情報処理装置および情報処理方法
KR20220143622A (ko) 전자 장치 및 그 제어 방법
JPWO2018105373A1 (ja) 情報処理装置、情報処理方法、および情報処理システム
US11935449B2 (en) Information processing apparatus and information processing method
US20210082427A1 (en) Information processing apparatus and information processing method
WO2020158218A1 (ja) 情報処理装置、情報処理方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220907

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230704

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230824

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231031

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231225

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240305

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240318

R150 Certificate of patent or registration of utility model

Ref document number: 7468360

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150