JP7468360B2 - 情報処理装置および情報処理方法 - Google Patents
情報処理装置および情報処理方法 Download PDFInfo
- Publication number
- JP7468360B2 JP7468360B2 JP2020559745A JP2020559745A JP7468360B2 JP 7468360 B2 JP7468360 B2 JP 7468360B2 JP 2020559745 A JP2020559745 A JP 2020559745A JP 2020559745 A JP2020559745 A JP 2020559745A JP 7468360 B2 JP7468360 B2 JP 7468360B2
- Authority
- JP
- Japan
- Prior art keywords
- user
- information processing
- candidate
- speech
- identification unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 114
- 238000003672 processing method Methods 0.000 title claims description 5
- 230000000007 visual effect Effects 0.000 claims description 60
- 230000009471 action Effects 0.000 claims description 26
- 230000001755 vocal effect Effects 0.000 claims description 21
- 230000004424 eye movement Effects 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 31
- 238000004891 communication Methods 0.000 description 20
- 230000006870 function Effects 0.000 description 11
- 238000000034 method Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 8
- 210000005252 bulbus oculi Anatomy 0.000 description 6
- 238000003058 natural language processing Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 239000003086 colorant Substances 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 241001342895 Chorus Species 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000004456 color vision Effects 0.000 description 2
- HAORKNGNJCEJBX-UHFFFAOYSA-N cyprodinil Chemical compound N=1C(C)=CC(C2CC2)=NC=1NC1=CC=CC=C1 HAORKNGNJCEJBX-UHFFFAOYSA-N 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 208000002367 Retinal Perforations Diseases 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 206010064930 age-related macular degeneration Diseases 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000004886 head movement Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 208000002780 macular degeneration Diseases 0.000 description 1
- 208000029233 macular holes Diseases 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/013—Eye tracking input arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0481—Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0484—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
- G06F3/04842—Selection of displayed objects or displayed text elements
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2203/00—Indexing scheme relating to G06F3/00 - G06F3/048
- G06F2203/038—Indexing scheme relating to G06F3/038
- G06F2203/0381—Multimodal input, i.e. interface arrangements enabling the user to issue commands by simultaneous use of input devices of different nature, e.g. voice plus gesture on digitizer
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2203/00—Indexing scheme relating to G06F3/00 - G06F3/048
- G06F2203/048—Indexing scheme relating to G06F3/048
- G06F2203/04806—Zoom, i.e. interaction techniques or interactors for controlling the zooming operation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- User Interface Of Digital Computer (AREA)
Description
1.実施形態
1.1.概要
1.2.システム構成例
1.3.情報処理端末10の機能構成例
1.4.情報処理サーバ20の機能構成例
1.5.機能の詳細
1.6.処理の流れ
2.ハードウェア構成例
3.まとめ
<<1.1.概要>>
まず、本開示の一実施形態の概要について説明する。上述したように、近年においては、キーボードやマウスなどの入力デバイスを用いない入力手段や選択手段が開発されている。例えば、特許文献1では、ユーザの視線に基づいて文字列の編集位置を特定する技術が記載されている。
次に、本実施形態に係る情報システムの構成例について説明する。図3は、本実施形態に係る情報処理システムの構成例を示すブロック図である。図3に示すように、本実施形態に係る情報処理システムは、情報処理端末10および情報処理サーバ20を備える。また、情報処理端末10と情報処理サーバ20とは、互いに通信が行えるようにネットワーク30を介して接続される。
本実施形態に係る情報処理端末10は、ユーザの非言語動作と言語動作とに基づいて、視覚情報の中からユーザが所望する選択箇所を特定する情報処理装置である。本実施形態に係る情報処理端末10は、例えば、ユーザの眼球の画像を取得可能なヘッドマウントディスプレイやデジタルサイネージ端末、または専用装置であってもよい。
本実施形態に係る情報処理サーバ20は、情報処理端末10が収集したセンシング情報に基づく各種の認識処理を行う情報処理装置である。例えば、本実施形態に係る情報処理サーバ20は、情報処理端末10が撮影したユーザの眼球の画像に基づいて視線認識処理を実行する。また、本実施形態に係る情報処理サーバ20は、情報処理端末10が収集したユーザの音声に基づいて音声認識処理や自然言語理解処理を実行する。なお、本実施形態に係る情報処理サーバ20が行う認識処理の種別は、採用する非言語動作や言語動作に応じて設計される。
ネットワーク30は、情報処理端末10と情報処理サーバ20とを接続する機能を有する。ネットワーク30は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(Wide Area Network)などを含んでもよい。また、ネットワーク30は、IP-VPN(Internet Protocol-Virtual Private Network)などの専用回線網を含んでもよい。また、ネットワーク30は、Wi-Fi(登録商標)、Bluetooth(登録商標)など無線通信網を含んでもよい。
次に、本実施形態に係る情報処理端末10の機能構成例について述べる。図4は、本実施形態に係る情報処理端末10の機能構成例を示すブロック図である。図4に示すように、本実施形態に係る情報処理端末10は、音入力部110、撮影部120、操作入力部130、特定部140、表示制御部150、表示部160、およびサーバ通信部170を備える。
本実施形態に係る音入力部110は、ユーザの発話などの音を収集する。このために、本実施形態に係る音入力部110は、マイクロフォンなどの集音装置を備える。
本実施形態に係る撮影部120は、ユーザの眼球などを撮影する。このために、本実施形態に係る撮影部120は、撮像センサを備える。また、本実施形態に係る撮影部120は、ユーザの視線認識に用いる画像を撮影するために、赤外光LEDなどの光源を備えてもよい。
本実施形態に係る操作入力部130は、ユーザによる操作入力を検出する。このために、本実施形態に係る操作入力部130は、例えば、タッチパネルやスイッチ、ボタンなどを備える。
本実施形態に係る特定部140は、ユーザの言動に基づいて、表示部160が表示する視覚情報の中からユーザが所望する選択箇所を特定する。この際、本実施形態に係る特定部140は、ユーザの非言語動作と言語動作とに基づいて選択箇所を特定すること、を特徴の一つとする。
本実施形態に係る表示制御部150は、表示部160による視覚情報の表示を制御する。本実施形態に係る視覚情報には、例えば、文字列、画像、各種の波形データなどが含まれる。本実施形態に係る表示制御部150が有する機能の詳細については別途後述する。
本実施形態に係る表示部160は、表示制御部150による制御に基づいて視覚情報を表示する。このために、本実施形態に係る表示部160は、各種のディスプレイを備える。
本実施形態に係るサーバ通信部170は、ネットワーク30を介して情報処理サーバ20との情報通信を行う。例えば、本実施形態に係るサーバ通信部170は、音入力部110が収集した音声に係る音情報や、撮影部120が撮影した画像情報を情報処理サーバ20に送信し、認識処理結果を受信する。
次に、本実施形態に係る情報処理サーバ20の機能構成例について述べる。図5は、本実施形態に係る情報処理サーバ20の機能構成例を示すブロック図である。図5に示すように、本実施形態に係る情報処理サーバ20は、音声認識部210、自然言語処理部220、視線認識部240、および端末通信部250を備える。
本実施形態に係る音声認識部210は、情報処理端末10が収集したユーザの発話に係る音情報に基づいて、自動音声認識(Automatic Speech Recognition, ASR)を行い、ユーザの発話を文字列に変換する。音声認識部210は、公知の技術を用いて音声認識を行ってよい。
本実施形態に係る自然言語処理部220は、音声認識部210が生成した文字列に基づく自然言語理解(Natural language understanding, NLU)処理を行い、ユーザの発話の意図を抽出する。自然言語処理部220は、公知の技術を用いて自然言語理解処理を行ってよい。
本実施形態に係る画像認識部230は、画像中における各種のオブジェクトやテキストを認識する。本実施形態に係る画像認識部230は、公知の一般物体認識技術を用いてオブジェクトの認識を行ってよい。
本実施形態に係る視線認識部240は、情報処理端末10が撮影したユーザの眼球画像に基づいて、当該ユーザの視線の位置を認識する。本実施形態に係る視線認識部240は、公知の技術を用いて視線認識を行ってよい。
本実施形態に係る端末通信部250は、ネットワーク30を介して情報処理端末10との情報通信を行う。例えば、本実施形態に係る端末通信部250は、情報処理端末10から音情報、画像情報を受信し、上記の各構成による処理の結果を情報処理端末10に送信する。
次に、本実施形態に係る情報処理端末10が有する機能について詳細に説明する。上述したように、本実施形態に係る特定部140は、例えば、ユーザの視線に基づいて候補箇所を限定し、ユーザの発話に基づいて当該候補箇所の中から選択箇所を特定することが可能である。
次に、本実施形態に係る情報処理システムの処理の流れについて詳細に説明する。図15は、本実施形態に係る情報処理システムの処理の流れを示すフローチャートである。
次に、本開示の一実施形態に係る情報処理端末10と情報処理サーバ20に共通するハードウェア構成例について説明する。図16は、本開示の一実施形態に係る情報処理端末10および情報処理サーバ20のハードウェア構成例を示すブロック図である。図16に示すように、情報処理端末10および情報処理サーバ20は、例えば、プロセッサ871と、ROM872と、RAM873と、ホストバス874と、ブリッジ875と、外部バス876と、インターフェース877と、入力装置878と、出力装置879と、ストレージ880と、ドライブ881と、接続ポート882と、通信装置883と、を有する。なお、ここで示すハードウェア構成は一例であり、構成要素の一部が省略されてもよい。また、ここで示される構成要素以外の構成要素をさらに含んでもよい。
プロセッサ871は、例えば、演算処理装置又は制御装置として機能し、ROM872、RAM873、ストレージ880、又はリムーバブル記録媒体901に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。
ROM872は、プロセッサ871に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。RAM873には、例えば、プロセッサ871に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。
プロセッサ871、ROM872、RAM873は、例えば、高速なデータ伝送が可能なホストバス874を介して相互に接続される。一方、ホストバス874は、例えば、ブリッジ875を介して比較的データ伝送速度が低速な外部バス876に接続される。また、外部バス876は、インターフェース877を介して種々の構成要素と接続される。
入力装置878には、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、及びレバー等が用いられる。さらに、入力装置878としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ(以下、リモコン)が用いられることもある。また、入力装置878には、マイクロフォンなどの音声入力装置が含まれる。
出力装置879は、例えば、CRT(Cathode Ray Tube)、LCD、又は有機EL等のディスプレイ装置、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。また、本開示に係る出力装置879は、触覚刺激を出力することが可能な種々の振動デバイスを含む。
ストレージ880は、各種のデータを格納するための装置である。ストレージ880としては、例えば、ハードディスクドライブ(HDD)等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。
ドライブ881は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体901に記録された情報を読み出し、又はリムーバブル記録媒体901に情報を書き込む装置である。
リムーバブル記録媒体901は、例えば、DVDメディア、Blu-ray(登録商標)メディア、HD DVDメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記録媒体901は、例えば、非接触型ICチップを搭載したICカード、又は電子機器等であってもよい。
接続ポート882は、例えば、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)、RS-232Cポート、又は光オーディオ端子等のような外部接続機器902を接続するためのポートである。
外部接続機器902は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はICレコーダ等である。
通信装置883は、ネットワークに接続するための通信デバイスであり、例えば、有線又は無線LAN、Bluetooth(登録商標)、又はWUSB(Wireless USB)用の通信カード、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ、又は各種通信用のモデム等である。
以上説明したように、本開示の一実施形態に係る情報処理端末10は、ユーザの言動に基づいて、表示される視覚情報の中からユーザが所望する選択箇所を特定する特定部140を備える。また、本開示の一実施形態に係る特定部140は、ユーザの非言語動作と言語動作とに基づいて、上記選択箇所を特定すること、を特徴の一つとする。係る構成によれば、ユーザが所望する選択箇所をより精度高く特定することが可能となる。
(1)
ユーザの言動に基づいて、表示される視覚情報の中からユーザが所望する選択箇所を特定する特定部、
を備え、
前記特定部は、前記ユーザの非言語動作と言語動作とに基づいて、前記選択箇所を特定する、
情報処理装置。
(2)
前記非言語動作は、少なくとも前記ユーザの眼球運動を含み、
前記特定部は、前記ユーザの視線と前記言語動作とに基づいて、前記選択箇所を特定する、
前記(1)に記載の情報処理装置。
(3)
前記言語動作は、少なくとも前記ユーザの発話を含み、
前記特定部は、前記ユーザの視線と発話とに基づいて、前記選択箇所を特定する、
前記(2)に記載の情報処理装置。
(4)
前記特定部は、前記ユーザの視線または発話のいずれか一方に基づいて前記視覚情報の中から候補箇所を限定し、他方に基づいて前記候補箇所から前記選択箇所を特定する、
前記(3)に記載の情報処理装置。
(5)
前記特定部は、前記ユーザの視線に基づいて前記視覚情報の中から単一の前記候補箇所を限定し、前記ユーザの発話に基づいて、前記候補箇所の中から前記選択箇所を特定する、
前記(4)に記載の情報処理装置。
(6)
前記特定部は、前記ユーザの視線と視線認識に係る分解能とに基づいて定まる注視領域を前記候補箇所とする、
前記(5)に記載の情報処理装置。
(7)
前記特定部は、前記ユーザの発話から認識された文字列または意図に基づいて、前記候補箇所の中から前記選択箇所を特定する、
前記(5)または(6)に記載の情報処理装置。
(8)
前記視覚情報は、少なくとも文字列を含み、
前記特定部は、前記候補箇所に含まれる文字列と前記ユーザの発話から認識された文字列とのマッチングにより前記選択箇所を特定する、
前記(5)~(7)のいずれかに記載の情報処理装置。
(9)
前記視覚情報は、少なくとも画像を含み、
前記特定部は、前記候補箇所に含まれるオブジェクトのうち、前記ユーザの発話から認識された意図とマッチするオブジェクトを前記選択箇所として特定する、
前記(5)~(8)のいずれかに記載の情報処理装置。
(10)
前記視覚情報は、少なくとも波形データを含み、
前記特定部は、前記候補箇所に対応するメタデータと、前記ユーザの発話から認識された文字列または意図とのマッチングにより、前記選択箇所を特定する、
前記(5)~(9)のいずれかに記載の情報処理装置。
(11)
前記視覚情報の表示を制御する表示制御部、
をさらに備える、
前記(5)~(10)のいずれかに記載の情報処理装置。
(12)
前記表示制御部は、前記特定部が前記候補箇所に前記ユーザの発話から特定可能な対象が複数含まれると判定した場合、前記候補箇所を拡大して表示させる、
前記(11)に記載の情報処理装置。
(13)
前記表示制御部は、視線認識に係る分解能に基づいて、前記複数の対象が前記ユーザの視線により分離可能な倍率で前記候補箇所を拡大して表示させる、
前記(12)に記載の情報処理装置。
(14)
前記特定部は、拡大された前記候補箇所の中から前記ユーザの視線に基づいて第2の候補箇所を限定し、前記ユーザの発話に基づいて前記第2の候補箇所の中から前記選択箇所を特定する、
前記(13)に記載の情報処理装置。
(15)
前記表示制御部は、前記特定部が前記候補箇所に複数の対象が含まれると判定した場合、前記複数の対象のそれぞれに異なる発話ガイドを対応付けて表示させる、
前記(12)に記載の情報処理装置。
(16)
前記特定部は、前記ユーザの発話に対応する前記発話ガイドに対応付けられた前記対象を前記選択箇所として特定する、
前記(15)に記載の情報処理装置。
(17)
前記表示制御部は、前記ユーザのプロファイルに基づいて、前記視覚情報の表示態様を制御する、
前記(11)~(16)のいずれかに記載の情報処理装置。
(18)
前記ユーザのプロファイルは、少なくとも前記ユーザの視覚特性を含み、
前記表示制御部は、前記ユーザの視覚特性に応じた表示態様で前記視覚情報を表示させる、
前記(17)に記載の情報処理装置。
(19)
前記特定部は、前記ユーザの発話に基づいて前記視覚情報の中から複数の前記候補箇所を限定し、前記ユーザの視線に基づいて、複数の前記候補箇所の中から前記選択箇所を特定する、
前記(4)に記載の情報処理装置。
(20)
プロセッサが、ユーザの言動に基づいて、表示される視覚情報の中からユーザが所望する選択箇所を特定すること、
を含み、
前記特定することは、前記ユーザの非言語動作と言語動作とに基づいて、前記選択箇所を特定すること、
をさらに含む、
情報処理方法。
110 音入力部
120 撮影部
130 操作入力部
140 特定部
150 表示制御部
160 表示部
170 サーバ通信部
20 情報処理サーバ
210 音声認識部
220 自然言語処理部
230 画像認識部
240 視線認識部
250 端末通信部
Claims (14)
- ユーザの言動に基づいて、表示される視覚情報の中からユーザが所望する選択箇所を特定する特定部、
を備え、
前記特定部は、前記ユーザの非言語動作と言語動作とに基づいて、前記選択箇所を特定し、前記ユーザの視線と前記言語動作とに基づいて、前記選択箇所を特定し、前記ユーザの視線と発話とに基づいて、前記選択箇所を特定し、前記ユーザの視線または発話のいずれか一方に基づいて前記視覚情報の中から候補箇所を限定し、他方に基づいて前記候補箇所から前記選択箇所を特定し、前記ユーザの視線に基づいて前記視覚情報の中から単一の前記候補箇所を限定し、前記ユーザの発話に基づいて、前記候補箇所の中から前記選択箇所を特定し、
前記視覚情報の表示を制御する表示制御部、
をさらに備え
前記非言語動作は、少なくとも前記ユーザの眼球運動を含み、
前記言語動作は、少なくとも前記ユーザの発話を含み、
前記表示制御部は、前記特定部が限定した前記候補箇所に含まれている前記ユーザの発話から特定可能な対象を前記候補箇所から外れた位置に拡大して表示させる、
情報処理装置。 - 前記特定部は、前記ユーザの視線と視線認識に係る分解能とに基づいて定まる注視領域を前記候補箇所とする、
請求項1に記載の情報処理装置。 - 前記特定部は、前記ユーザの発話から認識された文字列または意図に基づいて、前記候補箇所の中から前記選択箇所を特定する、
請求項1に記載の情報処理装置。 - 前記視覚情報は、少なくとも文字列を含み、
前記特定部は、前記候補箇所に含まれる文字列と前記ユーザの発話から認識された文字列とのマッチングにより前記選択箇所を特定する、
請求項1に記載の情報処理装置。 - 前記視覚情報は、少なくとも画像を含み、
前記特定部は、前記候補箇所に含まれるオブジェクトのうち、前記ユーザの発話から認識された意図とマッチするオブジェクトを前記選択箇所として特定する、
請求項1に記載の情報処理装置。 - 前記視覚情報は、少なくとも波形データを含み、
前記特定部は、前記候補箇所に対応するメタデータと、前記ユーザの発話から認識された文字列または意図とのマッチングにより、前記選択箇所を特定する、
請求項1に記載の情報処理装置。 - 前記表示制御部は、視線認識に係る分解能に基づいて、複数の前記対象が前記ユーザの視線により分離可能な倍率で前記候補箇所を拡大して表示させる、
請求項1に記載の情報処理装置。 - 前記特定部は、拡大された前記候補箇所の中から前記ユーザの視線に基づいて第2の候補箇所を限定し、前記ユーザの発話に基づいて前記第2の候補箇所の中から前記選択箇所を特定する、
請求項7に記載の情報処理装置。 - 前記表示制御部は、前記特定部が前記候補箇所に複数の対象が含まれると判定した場合、前記複数の対象のそれぞれに異なる発話ガイドを対応付けて表示させる、
請求項1に記載の情報処理装置。 - 前記特定部は、前記ユーザの発話に対応する前記発話ガイドに対応付けられた前記対象を前記選択箇所として特定する、
請求項9に記載の情報処理装置。 - 前記表示制御部は、前記ユーザのプロファイルに基づいて、前記視覚情報の表示態様を制御する、
請求項1に記載の情報処理装置。 - 前記ユーザのプロファイルは、少なくとも前記ユーザの視覚特性を含み、
前記表示制御部は、前記ユーザの視覚特性に応じた表示態様で前記視覚情報を表示させる、
請求項11に記載の情報処理装置。 - 前記特定部は、前記ユーザの発話に基づいて前記視覚情報の中から複数の前記候補箇所を限定し、前記ユーザの視線に基づいて、複数の前記候補箇所の中から前記選択箇所を特定する、
請求項1に記載の情報処理装置。 - プロセッサが、ユーザの言動に基づいて、表示される視覚情報の中からユーザが所望する選択箇所を特定すること、
を含み、
前記特定することは、前記ユーザの眼球運動を含む非言語動作と前記ユーザの発話を含む言語動作とに基づいて、前記選択箇所を特定すること、前記ユーザの視線と前記言語動作とに基づいて、前記選択箇所を特定すること、前記ユーザの視線と発話とに基づいて、前記選択箇所を特定し、前記ユーザの視線または発話のいずれか一方に基づいて前記視覚情報の中から候補箇所を限定し、他方に基づいて前記候補箇所から前記選択箇所を特定すること、前記ユーザの視線に基づいて前記視覚情報の中から単一の前記候補箇所を限定し、前記ユーザの発話に基づいて、前記候補箇所の中から前記選択箇所を特定すること、
前記限定した前記候補箇所に含まれている前記ユーザの発話から特定可能な対象を前記候補箇所から外れた位置に拡大して表示させること
をさらに含む、
情報処理方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018226604 | 2018-12-03 | ||
JP2018226604 | 2018-12-03 | ||
PCT/JP2019/038071 WO2020116001A1 (ja) | 2018-12-03 | 2019-09-27 | 情報処理装置および情報処理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2020116001A1 JPWO2020116001A1 (ja) | 2021-10-14 |
JP7468360B2 true JP7468360B2 (ja) | 2024-04-16 |
Family
ID=70973589
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020559745A Active JP7468360B2 (ja) | 2018-12-03 | 2019-09-27 | 情報処理装置および情報処理方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11513768B2 (ja) |
JP (1) | JP7468360B2 (ja) |
WO (1) | WO2020116001A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7346375B2 (ja) * | 2020-10-22 | 2023-09-19 | キヤノン株式会社 | 電子機器及びその制御方法及びプログラム及び記録媒体 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000194532A (ja) | 1998-12-24 | 2000-07-14 | Casio Comput Co Ltd | オブジェクト選択処理装置、及び記憶媒体 |
JP2008225794A (ja) | 2007-03-12 | 2008-09-25 | Fujitsu Ltd | 情報表示方法、情報表示装置及び情報表示システム |
JP2009251658A (ja) | 2008-04-01 | 2009-10-29 | Fujifilm Corp | 携帯型電子装置及びその制御方法 |
WO2012133272A1 (ja) | 2011-03-25 | 2012-10-04 | 京セラ株式会社 | 電子機器 |
US20140337740A1 (en) | 2013-05-07 | 2014-11-13 | Samsung Electronics Co., Ltd. | Method and apparatus for selecting object |
JP2016218868A (ja) | 2015-05-22 | 2016-12-22 | 富士通株式会社 | 表示制御方法、情報処理装置及び表示制御プログラム |
JP2017174198A (ja) | 2016-03-24 | 2017-09-28 | Kddi株式会社 | 携帯端末、情報処理方法、及びプログラム |
JP2017183937A (ja) | 2016-03-29 | 2017-10-05 | 京セラドキュメントソリューションズ株式会社 | 文書読解支援システム |
JP2018515817A (ja) | 2015-03-20 | 2018-06-14 | フェイスブック,インク. | 視線追跡と音声認識とを組み合わせることにより制御を改善する方法 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005222103A (ja) | 2004-02-03 | 2005-08-18 | Dainippon Printing Co Ltd | 音声視線複合入力システム |
CN102195893B (zh) * | 2010-03-03 | 2014-03-05 | 腾讯科技(深圳)有限公司 | 网络平台互动的方法和*** |
US9823742B2 (en) * | 2012-05-18 | 2017-11-21 | Microsoft Technology Licensing, Llc | Interaction and management of devices using gaze detection |
JP2014203288A (ja) * | 2013-04-05 | 2014-10-27 | ソニー株式会社 | 情報処理装置、情報処理方法、及びプログラム |
JP6155821B2 (ja) * | 2013-05-08 | 2017-07-05 | ソニー株式会社 | 情報処理装置、情報処理方法、及びプログラム |
US10025378B2 (en) * | 2013-06-25 | 2018-07-17 | Microsoft Technology Licensing, Llc | Selecting user interface elements via position signal |
JP2015056141A (ja) * | 2013-09-13 | 2015-03-23 | ソニー株式会社 | 情報処理装置、および情報処理方法 |
JP6555272B2 (ja) * | 2014-11-12 | 2019-08-07 | 富士通株式会社 | ウェアラブルデバイス、表示制御方法、及び表示制御プログラム |
US10019987B2 (en) * | 2014-12-30 | 2018-07-10 | Paypal, Inc. | Audible proximity messaging |
KR20170014353A (ko) * | 2015-07-29 | 2017-02-08 | 삼성전자주식회사 | 음성 기반의 화면 내비게이션 장치 및 방법 |
CA3059234A1 (en) * | 2017-04-19 | 2018-10-25 | Magic Leap, Inc. | Multimodal task execution and text editing for a wearable system |
US11157073B2 (en) * | 2017-10-04 | 2021-10-26 | Tectus Corporation | Gaze calibration for eye-mounted displays |
US10831265B2 (en) * | 2018-04-20 | 2020-11-10 | Microsoft Technology Licensing, Llc | Systems and methods for gaze-informed target manipulation |
-
2019
- 2019-09-27 JP JP2020559745A patent/JP7468360B2/ja active Active
- 2019-09-27 US US17/290,775 patent/US11513768B2/en active Active
- 2019-09-27 WO PCT/JP2019/038071 patent/WO2020116001A1/ja active Application Filing
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000194532A (ja) | 1998-12-24 | 2000-07-14 | Casio Comput Co Ltd | オブジェクト選択処理装置、及び記憶媒体 |
JP2008225794A (ja) | 2007-03-12 | 2008-09-25 | Fujitsu Ltd | 情報表示方法、情報表示装置及び情報表示システム |
JP2009251658A (ja) | 2008-04-01 | 2009-10-29 | Fujifilm Corp | 携帯型電子装置及びその制御方法 |
WO2012133272A1 (ja) | 2011-03-25 | 2012-10-04 | 京セラ株式会社 | 電子機器 |
US20140337740A1 (en) | 2013-05-07 | 2014-11-13 | Samsung Electronics Co., Ltd. | Method and apparatus for selecting object |
JP2018515817A (ja) | 2015-03-20 | 2018-06-14 | フェイスブック,インク. | 視線追跡と音声認識とを組み合わせることにより制御を改善する方法 |
JP2016218868A (ja) | 2015-05-22 | 2016-12-22 | 富士通株式会社 | 表示制御方法、情報処理装置及び表示制御プログラム |
JP2017174198A (ja) | 2016-03-24 | 2017-09-28 | Kddi株式会社 | 携帯端末、情報処理方法、及びプログラム |
JP2017183937A (ja) | 2016-03-29 | 2017-10-05 | 京セラドキュメントソリューションズ株式会社 | 文書読解支援システム |
Also Published As
Publication number | Publication date |
---|---|
WO2020116001A1 (ja) | 2020-06-11 |
US11513768B2 (en) | 2022-11-29 |
JPWO2020116001A1 (ja) | 2021-10-14 |
US20210382685A1 (en) | 2021-12-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6635049B2 (ja) | 情報処理装置、情報処理方法およびプログラム | |
JP6392374B2 (ja) | ヘッドマウントディスプレイシステム及びヘッドマウントディスプレイ装置の操作方法 | |
US11317018B2 (en) | Camera operable using natural language commands | |
KR102193029B1 (ko) | 디스플레이 장치 및 그의 화상 통화 수행 방법 | |
JP2010067104A (ja) | デジタルフォトフレーム、情報処理システム、制御方法、プログラム及び情報記憶媒体 | |
JP2015018365A (ja) | 情報処理装置、情報処理方法およびプログラム | |
RU2684475C2 (ru) | Изменение визуального контента для содействия усовершенствованному распознаванию речи | |
WO2015059976A1 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
CN113678133A (zh) | 用于对话中断检测的具有全局和局部编码的上下文丰富的注意记忆网络的***和方法 | |
WO2016152200A1 (ja) | 情報処理システムおよび情報処理方法 | |
US11900931B2 (en) | Information processing apparatus and information processing method | |
JP6176041B2 (ja) | 情報処理装置及びプログラム | |
US20170068512A1 (en) | Electronic apparatus and information processing method thereof | |
WO2018105373A1 (ja) | 情報処理装置、情報処理方法、および情報処理システム | |
JPWO2016103809A1 (ja) | 情報処理装置、情報処理方法およびプログラム | |
JP7468360B2 (ja) | 情報処理装置および情報処理方法 | |
JP6798258B2 (ja) | 生成プログラム、生成装置、制御プログラム、制御方法、ロボット装置及び通話システム | |
JP6969576B2 (ja) | 情報処理装置、および情報処理方法 | |
US11978252B2 (en) | Communication system, display apparatus, and display control method | |
JP2017211430A (ja) | 情報処理装置および情報処理方法 | |
KR20220143622A (ko) | 전자 장치 및 그 제어 방법 | |
JPWO2018105373A1 (ja) | 情報処理装置、情報処理方法、および情報処理システム | |
US11935449B2 (en) | Information processing apparatus and information processing method | |
US20210082427A1 (en) | Information processing apparatus and information processing method | |
WO2020158218A1 (ja) | 情報処理装置、情報処理方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220907 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230704 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230824 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231031 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231225 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240305 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240318 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7468360 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |