JP7283384B2 - 情報処理端末、情報処理装置、および情報処理方法 - Google Patents

情報処理端末、情報処理装置、および情報処理方法 Download PDF

Info

Publication number
JP7283384B2
JP7283384B2 JP2019527272A JP2019527272A JP7283384B2 JP 7283384 B2 JP7283384 B2 JP 7283384B2 JP 2019527272 A JP2019527272 A JP 2019527272A JP 2019527272 A JP2019527272 A JP 2019527272A JP 7283384 B2 JP7283384 B2 JP 7283384B2
Authority
JP
Japan
Prior art keywords
user
content
information processing
information
processing terminal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019527272A
Other languages
English (en)
Other versions
JPWO2019098037A1 (ja
Inventor
真里 斎藤
亜由美 中川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Sony Group Corp
Original Assignee
Sony Corp
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp, Sony Group Corp filed Critical Sony Corp
Publication of JPWO2019098037A1 publication Critical patent/JPWO2019098037A1/ja
Application granted granted Critical
Publication of JP7283384B2 publication Critical patent/JP7283384B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/535Tracking the activity of the user
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/356Image reproducers having separate monoscopic and stereoscopic modes
    • H04N13/359Switching between monoscopic and stereoscopic modes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/366Image reproducers using viewer tracking
    • H04N13/383Image reproducers using viewer tracking for tracking with gaze detection, i.e. detecting the lines of sight of the viewer's eyes

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Child & Adolescent Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本技術は、情報処理端末、情報処理装置、および情報処理方法に関し、特に、ユーザの状態に応じた方法で情報を提示することができるようにした情報処理端末、情報処理装置、および情報処理方法に関する。
音声によって操作が可能な音声アシスタント機能を搭載したデバイスが注目されている。いわゆるスマートスピーカーと呼ばれるようなデバイスの中には、ディスプレイを搭載したものもある。
ユーザは、ある情報の提示を音声によって要求し、要求に応じて提示された情報を見たり、デバイス自身が能動的に提示する情報を見たりすることができる。
特許文献1には、コンテンツの再生中、表示画面に対するユーザの視線に基づいて、ユーザが注目しているオブジェクトを検出し、検出したオブジェクトに関連する情報を提示する技術が開示されている。
特開2015-46089号公報
特許文献1に開示されている技術の場合、ユーザがコンテンツを見ることに集中し続けている場合には効果的であると考えられる。しかしながら、実際のコンテンツの視聴の仕方としては、他の作業をしながら見たり、内容によって興味を持ったり興味をなくしたりしながらコンテンツを見たりすることが考えられる。
本技術はこのような状況に鑑みてなされたものであり、ユーザの状態に応じた方法で情報を提示することができるようにするものである。
本技術の一側面の情報処理端末は、コンテンツを構成する画像の切り替え表示が行われている間のユーザのアテンションの状態を推定する推定部と、前記ユーザのアテンションが前記コンテンツに向いているとき、前記画像の切り替えを停止させるとともに前記画像を表示している前記コンテンツに関する音声を出力させ、前記ユーザのアテンションが前記コンテンツに向いていないとき、前記コンテンツに関する音声を出力させずに前記画像の切り替えを継続させる提示制御部とを備える。
本技術の他の側面の情報処理装置は、ネットワークを介して接続される情報処理端末に対してコンテンツを送信し、前記情報処理端末から送信されてきた、前記コンテンツを構成する画像の切り替え表示が行われている間のユーザの状態を表す情報を受信する通信部と、前記ユーザのアテンションが前記コンテンツに向いているとき、前記画像の切り替えを停止させるとともに前記画像を表示している前記コンテンツに関する音声を出力させ、前記ユーザのアテンションが前記コンテンツに向いていないとき、前記コンテンツに関する音声を出力させずに前記画像の切り替えを継続させるように、前記コンテンツの提示方法を指定する提示制御情報を前記情報処理端末に送信する提示制御部とを備える。
本技術においては、コンテンツを構成する画像の切り替え表示が行われている間のユーザのアテンションの状態が推定され、前記ユーザのアテンションが前記コンテンツに向いているとき、前記画像の切り替えを停止させるとともに前記画像を表示している前記コンテンツに関する音声が出力される。また、前記ユーザのアテンションが前記コンテンツに向いていないとき、前記コンテンツに関する音声を出力させずに前記画像の切り替えが継続される
本技術によれば、ユーザの状態に応じた方法で情報を提示することができる。
なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。
本技術の一実施形態に係る情報処理システムの構成例を示す図である。 推薦コンテンツの提示の例を示す図である。 アテンションの状態に応じた推薦コンテンツの提示の例を示す図である。 アテンションの状態に応じた推薦コンテンツの提示の他の例を示す図である。 アテンションの状態と出力モーダルの関係を示す図である。 アテンションの状態に応じた推薦コンテンツの提示の他の例を示す図である。 ユーザの問い合わせに応じた情報検索結果の提示の例を示す図である。 ユーザの問い合わせに応じた情報検索結果の他の提示の例を示す図である。 情報処理端末のハードウェア構成例を示すブロック図である。 情報処理端末の機能構成例を示すブロック図である。 情報提示サーバのハードウェア構成例を示すブロック図である。 情報提示サーバの機能構成例を示すブロック図である。 情報処理端末の処理について説明するフローチャートである。 情報提示サーバの処理について説明するフローチャートである。 ユーザが複数人である場合の推薦コンテンツの提示の例を示す図である。 アテンションの状態に応じた推薦コンテンツの提示の例を示す図である。 情報提示サーバの他の機能構成例を示す図である。 情報処理端末の他の機能構成例を示す図である。
以下、本技術を実施するための形態について説明する。説明は以下の順序で行う。
1.情報処理システムにおける情報提示
2.各装置の構成
3.各装置の動作
4.変形例
5.その他の例
<情報処理システムにおける情報提示>
図1は、本技術の一実施形態に係る情報処理システムの構成例を示す図である。
図1の情報処理システムは、情報処理端末1と情報提示サーバ2がインターネット3を介して接続されることによって構成される。
情報処理端末1は、ユーザの行動を支援するための各種の処理をAI(Artificial Intelligence)を用いて行う、いわゆる音声アシスタントの機能を搭載した装置である。
情報処理端末1の機能は、例えば情報提示サーバ2と通信を行うことによって実現される。例えば、情報処理端末1と情報提示サーバ2により、ユーザが要求する情報を検索して提示する機能、ユーザのタスクを管理する機能、電子メールやSNS(Social Networking Service)のメッセージを送信する機能などの各種の機能が実現される。
情報処理端末1は、例えば、家庭内の所定の位置に設置される。情報処理端末1は、家庭内に設置されたルータ(図示せず)などを介してインターネット3に接続される。図1の例においては、情報処理端末1が設置型の装置とされているが、スマートフォン、タブレット端末、腕時計型のウェアラブルなどの携帯型の装置であってもよい。
情報処理端末1の操作は、主に音声UI(User Interface)によって行われる。情報処理端末1には、ユーザの発話音声を集音するためのマイク(マイクロホン)や、合成音声を出力することによってユーザに対して各種の情報を提示するためのスピーカが設けられる。
また、情報の提示は、画面UIによっても行われる。情報処理端末1には、プロジェクタやディスプレイなどの、各種の画面を表示するための画像表示デバイスが設けられている。
情報処理端末1は、ユーザと情報提示サーバ2の間のインタフェースとしての役割を有するデバイスである。
例えば、図1に示すように情報処理端末1の周りにいるユーザが発話を行った場合、ユーザの音声は情報処理端末1により検出され、音声データが情報処理端末1から情報提示サーバ2に送信される。
情報提示サーバ2においては、情報処理端末1から送信されてきた音声データに基づいて、音声認識、発話内容の意味解析などが行われる。例えば、ユーザが情報の検索を要求している場合、情報の検索が行われ、検索結果が、ユーザに提示する提示情報として取得される。情報提示サーバ2においては、例えば複数の提示情報が取得され、情報処理端末1に対して送信される。
情報提示サーバ2から送信された提示情報は、情報処理端末1により受信され、プロジェクタなどの画像表示デバイスにより、ユーザに提示される。
このように、ユーザは、例えば、情報の検索を音声によって要求することにより、検索結果を、情報処理端末1により表示された画面から確認することができる。
音声の出力や画面の表示を用いた情報の提示は、ユーザの要求に応じた情報を提示することのほかに、ユーザの要求によらずに情報提示サーバ2において取得された情報を能動的に提示することによっても行われる。
このように、情報提示サーバ2側(情報処理端末1側)からユーザに能動的に提示される情報を推薦コンテンツという。例えば、商品、サービス、映画や音楽などのコンテンツの広告が推薦コンテンツとしてユーザに提示される。
推薦コンテンツは、例えば、静止画や動画である画像、表示用のテキスト、および、TTS(Text-to-Speech)を行うことによって音声として出力するためのTTS用のテキストから構成される。TTS用のテキストに代えて、内容を解説する音声のデータが推薦コンテンツに含まれるようにしてもよい。
推薦コンテンツの提示は、情報処理端末1と情報提示サーバ2により実現されるものであるが、説明の便宜上、適宜、情報処理端末1が推薦コンテンツを提示するものとして説明する。
図1の例においては、情報処理端末1の近くの壁面に、画像Pを含む提示画面が投影され、推薦コンテンツの提示が行われている。画像Pは、推薦コンテンツに関する画像であり、図1の例においては建物が写っている。
また、推薦コンテンツの提示とともに、BGMとなる音楽が情報処理端末1から出力される。画像Pを含む推薦コンテンツは、インターネット3を介して情報提示サーバ2から取得されたものである。例えば、複数の推薦コンテンツが情報提示サーバ2から取得される。
なお、図1の例においては、画像Pの提示とBGMの出力のみが行われ、推薦コンテンツの内容を解説するナレーションの音声は出力されていない。
このように、情報処理端末1は、ユーザとの間でコミュニケーションをとっていない場合、ユーザの要求によらずに能動的に、推薦コンテンツの画像を投影したり、BGMを出力したりして空間を演出する機能を有する。
このような画面の表示を用いた推薦コンテンツの提示は、複数の推薦コンテンツの画像を所定の時間毎に順次切り替えて表示するスライドショー形式で行われる。推薦コンテンツの画像がスライドショー再生されている部屋の中で、ユーザは様々な作業を行うことになる。推薦コンテンツの提示が、複数の推薦コンテンツの画像を所定の時間毎に順次切り替えるスライドショー形式で行われるのではなく、動画像を表示することによって行われるようにしてもよい。
推薦コンテンツの画像のスライドショー再生が行われている間、ユーザのアテンションの状態が繰り返し検出される。ユーザのアテンションの状態に応じて、推薦コンテンツの提示方法が切り替えられる。
図2は、推薦コンテンツの提示の例を示す図である。
図2の破線矢印に示すように、ユーザが推薦コンテンツの画像を見ておらず、ユーザのアテンションが取れていない場合、推薦コンテンツの画像のスライドショー再生が継続される。所定時間毎に推薦コンテンツが切り替わり、それぞれの推薦コンテンツの画像が表示される。このとき、ナレーションの音声は出力されない。
ここで、ユーザのアテンションが取れている状態は、ユーザが推薦コンテンツに注目している状態を表す。ユーザが推薦コンテンツに注目しているか否かは、例えば、ユーザの視線の方向に基づいて特定される。
例えば、所定の時間以上、ユーザの視線が推薦コンテンツに向いていることが検出された場合、ユーザのアテンションが取れているとして判定される。ユーザが他の作業を行っている場合、提示画面以外の領域を見ている場合、あるいは移動しているような場合などにおいて、ユーザのアテンションが取れていない状態となる。
ユーザの場所、姿勢、体の向き、顔の向きなど、視線以外のユーザの状態に基づいて、アテンションが取れているか否かが判定されるようにしてもよい。このように、情報処理端末1は、カメラにより撮影された画像を解析することによってユーザの視線の方向を検出し、ユーザのアテンションの状態を検出する機能をも有する。
図3は、アテンションの状態に応じた推薦コンテンツの提示の例を示す図である。
図3の破線矢印に示すように、推薦コンテンツの画像Pを所定の時間以上見続けていることから、ユーザのアテンションが取れている場合、情報処理端末1は、推薦コンテンツの画像のスライドショー再生を停止し、ユーザが見ている推薦コンテンツに関する画像だけを表示させる。ユーザが見ている推薦コンテンツに関する画像が複数ある場合、その複数の画像が表示される。
また、情報処理端末1は、ユーザが見ている推薦コンテンツに関する画像の表示に合わせて、吹き出しに示すように、推薦コンテンツの内容に関するナレーションの音声を出力する。ナレーションの音声は、推薦コンテンツに含まれるTTS用のテキストに基づいて出力される。人の声を録音した音声データが推薦コンテンツに含まれており、ナレーションの音声が音声データに基づいて出力されるようにしてもよい。
さらに、情報処理端末1は、推薦コンテンツの画像Pに重ねて、推薦コンテンツの内容に関するテキストを表示させる。テキストの表示は、推薦コンテンツに含まれる表示用のテキストに基づいて行われる。
例えば、音声によって出力される内容とは異なる内容のテキストが、推薦コンテンツの画像Pに重ねて表示される。図3の例においては、「日帰りが可能な近さです!」の音声が出力されているのに対して、その内容と異なる、「新宿駅から2時間」のテキストが表示されている。
TTS用のテキストが表示用のテキストと同じであり、表示用のテキストで提示される内容と同じ内容の音声が出力されるとした場合、見て確認できる情報と同じ情報が音声でも提示されることになり、ユーザは、その音声に対して煩わしさを感じることがある。
TTS用のテキストが表示用のテキストと異なり、表示用のテキストで提示される内容と異なる内容の音声が出力されるようにすることにより、情報処理端末1は、そのような感覚をユーザに与えないで済む。
例えば、数値により表される定量的な情報である定量情報については、テキストによってユーザに提示され、ナレーションの音声によっては提示されない。ナレーションの音声は、例えば推薦コンテンツを修飾する形容詞、副詞系の文章を選ぶことによって構成される。
定量情報は、音声だけで提示されても理解しづらい情報である。定量情報がテキストで提示されることにより、ユーザは、提示された情報を効率的に理解することができる。
図3に示すような推薦コンテンツの提示は、ユーザのアテンションが取れている間、継続される。ユーザは、気になった推薦コンテンツに関する情報の詳細を、画像Pに重ねて表示されるテキストを読むことによって確認することができるとともに、ナレーションの音声を聞くことによって確認することができる。
図4は、アテンションの状態に応じた推薦コンテンツの提示の他の例を示す図である。
図4の破線矢印に示すように、推薦コンテンツの画像Pを短い時間だけ見ることをユーザが繰り返している場合(ちらちら見ている場合)、情報処理端末1は、推薦コンテンツの画像のスライドショー再生を継続させる。
また、情報処理端末1は、ユーザがちらちら見ていた推薦コンテンツの内容に関するナレーションの音声を出力させる。図4の例においては、「さらに足を延ばせば・・・」の音声が出力されている。
このように、ユーザが推薦コンテンツに興味を持っているものの、画像を集中して見ることができない状態にある場合、推薦コンテンツに関する情報が音声によって提示される。このとき、推薦コンテンツの画像に対するテキストの重畳表示は行われない。
これにより、ユーザは、興味のある推薦コンテンツに関する情報を、作業を続けながらナレーションの音声によって聞くことができる。
図5は、ユーザのアテンションの状態と推薦コンテンツの出力に用いられるモーダルの関係を示す図である。
上述したように、推薦コンテンツの出力モーダル(出力方式)には、画面表示と音声出力がある。
図5の上から2行目に示すように、ユーザのアテンションが取れていない場合、画面表示の出力モーダルを用いて、各推薦コンテンツの画像がスライドショー形式で表示される。このとき、推薦コンテンツの内容に関するナレーションの音声は出力されない。
上から3行目に示すように、ユーザのアテンションが取れている場合、画面表示の出力モーダルを用いて、ユーザが興味を持っている推薦コンテンツの画像が表示されるとともに、表示用のテキストが画像に重ねて表示される。また、音声出力の出力モーダルを用いて、推薦コンテンツの内容に関するナレーションの音声が出力される。
上から4行目に示すように、ユーザのアテンションが取れている時間が短い場合(ユーザのアテンションが間欠的に取れている場合)、画面表示の出力モーダルを用いて、各推薦コンテンツの画像がスライドショー形式で表示される。また、音声出力の出力モーダルを用いて、ユーザが興味を持っている推薦コンテンツの内容に関するナレーションの音声が出力される。このようにアテンションの継続時間が短い場合、推薦コンテンツの提示に用いる出力モーダルとして、ナレーションの音声の出力が優先される。ユーザが作業をしながら推薦コンテンツを見ていることが認識された場合も、ユーザのアテンションが取れている時間が短い場合と同様の処理が行われるようにしてもよい。
このように、推薦コンテンツの提示は、写真、絵、イラストなどの画像の出力を中心に構成され、ユーザのアテンションの状態に応じて、解説などの付帯情報の出力モーダルが切り替えられる。
このような画面表示と音声出力を用いた推薦コンテンツの提示は、ユーザのアテンションの状態に応じて動的に切り替えられる。ユーザのアテンションの状態が変化した場合、区切りが良い単位で出力モーダルが切り替えられる。ナレーションの音声の聞き逃しやテキストの見落としがないように、切り替えの前後の提示が重複されるようにしてもよい。
ユーザのアテンションの状態に応じた推薦コンテンツの提示は、情報処理端末1が推薦コンテンツを能動的に提示する場合だけでなく、ユーザによる要求に応じて推薦コンテンツを提示する場合にも行われる。
図6は、アテンションの状態に応じた推薦コンテンツの提示の他の例を示す図である。
例えば、推薦コンテンツの画像のスライドショー再生中に観光スポットの画像が表示され、図6の破線矢印に示すようにユーザがその画像を見て「近くの喫茶店を教えて。」と発話して問い合わせを行ったものとする。
このとき、情報処理端末1においては、ユーザのアテンションが取れているものとして判定される。また、ユーザの音声データが情報提示サーバ2に対して送信される。
情報提示サーバ2においては、ユーザの音声に基づいて、観光スポットの近くにある喫茶店の情報の検索が行われ、検索結果が情報処理端末1に対して送信される。
推薦コンテンツの画像を見続けているためにユーザのアテンションが取れている場合、情報処理端末1は、図7に示すように、ユーザの問い合わせに応じた情報を、画面表示の出力モーダルを用いて提示する。図7の例においては、ユーザにより指定された観光スポットの近くにある喫茶店の情報が検索結果として表示されている。
一方、ユーザによる問い合わせが、アテンションが取れていない状態で行われた場合、図8に示すように、ユーザの問い合わせに応じた情報が音声を用いて提示される。
図8の例においては、観光スポットの近くにある喫茶店の検索結果として、「○○○店と○○○ビル店と○○○店があります。どの店舗の情報を知りたいですか?」の音声が出力されている。
このように、情報処理端末1は、ユーザによる問い合わせに応じた情報を提示する場合にも、上述したようにユーザのアテンションの状態に応じて出力モーダルを切り替えて情報の提示を行う。
以上のようなユーザのアテンションの状態に応じた提示を行う情報処理端末1と情報提示サーバ2の処理についてはフローチャートを参照して後述する。
<各装置の構成>
・情報処理端末1の構成
図9は、情報処理端末1のハードウェア構成例を示すブロック図である。
CPU(Central Processing Unit)51、ROM(Read Only Memory)52、RAM(Random Access Memory)53は、バス54により相互に接続される。
CPU51は、所定のプログラムを実行し、情報処理端末1の全体の動作を制御する。
バス54には、マイク55、カメラ56、スピーカ57、ディスプレイ58、画像表示デバイス59、入力部60、記憶部61、および通信部62が接続される。
マイク55は、ユーザの発話音声を検出する。マイク55により検出された音声のデータは、通信部62に供給され、情報提示サーバ2に送信される。
カメラ56は、情報処理端末1の周りの様子を撮影し、撮影して得られた画像をCPU51に出力する。カメラ56により撮影された画像も、適宜、情報提示サーバ2に送信される。カメラ56により撮影された画像に基づいて各種の状況が特定される。
スピーカ57は、音声や、BGMなどの音楽を出力する。
ディスプレイ58は、LCD(Liquid Crystal Display)や有機EL(Electro Luminescence)ディスプレイなどにより構成される。ディスプレイ58は、メニュー画面、検索結果の画面などの各種の画面を表示する。
画像表示デバイス59は例えばプロジェクタである。画像表示デバイス59は、推薦コンテンツの提示画面などの各種の画面を壁面や床面などに投影する。
入力部60は、ディスプレイ58に重ねて設けられたタッチパネルや、情報処理端末1の筐体に設けられた各種のボタンにより構成される。入力部60は、ユーザによる操作を検出し、操作の内容を表す情報を出力する。
記憶部61は、不揮発性のメモリなどにより構成される。記憶部61は、CPU51が実行するプログラムなどの各種のデータを記憶する。
通信部62は、ネットワークインタフェースなどにより構成される。通信部62は、インターネット3を介して情報提示サーバ2と通信を行う。
加速度センサ、ジャイロセンサ、測位センサなどの各種のセンサが情報処理端末1に設けられるようにしてもよい。
図10は、情報処理端末1の機能構成例を示すブロック図である。図10に示す構成のうちの少なくとも一部は、図9のCPU51により所定のプログラムが実行されることによって実現される。
図10に示すように、情報処理端末1においては情報処理部71が実現される。情報処理部71は、ユーザ認識部81、ユーザ状態推定部82、ユーザ情報DB83、通信制御部84、および提示制御部85から構成される。
ユーザ認識部81は、カメラ56により撮影された画像を解析し、情報処理端末1の周りにいるユーザを検出(認識)する。また、ユーザ認識部81は、認識したユーザの視線の方向などを検出する。例えば、ユーザ情報DB83には、ユーザの認識、視線の方向の特定などに用いられる情報が記憶されている。ユーザ認識部81による処理は、適宜、ユーザ情報DB83に記憶されている情報に基づいて行われる。ユーザ認識部81は、認識したユーザの視線の方向を表す情報をユーザ状態推定部82に出力する。
アテンションが取れているか否かがユーザの場所、姿勢、体の向きなどに基づいて判定される場合、ユーザ認識部81においては、それらのユーザの状態がカメラ56により撮影された画像に基づいて特定される。ユーザ認識部81により特定されたユーザの状態を表す各種の情報がユーザ状態推定部82に供給される。
ユーザの状態がカメラ56により撮影された画像だけに基づいて特定されるのではなく、情報処理端末1に設けられた他のセンサにより検出された情報に基づいて特定されるようにしてもよい。また、ユーザが持っている携帯端末などの、情報処理端末1の外部の装置により検出された情報に基づいてユーザの状態が特定されるようにしてもよい。
ユーザ状態推定部82は、ユーザ情報DB83に記憶されている情報を適宜参照し、ユーザ認識部81により認識されたユーザのアテンションの状態を推定する。ユーザ状態推定部82により推定された、アテンションの状態の推定結果を表す情報は通信制御部84に供給される。
通信制御部84は、通信部62を制御し、情報提示サーバ2との間で通信を行う。例えば、通信制御部84は、ユーザ状態推定部82から供給された、アテンションの状態の推定結果を表す情報を情報提示サーバ2に送信する。アテンションの状態の推定結果を表す情報を受信した情報提示サーバ2からは、推薦コンテンツの提示方法を指定する提示制御情報が送信されてくる。
また、通信制御部84は、情報提示サーバ2から送信されてきた提示制御情報を受信し、提示制御部85に出力する。通信制御部84においては、情報提示サーバ2から送信されてきた推薦コンテンツの受信なども行われる。
提示制御部85は、スピーカ57および画像表示デバイス59を制御し、情報提示サーバ2から送信されてきた推薦コンテンツを提示させる。また、提示制御部85は、情報提示サーバ2から送信されてきた提示制御情報に従って出力モーダルを切り替えるなどして、推薦コンテンツの提示を制御する。
・情報提示サーバ2の構成
図11は、情報提示サーバ2のハードウェア構成例を示すブロック図である。
CPU101、ROM102、RAM103は、バス104により相互に接続されている。
バス104には、さらに、入出力インタフェース105が接続されている。入出力インタフェース105には、キーボード、マウスなどよりなる入力部106、ディスプレイ、スピーカなどよりなる出力部107が接続される。また、入出力インタフェース105には、ハードディスクや不揮発性のメモリなどよりなる記憶部108、ネットワークインタフェースなどよりなる通信部109、リムーバブルメディア111を駆動するドライブ110が接続される。
この例においては、情報提示サーバ2が1台のコンピュータにより構成されるものとしているが、複数のコンピュータにより構成されるようにしてもよい。複数のコンピュータが協働して処理を行うことにより、情報提示サーバ2の機能が実現される。
図12は、情報提示サーバ2の機能構成例を示すブロック図である。図12に示す構成のうちの少なくとも一部は、図11のCPU101により所定のプログラムが実行されることによって実現される。
図12に示すように、情報提示サーバ2においては情報処理部151が実現される。情報処理部151は、音声認識部161、意味解析部162、提示情報DB163、および提示方法制御部164から構成される。
なお、説明の便宜上、図12には、情報処理端末1の構成であるマイク55、スピーカ57、および画像表示デバイス59が示されている。ユーザが発話を行うことに応じてマイク55により検出され、情報処理端末1から送信されてきた音声データは、通信部109において受信され、音声認識部161に入力される。
また、提示方法制御部164が出力する推薦コンテンツと提示制御情報は、通信部109から情報処理端末1に対して送信され、スピーカ57において音声の再生に用いられるとともに、画像表示デバイス59において画面の表示に用いられる。
情報処理端末1において推定され、情報処理端末1から送信されてきたユーザのアテンションの状態を表す情報は、通信部109において受信され、提示方法制御部164に入力される。
音声認識部161は、ユーザの音声を認識し、認識結果を表す文字列を意味解析部162に出力する。
意味解析部162は、音声認識部161から供給された文字列に基づいて、ユーザの発話内容の意味を解析する。ユーザの発話の意味の解析結果を表す情報は提示方法制御部164に供給される。
提示方法制御部164は、推薦コンテンツを提示情報DB163から読み出して取得し、情報処理端末1に送信する。また、提示方法制御部164は、情報処理端末1から送信されてきた、ユーザのアテンションの状態を表す情報に基づいて、推薦コンテンツの提示方法を指定する提示制御情報を生成し、情報処理端末1に送信する。提示制御情報には、出力モーダルを指定する情報などが含まれる。
また、提示方法制御部164は、ユーザが情報の検索を要求している場合、意味解析部162による解析結果に基づいて、検索結果として提示する情報を提示情報DB163から読み出して取得する。
提示情報DB163には、ユーザに提示する各種の情報が記憶されている。ユーザに提示する情報が、インターネット3上の他のサーバや、ユーザの携帯端末などの他の装置から取得されるようにしてもよい。提示方法制御部164は、ユーザに提示する情報を情報処理端末1に送信する。
<各装置の動作>
ここで、情報処理端末1と情報提示サーバ2の動作について説明する。
・情報処理端末1の動作
はじめに、図13のフローチャートを参照して、情報処理端末1の処理について説明する。
図13の処理は、例えば、推薦コンテンツが情報提示サーバ2から送信されてきたときに開始される。通信部62において受信された推薦コンテンツは、通信制御部84により取得され、提示制御部85に供給される。
ステップS1において、提示制御部85は、画像表示デバイス59を制御し、情報提示サーバ2から送信されてきた推薦コンテンツを表示させる。ここでは、複数の推薦コンテンツの画像のスライドショー再生が行われる。
推薦コンテンツの画像のスライドショー再生が行われている間、カメラ56により撮影された画像に基づいて、ユーザ認識部81によりユーザが認識され、視線の方向が検出される。
ステップS2において、ユーザ状態推定部82は、ユーザ認識部81により検出された視線の方向を表す情報に基づいて、情報処理端末1の周りにいるユーザのアテンションの状態を推定する。
ステップS3において、通信制御部84は、アテンションの状態の推定結果を表す情報を情報提示サーバ2に送信する。アテンションの状態の推定結果を表す情報を情報提示サーバ2に送信することは、推薦コンテンツの画像のスライドショー再生が行われている間、繰り返し行われる。アテンションの状態の推定結果を表す情報を受信した情報提示サーバ2からは、推薦コンテンツの提示方法を指定する提示制御情報が送信されてくる。
ステップS4において、通信制御部84は、情報提示サーバ2から送信されてきた提示制御情報を受信する。
ステップS5において、提示制御部85は、提示制御情報に基づいて、推薦コンテンツの提示を制御する。提示制御部85による制御に従って、推薦コンテンツの提示が図5を参照して説明したそれぞれの出力モーダルを用いて行われる。
・情報提示サーバ2の動作
次に、図14のフローチャートを参照して、情報提示サーバ2の処理について説明する。
図14の処理は、ユーザのアテンションの状態の推定結果を表す情報が情報処理端末1から送信されてきたときに開始される。
ステップS11において、提示方法制御部164は、情報処理端末1から送信されてきたアテンションの状態の推定結果を表す情報を受信する。
ステップS12において、提示方法制御部164は、アテンションの状態の推定結果に基づいて、ユーザが他の作業に集中しているか否かを判定する。
他の作業に集中しているとステップS12において判定した場合、ステップS13において、提示方法制御部164は、提示制御情報を情報処理端末1に送信し、推薦コンテンツの画像のスライドショー再生を継続させる。情報処理端末1においては、推薦コンテンツの画像がスライドショー形式で提示され、ナレーションの音声は出力されない。
ユーザが他の作業に集中していないとステップS12において判定された場合、ステップS13の処理はスキップされる。例えば、推薦コンテンツの画像にユーザが短時間でも視線を向けている場合、他の作業に集中していないと判定される。
ステップS14において、提示方法制御部164は、ユーザのアテンションが取れているか否かを判定する。
アテンションが取れていないとステップS14において判定した場合、ステップS15において、提示方法制御部164は、ユーザに対して提示する必要のある、優先度の高い情報があるか否かを判定する。
優先度の高い情報がないとステップS15において判定された場合、ステップS13に戻り、同様の処理が繰り返される。
一方、ステップS14においてアテンションが取れていると判定した場合、ステップS16において、提示方法制御部164は、提示制御情報を情報処理端末1に送信し、ナレーション付きの画像とテキストを提示させる。
すなわち、情報処理端末1においては、推薦コンテンツの画像に重ねて表示用のテキストが表示されるとともに、ナレーションの音声が出力される。ここで出力される音声によっては、定量情報の提示は行われない。
ステップS15において優先度の高い情報があると判定された場合も同様に、ステップS16において、ナレーション付きの画像とテキストの提示が行われる。
このように、優先度の高い情報がある場合、ユーザの視線を推薦コンテンツの画像に向けさせ、アテンションをいわば強制的に取った上で情報を提示させるようにしてもよい。ナレーションの音声を出力してアテンションを強制的に取った場合、その後のユーザの反応がユーザ状態推定部82により推定される。
例えば、推薦コンテンツの画像の表示に動きが与えられ、ユーザの視線が動きに追従しているかどうかを検出することにより、ユーザの反応が推定される。ユーザの視線が推薦コンテンツの画像の動きに追従している場合、ユーザが推薦コンテンツを無視していないと推定され、追従していない場合、ユーザが推薦コンテンツを無視していると推定される。ユーザ状態推定部82による推定結果を表す情報は情報提示サーバ2に送信される。
ユーザ状態推定部82による推定結果を表す情報を受信した提示方法制御部164は、ユーザが推薦コンテンツをすぐに無視している場合、スライドショー再生を行う通常の状態に戻るように情報処理端末1における推薦コンテンツの提示を制御する。
ステップS17において、提示方法制御部164は、ユーザのアテンションが取れている状態が継続しているか否かを判定する。
アテンションが取れている状態が継続しているとステップS17において判定された場合、ステップS16に戻り、ナレーション付きの画像とテキストの提示が続けられる。
一方、アテンションが継続していないとステップS17において判定した場合、ステップS18において、提示方法制御部164は、提示制御情報を情報処理端末1に送信し、ナレーション優先で推薦コンテンツを提示させる。
情報処理端末1においては、推薦コンテンツの画像のスライドショー再生が継続されるとともに、推薦コンテンツの内容を解説するナレーションの音声が出力される。ここで出力される音声によって、定量情報がユーザに提示されるようにしてもよいし、提示されないようにしてもよい。
ステップS19において、提示方法制御部164は、ユーザのアテンションが取れているか否かを判定する。
アテンションが取れているとステップS19において判定した場合、提示方法制御部164は、ステップS17に戻り、推薦コンテンツの提示が、ユーザのアテンションの状態に応じて続けられる。
一方、ステップS19においてアテンションが取れていないと判定された場合、ステップS11に戻り、以上の処理が繰り返される。
以上の処理により、情報処理端末1は、ユーザのアテンションの状態に基づいて、推薦コンテンツを提示することができる。
<変形例>
推薦コンテンツの提示がユーザのアテンションの状態に基づいて制御されるものとしたが、ユーザの位置などの、ユーザの他の状態に基づいて制御されるようにしてもよい。
例えば、推薦コンテンツの画像を見ることができない位置にユーザがとどまっている場合、あるいは、そのような位置にユーザがとどまると予測される場合には、定量情報についても、例外的に、ナレーションの音声により推薦コンテンツの内容が提示されるようにしてもよい。この場合、音声を用いた定量情報の提示は、発話速度を遅くしたり、あるいは、発話を繰り返したりして行われる。
また、例えば、ナレーションの音声を聞きとりにくい場所にユーザがいたり、他の音の出力が行われたりしているような場合、例外的に、発話によって提示するような質的な情報についても、画面表示の出力モーダルを用いて提示されるようにしてもよい。
以上においては、推薦コンテンツを提示する対象となるユーザの人数が1人である場合について説明したが、複数人のユーザに対して情報を提示する場合にも、以上のような処理を適用することが可能である。
図15は、ユーザが複数人である場合の情報の提示の例を示す図である。
図15の例においては、推薦コンテンツの画像のスライドショー再生を行っている情報処理端末1の周りにユーザAとユーザBがいるものとする。ユーザAとユーザBはそれぞれ所定の作業を行っているユーザである。
なお、情報処理端末1が表示する画像Pには、推薦コンテンツC1乃至C3の画像が表示されている。推薦コンテンツC1乃至C3の画像は、例えば、左から右に移動するようにして表示される。このように、推薦コンテンツの画像を1つずつ順に切り替えて表示させるのではなく、複数の推薦コンテンツの画像の並びを一定の方向に移動させることによってスライドショー再生が行われるようにしてもよい。
図15の破線矢印に示すようにユーザAが推薦コンテンツC1の画像に視線を向けている場合、図16に示すように、画像Pが領域A1と領域A2に分割され、領域A2を用いて、ユーザAのアテンションの状態に応じた推薦コンテンツの提示が行われる。図15、図16の例においては、ユーザBは推薦コンテンツC1の画像に視線を向けていない。
図16の例においては、ユーザがアテンションを向けていた推薦コンテンツC1の画像が領域A2に拡大して表示される、推薦コンテンツC1の画像に重ねて、表示用のテキストが表示されている。また、推薦コンテンツC1の画像の表示に合わせて、吹き出しに示すように、推薦コンテンツC1の内容を解説するナレーションの音声が出力されている。
領域A1においては、推薦コンテンツの画像のスライドショー再生が続けられている。
このように、情報処理端末1が表示する画面が複数の領域に分割され、所定の領域を用いて、推薦コンテンツに視線を向けていたユーザのアテンションの状態に応じた提示が行われるようにしてもよい。
推薦コンテンツC1に視線を向けているユーザAが所持している携帯端末に対して推薦コンテンツC1の情報が送信されるといったように、アテンションが取れたユーザの端末に対して推薦コンテンツの詳細な情報が送信されるようにしてもよい。
この場合、画面表示と音声出力の出力モーダルに加えて、携帯端末に対する情報の送信といった出力モーダルを用いて推薦コンテンツの提示が行われることになる。
ユーザが作業に集中している度合いに応じて、音声の出力を用いて提示される推薦コンテンツの内容が制御されるようにしてもよい。例えば、作業に集中している度合い高くなるにつれ、BGMの出力、ブランド音の出力、ナレーションの音声の出力の順(BGM<ブランド音<ナレーション)に、出力内容が切り替えられる。
推薦コンテンツの画像をスライドショー形式で表示させる場合、表示開始時は、空間の色調の邪魔にならない色調の画像が表示され、ユーザのアテンションが取れたときに、ユーザに見せたい画像が表示されるようにしてもよい。
例えば、部屋の色調に合う色調の画像や、それまでに提示していた推薦コンテンツの画像の色調に合う色調の画像が、推薦コンテンツの画像の表示開始時に表示される。推薦コンテンツの画像に対して加工が施され、このような各色調の画像が生成されるようにしてもよい。
例えば、部屋の色調がピンク系の色調である場合、ピンク系の画像の生成に用いるためのフィルタが推薦コンテンツの画像に適用され、表示開始時のための画像が生成される。このようなフィルタ処理が施されることによって生成されたピンク系の画像の提示が行われている場合において、ユーザのアテンションが取れたとき、推薦コンテンツのオリジナルの画像が表示される。
<その他の例>
以上においては、推薦コンテンツを提示するための各処理が情報処理端末1と情報提示サーバ2により行われるものとしたが、上述した情報処理端末1の機能のうちの少なくとも一部の機能が情報提示サーバ2に搭載されるようにしてもよい。
この場合、図10に示す情報処理部71の機能部のうち少なくとも一部が情報提示サーバ2に設けられる。
図17は、情報提示サーバ2の他の機能構成例を示す図である。
図17に示す情報処理部151の構成は、ユーザ認識部81、ユーザ状態推定部82、およびユーザ情報DB83が追加して設けられている点で、図12を参照して説明した構成と異なる。図17に示す例の場合、ユーザの認識、およびユーザのアテンションの状態の推定が、情報処理端末1から送信されてきた情報(カメラ56により撮影された画像)に基づいて、情報提示サーバ2において行われることになる。
図18は、情報処理端末1の他の機能構成例を示す図である。
図18に示す情報処理部71の構成は、音声認識部161、意味解析部162、提示情報DB163、および提示方法制御部164が追加して設けられている点で、図10を参照して説明した構成と異なる。図18に示す例の場合、音声認識、発話内容の意味解析、提示方法の制御が、情報処理端末1自身により行われることになる。
このように、情報処理部71と情報処理部151の構成のうちのどの構成が情報処理端末1側と情報提示サーバ2側にそれぞれ設けられるようにするのかは任意に選択可能である。
上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。
インストールされるプログラムは、光ディスク(CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等)や半導体メモリなどよりなる図11に示されるリムーバブルメディア111に記録して提供される。また、ローカルエリアネットワーク、インターネット、デジタル放送といった、有線または無線の伝送媒体を介して提供されるようにしてもよい。プログラムは、ROM102や記憶部108に、あらかじめインストールしておくことができる。
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。
本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
・構成の組み合わせ例
本技術は、以下のような構成をとることもできる。
(1)
ユーザのアテンションの状態を推定する推定部と、
前記ユーザのアテンションの状態に応じて、前記ユーザに提示するコンテンツの出力モーダルを切り替える提示制御部と
を備える情報処理端末。
(2)
前記提示制御部は、画面の表示と音声の出力とのうちの少なくともいずれかを前記出力モーダルとして用いて、前記コンテンツを出力させる
前記(1)に記載の情報処理端末。
(3)
前記提示制御部は、前記コンテンツに関する画像を表示させている場合において、前記ユーザのアテンションが前記コンテンツに向いているとき、前記画像の表示を継続させるとともに、前記コンテンツに関する音声を出力させる
前記(2)に記載の情報処理端末。
(4)
前記提示制御部は、さらに、前記コンテンツに関するテキストを前記画像とともに表示させる
前記(3)に記載の情報処理端末。
(5)
前記提示制御部は、前記画像とともに表示させる前記テキストとは異なる他のテキストの音声合成を行って得られた前記音声を出力させる
前記(4)に記載の情報処理端末。
(6)
前記提示制御部は、前記コンテンツに関する定量情報を、前記テキストによって前記ユーザに提示する
前記(5)に記載の情報処理端末。
(7)
前記推定部は、前記ユーザの視線が、所定の時間以上、前記画像に向いている場合、前記ユーザのアテンションが前記コンテンツに向いているとして推定する
前記(3)乃至(6)のいずれかに記載の情報処理端末。
(8)
前記提示制御部は、前記コンテンツに関する画像を表示させている場合において、前記ユーザのアテンションが間欠的に前記コンテンツに向いているとき、前記コンテンツに関する音声を出力させる
前記(2)乃至(7)のいずれかに記載の情報処理端末。
(9)
前記提示制御部は、複数の前記コンテンツに関する複数の画像を順に表示させ、前記ユーザのアテンションが前記コンテンツに向いていないとき、複数の前記画像の表示を継続させる
前記(2)乃至(8)のいずれかに記載の情報処理端末。
(10)
前記提示制御部は、前記ユーザに提示する必要がある所定の情報を出力する場合、前記所定の情報に関する音声を出力させる
前記(9)に記載の情報処理端末。
(11)
情報処理端末が、
ユーザのアテンションの状態を推定し、
前記ユーザのアテンションの状態に応じて、前記ユーザに提示するコンテンツの出力モーダルを切り替える
情報処理方法。
(12)
ネットワークを介して接続される情報処理端末に対してコンテンツを送信し、前記情報処理端末から送信されてきた、前記コンテンツの提示が行われている間のユーザの状態を表す情報を受信する通信部と、
前記コンテンツに対する前記ユーザのアテンションの状態に応じた、前記コンテンツの提示方法を指定する提示制御情報を前記情報処理端末に送信して、前記情報処理端末における前記コンテンツの出力モーダルを制御する提示制御部と
を備える情報処理装置。
(13)
情報処理装置が、
ネットワークを介して接続される情報処理端末に対してコンテンツを送信し、
前記情報処理端末から送信されてきた、前記コンテンツの提示が行われている間のユーザの状態を表す情報を受信し、
前記コンテンツに対する前記ユーザのアテンションの状態に応じた、前記コンテンツの提示方法を指定する提示制御情報を前記情報処理端末に送信して、前記情報処理端末における前記コンテンツの出力モーダルを制御する
情報処理方法。
1 情報処理端末, 2 情報提示サーバ, 51 CPU, 55 マイク, 56 カメラ, 57 スピーカ, 58 ディスプレイ, 59 画像表示デバイス, 71 情報処理部, 81 ユーザ認識部, 82 ユーザ状態推定部, 83 ユーザ情報DB, 84 通信制御部, 85 提示制御部, 151 情報処理部, 161 音声認識部, 162 意味解析部, 163 提示情報DB, 164 提示方法制御部

Claims (10)

  1. コンテンツを構成する画像の切り替え表示が行われている間のユーザのアテンションの状態を推定する推定部と、
    前記ユーザのアテンションが前記コンテンツに向いているとき、前記画像の切り替えを停止させるとともに前記画像を表示している前記コンテンツに関する音声を出力させ、前記ユーザのアテンションが前記コンテンツに向いていないとき、前記コンテンツに関する音声を出力させずに前記画像の切り替えを継続させる提示制御部と
    を備える情報処理端末。
  2. 前記提示制御部は、前記ユーザのアテンションが前記コンテンツに向いているとき、さらに、前記コンテンツに関するテキストを前記画像とともに表示させる
    請求項に記載の情報処理端末。
  3. 前記提示制御部は、前記画像とともに表示させる前記テキストとは異なる他のテキストの音声合成を行って得られた音声を出力させる
    請求項に記載の情報処理端末。
  4. 前記提示制御部は、前記コンテンツに関する定量情報を、前記テキストによって前記ユーザに提示する
    請求項に記載の情報処理端末。
  5. 前記推定部は、前記ユーザの視線が、所定の時間以上、前記画像に向いている場合、前記ユーザのアテンションが前記コンテンツに向いているとして推定する
    請求項1乃至4のいずれかに記載の情報処理端末。
  6. 前記提示制御部は前記ユーザのアテンションが間欠的に前記コンテンツに向いているとき、前記コンテンツに関する音声を出力させるとともに前記画像の切り替えを継続させる
    請求項1乃至5のいずれかに記載の情報処理端末。
  7. 前記提示制御部は、前記ユーザに提示する必要がある所定の情報を出力する場合、前記所定の情報に関する音声を出力させる
    請求項1乃至6のいずれかに記載の情報処理端末。
  8. 情報処理端末が、
    コンテンツを構成する画像の切り替え表示が行われている間のユーザのアテンションの状態を推定し、
    前記ユーザのアテンションが前記コンテンツに向いているとき、前記画像の切り替えを停止させるとともに前記画像を表示している前記コンテンツに関する音声を出力させ、
    前記ユーザのアテンションが前記コンテンツに向いていないとき、前記コンテンツに関する音声を出力させずに前記画像の切り替えを継続させる
    情報処理方法。
  9. ネットワークを介して接続される情報処理端末に対してコンテンツを送信し、前記情報処理端末から送信されてきた、前記コンテンツを構成する画像の切り替え表示が行われている間のユーザの状態を表す情報を受信する通信部と、
    前記ユーザのアテンションが前記コンテンツに向いているとき、前記画像の切り替えを停止させるとともに前記画像を表示している前記コンテンツに関する音声を出力させ、前記ユーザのアテンションが前記コンテンツに向いていないとき、前記コンテンツに関する音声を出力させずに前記画像の切り替えを継続させるように、前記コンテンツの提示方法を指定する提示制御情報を前記情報処理端末に送信する提示制御部と
    を備える情報処理装置。
  10. 情報処理装置が、
    ネットワークを介して接続される情報処理端末に対してコンテンツを送信し、
    前記情報処理端末から送信されてきた、前記コンテンツを構成する画像の切り替え表示が行われている間のユーザの状態を表す情報を受信し、
    前記ユーザのアテンションが前記コンテンツに向いているとき、前記画像の切り替えを停止させるとともに前記画像を表示している前記コンテンツに関する音声を出力させ、前記ユーザのアテンションが前記コンテンツに向いていないとき、前記コンテンツに関する音声を出力させずに前記画像の切り替えを継続させるように、前記コンテンツの提示方法を指定する提示制御情報を前記情報処理端末に送信する
    情報処理方法。
JP2019527272A 2017-11-15 2018-11-01 情報処理端末、情報処理装置、および情報処理方法 Active JP7283384B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2017219984 2017-11-15
JP2017219984 2017-11-15
PCT/JP2018/040662 WO2019098037A1 (ja) 2017-11-15 2018-11-01 情報処理端末、情報処理装置、および情報処理方法

Publications (2)

Publication Number Publication Date
JPWO2019098037A1 JPWO2019098037A1 (ja) 2020-10-01
JP7283384B2 true JP7283384B2 (ja) 2023-05-30

Family

ID=66539020

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019527272A Active JP7283384B2 (ja) 2017-11-15 2018-11-01 情報処理端末、情報処理装置、および情報処理方法

Country Status (4)

Country Link
US (1) US11120797B2 (ja)
EP (1) EP3570141A4 (ja)
JP (1) JP7283384B2 (ja)
WO (1) WO2019098037A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11244682B2 (en) * 2017-07-26 2022-02-08 Sony Corporation Information processing device and information processing method
JPWO2020116193A1 (ja) * 2018-12-07 2020-06-11
KR20210068901A (ko) 2019-12-02 2021-06-10 삼성전자주식회사 음성 기반 인터페이스를 제공하는 전자 장치 및 그의 제어 방법
JP2022084116A (ja) * 2020-11-26 2022-06-07 キヤノン株式会社 画像処理装置およびその制御方法、撮像装置、プログラム
KR20220128868A (ko) * 2021-03-15 2022-09-22 삼성전자주식회사 대체 컨텐츠를 제공하는 전자 장치 및 그의 동작 방법
US11984112B2 (en) * 2021-04-29 2024-05-14 Rovi Guides, Inc. Systems and methods to alter voice interactions
JP2024002167A (ja) * 2022-06-23 2024-01-11 ソニーグループ株式会社 情報処理装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009545051A (ja) 2006-07-28 2009-12-17 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 注視された商品の情報表示のための注視インタラクション
JP2012022589A (ja) 2010-07-16 2012-02-02 Hitachi Ltd 商品選択支援方法
JP2015045733A (ja) 2013-08-28 2015-03-12 株式会社リコー 画像表示装置、画像表示制御方法及び画像表示制御プログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7284201B2 (en) * 2001-09-20 2007-10-16 Koninklijke Philips Electronics N.V. User attention-based adaptation of quality level to improve the management of real-time multi-media content delivery and distribution
US8292433B2 (en) * 2003-03-21 2012-10-23 Queen's University At Kingston Method and apparatus for communication between humans and devices
US9030536B2 (en) * 2010-06-04 2015-05-12 At&T Intellectual Property I, Lp Apparatus and method for presenting media content
WO2012160566A1 (en) * 2011-05-23 2012-11-29 Hewlett-Packard Development Company, L.P. Multimodal interactions based on body postures
US10120438B2 (en) * 2011-05-25 2018-11-06 Sony Interactive Entertainment Inc. Eye gaze to alter device behavior
US9426242B2 (en) * 2013-01-29 2016-08-23 Apple Inc. Determining an invitational content item type based on predicted user attention
JP2015046089A (ja) 2013-08-29 2015-03-12 ソニー株式会社 情報処理装置および情報処理方法
US9958939B2 (en) * 2013-10-31 2018-05-01 Sync-Think, Inc. System and method for dynamic content delivery based on gaze analytics

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009545051A (ja) 2006-07-28 2009-12-17 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 注視された商品の情報表示のための注視インタラクション
JP2012022589A (ja) 2010-07-16 2012-02-02 Hitachi Ltd 商品選択支援方法
JP2015045733A (ja) 2013-08-28 2015-03-12 株式会社リコー 画像表示装置、画像表示制御方法及び画像表示制御プログラム

Also Published As

Publication number Publication date
EP3570141A1 (en) 2019-11-20
US11120797B2 (en) 2021-09-14
WO2019098037A1 (ja) 2019-05-23
EP3570141A4 (en) 2020-03-11
US20190348043A1 (en) 2019-11-14
JPWO2019098037A1 (ja) 2020-10-01

Similar Documents

Publication Publication Date Title
JP7283384B2 (ja) 情報処理端末、情報処理装置、および情報処理方法
US11114091B2 (en) Method and system for processing audio communications over a network
JP2020021025A (ja) 情報処理装置、情報処理方法及びプログラム
JPWO2018055898A1 (ja) 情報処理装置、及び情報処理方法
JP2010034695A (ja) 音声応答装置及び方法
JPWO2018034077A1 (ja) 情報処理装置、情報処理方法、及びプログラム
WO2019026360A1 (ja) 情報処理装置および情報処理方法
US11275554B2 (en) Information processing apparatus, information processing method, and program
KR102506604B1 (ko) 발화 영상 제공 방법 및 이를 수행하기 위한 컴퓨팅 장치
Martelaro et al. Using remote controlled speech agents to explore music experience in context
WO2018020828A1 (ja) 翻訳装置および翻訳システム
JP2016189121A (ja) 情報処理装置、情報処理方法およびプログラム
US11216242B2 (en) Audio output system, audio output method, and computer program product
JP7230803B2 (ja) 情報処理装置および情報処理方法
US11081100B2 (en) Sound processing device and method
JP2001249924A (ja) 対話型自動説明装置および対話型自動説明方法およびこの方法の実行プログラムを記録した記録媒体
US20230362571A1 (en) Information processing device, information processing terminal, information processing method, and program
WO2019026395A1 (ja) 情報処理装置、情報処理方法、およびプログラム
JP6627315B2 (ja) 情報処理装置、情報処理方法、および制御プログラム
WO2019146199A1 (ja) 情報処理装置、及び情報処理方法
KR20190101591A (ko) 모바일 장치, 이를 포함하는 오디오 북 제작 시스템 및 이를 이용하는 오디오 북 제작 방법
JP7279861B2 (ja) 送信装置、コミュニケーション方法、及びプログラム
KR100596001B1 (ko) 사용자 단말기에 소정의 콘텐츠를 제공하기 위한 방법 및그 시스템
WO2023281820A1 (ja) 情報処理装置、情報処理方法、記憶媒体
WO2017183127A1 (ja) 表示装置、出力装置、および情報表示方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210913

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221101

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221213

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230418

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230501

R151 Written notification of patent or utility model registration

Ref document number: 7283384

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151