JP7283384B2

JP7283384B2 - 情報処理端末、情報処理装置、および情報処理方法

Info

Publication number: JP7283384B2
Application number: JP2019527272A
Authority: JP
Inventors: 真里斎藤; 亜由美中川
Original assignee: Sony Corp; Sony Group Corp
Current assignee: Sony Corp; Sony Group Corp
Priority date: 2017-11-15
Filing date: 2018-11-01
Publication date: 2023-05-30
Anticipated expiration: 2038-11-01
Also published as: EP3570141A1; US11120797B2; WO2019098037A1; EP3570141A4; US20190348043A1; JPWO2019098037A1

Description

本技術は、情報処理端末、情報処理装置、および情報処理方法に関し、特に、ユーザの状態に応じた方法で情報を提示することができるようにした情報処理端末、情報処理装置、および情報処理方法に関する。

音声によって操作が可能な音声アシスタント機能を搭載したデバイスが注目されている。いわゆるスマートスピーカーと呼ばれるようなデバイスの中には、ディスプレイを搭載したものもある。

ユーザは、ある情報の提示を音声によって要求し、要求に応じて提示された情報を見たり、デバイス自身が能動的に提示する情報を見たりすることができる。

特許文献１には、コンテンツの再生中、表示画面に対するユーザの視線に基づいて、ユーザが注目しているオブジェクトを検出し、検出したオブジェクトに関連する情報を提示する技術が開示されている。

特開２０１５－４６０８９号公報

特許文献１に開示されている技術の場合、ユーザがコンテンツを見ることに集中し続けている場合には効果的であると考えられる。しかしながら、実際のコンテンツの視聴の仕方としては、他の作業をしながら見たり、内容によって興味を持ったり興味をなくしたりしながらコンテンツを見たりすることが考えられる。

本技術はこのような状況に鑑みてなされたものであり、ユーザの状態に応じた方法で情報を提示することができるようにするものである。

本技術の一側面の情報処理端末は、コンテンツを構成する画像の切り替え表示が行われている間のユーザのアテンションの状態を推定する推定部と、前記ユーザのアテンションが前記コンテンツに向いているとき、前記画像の切り替えを停止させるとともに前記画像を表示している前記コンテンツに関する音声を出力させ、前記ユーザのアテンションが前記コンテンツに向いていないとき、前記コンテンツに関する音声を出力させずに前記画像の切り替えを継続させる提示制御部とを備える。

本技術の他の側面の情報処理装置は、ネットワークを介して接続される情報処理端末に対してコンテンツを送信し、前記情報処理端末から送信されてきた、前記コンテンツを構成する画像の切り替え表示が行われている間のユーザの状態を表す情報を受信する通信部と、前記ユーザのアテンションが前記コンテンツに向いているとき、前記画像の切り替えを停止させるとともに前記画像を表示している前記コンテンツに関する音声を出力させ、前記ユーザのアテンションが前記コンテンツに向いていないとき、前記コンテンツに関する音声を出力させずに前記画像の切り替えを継続させるように、前記コンテンツの提示方法を指定する提示制御情報を前記情報処理端末に送信する提示制御部とを備える。

本技術においては、コンテンツを構成する画像の切り替え表示が行われている間のユーザのアテンションの状態が推定され、前記ユーザのアテンションが前記コンテンツに向いているとき、前記画像の切り替えを停止させるとともに前記画像を表示している前記コンテンツに関する音声が出力される。また、前記ユーザのアテンションが前記コンテンツに向いていないとき、前記コンテンツに関する音声を出力させずに前記画像の切り替えが継続される。

本技術によれば、ユーザの状態に応じた方法で情報を提示することができる。

なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。

本技術の一実施形態に係る情報処理システムの構成例を示す図である。推薦コンテンツの提示の例を示す図である。アテンションの状態に応じた推薦コンテンツの提示の例を示す図である。アテンションの状態に応じた推薦コンテンツの提示の他の例を示す図である。アテンションの状態と出力モーダルの関係を示す図である。アテンションの状態に応じた推薦コンテンツの提示の他の例を示す図である。ユーザの問い合わせに応じた情報検索結果の提示の例を示す図である。ユーザの問い合わせに応じた情報検索結果の他の提示の例を示す図である。情報処理端末のハードウェア構成例を示すブロック図である。情報処理端末の機能構成例を示すブロック図である。情報提示サーバのハードウェア構成例を示すブロック図である。情報提示サーバの機能構成例を示すブロック図である。情報処理端末の処理について説明するフローチャートである。情報提示サーバの処理について説明するフローチャートである。ユーザが複数人である場合の推薦コンテンツの提示の例を示す図である。アテンションの状態に応じた推薦コンテンツの提示の例を示す図である。情報提示サーバの他の機能構成例を示す図である。情報処理端末の他の機能構成例を示す図である。

以下、本技術を実施するための形態について説明する。説明は以下の順序で行う。
１．情報処理システムにおける情報提示
２．各装置の構成
３．各装置の動作
４．変形例
５．その他の例

＜情報処理システムにおける情報提示＞
図１は、本技術の一実施形態に係る情報処理システムの構成例を示す図である。

図１の情報処理システムは、情報処理端末１と情報提示サーバ２がインターネット３を介して接続されることによって構成される。

情報処理端末１は、ユーザの行動を支援するための各種の処理をAI（Artificial Intelligence）を用いて行う、いわゆる音声アシスタントの機能を搭載した装置である。

情報処理端末１の機能は、例えば情報提示サーバ２と通信を行うことによって実現される。例えば、情報処理端末１と情報提示サーバ２により、ユーザが要求する情報を検索して提示する機能、ユーザのタスクを管理する機能、電子メールやSNS（Social Networking Service）のメッセージを送信する機能などの各種の機能が実現される。

情報処理端末１は、例えば、家庭内の所定の位置に設置される。情報処理端末１は、家庭内に設置されたルータ（図示せず）などを介してインターネット３に接続される。図１の例においては、情報処理端末１が設置型の装置とされているが、スマートフォン、タブレット端末、腕時計型のウェアラブルなどの携帯型の装置であってもよい。

情報処理端末１の操作は、主に音声UI（User Interface）によって行われる。情報処理端末１には、ユーザの発話音声を集音するためのマイク（マイクロホン）や、合成音声を出力することによってユーザに対して各種の情報を提示するためのスピーカが設けられる。

また、情報の提示は、画面UIによっても行われる。情報処理端末１には、プロジェクタやディスプレイなどの、各種の画面を表示するための画像表示デバイスが設けられている。

情報処理端末１は、ユーザと情報提示サーバ２の間のインタフェースとしての役割を有するデバイスである。

例えば、図１に示すように情報処理端末１の周りにいるユーザが発話を行った場合、ユーザの音声は情報処理端末１により検出され、音声データが情報処理端末１から情報提示サーバ２に送信される。

情報提示サーバ２においては、情報処理端末１から送信されてきた音声データに基づいて、音声認識、発話内容の意味解析などが行われる。例えば、ユーザが情報の検索を要求している場合、情報の検索が行われ、検索結果が、ユーザに提示する提示情報として取得される。情報提示サーバ２においては、例えば複数の提示情報が取得され、情報処理端末１に対して送信される。

情報提示サーバ２から送信された提示情報は、情報処理端末１により受信され、プロジェクタなどの画像表示デバイスにより、ユーザに提示される。

このように、ユーザは、例えば、情報の検索を音声によって要求することにより、検索結果を、情報処理端末１により表示された画面から確認することができる。

音声の出力や画面の表示を用いた情報の提示は、ユーザの要求に応じた情報を提示することのほかに、ユーザの要求によらずに情報提示サーバ２において取得された情報を能動的に提示することによっても行われる。

このように、情報提示サーバ２側（情報処理端末１側）からユーザに能動的に提示される情報を推薦コンテンツという。例えば、商品、サービス、映画や音楽などのコンテンツの広告が推薦コンテンツとしてユーザに提示される。

推薦コンテンツは、例えば、静止画や動画である画像、表示用のテキスト、および、TTS(Text-to-Speech)を行うことによって音声として出力するためのTTS用のテキストから構成される。TTS用のテキストに代えて、内容を解説する音声のデータが推薦コンテンツに含まれるようにしてもよい。

推薦コンテンツの提示は、情報処理端末１と情報提示サーバ２により実現されるものであるが、説明の便宜上、適宜、情報処理端末１が推薦コンテンツを提示するものとして説明する。

図１の例においては、情報処理端末１の近くの壁面に、画像Ｐを含む提示画面が投影され、推薦コンテンツの提示が行われている。画像Ｐは、推薦コンテンツに関する画像であり、図１の例においては建物が写っている。

また、推薦コンテンツの提示とともに、BGMとなる音楽が情報処理端末１から出力される。画像Ｐを含む推薦コンテンツは、インターネット３を介して情報提示サーバ２から取得されたものである。例えば、複数の推薦コンテンツが情報提示サーバ２から取得される。

なお、図１の例においては、画像Ｐの提示とBGMの出力のみが行われ、推薦コンテンツの内容を解説するナレーションの音声は出力されていない。

このように、情報処理端末１は、ユーザとの間でコミュニケーションをとっていない場合、ユーザの要求によらずに能動的に、推薦コンテンツの画像を投影したり、BGMを出力したりして空間を演出する機能を有する。

このような画面の表示を用いた推薦コンテンツの提示は、複数の推薦コンテンツの画像を所定の時間毎に順次切り替えて表示するスライドショー形式で行われる。推薦コンテンツの画像がスライドショー再生されている部屋の中で、ユーザは様々な作業を行うことになる。推薦コンテンツの提示が、複数の推薦コンテンツの画像を所定の時間毎に順次切り替えるスライドショー形式で行われるのではなく、動画像を表示することによって行われるようにしてもよい。

推薦コンテンツの画像のスライドショー再生が行われている間、ユーザのアテンションの状態が繰り返し検出される。ユーザのアテンションの状態に応じて、推薦コンテンツの提示方法が切り替えられる。

図２は、推薦コンテンツの提示の例を示す図である。

図２の破線矢印に示すように、ユーザが推薦コンテンツの画像を見ておらず、ユーザのアテンションが取れていない場合、推薦コンテンツの画像のスライドショー再生が継続される。所定時間毎に推薦コンテンツが切り替わり、それぞれの推薦コンテンツの画像が表示される。このとき、ナレーションの音声は出力されない。

ここで、ユーザのアテンションが取れている状態は、ユーザが推薦コンテンツに注目している状態を表す。ユーザが推薦コンテンツに注目しているか否かは、例えば、ユーザの視線の方向に基づいて特定される。

例えば、所定の時間以上、ユーザの視線が推薦コンテンツに向いていることが検出された場合、ユーザのアテンションが取れているとして判定される。ユーザが他の作業を行っている場合、提示画面以外の領域を見ている場合、あるいは移動しているような場合などにおいて、ユーザのアテンションが取れていない状態となる。

ユーザの場所、姿勢、体の向き、顔の向きなど、視線以外のユーザの状態に基づいて、アテンションが取れているか否かが判定されるようにしてもよい。このように、情報処理端末１は、カメラにより撮影された画像を解析することによってユーザの視線の方向を検出し、ユーザのアテンションの状態を検出する機能をも有する。

図３は、アテンションの状態に応じた推薦コンテンツの提示の例を示す図である。

図３の破線矢印に示すように、推薦コンテンツの画像Ｐを所定の時間以上見続けていることから、ユーザのアテンションが取れている場合、情報処理端末１は、推薦コンテンツの画像のスライドショー再生を停止し、ユーザが見ている推薦コンテンツに関する画像だけを表示させる。ユーザが見ている推薦コンテンツに関する画像が複数ある場合、その複数の画像が表示される。

また、情報処理端末１は、ユーザが見ている推薦コンテンツに関する画像の表示に合わせて、吹き出しに示すように、推薦コンテンツの内容に関するナレーションの音声を出力する。ナレーションの音声は、推薦コンテンツに含まれるTTS用のテキストに基づいて出力される。人の声を録音した音声データが推薦コンテンツに含まれており、ナレーションの音声が音声データに基づいて出力されるようにしてもよい。

さらに、情報処理端末１は、推薦コンテンツの画像Ｐに重ねて、推薦コンテンツの内容に関するテキストを表示させる。テキストの表示は、推薦コンテンツに含まれる表示用のテキストに基づいて行われる。

例えば、音声によって出力される内容とは異なる内容のテキストが、推薦コンテンツの画像Ｐに重ねて表示される。図３の例においては、「日帰りが可能な近さです！」の音声が出力されているのに対して、その内容と異なる、「新宿駅から２時間」のテキストが表示されている。

TTS用のテキストが表示用のテキストと同じであり、表示用のテキストで提示される内容と同じ内容の音声が出力されるとした場合、見て確認できる情報と同じ情報が音声でも提示されることになり、ユーザは、その音声に対して煩わしさを感じることがある。

TTS用のテキストが表示用のテキストと異なり、表示用のテキストで提示される内容と異なる内容の音声が出力されるようにすることにより、情報処理端末１は、そのような感覚をユーザに与えないで済む。

例えば、数値により表される定量的な情報である定量情報については、テキストによってユーザに提示され、ナレーションの音声によっては提示されない。ナレーションの音声は、例えば推薦コンテンツを修飾する形容詞、副詞系の文章を選ぶことによって構成される。

定量情報は、音声だけで提示されても理解しづらい情報である。定量情報がテキストで提示されることにより、ユーザは、提示された情報を効率的に理解することができる。

図３に示すような推薦コンテンツの提示は、ユーザのアテンションが取れている間、継続される。ユーザは、気になった推薦コンテンツに関する情報の詳細を、画像Ｐに重ねて表示されるテキストを読むことによって確認することができるとともに、ナレーションの音声を聞くことによって確認することができる。

図４は、アテンションの状態に応じた推薦コンテンツの提示の他の例を示す図である。

図４の破線矢印に示すように、推薦コンテンツの画像Ｐを短い時間だけ見ることをユーザが繰り返している場合（ちらちら見ている場合）、情報処理端末１は、推薦コンテンツの画像のスライドショー再生を継続させる。

また、情報処理端末１は、ユーザがちらちら見ていた推薦コンテンツの内容に関するナレーションの音声を出力させる。図４の例においては、「さらに足を延ばせば・・・」の音声が出力されている。

このように、ユーザが推薦コンテンツに興味を持っているものの、画像を集中して見ることができない状態にある場合、推薦コンテンツに関する情報が音声によって提示される。このとき、推薦コンテンツの画像に対するテキストの重畳表示は行われない。

これにより、ユーザは、興味のある推薦コンテンツに関する情報を、作業を続けながらナレーションの音声によって聞くことができる。

図５は、ユーザのアテンションの状態と推薦コンテンツの出力に用いられるモーダルの関係を示す図である。

上述したように、推薦コンテンツの出力モーダル（出力方式）には、画面表示と音声出力がある。

図５の上から２行目に示すように、ユーザのアテンションが取れていない場合、画面表示の出力モーダルを用いて、各推薦コンテンツの画像がスライドショー形式で表示される。このとき、推薦コンテンツの内容に関するナレーションの音声は出力されない。

上から３行目に示すように、ユーザのアテンションが取れている場合、画面表示の出力モーダルを用いて、ユーザが興味を持っている推薦コンテンツの画像が表示されるとともに、表示用のテキストが画像に重ねて表示される。また、音声出力の出力モーダルを用いて、推薦コンテンツの内容に関するナレーションの音声が出力される。

上から４行目に示すように、ユーザのアテンションが取れている時間が短い場合（ユーザのアテンションが間欠的に取れている場合）、画面表示の出力モーダルを用いて、各推薦コンテンツの画像がスライドショー形式で表示される。また、音声出力の出力モーダルを用いて、ユーザが興味を持っている推薦コンテンツの内容に関するナレーションの音声が出力される。このようにアテンションの継続時間が短い場合、推薦コンテンツの提示に用いる出力モーダルとして、ナレーションの音声の出力が優先される。ユーザが作業をしながら推薦コンテンツを見ていることが認識された場合も、ユーザのアテンションが取れている時間が短い場合と同様の処理が行われるようにしてもよい。

このように、推薦コンテンツの提示は、写真、絵、イラストなどの画像の出力を中心に構成され、ユーザのアテンションの状態に応じて、解説などの付帯情報の出力モーダルが切り替えられる。

このような画面表示と音声出力を用いた推薦コンテンツの提示は、ユーザのアテンションの状態に応じて動的に切り替えられる。ユーザのアテンションの状態が変化した場合、区切りが良い単位で出力モーダルが切り替えられる。ナレーションの音声の聞き逃しやテキストの見落としがないように、切り替えの前後の提示が重複されるようにしてもよい。

ユーザのアテンションの状態に応じた推薦コンテンツの提示は、情報処理端末１が推薦コンテンツを能動的に提示する場合だけでなく、ユーザによる要求に応じて推薦コンテンツを提示する場合にも行われる。

図６は、アテンションの状態に応じた推薦コンテンツの提示の他の例を示す図である。

例えば、推薦コンテンツの画像のスライドショー再生中に観光スポットの画像が表示され、図６の破線矢印に示すようにユーザがその画像を見て「近くの喫茶店を教えて。」と発話して問い合わせを行ったものとする。

このとき、情報処理端末１においては、ユーザのアテンションが取れているものとして判定される。また、ユーザの音声データが情報提示サーバ２に対して送信される。

情報提示サーバ２においては、ユーザの音声に基づいて、観光スポットの近くにある喫茶店の情報の検索が行われ、検索結果が情報処理端末１に対して送信される。

推薦コンテンツの画像を見続けているためにユーザのアテンションが取れている場合、情報処理端末１は、図７に示すように、ユーザの問い合わせに応じた情報を、画面表示の出力モーダルを用いて提示する。図７の例においては、ユーザにより指定された観光スポットの近くにある喫茶店の情報が検索結果として表示されている。

一方、ユーザによる問い合わせが、アテンションが取れていない状態で行われた場合、図８に示すように、ユーザの問い合わせに応じた情報が音声を用いて提示される。

図８の例においては、観光スポットの近くにある喫茶店の検索結果として、「○○○店と○○○ビル店と○○○店があります。どの店舗の情報を知りたいですか？」の音声が出力されている。

このように、情報処理端末１は、ユーザによる問い合わせに応じた情報を提示する場合にも、上述したようにユーザのアテンションの状態に応じて出力モーダルを切り替えて情報の提示を行う。

以上のようなユーザのアテンションの状態に応じた提示を行う情報処理端末１と情報提示サーバ２の処理についてはフローチャートを参照して後述する。

＜各装置の構成＞
・情報処理端末１の構成
図９は、情報処理端末１のハードウェア構成例を示すブロック図である。

CPU(Central Processing Unit)５１、ROM(Read Only Memory)５２、RAM(Random Access Memory)５３は、バス５４により相互に接続される。

CPU５１は、所定のプログラムを実行し、情報処理端末１の全体の動作を制御する。

バス５４には、マイク５５、カメラ５６、スピーカ５７、ディスプレイ５８、画像表示デバイス５９、入力部６０、記憶部６１、および通信部６２が接続される。

マイク５５は、ユーザの発話音声を検出する。マイク５５により検出された音声のデータは、通信部６２に供給され、情報提示サーバ２に送信される。

カメラ５６は、情報処理端末１の周りの様子を撮影し、撮影して得られた画像をCPU５１に出力する。カメラ５６により撮影された画像も、適宜、情報提示サーバ２に送信される。カメラ５６により撮影された画像に基づいて各種の状況が特定される。

スピーカ５７は、音声や、BGMなどの音楽を出力する。

ディスプレイ５８は、LCD(Liquid Crystal Display)や有機EL(Electro Luminescence)ディスプレイなどにより構成される。ディスプレイ５８は、メニュー画面、検索結果の画面などの各種の画面を表示する。

画像表示デバイス５９は例えばプロジェクタである。画像表示デバイス５９は、推薦コンテンツの提示画面などの各種の画面を壁面や床面などに投影する。

入力部６０は、ディスプレイ５８に重ねて設けられたタッチパネルや、情報処理端末１の筐体に設けられた各種のボタンにより構成される。入力部６０は、ユーザによる操作を検出し、操作の内容を表す情報を出力する。

記憶部６１は、不揮発性のメモリなどにより構成される。記憶部６１は、CPU５１が実行するプログラムなどの各種のデータを記憶する。

通信部６２は、ネットワークインタフェースなどにより構成される。通信部６２は、インターネット３を介して情報提示サーバ２と通信を行う。

加速度センサ、ジャイロセンサ、測位センサなどの各種のセンサが情報処理端末１に設けられるようにしてもよい。

図１０は、情報処理端末１の機能構成例を示すブロック図である。図１０に示す構成のうちの少なくとも一部は、図９のCPU５１により所定のプログラムが実行されることによって実現される。

図１０に示すように、情報処理端末１においては情報処理部７１が実現される。情報処理部７１は、ユーザ認識部８１、ユーザ状態推定部８２、ユーザ情報DB８３、通信制御部８４、および提示制御部８５から構成される。

ユーザ認識部８１は、カメラ５６により撮影された画像を解析し、情報処理端末１の周りにいるユーザを検出（認識）する。また、ユーザ認識部８１は、認識したユーザの視線の方向などを検出する。例えば、ユーザ情報DB８３には、ユーザの認識、視線の方向の特定などに用いられる情報が記憶されている。ユーザ認識部８１による処理は、適宜、ユーザ情報DB８３に記憶されている情報に基づいて行われる。ユーザ認識部８１は、認識したユーザの視線の方向を表す情報をユーザ状態推定部８２に出力する。

アテンションが取れているか否かがユーザの場所、姿勢、体の向きなどに基づいて判定される場合、ユーザ認識部８１においては、それらのユーザの状態がカメラ５６により撮影された画像に基づいて特定される。ユーザ認識部８１により特定されたユーザの状態を表す各種の情報がユーザ状態推定部８２に供給される。

ユーザの状態がカメラ５６により撮影された画像だけに基づいて特定されるのではなく、情報処理端末１に設けられた他のセンサにより検出された情報に基づいて特定されるようにしてもよい。また、ユーザが持っている携帯端末などの、情報処理端末１の外部の装置により検出された情報に基づいてユーザの状態が特定されるようにしてもよい。

ユーザ状態推定部８２は、ユーザ情報DB８３に記憶されている情報を適宜参照し、ユーザ認識部８１により認識されたユーザのアテンションの状態を推定する。ユーザ状態推定部８２により推定された、アテンションの状態の推定結果を表す情報は通信制御部８４に供給される。

通信制御部８４は、通信部６２を制御し、情報提示サーバ２との間で通信を行う。例えば、通信制御部８４は、ユーザ状態推定部８２から供給された、アテンションの状態の推定結果を表す情報を情報提示サーバ２に送信する。アテンションの状態の推定結果を表す情報を受信した情報提示サーバ２からは、推薦コンテンツの提示方法を指定する提示制御情報が送信されてくる。

また、通信制御部８４は、情報提示サーバ２から送信されてきた提示制御情報を受信し、提示制御部８５に出力する。通信制御部８４においては、情報提示サーバ２から送信されてきた推薦コンテンツの受信なども行われる。

提示制御部８５は、スピーカ５７および画像表示デバイス５９を制御し、情報提示サーバ２から送信されてきた推薦コンテンツを提示させる。また、提示制御部８５は、情報提示サーバ２から送信されてきた提示制御情報に従って出力モーダルを切り替えるなどして、推薦コンテンツの提示を制御する。

・情報提示サーバ２の構成
図１１は、情報提示サーバ２のハードウェア構成例を示すブロック図である。

CPU１０１、ROM１０２、RAM１０３は、バス１０４により相互に接続されている。

バス１０４には、さらに、入出力インタフェース１０５が接続されている。入出力インタフェース１０５には、キーボード、マウスなどよりなる入力部１０６、ディスプレイ、スピーカなどよりなる出力部１０７が接続される。また、入出力インタフェース１０５には、ハードディスクや不揮発性のメモリなどよりなる記憶部１０８、ネットワークインタフェースなどよりなる通信部１０９、リムーバブルメディア１１１を駆動するドライブ１１０が接続される。

この例においては、情報提示サーバ２が１台のコンピュータにより構成されるものとしているが、複数のコンピュータにより構成されるようにしてもよい。複数のコンピュータが協働して処理を行うことにより、情報提示サーバ２の機能が実現される。

図１２は、情報提示サーバ２の機能構成例を示すブロック図である。図１２に示す構成のうちの少なくとも一部は、図１１のCPU１０１により所定のプログラムが実行されることによって実現される。

図１２に示すように、情報提示サーバ２においては情報処理部１５１が実現される。情報処理部１５１は、音声認識部１６１、意味解析部１６２、提示情報DB１６３、および提示方法制御部１６４から構成される。

なお、説明の便宜上、図１２には、情報処理端末１の構成であるマイク５５、スピーカ５７、および画像表示デバイス５９が示されている。ユーザが発話を行うことに応じてマイク５５により検出され、情報処理端末１から送信されてきた音声データは、通信部１０９において受信され、音声認識部１６１に入力される。

また、提示方法制御部１６４が出力する推薦コンテンツと提示制御情報は、通信部１０９から情報処理端末１に対して送信され、スピーカ５７において音声の再生に用いられるとともに、画像表示デバイス５９において画面の表示に用いられる。

情報処理端末１において推定され、情報処理端末１から送信されてきたユーザのアテンションの状態を表す情報は、通信部１０９において受信され、提示方法制御部１６４に入力される。

音声認識部１６１は、ユーザの音声を認識し、認識結果を表す文字列を意味解析部１６２に出力する。

意味解析部１６２は、音声認識部１６１から供給された文字列に基づいて、ユーザの発話内容の意味を解析する。ユーザの発話の意味の解析結果を表す情報は提示方法制御部１６４に供給される。

提示方法制御部１６４は、推薦コンテンツを提示情報DB１６３から読み出して取得し、情報処理端末１に送信する。また、提示方法制御部１６４は、情報処理端末１から送信されてきた、ユーザのアテンションの状態を表す情報に基づいて、推薦コンテンツの提示方法を指定する提示制御情報を生成し、情報処理端末１に送信する。提示制御情報には、出力モーダルを指定する情報などが含まれる。

また、提示方法制御部１６４は、ユーザが情報の検索を要求している場合、意味解析部１６２による解析結果に基づいて、検索結果として提示する情報を提示情報DB１６３から読み出して取得する。

提示情報DB１６３には、ユーザに提示する各種の情報が記憶されている。ユーザに提示する情報が、インターネット３上の他のサーバや、ユーザの携帯端末などの他の装置から取得されるようにしてもよい。提示方法制御部１６４は、ユーザに提示する情報を情報処理端末１に送信する。

＜各装置の動作＞
ここで、情報処理端末１と情報提示サーバ２の動作について説明する。

・情報処理端末１の動作
はじめに、図１３のフローチャートを参照して、情報処理端末１の処理について説明する。

図１３の処理は、例えば、推薦コンテンツが情報提示サーバ２から送信されてきたときに開始される。通信部６２において受信された推薦コンテンツは、通信制御部８４により取得され、提示制御部８５に供給される。

ステップＳ１において、提示制御部８５は、画像表示デバイス５９を制御し、情報提示サーバ２から送信されてきた推薦コンテンツを表示させる。ここでは、複数の推薦コンテンツの画像のスライドショー再生が行われる。

推薦コンテンツの画像のスライドショー再生が行われている間、カメラ５６により撮影された画像に基づいて、ユーザ認識部８１によりユーザが認識され、視線の方向が検出される。

ステップＳ２において、ユーザ状態推定部８２は、ユーザ認識部８１により検出された視線の方向を表す情報に基づいて、情報処理端末１の周りにいるユーザのアテンションの状態を推定する。

ステップＳ３において、通信制御部８４は、アテンションの状態の推定結果を表す情報を情報提示サーバ２に送信する。アテンションの状態の推定結果を表す情報を情報提示サーバ２に送信することは、推薦コンテンツの画像のスライドショー再生が行われている間、繰り返し行われる。アテンションの状態の推定結果を表す情報を受信した情報提示サーバ２からは、推薦コンテンツの提示方法を指定する提示制御情報が送信されてくる。

ステップＳ４において、通信制御部８４は、情報提示サーバ２から送信されてきた提示制御情報を受信する。

ステップＳ５において、提示制御部８５は、提示制御情報に基づいて、推薦コンテンツの提示を制御する。提示制御部８５による制御に従って、推薦コンテンツの提示が図５を参照して説明したそれぞれの出力モーダルを用いて行われる。

・情報提示サーバ２の動作
次に、図１４のフローチャートを参照して、情報提示サーバ２の処理について説明する。

図１４の処理は、ユーザのアテンションの状態の推定結果を表す情報が情報処理端末１から送信されてきたときに開始される。

ステップＳ１１において、提示方法制御部１６４は、情報処理端末１から送信されてきたアテンションの状態の推定結果を表す情報を受信する。

ステップＳ１２において、提示方法制御部１６４は、アテンションの状態の推定結果に基づいて、ユーザが他の作業に集中しているか否かを判定する。

他の作業に集中しているとステップＳ１２において判定した場合、ステップＳ１３において、提示方法制御部１６４は、提示制御情報を情報処理端末１に送信し、推薦コンテンツの画像のスライドショー再生を継続させる。情報処理端末１においては、推薦コンテンツの画像がスライドショー形式で提示され、ナレーションの音声は出力されない。

ユーザが他の作業に集中していないとステップＳ１２において判定された場合、ステップＳ１３の処理はスキップされる。例えば、推薦コンテンツの画像にユーザが短時間でも視線を向けている場合、他の作業に集中していないと判定される。

ステップＳ１４において、提示方法制御部１６４は、ユーザのアテンションが取れているか否かを判定する。

アテンションが取れていないとステップＳ１４において判定した場合、ステップＳ１５において、提示方法制御部１６４は、ユーザに対して提示する必要のある、優先度の高い情報があるか否かを判定する。

優先度の高い情報がないとステップＳ１５において判定された場合、ステップＳ１３に戻り、同様の処理が繰り返される。

一方、ステップＳ１４においてアテンションが取れていると判定した場合、ステップＳ１６において、提示方法制御部１６４は、提示制御情報を情報処理端末１に送信し、ナレーション付きの画像とテキストを提示させる。

すなわち、情報処理端末１においては、推薦コンテンツの画像に重ねて表示用のテキストが表示されるとともに、ナレーションの音声が出力される。ここで出力される音声によっては、定量情報の提示は行われない。

ステップＳ１５において優先度の高い情報があると判定された場合も同様に、ステップＳ１６において、ナレーション付きの画像とテキストの提示が行われる。

このように、優先度の高い情報がある場合、ユーザの視線を推薦コンテンツの画像に向けさせ、アテンションをいわば強制的に取った上で情報を提示させるようにしてもよい。ナレーションの音声を出力してアテンションを強制的に取った場合、その後のユーザの反応がユーザ状態推定部８２により推定される。

例えば、推薦コンテンツの画像の表示に動きが与えられ、ユーザの視線が動きに追従しているかどうかを検出することにより、ユーザの反応が推定される。ユーザの視線が推薦コンテンツの画像の動きに追従している場合、ユーザが推薦コンテンツを無視していないと推定され、追従していない場合、ユーザが推薦コンテンツを無視していると推定される。ユーザ状態推定部８２による推定結果を表す情報は情報提示サーバ２に送信される。

ユーザ状態推定部８２による推定結果を表す情報を受信した提示方法制御部１６４は、ユーザが推薦コンテンツをすぐに無視している場合、スライドショー再生を行う通常の状態に戻るように情報処理端末１における推薦コンテンツの提示を制御する。

ステップＳ１７において、提示方法制御部１６４は、ユーザのアテンションが取れている状態が継続しているか否かを判定する。

アテンションが取れている状態が継続しているとステップＳ１７において判定された場合、ステップＳ１６に戻り、ナレーション付きの画像とテキストの提示が続けられる。

一方、アテンションが継続していないとステップＳ１７において判定した場合、ステップＳ１８において、提示方法制御部１６４は、提示制御情報を情報処理端末１に送信し、ナレーション優先で推薦コンテンツを提示させる。

情報処理端末１においては、推薦コンテンツの画像のスライドショー再生が継続されるとともに、推薦コンテンツの内容を解説するナレーションの音声が出力される。ここで出力される音声によって、定量情報がユーザに提示されるようにしてもよいし、提示されないようにしてもよい。

ステップＳ１９において、提示方法制御部１６４は、ユーザのアテンションが取れているか否かを判定する。

アテンションが取れているとステップＳ１９において判定した場合、提示方法制御部１６４は、ステップＳ１７に戻り、推薦コンテンツの提示が、ユーザのアテンションの状態に応じて続けられる。

一方、ステップＳ１９においてアテンションが取れていないと判定された場合、ステップＳ１１に戻り、以上の処理が繰り返される。

以上の処理により、情報処理端末１は、ユーザのアテンションの状態に基づいて、推薦コンテンツを提示することができる。

＜変形例＞
推薦コンテンツの提示がユーザのアテンションの状態に基づいて制御されるものとしたが、ユーザの位置などの、ユーザの他の状態に基づいて制御されるようにしてもよい。

例えば、推薦コンテンツの画像を見ることができない位置にユーザがとどまっている場合、あるいは、そのような位置にユーザがとどまると予測される場合には、定量情報についても、例外的に、ナレーションの音声により推薦コンテンツの内容が提示されるようにしてもよい。この場合、音声を用いた定量情報の提示は、発話速度を遅くしたり、あるいは、発話を繰り返したりして行われる。

また、例えば、ナレーションの音声を聞きとりにくい場所にユーザがいたり、他の音の出力が行われたりしているような場合、例外的に、発話によって提示するような質的な情報についても、画面表示の出力モーダルを用いて提示されるようにしてもよい。

以上においては、推薦コンテンツを提示する対象となるユーザの人数が１人である場合について説明したが、複数人のユーザに対して情報を提示する場合にも、以上のような処理を適用することが可能である。

図１５は、ユーザが複数人である場合の情報の提示の例を示す図である。

図１５の例においては、推薦コンテンツの画像のスライドショー再生を行っている情報処理端末１の周りにユーザＡとユーザＢがいるものとする。ユーザＡとユーザＢはそれぞれ所定の作業を行っているユーザである。

なお、情報処理端末１が表示する画像Ｐには、推薦コンテンツＣ１乃至Ｃ３の画像が表示されている。推薦コンテンツＣ１乃至Ｃ３の画像は、例えば、左から右に移動するようにして表示される。このように、推薦コンテンツの画像を１つずつ順に切り替えて表示させるのではなく、複数の推薦コンテンツの画像の並びを一定の方向に移動させることによってスライドショー再生が行われるようにしてもよい。

図１５の破線矢印に示すようにユーザＡが推薦コンテンツＣ１の画像に視線を向けている場合、図１６に示すように、画像Ｐが領域Ａ１と領域Ａ２に分割され、領域Ａ２を用いて、ユーザＡのアテンションの状態に応じた推薦コンテンツの提示が行われる。図１５、図１６の例においては、ユーザＢは推薦コンテンツＣ１の画像に視線を向けていない。

図１６の例においては、ユーザがアテンションを向けていた推薦コンテンツＣ１の画像が領域Ａ２に拡大して表示される、推薦コンテンツＣ１の画像に重ねて、表示用のテキストが表示されている。また、推薦コンテンツＣ１の画像の表示に合わせて、吹き出しに示すように、推薦コンテンツＣ１の内容を解説するナレーションの音声が出力されている。

領域Ａ１においては、推薦コンテンツの画像のスライドショー再生が続けられている。

このように、情報処理端末１が表示する画面が複数の領域に分割され、所定の領域を用いて、推薦コンテンツに視線を向けていたユーザのアテンションの状態に応じた提示が行われるようにしてもよい。

推薦コンテンツＣ１に視線を向けているユーザＡが所持している携帯端末に対して推薦コンテンツＣ１の情報が送信されるといったように、アテンションが取れたユーザの端末に対して推薦コンテンツの詳細な情報が送信されるようにしてもよい。

この場合、画面表示と音声出力の出力モーダルに加えて、携帯端末に対する情報の送信といった出力モーダルを用いて推薦コンテンツの提示が行われることになる。

ユーザが作業に集中している度合いに応じて、音声の出力を用いて提示される推薦コンテンツの内容が制御されるようにしてもよい。例えば、作業に集中している度合い高くなるにつれ、BGMの出力、ブランド音の出力、ナレーションの音声の出力の順（BGM＜ブランド音＜ナレーション）に、出力内容が切り替えられる。

推薦コンテンツの画像をスライドショー形式で表示させる場合、表示開始時は、空間の色調の邪魔にならない色調の画像が表示され、ユーザのアテンションが取れたときに、ユーザに見せたい画像が表示されるようにしてもよい。

例えば、部屋の色調に合う色調の画像や、それまでに提示していた推薦コンテンツの画像の色調に合う色調の画像が、推薦コンテンツの画像の表示開始時に表示される。推薦コンテンツの画像に対して加工が施され、このような各色調の画像が生成されるようにしてもよい。

例えば、部屋の色調がピンク系の色調である場合、ピンク系の画像の生成に用いるためのフィルタが推薦コンテンツの画像に適用され、表示開始時のための画像が生成される。このようなフィルタ処理が施されることによって生成されたピンク系の画像の提示が行われている場合において、ユーザのアテンションが取れたとき、推薦コンテンツのオリジナルの画像が表示される。

＜その他の例＞
以上においては、推薦コンテンツを提示するための各処理が情報処理端末１と情報提示サーバ２により行われるものとしたが、上述した情報処理端末１の機能のうちの少なくとも一部の機能が情報提示サーバ２に搭載されるようにしてもよい。

この場合、図１０に示す情報処理部７１の機能部のうち少なくとも一部が情報提示サーバ２に設けられる。

図１７は、情報提示サーバ２の他の機能構成例を示す図である。

図１７に示す情報処理部１５１の構成は、ユーザ認識部８１、ユーザ状態推定部８２、およびユーザ情報DB８３が追加して設けられている点で、図１２を参照して説明した構成と異なる。図１７に示す例の場合、ユーザの認識、およびユーザのアテンションの状態の推定が、情報処理端末１から送信されてきた情報（カメラ５６により撮影された画像）に基づいて、情報提示サーバ２において行われることになる。

図１８は、情報処理端末１の他の機能構成例を示す図である。

図１８に示す情報処理部７１の構成は、音声認識部１６１、意味解析部１６２、提示情報DB１６３、および提示方法制御部１６４が追加して設けられている点で、図１０を参照して説明した構成と異なる。図１８に示す例の場合、音声認識、発話内容の意味解析、提示方法の制御が、情報処理端末１自身により行われることになる。

このように、情報処理部７１と情報処理部１５１の構成のうちのどの構成が情報処理端末１側と情報提示サーバ２側にそれぞれ設けられるようにするのかは任意に選択可能である。

上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。

インストールされるプログラムは、光ディスク（CD-ROM(Compact Disc-Read Only Memory)，DVD(Digital Versatile Disc)等）や半導体メモリなどよりなる図１１に示されるリムーバブルメディア１１１に記録して提供される。また、ローカルエリアネットワーク、インターネット、デジタル放送といった、有線または無線の伝送媒体を介して提供されるようにしてもよい。プログラムは、ROM１０２や記憶部１０８に、あらかじめインストールしておくことができる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

本明細書において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれも、システムである。

本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。

本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

・構成の組み合わせ例
本技術は、以下のような構成をとることもできる。

（１）
ユーザのアテンションの状態を推定する推定部と、
前記ユーザのアテンションの状態に応じて、前記ユーザに提示するコンテンツの出力モーダルを切り替える提示制御部と
を備える情報処理端末。
（２）
前記提示制御部は、画面の表示と音声の出力とのうちの少なくともいずれかを前記出力モーダルとして用いて、前記コンテンツを出力させる
前記（１）に記載の情報処理端末。
（３）
前記提示制御部は、前記コンテンツに関する画像を表示させている場合において、前記ユーザのアテンションが前記コンテンツに向いているとき、前記画像の表示を継続させるとともに、前記コンテンツに関する音声を出力させる
前記（２）に記載の情報処理端末。
（４）
前記提示制御部は、さらに、前記コンテンツに関するテキストを前記画像とともに表示させる
前記（３）に記載の情報処理端末。
（５）
前記提示制御部は、前記画像とともに表示させる前記テキストとは異なる他のテキストの音声合成を行って得られた前記音声を出力させる
前記（４）に記載の情報処理端末。
（６）
前記提示制御部は、前記コンテンツに関する定量情報を、前記テキストによって前記ユーザに提示する
前記（５）に記載の情報処理端末。
（７）
前記推定部は、前記ユーザの視線が、所定の時間以上、前記画像に向いている場合、前記ユーザのアテンションが前記コンテンツに向いているとして推定する
前記（３）乃至（６）のいずれかに記載の情報処理端末。
（８）
前記提示制御部は、前記コンテンツに関する画像を表示させている場合において、前記ユーザのアテンションが間欠的に前記コンテンツに向いているとき、前記コンテンツに関する音声を出力させる
前記（２）乃至（７）のいずれかに記載の情報処理端末。
（９）
前記提示制御部は、複数の前記コンテンツに関する複数の画像を順に表示させ、前記ユーザのアテンションが前記コンテンツに向いていないとき、複数の前記画像の表示を継続させる
前記（２）乃至（８）のいずれかに記載の情報処理端末。
（１０）
前記提示制御部は、前記ユーザに提示する必要がある所定の情報を出力する場合、前記所定の情報に関する音声を出力させる
前記（９）に記載の情報処理端末。
（１１）
情報処理端末が、
ユーザのアテンションの状態を推定し、
前記ユーザのアテンションの状態に応じて、前記ユーザに提示するコンテンツの出力モーダルを切り替える
情報処理方法。
（１２）
ネットワークを介して接続される情報処理端末に対してコンテンツを送信し、前記情報処理端末から送信されてきた、前記コンテンツの提示が行われている間のユーザの状態を表す情報を受信する通信部と、
前記コンテンツに対する前記ユーザのアテンションの状態に応じた、前記コンテンツの提示方法を指定する提示制御情報を前記情報処理端末に送信して、前記情報処理端末における前記コンテンツの出力モーダルを制御する提示制御部と
を備える情報処理装置。
（１３）
情報処理装置が、
ネットワークを介して接続される情報処理端末に対してコンテンツを送信し、
前記情報処理端末から送信されてきた、前記コンテンツの提示が行われている間のユーザの状態を表す情報を受信し、
前記コンテンツに対する前記ユーザのアテンションの状態に応じた、前記コンテンツの提示方法を指定する提示制御情報を前記情報処理端末に送信して、前記情報処理端末における前記コンテンツの出力モーダルを制御する
情報処理方法。

１情報処理端末，２情報提示サーバ，５１ CPU，５５マイク，５６カメラ，５７スピーカ，５８ディスプレイ，５９画像表示デバイス，７１情報処理部，８１ユーザ認識部，８２ユーザ状態推定部，８３ユーザ情報DB，８４通信制御部，８５提示制御部，１５１情報処理部，１６１音声認識部，１６２意味解析部，１６３提示情報DB，１６４提示方法制御部

Claims

コンテンツを構成する画像の切り替え表示が行われている間のユーザのアテンションの状態を推定する推定部と、
前記ユーザのアテンションが前記コンテンツに向いているとき、前記画像の切り替えを停止させるとともに前記画像を表示している前記コンテンツに関する音声を出力させ、前記ユーザのアテンションが前記コンテンツに向いていないとき、前記コンテンツに関する音声を出力させずに前記画像の切り替えを継続させる提示制御部と
を備える情報処理端末。
前記提示制御部は、前記ユーザのアテンションが前記コンテンツに向いているとき、さらに、前記コンテンツに関するテキストを前記画像とともに表示させる
請求項１に記載の情報処理端末。
前記提示制御部は、前記画像とともに表示させる前記テキストとは異なる他のテキストの音声合成を行って得られた音声を出力させる
請求項２に記載の情報処理端末。
前記提示制御部は、前記コンテンツに関する定量情報を、前記テキストによって前記ユーザに提示する
請求項３に記載の情報処理端末。
前記推定部は、前記ユーザの視線が、所定の時間以上、前記画像に向いている場合、前記ユーザのアテンションが前記コンテンツに向いているとして推定する
請求項１乃至４のいずれかに記載の情報処理端末。
前記提示制御部は、前記ユーザのアテンションが間欠的に前記コンテンツに向いているとき、前記コンテンツに関する音声を出力させるとともに前記画像の切り替えを継続させる
請求項１乃至５のいずれかに記載の情報処理端末。
前記提示制御部は、前記ユーザに提示する必要がある所定の情報を出力する場合、前記所定の情報に関する音声を出力させる
請求項１乃至６のいずれかに記載の情報処理端末。
情報処理端末が、
コンテンツを構成する画像の切り替え表示が行われている間のユーザのアテンションの状態を推定し、
前記ユーザのアテンションが前記コンテンツに向いているとき、前記画像の切り替えを停止させるとともに前記画像を表示している前記コンテンツに関する音声を出力させ、
前記ユーザのアテンションが前記コンテンツに向いていないとき、前記コンテンツに関する音声を出力させずに前記画像の切り替えを継続させる
情報処理方法。
ネットワークを介して接続される情報処理端末に対してコンテンツを送信し、前記情報処理端末から送信されてきた、前記コンテンツを構成する画像の切り替え表示が行われている間のユーザの状態を表す情報を受信する通信部と、
前記ユーザのアテンションが前記コンテンツに向いているとき、前記画像の切り替えを停止させるとともに前記画像を表示している前記コンテンツに関する音声を出力させ、前記ユーザのアテンションが前記コンテンツに向いていないとき、前記コンテンツに関する音声を出力させずに前記画像の切り替えを継続させるように、前記コンテンツの提示方法を指定する提示制御情報を前記情報処理端末に送信する提示制御部と
を備える情報処理装置。
情報処理装置が、
ネットワークを介して接続される情報処理端末に対してコンテンツを送信し、
前記情報処理端末から送信されてきた、前記コンテンツを構成する画像の切り替え表示が行われている間のユーザの状態を表す情報を受信し、
前記ユーザのアテンションが前記コンテンツに向いているとき、前記画像の切り替えを停止させるとともに前記画像を表示している前記コンテンツに関する音声を出力させ、前記ユーザのアテンションが前記コンテンツに向いていないとき、前記コンテンツに関する音声を出力させずに前記画像の切り替えを継続させるように、前記コンテンツの提示方法を指定する提示制御情報を前記情報処理端末に送信する
情報処理方法。