JP6642424B2

JP6642424B2 - 情報処理装置、情報処理方法、及びプログラム

Info

Publication number: JP6642424B2
Application number: JP2016525735A
Authority: JP
Inventors: 麗子桐原
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2014-06-03
Filing date: 2015-04-21
Publication date: 2020-02-05
Anticipated expiration: 2035-04-21
Also published as: WO2015186445A1; EP3154052A1; JPWO2015186445A1; US10657959B2; CN106463110A; US20170047064A1; EP3154052A4

Description

本開示は、情報処理装置、情報処理方法、及びプログラムに関する。

近年では、文字情報を音声に変換する音声合成技術や、ユーザが発話した内容を文字情報として認識する音声認識技術、及び、文章が示す内容を認識する自然言語処理技術が発展してきている。そのため、これらの技術を応用することで、ユーザが、テレビ受像機等の各種家電機器や、パーソナルコンピュータ等の情報機器と、音声により対話を行うことで、当該機器を操作可能とした、音声入力に基づく対話型のユーザインタフェース（ＵＩ：User Interface）が普及してきている。

また、音声入力に基づく対話型のユーザインタフェースでは、音声出力による情報の提示と、当該音声出力とは異なる他の出力方法による情報の提示（例えば、画像やアニメーション等の表示情報の提示）とを組み合わせることで、ユーザがより直感的に情報を認識することが可能な仕組みも検討されている。

特開２００５−１６５４３８号公報

一方で、近年では、各種家電機器や情報機器（以降では、総じて「情報処理装置」と呼ぶ場合がある）の多機能化に伴い、情報処理装置からユーザに提示される情報の量が増加し、情報処理装置からユーザに対して複数の情報が一連の情報として提示される場合も少なくない。

しかしながら、複数の情報が一連の情報として提示される場合には、音声出力される各情報（即ち、音声出力された各語句）と、他の出力方法により出力された各情報（例えば、画像やアニメーション等の表示情報）との対応関係が必ずしも明確に提示されるとは限らず、直感的な操作を阻害する要因となる場合がある。

そこで、本開示では、音声出力に対応する他の情報を直感的にユーザに認識させることが可能な、情報処理装置、情報処理方法、及びプログラムを提案する。

本開示によれば、所定の機能に対応付けられた語句を含む一連の語句のうち、前記機能に対応付けられた語句の音声出力が行われるタイミングに関するタイミング情報に基づいて、当該機能に対応付けられた当該音声出力とは異なる他の情報の出力を制御する制御部、を備える、情報処理装置が提供される。

また、本開示によれば、プロセッサが、所定の機能に対応付けられた語句を含む一連の語句のうち、前記機能に対応付けられた語句の音声出力が行われるタイミングに関するタイミング情報に基づいて、当該機能に対応付けられた当該音声出力とは異なる他の情報の出力を制御すること、を含む、情報処理方法が提供される。

また、本開示によれば、コンピュータに、所定の機能に対応付けられた語句を含む一連の語句のうち、前記機能に対応付けられた語句の音声出力が行われるタイミングに関するタイミング情報に基づいて、当該機能に対応付けられた当該音声出力とは異なる他の情報の出力を制御すること、を実行させる、プログラムが提供される。

以上説明したように本開示によれば、音声出力に対応する他の情報を直感的にユーザに認識させることが可能となる。

なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。

本開示の実施形態に係る情報処理装置の概要について説明するための説明図である。同実施形態に係る情報処理装置の概略的な動作の一例について説明するための説明図である。同実施形態に係る情報処理装置による情報の提示方法の一例について説明するための説明図である。同実施形態に係る情報処理装置の機能構成の一例を示したブロック図である。入力情報に応じた応答内容の一例について説明するための説明図である。応答情報の一例について説明するための説明図である。同実施形態に係る情報処理装置の一連の動作の一例を示したフローチャートである。同実施形態に係る情報処理装置の応答処理の流れの一例を示したフローチャートである。実施例１に係る情報処理装置による情報の提示方法の一例について説明するための説明図である。実施例１に係る応答情報の一例について説明するための説明図である。実施例２に係る情報処理装置による情報の提示方法の一例について説明するための説明図である。実施例２に係る応答情報の一例について説明するための説明図である。応答情報に定義され得る制御情報の一例を示した図である。実施例３に係る情報処理装置の動作の一例について説明するための説明図である。実施例３に係る応答情報の一例について説明するための説明図である。実施例３に係る情報処理装置の動作の一例について説明するための説明図である。実施例３に係る応答情報の一例について説明するための説明図である。実施例４に係る情報処理装置の一例について説明するための図である。実施例４に係る情報処理装置の他の一例について説明するための図である。実施例５に係る情報処理装置の一例について説明するための図である。同実施形態に係る情報処理装置のハードウェア構成の一例を示した図である。

以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

なお、説明は以下の順序で行うものとする。
１．概要
２．機能構成
３．処理
４．実施例
４．１．実施例１：表示情報の提示方法の一例
４．２．実施例２：表示情報の提示方法の一例
４．３．実施例３：処理内容に応じて情報の提示を制御する場合の一例
４．４．実施例４：複数のユーザに対する情報の提示方法の一例
４．５．実施例５：ユーザの割り込みに伴う情報の提示方法の一例
５．ハードウェア構成
６．まとめ

＜１．概要＞
本実施形態に係る情報処理装置１０は、ユーザＵａが当該情報処理装置１０との間で音声により対話を行うことで、当該情報処理装置１０を操作可能とした、所謂、音声入力に基づく対話型のユーザインタフェースを備える。そこで、以下に、図１を参照して、本開示の実施形態に係る情報処理装置の概要について説明する。図１は、本実施形態に係る情報処理装置の概要について説明するための説明図である。

図１に示すように、情報処理装置１０は、マイク等の集音デバイス（図示しない）を備え、当該集音デバイスを介して、ユーザＵａが発話した音声情報を、音声入力ｃ１０として集音可能に構成されている。また、情報処理装置１０は、スピーカ等の音響出力デバイスを備え、当該音響出力デバイスを介して、ユーザＵａに対して音声情報ｃ１１を提示可能に構成されている。また、図１に示す例では、情報処理装置１０は、壁面などに設置可能に構成されており、所謂プロジェクタのように、当該壁面を投影面として、画像やアイコン等の表示情報ｖ１１を投影することで、当該壁面上に表示させる。

このような構成に基づき、情報処理装置１０は、ユーザＵａが、当該情報処理装置１０に対する要求を示す内容を発話することで、当該情報処理装置１０を操作可能に構成されている。具体的には、情報処理装置１０は、ユーザＵａの発話内容を音声入力ｃ１０として取得し、当該音声入力ｃ１０の内容が示すユーザＵａの要求に対して、音声情報ｃ１１と表示情報ｖ１１とを出力することで応答する。

例えば、図１に示す例では、ユーザＵａは、「ロンドンは何時？」と発話することで、情報処理装置１０に対して、「ロンドンの時間の提示」を要求として伝えている。このとき、情報処理装置１０は、ユーザＵａが発話した内容を音声入力ｃ１０として集音し、当該音声入力ｃ１０を音声認識技術に基づき解析することで、文字情報に変換する。そして、情報処理装置１０は、音声入力ｃ１０が変換された文字情報を、自然言語処理技術に基づく解析（例えば、字句解析、構文解析、及び意味解析）を施すことで、当該文字情報が示す意味内容（換言すると、音声入力ｃ１０が示す意味内容）を認識する。

情報処理装置１０は、音声入力ｃ１０が示す意味内容に基づき対応するアプリケーション（即ち、機能）を実行する。例えば、図１に示す例では、情報処理装置１０は、指定された地域の時間を取得する「時計」のアプリケーションを実行することとなる。

そして、情報処理装置１０は、ユーザＵａの音声入力ｃ１０に対する応答として、アプリケーションの実行結果を示す音声情報ｃ１１を出力するとともに、当該音声情報ｃ１１の出力に連動して、当該実行結果を示すアイコンや画像等の表示情報ｖ１１を提示する。例えば、図１に示す例では、情報処理装置１０は、「ロンドンは何時？」という音声入力ｃ１０に対して、「時計」アプリケーションの実行結果に基づき、「午後５時です」という音声情報ｃ１１を応答として出力する。

また、このとき、情報処理装置１０は、「午後５時です」という音声情報ｃ１１の出力に連動して、「午後５時」を識別可能に提示した時計の表示情報ｖ１１（例えば、アイコン）を、投影面内にフェードインするように表示させている。

このように、本実施形態に係る情報処理装置１０は、音声入力ｃ１０として提示されたユーザの要求に対する応答を、音声情報ｃ１１として出力するとともに、表示情報ｖ１１を表示させることで、ユーザＵａに対して、応答内容を視覚的にも提示している。これにより、ユーザＵａは、情報処理装置１０の応答内容を、音声情報ｃ１１のみを出力する場合に比べて、より直感的に認識することが可能となる。

一方で、図１に示す例では、情報処理装置１０は、ユーザＵａに対して、「午後５時」という単一の情報のみを提示している。そのため、ユーザＵａは、このとき出力される音声情報ｃ１１と表示情報ｖ１１とが、「午後５時」という情報に対応していることを直感的に認識することが可能である。

しかしながら、情報処理装置１０がユーザＵａに対して提示する情報は、必ずしも１つとは限らず、互いに異なる複数の情報により構成された一連の情報を、音声情報及び表示情報として提示する場合がある。例えば、図２は、本実施形態に係る情報処理装置の概要について説明するための説明図であり、情報処理装置１０が、複数の情報により構成された一連の情報を、音声情報及び表示情報としてユーザＵａに提示する場合の一例を示している。

図２に示す例では、ユーザＵａが、情報処理装置１０に対して「何ができるの？」と発話することで、「情報処理装置１０が有する機能（実行可能なアプリケーション）の一覧の提示」を要求している。これに対して、情報処理装置１０は、「時計、天気予報、家族カレンダーです」という音声情報ｃ２１を出力し、当該音声情報ｃ２１の出力に連動して、「時計」、「天気予報」、及び「家族カレンダー」を示す表示情報ｖ１１〜ｖ１５を表示させている。なお、図２に示すように、音声情報ｃ２１には、「時計」の機能を示す語句ｃ２１１、「天気予報」の機能を示す語句ｃ２１３、及び「家族カレンダー」の機能を示す語句ｃ２１５と、助動詞「です」を示す語句ｃ２１７とが含まれている。

このとき、例えば、表示情報ｖ１１〜ｖ１５を一連の情報として、一連の語句ｃ２１１〜ｃ２１７（即ち、音声情報ｃ２１）と単に連動して出力させたとしても、ユーザＵａが、語句ｃ２１１〜ｃ２１７と、表示情報ｖ１１〜ｖ１５との対応関係を認識できるとは限らない。

具体的な一例として、情報処理装置１０が、語句ｃ２１１〜ｃ２１７を一連の音声情報ｃ２１として出力する際に、当該音声情報ｃ２１の出力に連動して、表示情報ｖ１１〜ｖ１５を同時にユーザＵａに提示したとする。このとき、ユーザＵａは、一連の音声情報ｃ２１と、一連の表示情報ｖ１１〜ｖ１５とが対応していることを直感的に認識することは可能である。

しかしながら、語句ｃ２１１〜ｃ２１５を、表示情報ｖ１１〜ｖ１５のそれぞれに対応づけようとした場合に、ユーザＵａは、表示情報ｖ１１〜ｖ１５が示す意味を理解し、音声出力された語句ｃ２１１〜ｃ２１５にそれぞれ対応付けるという思考過程が必要となる。

このように、表示情報ｖ１１〜ｖ１５を一連の情報として、一連の語句ｃ２１１〜ｃ２１７（即ち、音声情報ｃ２１）と単に連動して出力したとしても、当該情報の提示方法が、ユーザＵａによる情報処理装置１０の直感的な操作を阻害する要因となる場合がある。

そこで、本実施形態に係る情報処理装置１０は、一連の語句ｃ２１１〜ｃ２１７のうち、各機能に対応する語句ｃ２１１〜ｃ２１５それぞれの音声出力に同期して、当該機能に対応付けられた表示情報ｖ１１〜ｖ１５の出力を制御する。

具体的な一例として、情報処理装置１０は、一連の語句ｃ２１１〜ｃ２１７のうち、「時計」の機能を示す語句ｃ２１１の音声出力に同期して、「時計」の機能を示す表示情報ｖ１１を、投影面内にフェードインするように表示させる。

次いで、情報処理装置１０は、「天気予報」の機能を示す語句ｃ２１３の音声出力に同期して、「天気予報」の機能を示す表示情報ｖ１３を、投影面内にフェードインするように表示させる。同様に、情報処理装置１０は、「家族カレンダー」の機能を示す語句ｃ２１５の音声出力に同期して、「家族カレンダー」の機能を示す表示情報ｖ１５を、投影面内にフェードインするように表示させる。

ここで、図３を参照しながら、情報処理装置１０が、各機能に対応する語句ｃ２１１〜ｃ２１５それぞれの音声情報と、当該機能に対応付けられた表示情報ｖ１１〜ｖ１５とを出力する処理の流れについて、時系列に沿って説明する。図３は、本実施形態に係る情報処理装置１０による情報の提示方法の一例について説明するための説明図である。

例えば、情報処理装置１０は、参照符号ｔ１１で示されたタイミングで「時計」の機能を示す語句ｃ２１１の音声出力と、当該「時計」の機能を示す表示情報ｖ１１の投影面内へのフェードインとを開始する。このとき、情報処理装置１０は、タイミングｔ１１からあらかじめ設定された期間（例えば、３００［ｍｓ］）の経過後に、表示情報ｖ１１のフェードインが完了するように、当該表示情報ｖ１１の出力を制御する。なお、図３において、タイミングｔ１１〜ｔ１２までの期間が、表示情報ｖ１１のフェードインを開始してから完了するまでの期間に相当する。即ち、タイミングｔ１２では、投影面内には、表示情報ｖ１１が提示されていることとなる。

次いで、情報処理装置１０は、参照符号ｔ１３で示されたタイミングで「天気予報」の機能を示す語句ｃ２１３の音声出力と、当該「天気予報」の機能を示す表示情報ｖ１３の投影面内へのフェードインとを開始する。このとき、情報処理装置１０は、タイミングｔ１３からあらかじめ設定された期間（例えば、３００［ｍｓ］）の経過後に、表示情報ｖ１３のフェードインが完了するように、当該表示情報ｖ１３の出力を制御する。なお、図３において、タイミングｔ１３〜ｔ１４までの期間が、表示情報ｖ１３のフェードインを開始してから完了するまでの期間に相当する。即ち、タイミングｔ１４では、投影面内には、表示情報ｖ１１及びｖ１３が提示されていることとなる。

同様に、情報処理装置１０は、参照符号ｔ１５で示されたタイミングで「家族カレンダー」の機能を示す語句ｃ２１５の音声出力と、当該「家族カレンダー」の機能を示す表示情報ｖ１５の投影面内へのフェードインとを開始する。このとき、情報処理装置１０は、タイミングｔ１５からあらかじめ設定された期間（例えば、３００［ｍｓ］）の経過後に、表示情報ｖ１５のフェードインが完了するように、当該表示情報ｖ１５の出力を制御する。なお、図３において、タイミングｔ１５〜ｔ１６までの期間が、表示情報ｖ１５のフェードインを開始してから完了するまでの期間に相当する。即ち、タイミングｔ１６では、投影面内には、表示情報ｖ１１、ｖ１３、及びｖ１５が提示されていることとなる。

そして、情報処理装置１０は、一連の表示情報ｖ１１、ｖ１３、及びｖ１５の出力の完了後のタイミングｔ１７で、音声出力が完了していない残りの語句、即ち、助動詞「です」を示す語句ｃ２１７の音声出力を行う。以上をもって、情報処理装置１０は、ユーザＵａの「何ができるの？」という音声入力に対する一連の応答を終了する。

なお、上記では、情報処理装置１０が、所謂プロジェクタのように、投影面に対して表示情報を投影することで、当該投影面上に当該表示情報を表示させる例について説明したが、表示情報を表示させる構成は必ずしも上記に説明した構成には限定されない。

例えば、表示情報を表示させるための構成として、液晶ディスプレイ（ＬＣＤ：Liquid Crystal Display）装置、有機ＥＬ（ＯＬＥＤ：Organic Light Emitting Diode）ディスプレイ装置などを適用してもよい。そこで、以降では、図１における投影面のように、情報処理装置１０が、情報を表示させる領域を、単に「表示面」と記載する場合がある。なお、表示情報を表示させるための構成として、液晶ディスプレイや有機ＥＬディスプレイ装置等を適用した場合には、当該ディスプレイの表示パネルが、「表示面」に相当することとなる。

このように、情報処理装置１０が、各機能に対応する語句それぞれの音声出力に同期して、当該機能に対応付けられた表示情報の出力を制御することで、ユーザは、音声出力された機能に対応する表示情報を直感的に認識することが可能となる。そこで、以降では、本実施形態に係る情報処理装置１０について、さらに詳しく説明する。

＜２．機能構成＞
まず、図４を参照して、本実施形態に係る情報処理装置１０の機能構成の一例について説明する。図４は、本実施形態に係る情報処理装置１０の機能構成の一例を示したブロック図である。

図４に示すように、本実施形態に係る情報処理装置１０は、入力情報解析部１０１と、応答情報生成部１０３と、処理実行部１０５と、辞書情報記憶部１０９と、応答制御部１１１と、音声合成部１１５と、表示制御部１１７とを含む。また、情報処理装置１０は、集音部４１、音響出力部５１、及び表示部５３と連携して動作する。なお、情報処理装置１０は、集音部４１、音響出力部５１、及び表示部５３の一部または全部を含んでもよい。また、上記に示した情報処理装置１０に含まれる各構成は、当該情報処理装置１０を構成するハードウェア回路により実現され得る。

集音部４１は、マイク等のような音響情報を集音可能なデバイスにより構成され得る。集音部４１は、ユーザＵａが発話した音声情報を音声入力として集音し、集音した音声入力を入力情報解析部１０１に逐次出力する。

入力情報解析部１０１は、集音部４１から逐次出力される、当該集音部４１が集音したユーザＵａの音声入力を取得する。入力情報解析部１０１は、取得した音声入力に対して音声認識技術に基づく解析処理を施すことで、当該音声入力を文字情報に変換する。

また、入力情報解析部１０１は、音声入力が変換された文字情報に対して、字句解析や構文解析を施すことで、当該文字情報に含まれる各単語や、当該単語間の関係（例えば、係り関係）が識別可能に提示されたデータ（例えば、構文木）に構造化する。

そして、入力情報解析部１０１は、字句解析や構文解析により文字情報が構造化されたデータ（以降では、「入力情報に基づく構造化データ」と呼ぶ場合がある）を、応答情報生成部１０３に出力する。なお、このとき、入力情報解析部１０１は、入力情報に基づく構造化データを、構文解析の結果に基づく所定の単位ごと（例えば、文字情報に含まれる文章ごと）に、応答情報生成部１０３に出力してもよい。

応答情報生成部１０３は、入力情報に基づく構造化データを、入力情報解析部１０１から取得する。応答情報生成部１０３は、取得した当該構造化データに対して意味解析を施すことで、当該構造化データの元となる音声入力の意味内容を解析し、当該解析結果に基づきユーザＵａの要求内容を特定する。なお、応答情報生成部１０３が構造化データに対して意味解析を施すための辞書データは、例えば、辞書情報記憶部１０９にあらかじめ記憶させておくとよい。

辞書情報記憶部１０９は、応答情報生成部１０３が構造化データに対して意味解析を施すための辞書データをあらかじめ記憶している。

また、辞書情報記憶部１０９は、応答情報生成部１０３が、入力情報に基づく要求内容に対する応答の内容（以降では、「応答内容」と呼ぶ場合がある）を特定するための管理データｄ１０を記憶している。なお、当該要求内容に対して応答を行うために、所定の機能（アプリケーション）を実行する必要がある場合には、当該管理データｄ１０は、当該要求内容に対して、所定の機能をあらかじめ関連付けていてもよい。

例えば、図５は、入力情報に応じた応答内容の一例について説明するための説明図であり、辞書情報記憶部１０９に記憶された管理データｄ１０の一例を示している。図５に示すように、管理データｄ１０には、入力情報ｄ１１に対して、要求内容ｄ１３と、対応機能ｄ１５と、応答内容ｄ１７とが関連付けられている。

図５において、入力情報ｄ１１は、ユーザＵａの音声入力が示す内容の一例を示している。また、要求内容ｄ１３は、入力情報ｄ１１が示すユーザＵａの要求内容を示している。また、対応機能ｄ１５は、要求内容ｄ１３に対して応答を行うために実行する必要がある機能を示している。なお、要求内容ｄ１３に対して、所定の機能を実行する必要が無い場合には、対応機能ｄ１５に対して情報が登録されていなくてもよい。また、応答内容ｄ１７は、要求内容ｄ１３に対する応答の内容を示している。なお、図５に示す例では、応答内容ｄ１７は、文字情報として定義されている。

具体的な一例として、「何ができるの？」という入力情報ｄ１１は、「機能の確認」を示す要求内容ｄ１３に対応している。そのため、「機能の確認」を示す要求内容ｄ１３には、機能の一覧を提示するための「時計、天気予報、家族カレンダーです」という応答内容ｄ１７が関連付けられている。なお、図５に示す例では、「機能の確認」を示す要求内容ｄ１３に対して応答を行う場合に、所定の機能を実行する必要がないため、対応機能ｄ１５が関連付けられていない。もちろん、情報処理装置１０が実行可能な機能が固定ではない場合には、「機能の確認」を示す要求内容ｄ１３に関連付けられた対応機能ｄ１５に対して、実行可能な機能の一覧を取得する機能（即ち、アプリケーションの一覧を取得する機能）を登録してもよい。

また、他の一例として、「○○は何時？」という入力情報ｄ１１は、「時間の確認」を示す要求内容ｄ１３に対応し、当該要求内容ｄ１３には、対応機能ｄ１５として、「時計」の機能が関連付けられている。また、「時間の確認」を示す要求内容ｄ１３には、確認した時間を通知するための「××時です」という応答内容ｄ１７が関連付けられている。なお、応答内容ｄ１７が示す情報は、対応機能ｄ１５で示された機能の実行結果を埋め込めるように、一部が変数化されていてもよい。

同様に、「△△の天気は？」という入力情報ｄ１１は、「天気予報の確認」を示す要求内容ｄ１３に対応し、当該要求内容ｄ１３には、「天気予報」の機能を示す対応機能ｄ１５と、「晴れ／雨／曇りです」という応答内容ｄ１７とが関連付けられている。また、「△△の予定は？」という入力情報ｄ１１は、「スケジュールの確認」を示す要求内容ｄ１３に対応し、当該要求内容ｄ１３には、「家族カレンダー」の機能を示す対応機能ｄ１５と、「△△は、××時から・・・です」という応答内容ｄ１７とが関連付けられている。また、「△△、××時から・・・」という入力情報ｄ１１は、「スケジュールの登録」を示す要求内容ｄ１３に対応し、当該要求内容ｄ１３には、「家族カレンダー」の機能を示す対応機能ｄ１５と、「予定を登録しました」という応答内容ｄ１７とが関連付けられている。

なお、管理データｄ１０は、想定されるユーザＵａと情報処理装置１０との間の会話のパターンに基づき、あらかじめ生成して辞書情報記憶部１０９に記憶させておくとよい。また、情報処理装置１０が、ユーザＵａとの間の過去の会話に基づき学習し、当該学習結果に基づき、辞書情報記憶部１０９に記憶された管理データｄ１０の内容を追加または更新してもよい。

このような構成に基づき、応答情報生成部１０３は、構造化データに対する意味解析の結果に基づき特定したユーザＵａの要求内容と、管理データｄ１０とを照合することで、当該要求内容に関連付けられた、対応機能ｄ１５と応答内容ｄ１７とを取得する。

そして、応答情報生成部１０３は、特定した要求内容に関連付けられた対応機能ｄ１５を、処理実行部１０５に実行させ、当該対応機能ｄ１５の処理結果を、当該処理実行部１０５から取得する。

処理実行部１０５は、情報処理装置１０が有する各種機能（アプリケーション）を実行するための構成である。処理実行部１０５は、応答情報生成部１０３から指定された機能を実行し、当該機能の実行結果を要求元である応答情報生成部１０３に通知する。

応答情報生成部１０３は、取得した応答内容ｄ１７に対して、処理実行部１０５から通知された対応機能ｄ１５の処理結果を埋め込むことで、ユーザＵａの要求内容ｄ１３に対する応答内容ｄ２０として確定させる。なお、特定した要求内容に対して対応機能ｄ１５が関連付けられていない場合には、応答情報生成部１０３は、取得した応答内容ｄ１７を、ユーザＵａの要求内容ｄ１３に対する応答内容ｄ２０として確定させればよい。

ユーザＵａの要求内容に対する応答内容ｄ２０を確定させると、応答情報生成部１０３は、当該応答内容ｄ２０に対して、当該応答内容ｄ２０の音声出力とあわせて提示する他の情報の出力を制御するための制御情報を埋め込むことで、応答情報ｄ３０を生成する。なお、本説明において、応答内容ｄ２０の音声出力とあわせて提示する他の情報の出力の制御とは、例えば、図２及び図３に示すように、各機能に対応する表示情報ｖ１１〜ｖ１５を、表示面内にフェードインするように表示させるための制御が挙げられる。

そこで、図６を参照しながら、応答情報ｄ３０の具体的な一例について、図２及び図３に示すように、ユーザＵａの「何ができるの？」という発話に対して、音声出力と表示情報とを連動させることで、応答する場合を例に説明する。図６は、応答情報ｄ３０の一例について説明するための説明図である。

図６において、参照符号ｄ２０は、ユーザＵａの「何ができるの？」という発話に基づく入力情報が示す要求内容に対して、応答情報生成部１０３が特定した応答内容の一例を示している。また、参照符号ｄ３０は、図３に示すように、応答内容ｄ２０が示す「時計、天気予報、家族カレンダーです」という音声出力に連動して表示情報ｖ１１〜ｖ１５を提示するために、当該応答内容ｄ２０に対して制御情報が埋め込まれた応答情報の一例を示している。

応答情報ｄ３０における、「時計」、「、天気予報」、「、家族カレンダー」、「です」で示された各語句ｄ３１、ｄ３３、ｄ３５、及びｄ３７は、応答として音声出力される情報、即ち、応答内容ｄ２０中の各語句を示している。

また、参照符号ｄ３２、ｄ３４、及び、ｄ３６は、表示情報ｖ１１〜ｖ１５の提示を制御するための制御情報の一例である。例えば、制御情報ｄ３２は、図２及び図３に示すように、「時計」を示す表示情報ｖ１１を表示面内にフェードインするように表示させ、当該フェードインが３００［ｍｓ］で完了するように、当該表示情報ｖ１１の表示を制御するための制御情報の一例を示している。

具体的には、「anim_fadein」タグは、「item」属性で指定された表示情報を、表示面内にフェードインするように表示させるための制御情報に相当する。なお、図６に示す例では、「anim_fadein」タグに対して、「duration」属性として、フェードインするように表示させる期間を指定している。

具体的には、制御情報ｄ３２は、「item」属性に指定された「clock_icon」が示す「時計」機能に対応した表示情報ｖ１１を、「duration」属性に指定された期間、即ち、「３００［ｍｓ］」でフェードインするように表示させることを示している。同様に、制御情報ｄ３４は、「weather_icon」が示す「天気予報」機能に対応した表示情報ｖ１３を「３００［ｍｓ］」でフェードインするように表示させることを示している。また、制御情報ｄ３６は、「calendar_icon」が示す「家族カレンダー」機能に対応した表示情報ｖ１５を「３００［ｍｓ］」でフェードインするように表示させることを示している。

即ち、応答情報生成部１０３は、応答内容ｄ２０のうち、「時計」機能を示す語句ｄ３１の直後に、当該「時計」機能に対応した表示情報ｖ１１を提示するための制御情報ｄ３２を挿入することで、語句ｄ３１に対して制御情報ｄ３２を関連付けている。同様に、応答情報生成部１０３は、「天気予報」機能を示す語句ｄ３３の直後に、当該「天気予報」機能に対応した表示情報ｖ１３を提示するための制御情報ｄ３４を挿入することで、語句ｄ３３に対して制御情報ｄ３４を関連付けている。また、応答情報生成部１０３は、「家族カレンダー」機能を示す語句ｄ３５の直後に、当該「家族カレンダー」機能に対応した表示情報ｖ１５を提示するための制御情報ｄ３６を挿入することで、語句ｄ３５に対して制御情報ｄ３６を関連付けている。

なお、応答内容ｄ２０に対して、各制御情報ｄ３２、ｄ３４、及びｄ３６を埋め込む動作の主体は、必ずしも応答情報生成部１０３でなくてもよい。具体的な一例として、管理データｄ１０の応答内容ｄ１７（図５参照）内に、各制御情報ｄ３２、ｄ３４、及びｄ３６が、テンプレートとしてあらかじめ埋め込まれていてもよい。

また、応答情報生成部１０３は、対応機能ｄ１５の実行結果を応答内容ｄ１７に埋め込むことで、応答内容ｄ２０を確定させる際に、対応機能ｄ１５の実行結果にあわせて、対応する制御情報を埋め込んでもよい。

例えば、要求内容ｄ１３が「天気予報の確認」の場合には、応答情報生成部１０３は、当該要求内容ｄ１３に対応機能ｄ１５として関連付けられた「天気予報」機能を処理実行部１０５に実行させる。そして、応答情報生成部１０３は、「天気予報」機能の実行結果として、天気を示す情報を当該処理実行部１０５から取得する。

具体的な一例として、応答情報生成部１０３は、「天気予報」機能の実行結果として「晴れ」を示す情報を取得した場合には、「晴れです」という応答内容ｄ２０を確定させる。そして、応答情報生成部１０３は、当該応答内容ｄ２０中の「晴れ」という語句に対して、「晴れ」を示す表示情報を提示するための制御情報を関連付ける。また、他の一例として、「天気予報」機能の実行結果として「雨」を示す情報を取得した場合には、応答情報生成部１０３は、「雨です」という応答内容ｄ２０中の「雨」という語句に対して、「雨」を示す表示情報を提示するための制御情報を関連付ければよい。

なお、図６に示す例では、応答内容ｄ２０中に制御情報を、空要素のタグ（即ち、タグ内の最後に「/」が付されたタグ、以降では、「完結タグ」と呼ぶ場合がある）として挿入することで、当該応答内容ｄ２０中の語句に関連付ける例について説明した。一方で、制御情報をタグ情報として規定する場合には、制御情報は、必ずしも、完結タグには限定されない。具体的な一例として、制御情報を、開始タグ（「/」を含まないタグ）及び終了タグ（タグ内の最初に「/」が付されたタグ）により定義してもよい。この場合には、応答内容ｄ２０中の語句が当該制御情報の要素となるように、当該制御情報を示す開始タグ及び終了タグで当該語句を囲めばよい。

また、応答内容ｄ２０中の語句に関連付けて、制御情報を当該応答内容ｄ２０中に埋め込むことが可能であれば、制御情報は必ずしもタグ情報である必要はない。例えば、所定の文字を区切り文字（所謂、デリミタ）として、応答情報ｄ２０の内容と制御情報とが区別して抽出できるように、当該応答情報ｄ２０内に制御情報を埋め込んでもよい。

以上のようにして、応答情報生成部１０３は、特定した要求内容に対して応答するための応答情報ｄ３０を生成し、生成した応答情報ｄ３０を応答制御部１１１に出力する。

応答制御部１１１は、応答情報生成部１０３から応答情報ｄ３０を取得し、取得した応答情報ｄ３０に基づき、情報処理装置１０から要求元であるユーザＵａに対する応答に係る動作を制御する。そこで、以下に、応答情報ｄ３０に基づく応答に係る動作の詳細について、図２及び図３に示すように、ユーザＵａからの入力情報に対して、情報処理装置１０が、音声出力と表示情報の提示とを連動させて応答する場合を例に説明する。なお、応答制御部１１１のうち、応答情報生成部１０３から応答情報ｄ３０を取得する構成が、「取得部」の一例に相当する。

応答制御部１１１は、取得した応答情報ｄ３０の内容を先頭から逐次読み出し、読み出した情報の種別に応じて、後述する音声合成部１１５、または、表示制御部１１７の動作を制御する。具体的には、応答制御部１１１は、読み出した情報が応答内容を示す情報の場合には、音声合成部１１５の動作を制御して、当該情報を音声出力させる。また、読み出した情報が制御情報の場合には、応答制御部１１１は、当該制御情報に基づき表示制御部１１７の動作を制御して、音声出力とあわせて提示する表示情報の出力を制御する。

ここで、図６に示した応答情報ｄ３０を処理対象とした場合を例に、応答制御部１１１の動作についてさらに詳しく説明する。

まず、応答制御部１１１は、応答情報ｄ３０の内容を、制御情報（タグ情報）が検出されるまで読み出す。図６に示す例において、応答情報ｄ３０の内容を先頭から読み出した場合には、まず、応答制御部１１１は、「時計」という語句ｄ３１を読み出し、当該語句ｄ３１の直後に挿入された制御情報ｄ３２を検出することとなる。

このとき、応答制御部１１１は、読み出した「時計」という語句ｄ３１を音声合成部１１５に出力し、当該語句ｄ３１に対応する音声情報を音声合成部１１５に出力させる。また、応答制御部１１１は、検出された制御情報ｄ３２の内容に基づき、「clock_icon」で示された表示情報ｖ１１が、「３００ｍｓ」でフェードインするように表示制御部１１７に出力させる。

次いで、応答制御部１１１は、「、天気予報」という語句ｄ３３を読み出し、当該語句ｄ３３の直後に挿入された制御情報ｄ３４を検出することとなる。

この場合には、応答制御部１１１は、読み出した「、天気予報」という語句ｄ３３を音声合成部１１５に出力し、当該語句ｄ３３に対応する音声情報を音声合成部１１５に出力させる。また、応答制御部１１１は、検出された制御情報ｄ３４の内容に基づき、「weather_icon」で示された表示情報ｖ１３が、「３００ｍｓ」でフェードインするように表示制御部１１７に出力させる。

以下、同様にして、応答制御部１１１は、「、家族カレンダー」という語句ｄ３５を読み出し、当該語句ｄ３５の直後に挿入された制御情報ｄ３６を検出する。

そして、応答制御部１１１は、読み出した「、家族カレンダー」という語句ｄ３５を音声合成部１１５に出力し、当該語句ｄ３５に対応する音声情報を音声合成部１１５に出力させる。また、応答制御部１１１は、検出された制御情報ｄ３６の内容に基づき、「calendar_icon」で示された表示情報ｖ１５が、「３００ｍｓ」でフェードインするように表示制御部１１７に出力させる。

最後に、応答制御部１１１は、「です」という語句ｄ３７を読み出し、当該語句ｄ３７の読み出し後に、応答情報ｄ３０の終端を検出する。

この場合には、応答制御部１１１は、読み出した「です」という語句ｄ３７を音声合成部１１５に出力し、当該語句ｄ３７に対応する音声情報を音声合成部１１５に出力させる。そして、応答制御部１１１は、応答情報ｄ３０の終端の検出に基づき、当該応答情報ｄ３０に基づく一連の制御を終了する。

以上のような制御に基づき、応答制御部１１１は、図２及び図３に基づき説明したように、「時計」、「天気予報」、及び「家族カレンダー」それぞれの音声出力に同期して、対応する機能を示す表示情報それぞれが提示されるように出力を制御する。

次に、音声合成部１１５、表示制御部１１７、音響出力部５１、及び表示部５３のそれぞれについて説明する。

音声合成部１１５は、ユーザＵａに対して音声出力として提示する応答内容を示す情報（例えば、文字情報）を、応答制御部１１１から取得する。音声合成部１１５は、取得した応答内容を示す情報から、例えば、音声合成技術に基づき、当該応答内容を発声している音声信号を作成する。なお、音声合成部１１５が、取得した応答内容を示す情報から、音声信号を生成するための元となる音響信号は、当該音声合成部１１５が、参照可能な位置にあらかじめ記憶させておけばよい。

そして、音声合成部１１５は、応答制御部１１１による制御に基づき、当該応答制御部１１１に指定されたタイミングで、生成した音声信号を音響出力部５１に音声出力させる。音響出力部５１は、所謂、スピーカ等のような、音響信号や音声信号を出力するための出力デバイスにより構成され得る。

また、表示制御部１１７は、応答制御部１１１による制御に基づき、当該応答制御部１１１に指定された表示情報を、当該応答制御部１１１に指定されたタイミング及び表示態様で表示部５３に表示させる。なお、応答制御部１１１に指定されたタイミングを示す情報（換言すると、当該タイミングに基づき制御を行うための情報）が「タイミング情報」の一例に相当する。

例えば、応答制御部１１１が、図６に示す制御情報ｄ３２に基づき、表示制御部１１７に対して表示情報の提示を指示したものとする。この場合には、表示制御部１１７は、応答制御部１１１から指定されたタイミングで、「clock_icon」で示された表示情報ｖ１１を、「３００ｍｓ」でフェードインするように表示部５３に表示させることとなる。

なお、表示部５３は、出力装置の一例であり、例えば、所謂プロジェクタのように、表示面に対して映像を投影することで、当該映像をユーザに提示するデバイスにより構成され得る。また、他の一例として、表示部５３は、液晶ディスプレイ（ＬＣＤ：Liquid Crystal Display）装置、有機ＥＬ（ＯＬＥＤ：Organic Light Emitting Diode）ディスプレイ装置などの表示装置であってもよい。また、表示部５３は、ユーザの頭部に装着することで、当該ユーザの眼前に表示面を保持するような、所謂、ヘッドマウントディスプレイ（ＨＭＤ：Head Mounted Display）であってもよい。また、他の一例として、表示部５３は、車載型のディスプレイであってもよく、例えば、フロントガラスに映像を投影することで情報をユーザに提示するような、所謂、ヘッドアップディスプレイ（ＨＵＤ：Head Up Display）であってもよい。

以上、図４〜６を参照して、本実施形態に係る情報処理装置１０の機能構成の一例について説明した。なお、図４に示した情報処理装置１０の機能構成は、あくまで一例であり、上記に説明したように各構成が動作可能であれば、当該各構成が設けられる場所は特に限定されない。

具体的な一例として、情報処理装置１０に、集音部４１、音響出力部５１、及び表示部５３の一部もしくは全部が含まれていてもよい。もちろん、情報処理装置１０、集音部４１、音響出力部５１、及び表示部５３の間の情報の伝搬経路についても特に限定されない。具体的な一例として、情報処理装置１０をネットワーク上のサーバ（例えば、クラウドサーバ）として構成してもよい。この場合には、サーバとして構成された情報処理装置１０が、インターネット等のネットワークを介して音響出力部５１及び表示部５３を含むデバイスによる音声情報及び表示情報の出力を制御すればよい。また、音声情報の出力を制御する構成（例えば、音声合成部１１５に相当する構成）と、表示情報の出力を制御する構成（例えば、表示制御部１１７に相当する構成）とが連携して動作可能であれば、これらの構成を別筐体に設けてもよい。また、他の一例として、情報処理装置１０に含まれる、少なくとも一部の構成が、情報処理装置１０とは異なる外部装置に設けられていてもよい。

また、上記では、音声入力に対する応答内容を示す音声出力と連動して、表示情報を提示する場合の一例について説明した。しかしながら、応答内容に含まれる各機能に対応する語句それぞれの音声出力に同期して、当該機能に対応する当該音声出力とは異なる他の情報が提示されれば、当該他の情報の種別や数は特に限定されない。

具体的な一例として、情報処理装置１０は、各機能を示す語句それぞれの音声出力に同期して、当該機能を示す表示情報の提示に加えて、当該機能を示す音響情報（例えば、効果音）をあわせて提示してもよい。

また、他の一例として、各機能に対応する語句それぞれの音声出力に同期して、ＬＥＤ（Light Emitting Diode）等の発光部を発光させてもよい。この場合には、情報処理装置１０は、各機能に対応する語句の音声出力に同期して、当該機能に応じた発光回数または発光パターンで、発光部を発光させればよい。

また、各機能に対応する語句の音声出力に同期して提示されれば、当該音声出力と連動して提示される情報は、表示情報のような視覚的情報や、音声情報や音響情報のような聴覚的情報には限定されず、触覚、嗅覚、または味覚を刺激する情報であってもよい。具体的な一例として、情報処理装置１０は、各機能に対応する語句の音声出力に同期して、ユーザが保持するコントローラ等に内蔵されたアクチュエータを振動させることで、触覚的な情報を提示してもよい。この場合には、情報処理装置１０は、各機能に対応する語句の音声出力に同期して、当該機能に応じた振動パターンで、アクチュエータを振動させればよい。

また、情報処理装置１０は、音声出力に同期して、対応する表示情報と音響情報とを出力する等、複数種類の情報を組み合わせて提示してもよい。また、情報処理装置１０は、音声出力に同期して、対応する表示情報の出力を制御する際に、当該表示情報の出力がより強調されるように、他の表示情報の出力を制御してもよい。具体的な一例として、情報処理装置１０は、ユーザからの音声入力の待ち受け時に表示面に表示されている表示情報をアニメーション表示させていたとする。この場合には、情報処理装置１０、ユーザからの音声入力に対する応答時に、音声出力に対応する表示情報がより強調されるように、当該表示情報をアニメーション表示させる際に、他の表示情報のアニメーションを停止してもよい。

＜３．処理＞
次に、図７を参照して、本実施形態に係る情報処理装置１０の一連の動作について説明する。図７は、本実施形態に係る情報処理装置１０の一連の動作の一例を示したフローチャートである。

（ステップＳ１１）
入力情報解析部１０１は、集音部４１から逐次出力される、当該集音部４１が集音したユーザＵａの音声入力を取得する。入力情報解析部１０１は、取得した音声入力に対して音声認識技術に基づく解析処理を施すことで、当該音声入力を文字情報に変換する。

そして、入力情報解析部１０１は、字句解析や構文解析により文字情報が構造化された、入力情報に基づく構造化データを、応答情報生成部１０３に出力する。なお、このとき、入力情報解析部１０１は、入力情報に基づく構造化データを、構文解析の結果に基づく構造化の単位ごと（例えば、文字情報に含まれる文章ごと）に、応答情報生成部１０３に出力してもよい。

（ステップＳ１３）
応答情報生成部１０３は、入力情報に基づく構造化データを、入力情報解析部１０１から取得する。応答情報生成部１０３は、取得した当該構造化データに対して意味解析を施すことで、当該構造化データの元となる音声入力の意味内容を解析し、当該解析結に基づきユーザＵａの要求内容を特定する。

そして、応答情報生成部１０３は、構造化データに対する意味解析の結果に基づき特定したユーザＵａの要求内容と、辞書情報記憶部１０９に記憶された管理データｄ１０とを照合する。これにより、応答情報生成部１０３は、特定したユーザＵａの要求内容に関連付けられた、対応機能ｄ１５と応答内容ｄ１７とを取得する。

応答情報生成部１０３は、特定した要求内容に関連付けられた対応機能ｄ１５を、処理実行部１０５に実行させ、当該対応機能ｄ１５の処理結果を、当該処理実行部１０５から取得する。

具体的な一例として、応答情報生成部１０３は、ユーザＵａの「何ができるの？」という発話に基づく入力情報が示す要求内容に対して、図６に示すように、「時計、天気予報、家族カレンダーです」という応答内容ｄ２０を特定する。

（ステップＳ１５）
次いで、応答情報生成部１０３は、特定した応答内容ｄ２０に対して、当該応答内容ｄ２０の音声出力とあわせて提示する他の情報の出力を制御するための制御情報を、応答内容ｄ２０中の対応する語句に関連付けて埋め込むことで、応答情報ｄ３０を生成する。

例えば、図６に示す例では、応答情報生成部１０３は、応答内容ｄ２０中の「時計」という語句ｄ３１の直後に、「時計」機能に対応した表示情報ｖ１１を提示するための制御情報ｄ３２を挿入することで、語句ｄ３１と制御情報ｄ３２とを関連付けている。同様に、応答情報生成部１０３は、「天気予報」という語句ｄ３３の直後に、「天気予報」機能に対応した表示情報ｖ１３を提示するための制御情報ｄ３４を挿入することで、語句ｄ３３と制御情報ｄ３４とを関連付けている。また、応答情報生成部１０３は、「家族カレンダー」という語句ｄ３５の直後に、「家族カレンダー」機能に対応した表示情報ｖ１５を提示するための制御情報ｄ３６を挿入することで、語句ｄ３５と制御情報ｄ３６とを関連付けている。

（ステップＳ２０）
応答制御部１１１は、応答情報生成部１０３から応答情報ｄ３０を取得し、取得した応答情報ｄ３０に基づき、情報処理装置１０から要求元であるユーザＵａに対する応答に係る動作を制御する。そこで、以降では、図８を参照しながら、図７においてステップＳ２０で示された、応答制御部１１１による制御に基づく応答処理の流れの一例について説明する。図８は、本実施形態に係る情報処理装置１０の応答処理の流れの一例を示したフローチャートである。

（ステップＳ２０１、Ｓ２０３）
応答制御部１１１は、取得した応答情報ｄ３０の内容を先頭から逐次読み出し、読み出した情報の種別に応じて、後述する音声合成部１１５、または、表示制御部１１７の動作を制御する。具体的には、応答制御部１１１は、応答情報ｄ３０の内容を、制御情報（タグ情報）が検出されるまで読み出す。

（ステップＳ２０３）
応答制御部１１１は、制御情報が検出されるまでに読み出した情報（語句）を（ステップＳ２０３、ＮＯ）、ユーザＵａに対して音声出力として提示する応答内容を示す情報として、音声合成部１１５に出力する。

（ステップＳ２０５）
音声合成部１１５は、ユーザＵａに対して音声出力として提示する応答内容を示す情報（例えば、文字情報）を、応答制御部１１１から取得する。音声合成部１１５は、取得した応答内容を示す情報から、例えば、音声合成技術に基づき、当該応答内容を発声している音声信号を作成する。

そして、音声合成部１１５は、応答制御部１１１による制御に基づき、当該応答制御部１１１に指定されたタイミングで、生成した音声信号を音響出力部５１に音声出力させる。

（ステップＳ２０３、Ｓ２０７）
また、応答制御部１１１は、制御情報を検出すると（ステップＳ２０３、ＹＥＳ）、当該制御情報が、要素が空の完結タグか否かを確認する（ステップＳ２０７）。

（ステップＳ２０７、Ｓ２１３）
検出した制御情報が完結タグの場合には（ステップＳ２０７、ＹＥＳ）、応答制御部１１１は、当該制御情報の種別（例えば、タグ情報の種別）や、属性情報として指定された内容に基づき、制御対象となる表示情報や、当該表示情報を提示するための制御内容を特定する。

具体的な一例として、応答制御部１１１は、制御情報の種別に基づき、表示情報の表示態様（例えば、フェードインするように表示させる態様）を特定する。また、応答制御部１１１は、属性情報に基づき、表示対象となる表示情報（例えば、「時計」機能を示す表示情報ｖ１１）や、当該表示態様の細かい制御内容（例えば、フェードインするように表示させる期間）を特定する。

そして、応答制御部１１１は、検出した制御情報に基づき特定した表示情報や、当該表示情報を提示するための制御内容に応じて、表示制御部１１７の動作を制御することで、音声出力とあわせて提示する表示情報の出力を制御する。

（ステップＳ２０７、Ｓ２０９）
また、検出した制御情報が完結タグでない場合には（ステップＳ２０７、ＮＯ）、応答制御部１１１は、当該制御情報が開始タグか否かを確認する（ステップＳ２０９）。

（ステップＳ２１１）
検出した制御情報が開始タグの場合には、応答制御部１１１は、当該開始タグの以降に埋め込まれた、当該開始タグに対応する終了タグを検出する。そして、応答制御部１１１は、当該制御情報の種別や、属性情報として指定された内容に加えて、開始タグと終了タグとで囲まれた要素（即ち、音声出力として提示する応答内容を示す語句）の長さに応じて、制御対象となる表示情報や、当該表示情報を提示するための制御内容を特定する。

具体的な一例として、応答制御部１１１は、開始タグと終了タグとで囲まれた語句の長さに応じて、表示情報の表示を制御する期間を決定してもよい。このような構成により、例えば、応答制御部１１１は、「時計」という語句が音声出力される期間に同期して、「時計」機能に対応する表示情報ｖ１１がフェードインするように制御することも可能となる。なお、本態様については、別途実施例として後述する。

なお、検出した制御情報が開始タグではない場合、即ち、終了タグの場合には（ステップＳ２０９、ＮＯ）、応答制御部１１１は、当該制御情報を制御の対象としなくてもよい。これは、応答制御部１１１が、終了タグの検出前に、当該終了タグに対応する開始タグを検出した際に、対応する表示情報の出力の制御を既に実行しているためである。

（ステップＳ２１５）
応答制御部１１１は、以上の処理を、応答情報ｄ３０の終端が検出されるまで継続する（ステップＳ２１５、ＮＯ）。そして、応答制御部１１１は、応答情報ｄ３０の終端の検出に基づき（ステップＳ２１５、ＹＥＳ）、当該応答情報ｄ３０に基づく一連の制御を終了する。

以上、図７及び図８を参照して、本実施形態に係る情報処理装置１０の一連の処理の流れの一例について説明した。

＜４．実施例＞
次に、本実施形態に係る情報処理装置１０の実施例について説明する。

［４．１．実施例１：表示情報の提示方法の一例］
まず、実施例１として、音声出力と連動して表示情報を提示する場合の、当該表示情報の提示方法の一例について、応答情報の一例とあわせて説明する。

例えば、図９は、実施例１に係る情報処理装置１０による情報の提示方法の一例について説明するための説明図である。図３を参照して前述した例では、情報処理装置１０は、音声出力される語句の内容に限らず、対応する表示情報の表示態様を制御する期間（例えば、フェードインさせる期間）を明示的に指定していた。これに対して、図９に示した、実施例１に係る情報処理装置１０は、機能に対応した語句が音声出力される期間に同期して、当該機能に対応する表示情報の表示態様を制御する。

図９に示す例は、図３に示す例と同様に、ユーザＵａの「何ができるの？」という音声入力に対して、情報処理装置１０が、「時計、天気予報、家族カレンダーです」という音声出力に基づき応答する場合の一例を示している。

図９に示すように、実施例１に係る情報処理装置１０は、参照符号ｔ２１で示されたタイミングで「時計」の機能を示す語句ｃ２１１の音声出力と、当該「時計」の機能を示す表示情報ｖ１１の表示面内へのフェードインとを開始する。そして、情報処理装置１０は、「時計」の機能を示す語句ｃ２１１の音声出力の完了するタイミングｔ２２に同期するように、表示情報ｖ１１の表示面内へのフェードインを完了させる。即ち、本実施形態に係る情報処理装置１０は、「時計」の機能を示す語句ｃ２１１が音声出力される期間に同期して、当該「時計」の機能を示す表示情報ｖ１１の表示面内にフェードインするように、当該表示情報ｖ１１の表示を制御する。

次いで、情報処理装置１０は、参照符号ｔ２３で示されたタイミングで「天気予報」の機能を示す語句ｃ２１３の音声出力と、当該「天気予報」の機能を示す表示情報ｖ１３の表示面内へのフェードインとを開始する。そして、情報処理装置１０は、「天気予報」の機能を示す語句ｃ２１３の音声出力の完了するタイミングｔ２４に同期するように、表示情報ｖ１３の表示面内へのフェードインを完了させる。即ち、本実施形態に係る情報処理装置１０は、「天気予報」の機能を示す語句ｃ２１３が音声出力される期間に同期して、当該「天気予報」の機能を示す表示情報ｖ１３の表示面内にフェードインするように、当該表示情報ｖ１３の表示を制御する。

同様に、情報処理装置１０は、参照符号ｔ２５で示されたタイミングで「家族カレンダー」の機能を示す語句ｃ２１５の音声出力と、当該「家族カレンダー」の機能を示す表示情報ｖ１５の表示面内へのフェードインとを開始する。そして、情報処理装置１０は、「家族カレンダー」の機能を示す語句ｃ２１５の音声出力の完了するタイミングｔ２６に同期するように、表示情報ｖ１５の表示面内へのフェードインを完了させる。即ち、本実施形態に係る情報処理装置１０は、「家族カレンダー」の機能を示す語句ｃ２１５が音声出力される期間に同期して、当該「家族カレンダー」の機能を示す表示情報ｖ１５の表示面内にフェードインするように、当該表示情報ｖ１５の表示を制御する。

そして、情報処理装置１０は、「家族カレンダー」の機能を示す語句ｃ２１５の音声出力と、当該「家族カレンダー」の機能を示す表示情報ｖ１５の出力とが完了したタイミングｔ１７で、助動詞「です」を示す語句ｃ２１７の音声出力を行う。以上をもって、実施例１に係る情報処理装置１０は、ユーザＵａの「何ができるの？」という音声入力に対する一連の応答を終了する。

次に、図１０を参照して、実施例１に係る情報処理装置１０が、図９に示すように各機能に対応する語句が音声出力される期間に同期して、当該機能に対応する表示情報の出力を制御する場合の応答情報と、当該応答情報に基づく動作の一例について説明する。図１０は、実施例１に係る応答情報の一例について説明するための説明図であり、図９に示す例における応答情報について示している。

図１０において、参照符号ｄ４０は、「時計、天気予報、家族カレンダーです」という応答内容ｄ２０に対して、表示情報ｖ１１〜ｖ１５を提示するための制御情報が埋め込まれた応答情報の一例を示している。

応答情報ｄ３０における、「時計」、「、天気予報」、「、家族カレンダー」、「です」で示された各語句ｄ４２、ｄ４４、ｄ４６、及びｄ４７は、応答として音声出力される情報、即ち、応答内容ｄ２０中の各語句を示している。

また、参照符号ｄ４１１、ｄ４１３、ｄ４３１、ｄ４３３、ｄ４５１、及び、ｄ４５３は、表示情報ｖ１１〜ｖ１５の提示を制御するための制御情報の一例である。なお、制御情報ｄ４１１、ｄ４３１、及びｄ４５１は、開始タグとして構成された制御情報に相当する。また、制御情報ｄ４１３、ｄ４３３、及びｄ４５３は、開始タグとして構成された制御情報ｄ４１１、ｄ４３１、及びｄ４５３の終了タグをそれぞれ示している。

例えば、制御情報ｄ４１１及びｄ４１３は、「時計」を示す語句ｄ４２が音声出力される期間に同期して、「時計」を示す表示情報ｖ１１が表示面内にフェードインするように、当該表示情報ｖ１１の表示を制御するための制御情報の一例を示している。即ち、図１０に示す例では、「時計」を示す語句ｄ４２を囲むように制御情報ｄ４１１及びｄ４１３を挿入することで、当該制御情報ｄ４１１及びｄ４１３により、語句ｄ４２が音声出力される期間を示している。

同様に、制御情報ｄ４３１及びｄ４３３は、「天気予報」を示す語句ｄ４４が音声出力される期間に同期して、「天気予報」を示す表示情報ｖ１３が表示面内にフェードインするように、当該表示情報ｖ１３の表示を制御するための制御情報の一例を示している。また、制御情報ｄ４５１及びｄ４５３は、「家族カレンダー」を示す語句ｄ４６が音声出力される期間に同期して、「家族カレンダー」を示す表示情報ｖ１５が表示面内にフェードインするように、当該表示情報ｖ１５の表示を制御するための制御情報の一例を示している。

次に、図１０に示した応答情報ｄ４０に基づく、応答制御部１１１による応答処理の一例について説明する。

応答制御部１１１は、前述した実施形態と同様に、応答情報ｄ４０の内容を先頭から逐次読み出し、読み出した情報の種別に応じて、音声合成部１１５、または、表示制御部１１７の動作を制御する。

例えば、応答制御部１１１は、開始タグとして構成された制御情報ｄ４１１を検出した場合には、当該制御情報ｄ４１１に対応する終了タグ、即ち、制御情報ｄ４１３を探索する。そして、応答制御部１１１は、制御情報ｄ４１１（開始タグ）と制御情報ｄ４１３（終了タグ）とで囲まれた語句、即ち、「時計」を示す語句ｄ４２の長さに基づき、「clock_icon」で示された表示情報ｖ１１の表示を制御する期間を算出する。

なお、開始タグ及び終了タグで囲まれた語句の長さと、表示情報の表示を制御する期間の長さとの対応関係については、事前の実験等に基づきあらかじめ算出して制御データを生成し、当該制御データを、応答制御部１１１が読み出し可能な位置に記憶させておけばよい。これにより、応答制御部１１１は、当該制御データに基づき、開始タグ及び終了タグで囲まれた語句の長さに応じた期間を算出することが可能となる。

そして、応答制御部１１１は、制御情報ｄ４１１の内容と、制御情報ｄ４１１及びｄ４１３に基づき算出した期間とに基づき、表示情報ｖ１１が画面内にフェードインするように、表示制御部１１７に出力させる。また、応答制御部１１１は、制御情報ｄ４１１に次いで、「時計」を示す語句ｄ４２を読み出して音声合成部１１５に出力し、当該語句ｄ４１に対応する音声情報を音声合成部１１５に出力させる。

このような構成により、応答制御部１１１は、「時計」を示す語句ｄ４２が音声出力される期間に同期して、当該「時計」を示す表示情報ｖ１１が画面内にフェードインするように、当該表示情報ｖ１１の表示を制御することが可能となる。

なお、上記に示す制御は、制御情報ｄ４３１及びｄ４３３と、制御情報ｄ４５１及びｄ４５３とについても同様である。即ち、応答制御部１１１は、制御情報ｄ４３１及びｄ４３３に基づき、「天気予報」を示す語句ｄ４４が音声出力される期間に同期して、当該「天気予報」を示す表示情報ｖ１３が画面内にフェードインするように、当該表示情報ｖ１３の表示を制御する。同様に、応答制御部１１１は、制御情報ｄ４５１及びｄ４５３に基づき、「家族カレンダー」を示す語句ｄ４６が音声出力される期間に同期して、当該「家族カレンダー」を示す表示情報ｖ１５が画面内にフェードインするように、当該表示情報ｖ１５の表示を制御する。

以上、図９及び図１０を参照して説明したように、実施例１に係る情報処理装置１０に依れば、機能に対応した語句が音声出力される期間に同期して、当該機能に対応する表示情報の表示態様を制御することが可能となる。

［４．２．実施例２：表示情報の提示方法の一例］
前述した実施形態及び実施例では、情報処理装置１０が、各機能に対応する語句の音声出力に同期して、当該機能に対応する表示情報が表示面内にフェードインするように表示態様を制御する例について説明した。一方で、当該音声出力に同期して他の情報（例えば、表示情報）の出力が制御されれば、当該他の情報を出力するための態様は、必ずしも、前述した実施形態及び実施例に示した方法には限定されない。

そこで、以下に実施例２として、図１１及び図１２を参照しながら、音声出力と連動して表示情報を提示する場合の、当該表示情報の提示方法の他の一例について説明する。図１１は、実施例２に係る情報処理装置１０による情報の提示方法の一例について説明するための説明図である。また、図１２は、実施例２に係る応答情報の一例について説明するための説明図であり、図１１に示す例における応答情報について示している。

図１１に示す例は、図３及び図９に示す例と同様に、ユーザＵａの「何ができるの？」という音声入力に対して、情報処理装置１０が、「時計、天気予報、家族カレンダーです」という音声出力に基づき応答する場合の一例を示している。一方で、図１１に示す例では、「時計」、「天気予報」、及び「家族カレンダー」のそれぞれに対応する表示情報ｖ１１〜ｖ１５が、あらかじめ表示されている点で、図３及び図９に示す例と異なる。

図１１に示すように、実施例２に係る情報処理装置１０は、参照符号ｔ３１で示されたタイミングで「時計」の機能を示す語句ｃ２１１の音声出力を開始し、当該音声出力の開始に同期して、表示情報ｖ１１が拡大されるように表示制御（以降では、「拡大表示」と記載する場合がある）を開始する。このとき、情報処理装置１０は、タイミングｔ１１からあらかじめ設定された期間（例えば、３００［ｍｓ］）の経過後に、表示情報ｖ１１の拡大表示が完了するように、当該表示情報ｖ１１の出力を制御する。

なお、図１１において、タイミングｔ３１〜ｔ３２までの期間が、表示情報ｖ１１の拡大表示を開始してから完了するまでの期間に相当する。即ち、タイミングｔ３２では、表示情報ｖ１１は、拡大表示されていることとなる。なお、以降では、拡大表示された表示情報ｖ１１を、拡大前の表示情報ｖ１１と区別するために、「表示情報ｖ１１’」と記載する場合がある。

次いで、情報処理装置１０は、参照符号ｔ３３で示されたタイミングで「天気予報」の機能を示す語句ｃ２１３の音声出力を開始する。このとき、情報処理装置１０は、当該音声出力の開始に同期して、表示情報ｖ１３の拡大表示と、表示情報ｖ１１’を拡大前の大きさに縮小させる表示制御（以降では、「縮小表示」と記載する場合がある）とを開始する。また、情報処理装置１０は、タイミングｔ３３からあらかじめ設定された期間（例えば、３００［ｍｓ］）の経過後に、表示情報ｖ１３の拡大表示と表示情報ｖ１１’の縮小表示とが完了するように、当該表示情報ｖ１３及び表示情報ｖ１１’の出力を制御する。

なお、図１１において、タイミングｔ３３〜ｔ３４までの期間が、表示情報ｖ１３の拡大表示と表示情報ｖ１１’の縮小表示とを開始してから完了するまでの期間に相当する。即ち、タイミングｔ３４では、表示情報ｖ１３は拡大表示され、表示情報ｖ１１’は拡大前の大きさに縮小表示されている（即ち、表示情報ｖ１１が表示されている）こととなる。なお、以降では、拡大表示された表示情報ｖ１３を、拡大前の表示情報ｖ１３と区別するために、「表示情報ｖ１３’」と記載する場合がある。

同様に、情報処理装置１０は、参照符号ｔ３５で示されたタイミングで「家族カレンダー」の機能を示す語句ｃ２１５の音声出力を開始する。このとき、情報処理装置１０は、当該音声出力の開始に同期して、表示情報ｖ１５の拡大表示と、表示情報ｖ１３’の縮小表示とを開始する。また、情報処理装置１０は、タイミングｔ３５からあらかじめ設定された期間（例えば、３００［ｍｓ］）の経過後に、表示情報ｖ１５の拡大表示と表示情報ｖ１３’の縮小表示とが完了するように、当該表示情報ｖ１５及び表示情報ｖ１３’の出力を制御する。

なお、図１１において、タイミングｔ３５〜ｔ３６までの期間が、表示情報ｖ１５の拡大表示と表示情報ｖ１３’の縮小表示とを開始してから完了するまでの期間に相当する。即ち、タイミングｔ１６では、表示情報ｖ１５は拡大表示され、表示情報ｖ１３’は拡大前の大きさに縮小表示されている（即ち、表示情報ｖ１３が表示されている）こととなる。なお、以降では、拡大表示された表示情報ｖ１５を、拡大前の表示情報ｖ１５と区別するために、「表示情報ｖ１５’」と記載する場合がある。

次に、図１２を参照して、実施例２に係る情報処理装置１０が、図１１に示すように各機能に対応する語句が音声出力される期間に同期して、当該機能に対応する表示情報の出力を制御する場合の応答情報と、当該応答情報に基づく動作の一例について説明する。

図１０において、参照符号ｄ５０は、「時計、天気予報、家族カレンダーです」という応答内容ｄ２０に対して、表示情報ｖ１１〜ｖ１５を提示するための制御情報が埋め込まれた応答情報の一例を示している。

応答情報ｄ５０における、「時計」、「、天気予報」、「、家族カレンダー」、「です」で示された各語句ｄ５１、ｄ５３、ｄ５５、及びｄ５７は、応答として音声出力される情報、即ち、応答内容ｄ２０中の各語句を示している。

また、参照符号ｄ５２、ｄ５４１、ｄ５４２、ｄ５６１、及びｄ５６２は、表示情報ｖ１１〜ｖ１５の提示を制御するための制御情報の一例である。

例えば、制御情報ｄ５２、ｄ５４１、及びｄ５６１で示された「anim_expand」タグは、「item」属性で指定された表示情報を拡大表示させるための制御情報に相当する。なお、図１２に示す例では、「anim_expand」タグに対して、「duration」属性として、拡大表示させる期間を指定している。

また、制御情報ｄ５４２及びｄ５６２で示された「anim_shrink」タグは、「item」属性で指定された表示情報を縮小表示させるための制御情報に相当する。なお、図１２に示す例では、「anim_shrink」タグに対して、「duration」属性として、縮小表示させる期間を指定している。

次に、図１２に示した応答情報ｄ５０に基づく、応答制御部１１１による応答処理の一例について説明する。

図１２に示す例では、応答制御部１１１は、まず、「時計」という語句ｄ５１を読み出し、当該語句ｄ５１の直後に挿入された制御情報ｄ５２を検出することとなる。

このとき、応答制御部１１１は、読み出した「時計」という語句ｄ５１を音声合成部１１５に出力し、当該語句ｄ５１に対応する音声情報を音声合成部１１５に出力させる。また、応答制御部１１１は、検出された制御情報ｄ５２の内容に基づき、「clock_icon」で示された表示情報ｖ１１が、「３００ｍｓ」で拡大表示されるように、表示制御部１１７に当該表示情報ｖ１１の出力を制御させる。

次いで、応答制御部１１１は、「、天気予報」という語句ｄ５３を読み出し、当該語句ｄ３３の直後に挿入された制御情報ｄ５４１及びｄ５４２を検出することとなる。

この場合には、応答制御部１１１は、読み出した「、天気予報」という語句ｄ５３を音声合成部１１５に出力し、当該語句ｄ５３に対応する音声情報を音声合成部１１５に出力させる。また、応答制御部１１１は、検出された制御情報ｄ５４１の内容に基づき、「clock_icon」で示された表示情報ｖ１１が、「３００ｍｓ」で縮小表示されるように、表示制御部１１７に当該表示情報ｖ１１の出力を制御させる。この場合には、制御情報ｄ５２に基づき拡大表示された表示情報ｖ１１（即ち、表示情報ｖ１１’）が、「３００ｍｓ」で拡大前の大きさに縮小表示されることとなる。また、応答制御部１１１は、検出された制御情報ｄ５４２の内容に基づき、「weather_icon」で示された表示情報ｖ１３が、「３００ｍｓ」で拡大表示されるように、表示制御部１１７に当該表示情報ｖ１３の出力を制御させる。

以下、同様にして、応答制御部１１１は、「、家族カレンダー」という語句ｄ５５を読み出し、当該語句ｄ３５の直後に挿入された制御情報ｄ５６１及びｄ５６２を検出する。

この場合には、応答制御部１１１は、読み出した「、家族カレンダー」という語句ｄ５５を音声合成部１１５に出力し、当該語句ｄ５５に対応する音声情報を音声合成部１１５に出力させる。また、応答制御部１１１は、検出された制御情報ｄ５６１の内容に基づき、「weather_icon」で示された表示情報ｖ１３が、「３００ｍｓ」で縮小表示されるように、表示制御部１１７に当該表示情報ｖ１３の出力を制御させる。この場合には、制御情報ｄ５４２に基づき拡大表示された表示情報ｖ１３（即ち、表示情報ｖ１３’）が、「３００ｍｓ」で拡大前の大きさに縮小表示されることとなる。また、応答制御部１１１は、検出された制御情報ｄ５６２の内容に基づき、「calendar_icon」で示された表示情報ｖ１５が、「３００ｍｓ」で拡大表示されるように、表示制御部１１７に当該表示情報ｖ１５の出力を制御させる。

最後に、応答制御部１１１は、「です」という語句ｄ５７を読み出し、当該語句ｄ５７の読み出し後に、応答情報ｄ５０の終端を検出する。

この場合には、応答制御部１１１は、読み出した「です」という語句ｄ５７を音声合成部１１５に出力し、当該語句ｄ５７に対応する音声情報を音声合成部１１５に出力させる。そして、応答制御部１１１は、応答情報ｄ５０の終端の検出に基づき、当該応答情報ｄ５０に基づく一連の制御を終了する。

以上、図１１及び図１２を参照して説明したように、実施例２として説明したように、情報処理装置１０は、機能に対応した語句の音声出力に同期して、当該機能に対応する表示情報が拡大表示されるように、当該表示情報の表示態様を制御してもよい。

なお、上記に示した例は、あくまで一例であり、応答内容中の各機能に対応する語句の音声出力と同期して、当該音声出力とは異なる他の情報の出力が制御されれば、当該他の情報を出力するための態様が限定されないことは前述した通りである。また、音声出力に同期して、当該音声出力とは異なる他の情報がユーザに提示されれば、当該他の情報の種別も限定されない。

例えば、図１３は、応答情報に定義され得る制御情報の一例を示した図である。図１３に示す例では、音声出力と同期して、「表示情報のアニメーション表示」、「ＬＥＤの点滅または点灯」、及び「音響出力（例えば、効果音）によるサウンドフィードバック」を制御するための制御情報の例を示している。

具体的な一例として、表示情報をアニメーション表示させる場合の制御の一例として、「表示／非表示」、「フェードイン／フェードアウト」、「拡大／縮小」、「点滅」、「移動」、及び「スクロール」等が挙げられる。また、各制御を実行するためのパラメータとして、「時間」や「回数」等を指定できるようにしてもよい。

また、ＬＥＤを点滅または点灯させる場合の制御の一例として、「点灯／消灯」、「フェードイン／フェードアウト」、及び「点滅」等が挙げられる。また、各制御を実行するためのパラメータとして、「色」、「時間」、「回数」等を指定できるようにしてもよい。

また、音響出力によるサウンドフィードバックの制御の一例として、「再生」、「停止」、「フェードイン／フェードアウト」及び「音量の設定」等が挙げられる。また、各制御を実行するためのパラメータとして、「サウンド（出力対象）」、「時間」、「回数」等を指定できるようにしてもよい。

もちろん、図１３に示したような、所謂、視覚的情報や聴覚的情報の制御に限らず、例えば、触覚、嗅覚、または味覚を刺激する情報を制御してもよいことは、前述した通りである。また、表示情報等の視覚的情報の制御についても、アニメーション表示に限らず、例えば、表示情報の色や形などの表示態様を変化させる（例えば、切り替える）ように制御してもよい。

［４．３．実施例３：処理内容に応じて情報の提示を制御する場合の一例］
次に、実施例３として、図１４〜図１７を参照して、ユーザからの音声入力に基づく処理内容に応じて、音声情報や、当該音声情報に同期して出力する他の情報（例えば、表示情報）の出力を制御する場合の一例について説明する。

例えば、図１４は、ユーザＵａからの「明日、午後５時から歯医者」という音声入力ｃ３０を受けて、情報処理装置１０が、「家族カレンダー」機能に音声入力ｃ３０に基づく予定を登録し、当該ユーザＵａに対して応答した場合の一例を示している。

このとき、情報処理装置１０は、音声入力ｃ３０の解析結果に基づき対応機能として「家族カレンダー」機能を特定し、「家族カレンダー」機能の画面ｖ３１を、表示面上に表示させる。

そして、情報処理装置１０は、「予定を登録しました」という音声情報ｃ３１を出力し、当該音声情報ｃ３１の出力に同期して、「午後５時」から「歯医者」という予定を示した表示情報ｖ３１１を、画面ｖ３１上の対応する位置に提示する。このとき、情報処理装置１０は、表示情報ｖ３１１をアニメーション表示させることで、新たな予定が登録されたことをユーザＵａに提示してもよい。

また、図１４に示す例では、音声情報ｃ３１及び表示情報ｖ３１１に基づく応答後に、ユーザＵａに対して、「名前も登録できますよ」という音声情報ｃ３３により、登録した予定に対して情報が追加できる旨を提示してもよい。この場合には、情報処理装置１０は、音声情報ｃ３３の出力に同期して、当該音声情報ｃ３３によりユーザＵａに対して提示した処理内容、即ち、「名前の登録」に対応する表示情報ｖ３３の表示態様を制御してもよい。

具体的な一例として、情報処理装置１０は、音声情報ｃ３３の出力に同期して、名前を登録するための表示情報ｖ３３が、所定回数だけ点滅するように、当該表示情報ｖ３３の表示を制御することで、提示した処理内容と表示情報との対応関係をユーザに提示してもよい。

ここで、図１５を参照して、図１４に示すように、情報処理装置１０が応答する場合の応答情報の一例について説明する。図１５は、実施例３に係る応答情報ｄ６０の一例について説明するための説明図である。

図１５に示すように、応答情報ｄ６０は、「予定を登録しました」、「名前も登録できますよ」という応答内容に対して、表示情報ｖ３１１及びｖ３３の出力を制御するための制御情報ｄ６２及びｄ６５が埋め込まれている。

なお、応答情報ｄ６０における、「予定を」、「登録しました」、「名前も」、「登録できますよ」で示された各語句ｄ６１、ｄ６３、ｄ６４、及びｄ６６は、応答として音声出力される情報、即ち、応答内容中の各語句を示している。

また、制御情報ｄ６２は、「item」属性に「schedule」として指定された「家族カレンダー」の表示画面ｖ３１に対して、「title」属性に指定された予定を、「time」属性に指定された時間に相当する位置に、フェードインするように表示させるための制御情報である。なお、図１５に示す例では、制御情報ｄ６２には、「duration」属性として、「title」で指定された予定をフェードインさせる期間が指定されている。

また、制御情報ｄ６５は、「item」属性に「name_form」として指定された名前を登録するための表示情報ｖ３３を、「repeat」属性で指定された回数だけ点滅するように表示させるための制御情報である。

なお、応答情報ｄ６０に基づく応答処理の内容は、前述した実施形態及び各実施例と同様のため、詳細な説明は省略する。

また、図１５に示すように、情報処理装置１０は、ユーザＵａに対して追加で情報の入力が可能であることを提示した場合には、実行した「家族カレンダー」機能を終了させずに、当該「家族カレンダー」機能に対する処理を継続させてもよい。

次いで、図１６を参照して、図１５で示した「名前も登録できますよ」という応答を受けて、ユーザＵａが新たな音声入力を行った場合の動作の一例について説明する。図１６は、実施例３に係る情報処理装置１０の動作の一例について説明するための説明図である。図１６に示す例では、情報処理装置１０が、「名前も登録できますよ」という応答を受けてユーザＵａが発話した「名前はJunkiで登録して」という音声入力ｃ３４を受けた場合の一例を示している。

このとき、情報処理装置１０は、取得した音声入力ｃ３４を解析する際に、実行中の機能の状態を加味することで、応答内容を特定する範囲を絞り込んでもよい。具体的な一例として、図１６に示す例の場合には、情報処理装置１０は、取得した音声入力ｃ３４を、実行中の「家族カレンダー」機能に対する入力情報として認識し、対応する応答内容を特定してもよい。

音声入力ｃ２４を取得すると、情報処理装置１０は、当該音声入力ｃ２４を解析することで、「名前」として登録する内容が「Junki」であることを認識し、「Junki」を事前に登録した「歯医者」の予定に関連付ける。

そして、情報処理装置１０は、「はい、登録しました」という音声情報ｃ３５を出力し、当該音声情報ｃ３５の出力に同期して、図１５に示す表示情報ｖ３３に対して、「Junki」という名前が入力された表示情報ｖ３５を提示する。このとき、情報処理装置１０は、表示情報ｖ３３中に「Junki」という名前がフェードインするように表示情報ｖ３５を表示させることで、ユーザＵａの指定した名前「Junki」が登録されたことを当該ユーザＵａに提示してもよい。

ここで、図１７を参照して、図１６に示すように、情報処理装置１０が応答する場合の応答情報の一例について説明する。図１７は、実施例３に係る応答情報ｄ７０の一例について説明するための説明図である。

図１７に示すように、応答情報ｄ７０は、「はい、登録しました」という応答内容に対して、表示情報ｖ３５の出力を制御するための制御情報ｄ７２が埋め込まれている。

なお、応答情報ｄ７０における、「はい」、「登録しました」で示された各語句ｄ７１及びｄ７３は、応答として音声出力される情報、即ち、応答内容中の各語句を示している。

また、制御情報ｄ７２は、「item」属性に「name_form」として指定された表示情報ｖ３３に対して、「name」属性に指定された名前「Junki」が、フェードインするように表示されるように、表示情報ｖ３５を表示させるための制御情報である。なお、図１７に示す例では、制御情報ｄ７２には、「duration」属性として、「name」で指定された名前をフェードインさせる期間が指定されている。

なお、応答情報ｄ７０に基づく応答処理の内容は、前述した実施形態及び各実施例と同様のため、詳細な説明は省略する。

以上、実施例３として、図１４〜図１７を参照して説明したように、情報処理装置１０は、ユーザからの音声入力に基づく処理内容に応じて、音声情報や、当該音声情報に同期して出力する他の情報（例えば、表示情報）の出力を制御してもよい。

［４．４．実施例４：複数のユーザに対する情報の提示方法の一例］
次に、実施例４として、複数のユーザを対象として、各ユーザの音声入力に対して応答を行う場合の、情報処理装置１０の構成や動作の一例について説明する。

例えば、図１８は、実施例４に係る情報処理装置１０の一例について説明するための図である。図１８に示す例では、情報処理装置１０が、音声情報を出力するための音響出力部５１として、複数の音響出力部５１ａ及び５１ｂが設けられている。そして、情報処理装置１０は、各ユーザからの音声入力に対して音声出力を行う場合に、複数の音響出力部５１ａ及び５１ｂのうち、当該音声入力の発声元であるユーザの近傍に位置する音響出力部を介して音声出力を行う。また、このとき、情報処理装置１０は、当該音声出力に連動して、当該ユーザの近傍に表示情報を表示させる。

例えば、図１８に示す例では、ユーザＵａの「ロンドンは何時？」という音声入力ｃ４０ａに対して、情報処理装置１０は、「午後５時です」という音声情報ｃ４１ａを、当該ユーザＵａの近傍に位置する音響出力部５１ａから出力する。また、このとき情報処理装置１０は、音声情報ｃ４１ａの出力に同期して、表示面内における、ユーザＵａの近傍に相当する位置に、「時計」機能に対応した表示情報ｖ４１がフェードインするように、当該表示情報ｖ４１の表示を制御している。

また、ユーザＵｂの「明日の天気は？」という音声入力ｃ４０ｂに対して、情報処理装置１０は、「雨です」という音声情報ｃ４１ｂを、当該ユーザＵｂの近傍に位置する音響出力部５１ｂから出力する。また、このとき情報処理装置１０は、音声情報ｃ４１ｂの出力に同期して、表示面内における、ユーザＵｂの近傍に相当する位置に、「天気予報」機能に対応した表示情報ｖ４３がフェードインするように、当該表示情報ｖ４３の表示を制御している。

この場合には、情報処理装置１０は、例えば、「ロンドンは何時？」という音声入力ｃ４０ａの到来方向から、当該音声入力ｃ４０ａの発声元、即ち、ユーザＵａの位置を推定する。また、情報処理装置１０は、「ロンドンは何時？」という音声入力ｃ４０ａを解析し、当該解析結果に基づき、当該音声入力ｃ４０ａに対して応答を行うための応答情報を生成する。そして、情報処理装置１０は、生成した応答情報に対して、ユーザＵａの位置の推定結果を関連付ける。

また、情報処理装置１０は、生成された応答情報に基づき、ユーザＵａの音声入力ｃ４０ａに対して応答を行う場合には、当該応答情報に関連付けられたユーザＵａの位置の推定結果に基づき、音声情報及び表示情報の出力先を特定する。具体的には、情報処理装置１０は、ユーザＵａの位置の推定結果に基づき、音声入力ｃ４０ａに対する応答である「午後５時です」という音声情報ｃ４１ａを出力する音響出力部５１ａを特定する。また、情報処理装置１０は、ユーザＵａの位置の推定結果に基づき、「時計」機能に対応した表示情報ｖ４１を表示させる位置として、表示面中における、当該情報処理装置１０に対して当該ユーザＵａが存在する方向の領域を特定する。

なお、ユーザＵｂの「明日の天気は？」という音声入力ｃ４０ｂに対して応答する場合についても、情報処理装置１０は、同様の方法で当該ユーザＵｂの位置を推定し、当該推定結果に基づき、音声情報ｃ４１ｂと表示情報ｖ４３の出力を制御すればよい。

また、図１９は、実施例１に係る情報処理装置１０の他の一例について説明するための図である。図１９に示す例では、情報処理装置１０は、音声入力の発声元であるユーザを識別し、識別されたユーザに応じて、当該音声入力に対する応答として出力される音声情報及び表示情報の出力態様を制御する。

例えば、図１９に示す例では、情報処理装置１０は、音声出力に基づき応答を行う際に、応答先のユーザに応じて、音声出力の口調、トーン、声色等を変更している。具体的な一例として、情報処理装置１０は、大人であるユーザＵａ及びＵｂと、子供であるユーザＵｃとのそれぞれに対して音声出力の口調を変更している。

また、情報処理装置１０は、音声出力される応答内容に、認識したユーザを想起させる情報（例えば、名前）を含めてもよい。具体的な一例として、図１９に示す例では、情報処理装置１０は、ユーザＵｃに対する応答として、「ゆうたくん、朝ごはんの時間だよ」というように、ユーザＵｃの名前を含めた応答内容を生成し、当該応答内容を示す音声情報ｃ５５ｃを出力している。

また、情報処理装置１０は、表示情報を出力する際に、応答先のユーザに応じて、当該表示情報の表示態様を変更してもよい。例えば、図１９に示す例では、情報処理装置１０は、応答先のユーザに応じて、表示情報が表示面内にフェードインする方向を切り替えている。

具体的には、情報処理装置１０は、ユーザＵａに対する応答として、音声情報ｃ５１ａの出力に同期して、表示情報ｖ５１ａが、右から左に向けて表示面内にフェードインするように、当該表示情報ｖ５１ａの出力を制御している。また、情報処理装置１０は、ユーザＵｂに対する応答として、音声情報ｃ５３ｂの出力に同期して、表示情報ｖ５３ｂが、左から右に向けて表示面内にフェードインするように、当該表示情報ｖ５３ｂの出力を制御している。同様に、情報処理装置１０は、ユーザＵｃに対する応答として、音声情報ｃ５５ｃの出力に同期して、表示情報ｖ５５ｃが、下から上に向けて表示面内にフェードインするように、当該表示情報ｖ５３ｂの出力を制御している。

この場合には、情報処理装置１０は、各ユーザからの音声入力を、所謂、話者認識技術に基づき、当該音声入力から声紋などの特徴を抽出し、抽出した特徴を、あらかじめ記憶したユーザごとの特徴と照合することで、ユーザを識別すればよい。そして、情報処理装置１０は、音声入力の解析結果に基づき応答情報を生成し、生成した応答情報に、当該音声入力に基づき識別したユーザの情報を関連付ける。

また、情報処理装置１０は、生成された応答情報に基づき応答処理を行う場合には、当該応答情報に関連付けられたユーザの情報に基づき、応答先のユーザを認識し、認識したユーザに応じて、音声情報及び表示情報の出力態様を制御すればよい。

以上、実施例４として説明したように、情報処理装置１０は、複数のユーザを対象とする場合に、各ユーザの位置や各ユーザの識別結果に基づき、音声入力に対して出力する音声情報や、当該音声情報と同期して出力する他の情報の出力態様を制御してもよい。

［４．５．実施例５：ユーザの割り込みに伴う情報の提示方法の一例］
次に、実施例５として、図２０を参照して、情報処理装置１０が、ユーザからの音声入力に対する応答中に、当該ユーザが割り込んで新たな音声入力を行った場合の、当該情報処理装置１０による情報の提示方法の一例について説明する。図２０は、実施例５に係る情報処理装置１０の一例について説明するための図である。

図２０に示す例では、情報処理装置１０は、まず、ユーザＵａから、「明日の予定は？」という音声入力ｃ６０を受け付けたものとする。このとき、情報処理装置１０は、音声入力ｃ６０に対する応答として、当該日程の午前の予定を示す「明日の朝７時から・・・」という音声情報ｃ６１を出力し、当該音声情報ｃ６１の出力に同期して、表示情報ｖ６１を表示面内にフェードインさせる。

これに対して、情報処理装置１０が、音声情報ｃ６１及び表示情報ｖ６１の出力中に、ユーザＵａが、「あ、午後の予定教えて」という、該当日程の午後の予定の提示を要求する音声入力ｃ６２を行ったものとする。

この音声入力ｃ６２を受けて、情報処理装置１０は、実行中の音声情報ｃ６１及び表示情報ｖ６１の出力をキャンセルする。このとき、情報処理装置１０は、表示面内にフェードイン中の表示情報ｖ６１が、表示面外にフェードアウトするように、当該表示情報ｖ６１の出力を制御する。このような表示制御により、情報処理装置１０は、実行中だった音声情報ｃ６１及び表示情報ｖ６１の出力がキャンセルされたことを、ユーザＵａに対して提示する。

そして、情報処理装置１０は、新たに、当該日程の午後の予定を示す「はい、午後は１時半から会議です」という音声情報ｃ６３を出力し、当該音声情報ｃ６３の出力に同期して、表示情報ｖ６３を表示面内にフェードインさせる。

なお、実行中の情報出力をキャンセルし、新たに情報を提示する場合には、情報処理装置１０は、新たに情報を提示したことを示すように、当該情報の出力を制御してもよい。具体的な一例として、情報処理装置１０は、新たに表示させる表示情報ｖ６３を、表示情報ｖ６１と同じ位置に表示させてもよいし、当該表示情報ｖ６１とは異なる位置に表示させてもよい。

また、情報処理装置１０は、キャンセルに伴い新たに音声情報を出力する場合には、キャンセル前とは異なる言い回しで、新たな音声情報を出力してもよい。具体的な一例として、図２０に示す例では、情報処理装置１０は、音声入力ｃ６２の「午後」という語句が強調されるように、助詞の使い方を変更している。また、情報処理装置１０は、「はい」や「承りました」等のように、新たな音声入力を受け付けたことを示す語句を、応答内容に含めてもよい。

なお、情報処理装置１０は、音声入力が受け付けられたタイミングと、音声入力に対する応答処理の処理シーケンスとを監視することで、応答中にユーザが割り込んで新たな音声入力を行ったことを認識できることは言うまでもない。

以上、実施例５として説明したように、情報処理装置１０は、ユーザからの音声入力に対する応答中に、当該ユーザが割り込んで新たな音声入力を行った場合に、実行中の応答がキャンセルされたことをユーザに提示してもよい。また、情報処理装置１０は、応答のキャンセルに伴い、新たに応答を行う場合には、応答として出力される音声情報や、当該音声情報に同期して出力される他の情報（例えば、表示情報）を、キャンセル前とは異なる態様で提示してもよい。

＜５．ハードウェア構成＞
次に、図２１を参照して、本開示の各実施形態に係る情報処理装置１０のハードウェア構成の一例について説明する。図２１は、本開示の実施形態に係る情報処理装置１０のハードウェア構成の一例を示した図である。

図２１に示すように、本実施形態に係る情報処理装置１０は、プロセッサ９０１と、メモリ９０３と、ストレージ９０５と、スピーカ９１１と、通信デバイス９１３と、バス９１５とを含む。また、情報処理装置１０は、操作デバイス９０７と、表示デバイス９０９とを含んでもよい。

プロセッサ９０１は、例えばＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphics Processing Unit）、ＤＳＰ（Digital Signal Processor）又はＳｏＣ（System on Chip）であってよく、情報処理装置１０の様々な処理を実行する。プロセッサ９０１は、例えば、各種演算処理を実行するための電子回路により構成することが可能である。なお、前述した入力情報解析部１０１、応答情報生成部１０３、処理実行部１０５、応答制御部１１１、音声合成部１１５、及び表示制御部１１７は、プロセッサ９０１により実現され得る。

メモリ９０３は、ＲＡＭ（Random Access Memory）及びＲＯＭ（Read Only Memory）を含み、プロセッサ９０１により実行されるプログラム及びデータを記憶する。ストレージ９０５は、半導体メモリ又はハードディスクなどの記憶媒体を含み得る。例えば、前述した辞書情報記憶部１０９は、メモリ９０３及びストレージ９０５の少なくともいずれか、もしくは、双方の組み合わせにより構成され得る。

操作デバイス９０７は、ユーザが所望の操作を行うための入力信号を生成する機能を有する。操作デバイス９０７は、例えばボタン及びスイッチなどユーザが情報を入力するための入力部と、ユーザによる入力に基づいて入力信号を生成し、プロセッサ９０１に供給する入力制御回路などから構成されてよい。

表示デバイス９０９は、出力デバイスの一例であり、例えば、液晶ディスプレイ（ＬＣＤ：Liquid Crystal Display）装置、有機ＥＬ（ＯＬＥＤ：Organic Light Emitting Diode）ディスプレイなどのデバイスであってよい。この場合には、表示デバイス９０９は、画面を表示することにより、ユーザに対して所定の情報を報知することができる。なお、前述した表示部５３は、表示デバイス９０９により実現され得る。

スピーカ９１１は、音響信号や音声信号を出力するための出力デバイスの一例である。前述した音響出力部５１は、スピーカ９１１により実現され得る。

通信デバイス９１３は、情報処理装置１０が備える通信手段であり、ネットワークを介して外部装置と通信する。通信デバイス９１３は、有線または無線用の通信インタフェースである。通信デバイス９１３を、無線通信インタフェースとして構成する場合には、当該通信デバイス９１３は、通信アンテナ、ＲＦ（Radio Frequency）回路、ベースバンドプロセッサなどを含んでもよい。

通信デバイス９１３は、外部装置から受信した信号に各種の信号処理を行う機能を有し、受信したアナログ信号から生成したデジタル信号をプロセッサ９０１に供給することが可能である。

バス９１５は、プロセッサ９０１、メモリ９０３、ストレージ９０５、操作デバイス９０７、表示デバイス９０９、スピーカ９１１、及び通信デバイス９１３を相互に接続する。バス９１５は、複数の種類のバスを含んでもよい。

また、コンピュータに内蔵されるプロセッサ、メモリ、及びストレージなどのハードウェアを、上記した情報処理装置１０が有する構成と同等の機能を発揮させるためのプログラムも作成可能である。また、当該プログラムを記録した、コンピュータに読み取り可能な記憶媒体も提供され得る。

＜６．まとめ＞
以上、説明したように、本実施形態に係る情報処理装置１０は、ユーザの音声入力に対して、音声出力と当該音声出力とは異なる他の情報（例えば、表示情報）に基づく応答により、ユーザとの間で対話を行う、所謂、対話型のインタフェースを備える。また、このような構成のもと、本実施形態に係る情報処理装置１０は、各機能に対応する語句それぞれの音声出力に同期して、当該機能に対応付けられた他の情報の出力を制御する。これにより、ユーザは、音声出力された機能に対応する他の情報を直感的に認識することが可能となる。

なお、上記では、情報処理装置１０が、各機能に対応する語句それぞれの音声出力に同期して、当該機能に対応付けられた他の情報の出力を制御する例について説明したが、当該音声出力と当該他の出力とは、必ずしも完全に同期していなければならないとは限らない。例えば、ユーザが情報処理装置１０を操作する環境や、情報処理装置１０の利用形態に応じて、当該音声出力と当該他の出力との対応関係が認識可能な範囲で、一方の出力に対して他方の出力を遅延させてもよい。また、この場合には、情報処理装置１０は、音声出力される情報の長さや、他の情報の種別に応じて、遅延量（換言すると、出力タイミング）を制御できるようにしてもよい。

また、上記では、情報処理装置１０への情報の入力手段として、ユーザが発話により情報を入力する音声入力を適用した場合を例に説明したが、ユーザが情報処理装置１０に対して情報を入力する手段は、必ずしも音声入力には限定されない。

例えば、情報処理装置１０は、キーボード、マウス、タッチパネル等の入力デバイスを介してユーザ入力を取得してもよい。具体的な一例として、情報処理装置１０は、ユーザによるキー操作やマウス操作によるカーソル移動や選択対象の決定、タッチパネルに対するタップ操作等の操作を受けて、表示部に表示された表示情報のうち当該ユーザに選択された表示情報を認識してもよい。

また、他の一例として、情報処理装置１０は、ユーザがジェスチャ入力により情報を入力するためのインタフェースを提供してもよい。具体的な一例として、情報処理装置１０は、撮像部により撮像されたユーザの画像を基に、当該ユーザの動作（ジェスチャ）を認識し、認識した動作に応じてユーザがジェスチャ入力に基づき選択した情報（例えば、表示部に表示された表示情報）を認識してもよい。

以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

なお、以下のような構成も本開示の技術的範囲に属する。
（１）
所定の機能に対応付けられた語句を含む一連の語句のうち、前記機能に対応付けられた語句の音声出力が行われるタイミングに関するタイミング情報に基づいて、当該機能に対応付けられた当該音声出力とは異なる他の情報の出力を制御する制御部、
を備える、情報処理装置。
（２）
前記他の情報は表示部に表示される表示情報である、前記（１）に記載の情報処理装置。
（３）
前記制御部は、前記一連の語句の音声出力を制御する、前記（２）に記載の情報処理装置。
（４）
前記制御部は、音声合成部の音声合成処理に基づいて前記一連の語句の音声出力を制御する、前記（３）に記載の情報処理装置。
（５）
前記音声合成処理は、ユーザの音声入力に基づいて実行される処理である、前記（４）に記載の情報処理装置。
（６）
前記一連の語句は、前記ユーザの音声入力が示す意味内容に応じて生成される、前記（５）に記載の情報処理装置。
（７）
前記制御部は、前記機能に対応付けられた語句の音声出力に同期して、当該機能に対応付けられた表示情報の出力を制御する、前記（４）〜（６）のいずれか一項に記載の情報処理装置。
（８）
前記制御部は、前記機能に対応付けられた語句の音声出力に同期して、当該機能に対応付けられた前記表示情報を変化させる、前記（７）に記載の情報処理装置。
（９）
前記制御部は、前記機能に対応付けられた語句の音声出力に同期して、当該機能に対応付けられた前記表示情報の表示および非表示を制御する、前記（７）に記載の情報処理装置。
（１０）
前記制御部は、前記機能に対応付けられた語句の音声出力に同期して、当該機能に対応付けられた音響情報の出力を制御する、前記（７）に記載の情報処理装置。
（１１）
前記制御部は、前記機能に対応付けられた語句の音声出力に同期して、当該機能に応じた発行回数または発光パターンで、発光部の発光を制御する、前記（７）に記載の情報処理装置。
（１２）
前記一連の語句は、前記機能に応じた処理内容を示す語句を含み、
前記制御部は、当該一連の語句のうち、前記処理内容を示す語句の音声出力に同期して、当該処理内容に応じた当該音声出力とは異なる他の情報の出力を制御する、前記（１）〜（１１）のいずれか一項に記載の情報処理装置。
（１３）
前記制御部は、前記機能に対応付けられた語句が音声出力されるタイミングに同期して、当該機能に対応付けられた前記他の情報の出力を制御する、前記（７）〜（１１）のいずれか一項に記載の情報処理装置。
（１４）
前記制御部は、前記機能に対応付けられた語句が音声出力される期間に同期して、当該機能に対応付けられた前記他の情報の出力を制御する、前記（７）〜（１１）のいずれか一項に記載の情報処理装置。
（１５）
前記制御部は、前記機能に対応付けられた語句に対して関連付けられた制御情報に基づき、当該機能に対応付けられた前記他の情報の出力を制御する、前記（１）〜（１４）のいずれか一項に記載の情報処理装置。
（１６）
前記制御部は、前記制御情報は、前記機能に対応付けられた語句を示す文字情報に関連付けられたタグ情報として、前記一連の語句を示す文字情報中に埋め込まれた前記制御情報に基づき、当該機能に対応付けられた前記他の情報の出力を制御する、前記（１５）に記載の情報処理装置。
（１７）
前記表示情報は、ユーザの選択操作の選択対象で有る、前記（２）〜（１１）のいずれか一項に記載の情報処理装置。
（１８）
プロセッサが、所定の機能に対応付けられた語句を含む一連の語句のうち、前記機能に対応付けられた語句の音声出力が行われるタイミングに関するタイミング情報に基づいて、当該機能に対応付けられた当該音声出力とは異なる他の情報の出力を制御すること、
を含む、情報処理方法。
（１９）
コンピュータに、
所定の機能に対応付けられた語句を含む一連の語句のうち、前記機能に対応付けられた語句の音声出力が行われるタイミングに関するタイミング情報に基づいて、当該機能に対応付けられた当該音声出力とは異なる他の情報の出力を制御すること、
を実行させる、プログラム。

１０情報処理装置
１０１入力情報解析部
１０３応答情報生成部
１０５処理実行部
１０９辞書情報記憶部
１１１応答制御部
１１５音声合成部
１１７表示制御部
４１集音部
５１音響出力部
５３表示部

Claims

ユーザの音声入力の到来方向に基づいて、前記ユーザの位置を推定するとともに、前記音声入力の解析結果に基づいて、応答情報を生成する生成部と、
生成された前記応答情報に対応する、所定の機能に対応付けられた語句を含む一連の語句のうち、前記機能に対応付けられた語句の音声出力が行われるタイミングに関するタイミング情報に基づいて、当該機能に対応付けられた当該音声出力と、該音声出力とは異なる他の情報の出力とを、推定した前記ユーザの位置に対応する領域に向けて出力するように制御する制御部と、
を備える、情報処理装置。
前記他の情報は表示部に表示される表示情報である、請求項１に記載の情報処理装置。
前記制御部は、音声合成部の音声合成処理に基づいて前記一連の語句の音声出力を制御する、請求項２に記載の情報処理装置。
前記音声合成処理は、前記ユーザの前記音声入力に基づいて実行される処理である、請求項３に記載の情報処理装置。
前記一連の語句は、前記ユーザの前記音声入力が示す意味内容に応じて生成される、請求項４に記載の情報処理装置。
前記制御部は、前記機能に対応付けられた語句の音声出力に同期して、当該機能に対応付けられた表示情報の出力を制御する、請求項３〜５のいずれか一項に記載の情報処理装置。
前記制御部は、前記機能に対応付けられた語句の音声出力に同期して、当該機能に対応付けられた前記表示情報を変化させる、請求項６に記載の情報処理装置。
前記制御部は、前記機能に対応付けられた語句の音声出力に同期して、当該機能に対応付けられた前記表示情報の表示および非表示を制御する、請求項６に記載の情報処理装置。
前記制御部は、前記機能に対応付けられた語句の音声出力に同期して、当該機能に対応付けられた音響情報の出力を制御する、請求項６に記載の情報処理装置。
前記制御部は、前記機能に対応付けられた語句の音声出力に同期して、当該機能に応じた発光回数または発光パターンで、発光部の発光を制御する、請求項６に記載の情報処理装置。
前記一連の語句は、前記機能に応じた処理内容を示す語句を含み、
前記制御部は、当該一連の語句のうち、前記処理内容を示す語句の音声出力に同期して、当該処理内容に応じた当該音声出力とは異なる他の情報の出力を、推定した前記ユーザの位置に対応する領域に向けて出力するように制御する、請求項１〜１０のいずれか一項に記載の情報処理装置。
前記制御部は、前記機能に対応付けられた語句が音声出力されるタイミングに同期して、当該機能に対応付けられた前記他の情報の出力を制御する、請求項６〜１０のいずれか一項に記載の情報処理装置。
前記制御部は、前記機能に対応付けられた語句が音声出力される期間に同期して、当該機能に対応付けられた前記他の情報の出力を制御する、請求項６〜１０のいずれか一項に記載の情報処理装置。
前記制御部は、前記機能に対応付けられた語句に対して関連付けられた制御情報に基づき、当該機能に対応付けられた前記他の情報の出力を制御する、請求項１〜１３のいずれか一項に記載の情報処理装置。
前記制御部は、前記機能に対応付けられた語句を示す文字情報に関連付けられたタグ情報として前記一連の語句を示す文字情報中に埋め込まれた前記制御情報に基づき、当該機能に対応付けられた前記他の情報の出力を制御する、請求項１４に記載の情報処理装置。
前記表示情報は、ユーザの選択操作の選択対象で有る、請求項２〜１０のいずれか一項に記載の情報処理装置。
プロセッサが、ユーザの音声入力の到来方向に基づいて、前記ユーザの位置を推定するとともに、前記音声入力の解析結果に基づいて、応答情報を生成することと、
生成された前記応答情報に対応する、所定の機能に対応付けられた語句を含む一連の語句のうち、前記機能に対応付けられた語句の音声出力が行われるタイミングに関するタイミング情報に基づいて、当該機能に対応付けられた当該音声出力と、該音声出力とは異なる他の情報の出力とを、推定した前記ユーザの位置に対応する領域に向けて出力するように制御することと、
を含む、情報処理方法。
コンピュータに、
ユーザの音声入力の到来方向に基づいて、前記ユーザの位置を推定するとともに、前記音声入力の解析結果に基づいて、応答情報を生成することと、
生成された前記応答情報に対応する、所定の機能に対応付けられた語句を含む一連の語句のうち、前記機能に対応付けられた語句の音声出力が行われるタイミングに関するタイミング情報に基づいて、当該機能に対応付けられた当該音声出力と、該音声出力とは異なる他の情報の出力とを、推定した前記ユーザの位置に対応する領域に向けて出力するように制御することと、
を実行させる、プログラム。