WO2019230065A1

WO2019230065A1 - 情報処理装置、情報処理方法、プログラム

Info

Publication number: WO2019230065A1
Application number: PCT/JP2019/005109
Authority: WO
Inventors: 俊允上坂
Original assignee: ソニー株式会社
Priority date: 2018-05-31
Filing date: 2019-02-13
Publication date: 2019-12-05
Also published as: US20210201929A1; EP3806090A1; EP3806090A4

Abstract

再度の音声認識を成功させるためにユーザが取るべき行動を示すアドバイス情報を生成し提示する。そのために、情報処理装置は、ユーザの音声入力についての音声認識の成否を判定する音声認識成否判定部と、前記判定において前記音声認識が成功したと判定した場合にユーザに提示するための通常応答情報を生成する通常応答生成部と、前記判定において前記ユーザの周辺環境に起因して前記音声認識が失敗したと判定した場合にユーザに提示するためのアドバイス情報を生成するアドバイス情報生成部と、を備えるものとした。

Description

情報処理装置、情報処理方法、プログラム

　本技術は、音声認識の成否判定とそれに応じたアドバイス情報を生成する情報処理装置、情報処理方法及びプログラムについての技術分野に関する。

　音声認識が失敗したときに、認識失敗の原因を推定して提示する技術や、大きな雑音が検出されたときに静かな場所での再発話を促す技術がある。例えば、以下に示す特許文献１では、発話音量や発話速度などの発話態様を判定すると共に雑音の推定を行うことにより、音声認識の失敗の原因を通知することが記載されている。
　また、特許文献２では、発話音量やＳＮＲ（Signal-Noise Ratio）や音声区間長や語頭切断や語尾切断などに注目し、音声認識の失敗の主原因を判定することが記載されている。

特開２００８－２５６８０２号公報特開２０１０－１８６１２６号公報

　しかし、ユーザは音声認識の失敗原因を認識したとしても、その対処法が不明であったり、静かな場所を指定されても具体的な場所が分からなかったりするなど、次回の音声認識を成功させるには不十分であった。
　そこで、本技術の撮像装置は、再度の音声認識を成功させるためにユーザが取るべき行動を示すアドバイス情報を生成し提示することを目的とする。

　本技術に係る情報処理装置は、ユーザの音声入力についての音声認識の成否を判定する音声認識成否判定部と、前記判定において前記音声認識が成功したと判定した場合にユーザに提示するための通常応答情報を生成する通常応答生成部と、前記判定において前記ユーザの周辺環境に起因して前記音声認識が失敗したと判定した場合にユーザに提示するためのアドバイス情報を生成するアドバイス情報生成部と、を備えている。
　ユーザの周辺環境に起因して音声認識が失敗したと判定した場合に、次の音声認識を成功させるために提示するアドバイス情報が生成される。これによって、ユーザが適切な行動を取れるようなアドバイス情報を提示することが可能となる。

　上記の情報処理装置においては、前記判定の結果として、前記音声認識が成功したことを示す結果を取得した場合には前記通常応答情報を選択し、前記音声認識が失敗したことを示す結果を取得した場合には前記アドバイス情報を選択する応答制御部を備えていてもよい。
　即ち、音声認識の成否に応じて応答情報（通常応答情報とアドバイス情報の何れか）が選択される。

　上記の情報処理装置においては、前記応答制御部によって選択された情報をユーザに提示する応答情報提示部を備えていてもよい。
　即ち、音声認識の成否に応じた応答情報がユーザに提示される。

　上記の情報処理装置においては、前記音声認識が失敗した場合に、失敗原因を判定するための原因判定処理を行ってもよい。
　ユーザの音声入力の音声認識についての失敗原因が特定される。

　上記の情報処理装置における前記原因判定処理では、失敗が発話態様によるものかノイズによるものかの判定を行ってもよい。
　これにより、音声認識の失敗原因について、再試行により解消可能と推測できる発話態様によるものであるのか、或いはノイズによるものであるのか、判定される。

　上記の情報処理装置における前記原因判定処理では、失敗がノイズによるものと判定した場合に、該ノイズが一時的なノイズであるか非一時的なノイズであるかを更に判定してもよい。
　音声認識の失敗原因がノイズである場合に、該ノイズの特性を判定することにより、音声入力を再度求めるアドバイス情報とその他のアドバイス情報の何れを提示するか、適切に判定することが可能となる。

　上記の情報処理装置における前記原因判定処理では、分類器を用いてもよい。
　分類器を用いることにより、音声認識の失敗原因の推定を自動で行うことができる。

　上記の情報処理装置においては、前記分類器は機械学習によって生成されてもよい。
　分類器を生成するための具体的な処理方法として機械学習が用いられる。

　上記の情報処理装置における前記原因判定処理では、失敗原因の判定のために地図データを用いてもよい。
　これにより、音声データの解析によって得られるノイズなどの情報だけでなく、地図データを用いてノイズの発生原因などが推定されて、失敗原因の判定に利用される。

　上記の情報処理装置における前記アドバイス情報生成部は、音声入力の再試行を行う場所を提示するための情報を含んだアドバイス情報を生成してもよい。
　これにより、次回の音声認識を成功させるための情報がユーザに提示される。

　上記の情報処理装置においては、前記音声認識の失敗原因が非一時的なノイズである場合において、前記再試行を行う場所は現在地とは異なる代替地とされてもよい。
　これにより、次回の音声認識を成功させるための適切な移動候補地が代替地としてユーザに提示される。

　上記の情報処理装置においては、前記音声認識の失敗原因が一時的なノイズである場合において、前記再試行を行う場所は現在地とされてもよい。
　これにより、次回の音声認識を成功させるためのユーザがとるべき適切な行動を示唆するためのアドバイス情報が生成される。

　上記の情報処理装置においては、ユーザの現在地が発話制限エリアであると判定された場合において、前記再試行を行う場所は現在地とは異なる代替地とされてもよい。
　これにより、次回の音声認識を成功させるためのアドバイス情報が生成されると共に、ユーザが発話制限エリアで音声入力を行ってしまうような不適切な行動を取らなくて済むためのアドバイス情報が生成される。

　上記の情報処理装置においては、前記再試行を行う場所は地図データを用いて決定されてもよい。
　音声入力を改めて行うのに適切な場所（代替地）の決定において地図データを用いることにより、代替地の近さや騒音の大きさなどが考慮される。

　上記の情報処理装置においては、前記再試行を行う場所は他のユーザの実績情報を用いて決定されてもよい。
　音声入力に改めて行うのに適切な場所（代替地）の決定において、他ユーザ実績情報を用いることにより、実際に音声入力が成功しやすい地理的な状況（周辺環境）を鑑みたアドバイス情報が生成される。

　上記の情報処理装置においては、ユーザの音声を取得するマイクロフォンを備えていてもよい。
　マイクロフォンを備えたユーザ端末に音声認識成否判定部と通常応答生成部とアドバイス情報生成部が設けられている場合、ユーザの音声を取得し、音声認識の成否を判定し、それに応じて通常応答情報かアドバイス情報の何れかを生成する処理をユーザ端末が実行可能とされる。

　本技術に係る情報処理方法は、ユーザの音声入力についての音声認識の成否を判定する音声認識成否判定手順と、前記判定において前記音声認識が成功したと判定した場合にユーザに提示するための通常応答情報を生成する通常応答生成手順と、前記判定において前記ユーザの周辺環境に起因して前記音声認識が失敗したと判定した場合にユーザに提示するためのアドバイス情報を生成するアドバイス情報生成手順と、を情報処理装置が実行する情報処理方法である。
　これにより再度の音声認識を成功させるためにユーザが取るべき行動を示すアドバイス情報をユーザに提示することができる。
　本技術に係るプログラムは、上記方法の手順を情報処理装置に実行させるプログラムである。

　本技術によれば、再度の音声認識を成功させるためにユーザが取るべき行動を示すアドバイス情報を生成し提示することができる。
　なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。

本技術の実施の形態の情報処理システムの説明図である。情報処理システムの機能ブロック図である。サーバ装置とユーザ端末の機能構成の一例を示す図である。アドバイス情報生成部の一例を示す図である。情報処理装置のハードウェア構成についての説明図である。全体処理についてのフローチャートである。アドバイス情報生成処理についてのフローチャートである。ＤＮＮの複数の出力を統合して音声認識の失敗原因を判定する例についての説明図である。再発話有効性判定についてのフローチャートである。

　以下、実施の形態について添付図面を参照しながら次の順序で説明する。
＜１．システムの構成＞
＜２．情報処理装置の構成＞
＜３．各処理＞
［３－１．全体処理］
［３－２．アドバイス情報生成処理］
＜４．変形例＞
＜５．まとめ＞
＜６．本技術＞

＜１．システムの構成＞

　ユーザへのアドバイス情報の生成及び提示等の各処理を行う情報処理装置を含むシステム全体の構成について、図１を参照して説明する。

　情報処理システム１は、ユーザの音声認識が失敗した際に、次回の音声認識を成功させるためのアドバイス情報を提示するものである。情報処理システム１の態様は、各種考えられる。ここでは、その一例について説明する。
　情報処理システム１は、請求項の情報処理装置の具体例としてのサーバ装置２と、ユーザが携帯するユーザ端末３と、通信ネットワーク４を備えている。

　情報処理システム１は、図２に示すように、音取得部１ａ、特徴量抽出部１ｂ、音声認識エンジン部１ｃ、音声認識成否判定部１ｄ、アドバイス情報生成部１ｅ、通常応答生成部１ｆ、応答制御部１ｇ、応答情報提示部１ｈとを備えている。

　これらの各部は、情報処理システム１全体で実現可能とされていればよい。従って、一部をサーバ装置２が備え、他の部分をユーザ端末３が備えていてもよいし、全てをユーザ端末３が備えていてもよい。また、サーバ装置２とユーザ端末３の双方によって一つの部が実現される構成とされていてもよい。

　音取得部１ａは、ユーザが発した音声や周囲の環境音（ノイズ含む）などの音情報を取得する。例えば、１または複数のマイクロフォンなどによって実現される。音取得部１ａは、ユーザ端末３が備える機能である。

　特徴量抽出部１ｂは、取得した音情報を音声特徴量（音声信号の特徴量）に変換する処理を行う。音声特徴量とは、例えば、音量や音の到来方向、フーリエ係数、メル周波数ケプストラムの値、或いは音信号そのものであってもよい。

　音声認識エンジン部１ｃは、音声特徴量を命令情報に変換する処理を行う。命令情報は、自然言語によるテキスト情報であってもよいし、予め用意された有限個のコマンドやパラメータであってもよい。
　即ち、ここで変換された命令情報は、例えば、ユーザによって入力された音声を解析した結果把握したユーザの指示（命令）情報である。具体的には、「近くのレストランを教えて」などの命令を特定するための情報である。

　音声認識成否判定部１ｄは、特徴量抽出部１ｂによって抽出された音声特徴量を入力とし、音声認識エンジン部１ｃが生成した命令情報がユーザの意図したものであるか否かを判定する処理を行う。なお、音声認識エンジン部１ｃから命令情報を取得して成否判定を行ってもよい。

　アドバイス情報生成部１ｅは、特徴量抽出部１ｂの出力である音声特徴量及びユーザの位置情報を用いて、次回の音声認識を成功させるためにユーザに提示するアドバイス情報を生成する。

　通常応答生成部１ｆは、音声認識エンジン部１ｃの出力した命令情報を入力とし、命令情報に対応した通常応答を行うための通常応答情報を生成する。例えば、「近くのレストランを探して」という命令情報に応じてユーザに提示する通常応答情報として、ユーザの現在地に応じたレストラン情報を生成する。このような情報は、例えば情報処理システム１が備えるＤＢ（Database）や外部のシステムが備えるＤＢから取得してもよい。
　このような処理を行うために、通常応答生成部１ｆは、ユーザの現在地情報をユーザ端末３から取得してもよい。

　応答制御部１ｇは、音声認識成否判定部１ｄから認識成否情報を取得し、通常応答生成部１ｆやアドバイス情報生成部１ｅに対して応答情報の生成を指示する。応答情報とは、通常応答情報やアドバイス情報など、ユーザの音声入力への応答としてユーザに提示される情報である。
　応答制御部１ｇは、認識成否情報に基づいて、通常応答生成部１ｆとアドバイス情報生成部１ｅの何れか一方に応答情報の指示を行ってもよいし、通常応答生成部１ｆとアドバイス情報生成部１ｅの双方に対して応答情報の指示を行ってもよい。
　例えば、ユーザの音声入力について音声認識を行った結果変換された命令情報に基づき通常応答生成部１ｆに対して通常応答情報の生成を指示すると共に、認識した命令情報が誤っていたときのためにユーザが取るべき行動をアドバイスするためのアドバイス情報の生成をアドバイス情報生成部１ｅに指示してもよい。

　応答情報提示部１ｈは、通常応答生成部１ｆやアドバイス情報生成部１ｅが生成した応答情報の提示処理を行う。応答情報提示部１ｈは、サーバ装置２が備えていてもよいし、ユーザ端末３が備えていてもよい。具体的には、ユーザ端末３に応答情報を提示させるための処理をサーバ装置２の応答情報提示部１ｈが実行してもよいし、ユーザ端末３の応答情報提示部１ｈの提示処理によってサーバ装置２から受信した応答情報が提示されてもよい。

　図３は、上記した音取得部１ａ、特徴量抽出部１ｂ、音声認識エンジン部１ｃ、音声認識成否判定部１ｄ、アドバイス情報生成部１ｅ、通常応答生成部１ｆ、応答制御部１ｇ、応答情報提示部１ｈの各部について、サーバ装置２とユーザ端末３の何れが備えるかを例示した図である。

　サーバ装置２は、特徴量抽出部１ｂ、音声認識エンジン部１ｃ、音声認識成否判定部１ｄ、アドバイス情報生成部１ｅ、通常応答生成部１ｆ、応答制御部１ｇ、通信部２ｍを備えている。
　通信部２ｍは、ユーザ端末３のような外部装置との通信を行う。本例では、応答制御部１ｇによって生成の指示がなされた応答情報をユーザ端末３へ送信するための処理を行う。
　また、ユーザ端末３から送信されてくる情報である音情報や現在地情報を受信する処理を行う。

　ユーザ端末３は、音取得部１ａ、応答情報提示部１ｈ、現在地情報取得部３ｎ、通信部３ｍを備えている。ユーザ端末３としては、例えば、携帯電話やウェアラブル端末などが考えられる。ウェアラブル端末としては、具体的に、腕時計、眼鏡、首掛けイヤフォン、ヘッドフォンなどが含まれる。

　現在地情報取得部３ｎは、例えばＧＰＳ（Global Positioning System）による位置情報を取得する処理を行う。位置情報は、ＧＰＳに限らず、ビーコン発信機が発信する信号を受信することにより位置情報を取得してもよい。
　位置情報は、定期的に取得し続けてもよいし、必要に応じて取得してもよい。

　通信部３ｍは、ユーザ端末３以外の情報処理装置と通信を行う。具体的には、サーバ装置２に対して音情報や現在地情報などを送信する処理を行う。また、サーバ装置２からユーザに提示するための応答情報などを受信する処理を行う。

　アドバイス情報生成部１ｅについて図４を参照して詳述する。
　アドバイス情報生成部１ｅは、位置情報取得部５、地図データベースアクセス部６、再発話有効性判定部７、生成部８を備えている。

　位置情報取得部５は、ユーザ端末３から現在地情報を取得する処理を行う。取得した現在地情報は、地図データベースアクセス部６へ渡される。

　地図データベースアクセス部６は、ユーザ端末３の現在地情報を受け取り、各種の処理のための情報を地図データベース５０から取得する。地図データベース５０には、位置情報と他の情報が紐付けられた地図データが記憶されている。

　地図データの具体例について述べる。
　再発話有効性判定部７は、特徴量抽出部１ｂから音声特徴量の情報を受け取り、その場での再発話が有効か否かを判定する処理を行う。再発話有効性判定処理では、現在地が再発話に適した場所か否かを判定する。この処理のために用いられる情報が地図データである。地図データとしては、ノイズ種別やノイズレベルの分布等の環境ノイズと関連する情報が記憶されている。

　例えば、地図データとして記憶された情報として、その場所の付近に高速道路などの騒音源となるものが存在しているか否かの情報などが再発話有効性判定処理において用いられる。騒音源は、時限的なものであってもよい。例えば、○月○日～×月×日まで付近で工事中の建物がある場合には、その期間に限って工事中の建物の位置情報が騒音源として記憶されていてもよい。

　また、施設の位置情報と用途目的を示すラベル等が紐付けられた情報も地図データの一例である。例えば、音声入力を行うユーザの現在地が発話制限エリアに含まれるか否かの情報を地図データから得ることができる。即ち、病院内などのように大きな声での発話が好ましくない場所の情報が地図データベース５０に記憶されている。
　再発話有効性判定処理では、このような地図データを用いて再発話の有効性を判定する。

　更には、地図データとして地表の高低差や起伏（山や盆地）などの情報であってもよい。それらの情報を元に再発話有効性判定処理を行ってもよい。

　地図データは他の処理においても用いられる。
　例えば、ユーザの入力した音声入力の認識に失敗した場合に、再試行を行う場所を検索する際に地図データが用いられてもよい。また、音声認識の失敗原因を特定するために地図データが用いられてもよい。これらの具体的な例については後述する。

　生成部８は、再発話有効性判定の判定結果を受け取り、結果に応じたアドバイス情報を生成する処理を行う。この際にも、地図データベース５０に記憶されている地図データが用いられる。
　例えば、その場での再発話が好ましくないと判定された場合、アドバイス情報として代替地へ移動した後に音声入力を再試行するように提案することが考えられる。この場合、代替地は、現在地から遠すぎるものは不適当となる可能性が高く、また距離的に近かったとしても移動し難いものも不適当である可能性が高い。更には、周辺に騒音源が存在する場所も代替地として好ましくない。
　代替地が適当であるか否かの判定にも、地図データが用いられる。
　生成部８で生成したアドバイス情報は、応答情報提示部１ｈに送られる。

　なお、再発話有効性判定部７は、音声認識の失敗原因を特定する処理も行う。

＜２．情報処理装置の構成＞

　情報処理システム１が備える各種の情報処理装置１５０（サーバ装置２、ユーザ端末３を含む）の構成を説明する。情報処理装置は、例えば図５のようなハードウェア構成で実現される。
　情報処理装置１５０は、ＣＰＵ（Central Processing Unit）１５１、ＲＯＭ（Read Only Memory）１５２、ＲＡＭ（Random Access Memory）１５３を有して構成される。
　ＣＰＵ１５１は、ＲＯＭ１５２に記憶されているプログラム、または記憶部１５９からＲＡＭ１５３にロードされたプログラムに従って各種の処理を実行する。ＲＡＭ１５３にはまた、ＣＰＵ１５１が各種の処理を実行する上において必要なデータなども適宜記憶される。
　ＣＰＵ１５１、ＲＯＭ１５２、およびＲＡＭ１５３は、バス１５４を介して相互に接続されている。このバス１５４にはまた、入出力インターフェース１５５も接続されている。

　入出力インターフェース１５５には、液晶パネル或いは有機ＥＬ（Electroluminescence）パネルなどよりなるディスプレイ１５６、キーボード、マウスなどよりなる入力部１５７、スピーカ１５８、ＨＤＤ（Hard Disk Drive）などより構成される記憶部１５９、通信部１６０などが接続可能である。

　ディスプレイ１５６は情報処理装置１５０と一体でも良いし別体の機器でもよい。
　入力部１５７は、情報処理装置１５０を使用するユーザが用いる入力デバイスを意味する。具体的には、ユーザ端末３におけるタッチパネルやマイクロフォンである。
　通信部１６０は、インターネットを含むネットワークを介しての通信処理や、周辺各部の機器との間の通信を行う。通信部１６０の一例は、サーバ装置２の通信部２ｍやユーザ端末３の通信部３ｍである。

　入出力インターフェース１５５にはまた、必要に応じてドライブ１６１が接続され、メモリカード１６２が装着され、メモリカード１６２から読み出されたコンピュータプログラムが、必要に応じて記憶部１５９にインストールされたり、ＣＰＵ１５１で処理したデータがメモリカード１６２に記憶される。
　もちろんドライブ１６１は、磁気ディスク、光ディスク、光磁気ディスク等のリムーバブル記憶媒体に対する記録再生ドライブとされてもよい。

　このようなハードウェア構成において、実施の形態の情報処理装置１５０としての各種処理（後述）を行うことができる。具体的にはユーザ端末３が音情報の取得を行う処理や、応答情報の提示処理などを行う。また、サーバ装置２においては、音声認識の成否判定を行う処理や、アドバイス情報の生成処理などを行うことができる。

　これらの処理はＣＰＵ１５１で起動されるソフトウェアにより実現される。そのソフトウェアを構成するプログラムは、ネットワークからダウンロードされたり、リムーバブル記憶媒体から読み出されたりして図５の情報処理装置１５０にインストールされる。或いはそのプログラムが記憶部１５９としてのＨＤＤ等に予め記憶されていてもよい。そしてＣＰＵ１５１において当該プログラムが起動されることで、情報処理装置１５０の各機能が発現する。

　なお、情報処理装置１５０は、図５のようなハードウェア構成の情報処理装置１５０が単一で構成されることに限らず、複数の情報処理装置がシステム化されて構成されてもよい。複数の情報処理装置は、ＬＡＮ等によりシステム化されていてもよいし、インターネット等を利用したＶＰＮ（Virtual Private Network）等により遠隔地に配置されたものでもよい。複数の情報処理装置には、クラウドコンピューティングサービスによって利用可能な情報処理装置が含まれてもよい。

　またこの情報処理装置１５０は、据え置き型、ノート型等のパーソナルコンピュータ、タブレット端末やスマートフォン等の携帯端末として実現できる。
　画像編集装置、記録再生装置、テレビジョン受像器など各種の電子機器が図２１のような構成を備えることで情報処理装置１５０として機能することもできる。

＜３．各処理＞

［３－１．全体処理］
　ユーザが音声入力を行ってから応答情報が提示されるまでに情報処理システム１が実行する各処理について、図６を参照して説明する。
　なお、図６に示す一連の処理は、情報処理システム１がサーバ装置２またはユーザ端末３が備える音取得部１ａ～応答情報提示部１ｈ、通信部２ｍ、現在地情報取得部３ｎ、通信部３ｍなどの各機能を用いることにより実行されるものである。

　以降で説明する各処理を実行するにあたって、情報処理システム１のユーザ端末３においては、マイクロフォンなどの音取得部１ａによってユーザの発話による音声や周辺の環境音が入力された状態（音入力状態）とされている。ユーザがユーザ端末３にインストールされているアプリケーションを起動することによって音入力状態へ遷移するように構成されていてもよいし、ユーザ端末３が起動している間は常に音入力状態となるように構成されていてもよい。

　情報処理システム１は、ステップＳ１０１で、特徴量抽出処理を行う。この処理は、音取得部１ａを介して入力されている音情報を音声特徴量に変換して取得する処理である。
　音声特徴量としては、例えば、音量や音声スペクトログラムや、メル周波数ケプストラムや、音信号波形そのものなどである。
　続いて、情報処理システム１は、ステップＳ１０２において、ユーザの発話区間を検出したか否かを判定する。発話区間を検出できた場合とは、例えば、ユーザが何らかの指示を音声で行うための発話を開始した開始点の検出と、終了点の検出の双方が達成できた場合である。終了点の検出は、例えば所定時間の音声入力が無い期間を検出することにより実現可能である。
　発話の開始点を検出したが終了点の検出ができていない場合（例えばまだ発話し続けている場合など）は、ステップＳ１０１の処理へと戻る。

　発話区間を検出できた場合、情報処理システム１はステップＳ１０３で、音声認識処理を行う。この処理は、音声特徴量に基づいてユーザの発話内容（命令情報）を把握する処理である。即ち、音声特徴量を命令情報に変換する処理である。
　続いて、情報処理システム１はステップＳ１０４で、音声認識の成否判定を行う。この処理は、先のステップＳ１０３で行った発話内容の把握が成功したか否かを判定する処理である。

　具体的には、発話区間の音声スペクトログラムと音声の平均エネルギーを入力とするＤＮＮ（Deep Neural Network）を用いて音声認識尤度に変換することで行う。このＤＮＮには、音声認識が成功するか失敗するかが既知とされた音声発話を訓練データとして事前に学習されたものが用いられる。
　ＤＮＮによって出力された音声認識尤度が閾値パラメータ以上であれば音声認識成功と判定し、閾値パラメータよりも小さければ音声認識失敗と判定する。

　情報処理システム１は、ステップＳ１０５で、音声認識の成否に基づく分岐処理を行う。音声認識が成功したと判定した場合、情報処理システム１はステップＳ１０６で、通常応答を行う。この処理は、前述したように、命令情報に応じた適切な出力を行うための処理である。具体的には、ユーザに対して提示する情報をデータベースから取得し、必要に応じて提示するための情報として生成（加工）し、ユーザに提示する処理である。例えば、「近くのレストランを探して」という命令情報に対して、レストラン情報が記憶されたデータベースからユーザの現在位置に応じたレストラン情報を取得し、ユーザに提示する態様に応じて情報を生成し、ユーザ端末３に送信する。ユーザ端末３では、受信した提示情報をユーザに適切な態様（音声出力であってもよいし、画面に表示する態様であってもよい）で出力する。

　一方、音声認識に失敗した場合、情報処理システム１はステップＳ１０７で、アドバイス情報生成処理を行う。アドバイス情報生成処理の具体例については後述する。
　アドバイス情報を生成した情報処理システム１は、ステップＳ１０８でアドバイス情報をユーザに提示するためのアドバイス応答を行う。これにより、音声認識の失敗態様に応じたアドバイス情報がユーザに提示される。

　最後に、情報処理システム１はステップＳ１０９で、ユーザから音声入力の停止指示があったか否かを判定する。例えば、音声認識のためにユーザ端末３にインストールされているアプリケーションを終了させるなどの操作を行った場合のように、停止指示があった場合には、図６に示す一連の処理を終了する。
　また、停止指示がなかった場合は、次の音声入力に備えてステップＳ１０１の処理へと戻る。

［３－２．アドバイス情報生成処理］
　アドバイス情報生成処理は、例えば、情報処理システム１がアドバイス情報生成部１ｅの機能を用いて実行する処理である。具体的に、図７を参照して説明する。
　情報処理システム１は、ステップＳ２０１において、失敗原因を特定する処理を実行する。
　例えば、音声認識の失敗原因の候補を予め用意しておき、今回の音声入力によって入力された音情報を変換した音声特徴量がどの候補に該当するかを分類する分類器を用いることで実現可能である。

　音声認識失敗原因の候補は、複数種類用意することが考えられる。具体例を以下に挙げる。

候補１：発話速度が速い
候補２：マイク信号のゲインが大きい
候補３：人混みのノイズが大きい
候補４：近くの道路の騒音が大きい

　候補１，２は、発話態様によるものである。また、候補３，４はユーザの現在地における非一時的ノイズによるものである。非一時的ノイズとは、その場所で測定される恒常的なノイズであったり、数分や数時間など発話区間よりも長い期間（例えば、発話区間が５秒に対して５秒以上の長い時間）継続的に測定され続けるノイズなどである。
　なお、四つの候補を例示したが、これ以外にも多数考えられる。ここでは、音声認識失敗原因の候補数をＮ個とする。

　音声認識の失敗原因の特定処理では、教師データによって予め学習済みのＤＮＮに特徴量抽出処理で抽出した音声スペクトログラムを入力する。ここで入力する音声スペクトログラムは検出された発話区間の長さ分の入力であってもよいし、発話区間から切り出した固定長の一部区間の入力であってもよい。

　ＤＮＮは入力情報に数段階の変換を適用し、音声認識失敗原因の候補それぞれの尤度をＮ次元のベクトルとして出力する。候補それぞれの尤度からその発話における失敗原因を判定する。

　例えば、ＤＮＮに入力されたデータが検出された発話区間の長さ分の音声スペクトログラムである場合、尤度の最も高い候補が音声認識の失敗原因であると判定する。
　また、ＤＮＮに入力されたデータが検出された発話区間から切り出された一部区間の固定長の音声スペクトログラムである場合、発話区間から切り出された複数の一部区間の固定長の音声スペクトログラムに対するＤＮＮの複数の出力を統合して音声認識の失敗原因を判定する。

　具体的に、図８を参照して説明する。図８は、音声認識失敗原因の候補数を３個（Ｎ＝３）としたときの例を示したものである。即ち、音声認識の失敗原因の候補として、候補ａ，ｂ，ｃの三つを挙げた例である。

　音信号から発話区間の長さ分の音声スペクトログラムが音声特徴量として抽出され、そこから六つの固定長の音声スペクトログラムが切り出され、それぞれがＤＮＮに入力される。
　ＤＮＮに入力されたそれぞれの音声スペクトログラムは、音声認識の失敗原因の候補（候補ａ、ｂ、ｃ）ごとに３次元ベクトルが出力される。

　具体的に、一つ目の固定長音声スペクトログラムからは、０．１、０．３及び０．６を要素とした３次元ベクトルが出力される。このとき、０．１は音声認識の失敗原因が候補ａである可能性の高さ（尤度）を示す数値である。また、０．３は音声認識の失敗原因が候補ｂである可能性の高さ（尤度）を示す数値である。そして、０．６は音声認識の失敗原因が候補ｃである可能性の高さ（尤度）を示す数値である。
　従って、図８では、一つ目の固定長音声スペクトログラムからは、音声認識の失敗原因が候補ｃである可能性が高いとＤＮＮによって判定されたことを示している。

　同様に、一つ目の固定長音声スペクトログラムから六つ目の固定長音声スペクトログラムをそれぞれＤＮＮに入力した結果得られたそれぞれの失敗原因候補の尤度を用いて、失敗原因を判定すると、［０．１　０．３　０．６］＾Ｔ、［０．１　０．２　０．７］＾Ｔ、［０．２　０．２　０．６］＾Ｔ、［０．３　０．３　０．４］＾Ｔ、［０．４　０．３　０．３］＾Ｔ、［０．３　０．４　０．３］＾Ｔとなる。なお、「＾Ｔ」はベクトルの転置を示す。失敗原因の候補ごとに平均値を算出すると、候補ａの平均尤度は約０．２３、候補ｂの平均尤度は約０．２８、候補ｃの平均尤度は約０．４８となる。
　従って、図７ステップＳ２０１の失敗原因特定処理では、候補ｃが音声認識の失敗原因として特定される。

　なお、音声認識失敗原因の特定処理では、地図データを用いてもよい。即ち、同じような音声スペクトログラムがＤＮＮに入力されたとしても、ユーザの現在地によって異なる失敗原因が特定されるように構成されていてもよい。

　図７の説明に戻る。
　情報処理システム１はステップＳ２０２において、再発話の有効性を判定する処理を実行する。再発話の有効性とは、ユーザが移動せずにその場で再度発話を行うことにより、音声認識が成功するか否かを判定する処理である。
　再発話有効性判定処理の一例について、図９を参照して説明する。

　情報処理システム１はステップＳ３０１で、発話要求可能な場所か否かを判定する。発話要求可能な場所とは、発話が禁止されるような場所や抑制されるような場所である。具体的には、発声することが好ましくない病院や図書館などでは、発話要求不可と判定される。一方、公道やレストランなどは発話要求可能と判定される。

　なお、このような判定は、例えばユーザ端末３から取得した位置情報と地図データベース５０に記憶された情報に基づいて判定してもよい。即ち、地図データベース５０に位置情報に対応して発話可能な場所か否かを紐付けて記憶しておき、その情報を参照することによりユーザ端末３が現在位置している場所で発話可能か否かを判定する。
　また、地図上の位置を示す情報とそこに位置する施設の用途目的を示す情報（レストランや喫茶店、病院等）を紐付けられた地図データベース５０と共に、施設の用途目的ごとの発話要求可能性（発話要求可能、発話要求不可能）を対応させたデータベースを用いて判定してもよい。

　ユーザ端末３が位置する場所が発話要求可能な場所と判定した場合、情報処理システム１はステップＳ３０２で、失敗原因が発話態様によるものか否かを判定する。
　例えば、発話速度が過剰に速すぎる場合や過剰に遅すぎる場合、或いは、周りに雑音が無い状態でマイク信号のゲインが大きすぎる場合や小さすぎる場合など、発話の態様が音声認識の失敗原因である場合には、情報処理システム１はステップＳ３０３で再度発話有効と判定する。

　一方、失敗原因が発話態様によるものでないと判定した場合、情報処理システム１は失敗原因が周辺環境によるものと判定し、ステップＳ３０４で、音声認識の失敗原因が一時的ノイズであるか否かを判定する。
　一時的ノイズか否かの判定は、例えば、地図データベース５０を用いて行ってもよい。具体的には、地図データベース５０に位置ごとの非一時的ノイズのレベルや大きさを紐付けて記憶しておくことが考えられる。非一時的ノイズが高くない場所で音声認識が失敗した場合に、失敗原因が発話態様によるものでなければ、一時的ノイズによるものと判定してもよい。また、取得した音情報を解析した結果、一時的ノイズが検出された場合に一時的ノイズによって音声認識が失敗したと判定してもよい。

　音声認識の失敗原因が一時的ノイズであると判定した場合、再度同じ場所で発話を行うことにより音声認識が成功する可能性が高いことから、情報処理システム１はステップＳ３０３で再発話有効と判定する。
　一方、音声認識の失敗原因が一時的ノイズではなく非一時的ノイズと判定した場合、情報処理システム１はステップＳ３０５で再発話無効と判定する。
　なお、ステップＳ３０１で発話要求可能でない場所と判定した場合、即ちユーザが病院などに位置していると判定した場合についても、情報処理システム１はステップＳ３０５で再発話無効と判定する。

　図７の説明に戻る。
　情報処理システム１はステップＳ２０２の処理を行うことにより、再発話が有効であるか否かの判定結果を得る。
　次に情報処理システム１はステップＳ２０３で、再発話有効であるか否かに応じた分岐処理を行う。再発話有効である場合には、情報処理システム１はステップＳ２０４で、再発話要求を行う。即ち、ユーザ端末３を介してユーザに再度音声入力を行うように促す。具体的には、音声入力を再度行うように促すための表示を行ってもよいし、音声入力を行うことを促すための音声出力をユーザ端末３が行ってもよい。換言すれば、移動せずに現在地での再発話を促すための情報をユーザ端末３を介して提示する。

　一方、再発話無効と判定した場合、情報処理システム１はステップＳ２０５で、移動先候補の情報を生成する処理を行う。この処理では、例えば、地図データベース５０に記憶された地図データが用いられる。
　移動先候補は、ユーザの移動距離が短い方が好ましく、また、音声認識の成功確率が高い方が望ましい。従って、ステップＳ２０５の処理では、これらの要素を考慮し、適切な移動先候補を生成する。換言すれば、現在地とはことなる代替地での再発話を促すための情報をユーザ端末３を介して提示する。
　なお、移動先候補には優先順位を付与しても構わない。

　移動先候補の生成処理にはいくつかの例が考えられる。
　例えば、ユーザが何度も移動を繰り返して音声入力を行ったにも関わらず音声認識の失敗が続いている場合には、移動距離ができるだけ短くなるように移動先候補を生成することが考えられる。また、逆に、これ以上失敗を繰り返さないためにも、音声認識の成功確率が高いと思われる移動先候補に重みを付けて情報を生成してもよい。

　また、他のユーザの実績情報を用いて音声認識の成功確率を場所ごとに算出し、該算出結果を参照することにより音声認識の成功確率が高い移動先候補を生成してもよい。
　更に、移動距離と音声認識の成功確率それぞれにユーザ毎に異なる重み付けをすることにより、移動先候補の情報がユーザ毎に異なるようにしてもよいし、ユーザによらず同じ移動先候補となるようにしてもよい。例えば、移動が困難な状況にあるユーザについては、移動距離に高い重みを付けることにより、移動距離が短い移動先候補が選択されやすいようにしてもよい。

　移動先候補情報を生成した情報処理システム１はステップＳ２０６でアドバイス文生成処理を行う。例えば、移動先候補から優先順位の最も高いものを一つ選択し、移動後に音声入力を再試行するように促す文章をアドバイス文として生成してもよい。また、移動先候補をそのままユーザに見せるためのリスト情報を生成し、それと共に「以下から移動先を選んでください」のような文言を生成し、アドバイス文としてもよい。

＜４．変形例＞

　上述したステップＳ１０４の音声認識成否判定処理では、特徴量抽出処理で抽出した音声特徴量のみを用いて処理を行う例を述べた。ここでは、音声特徴量だけでなく命令情報を用いて音声認識の成否判定を行ってもよい。

　例えば、通常応答生成部１ｆに受け渡す命令情報として有効なものが有限個に限定されている場合などに、音声認識によって音声認識エンジン部１ｃが得た命令情報が有効な命令情報集合に属しているか否かを音声認識成否判定部１ｄが判定することにより、音声認識の成否判定を簡便に行ってもよい。
　これによって、処理負担の軽減が図られる。

　また、上述した処理例では、通常応答情報とアドバイス情報の何れか一方がユーザに提示される例を示したが、情報量を多くすることによりユーザに適切な情報が提示される可能性を高めるために、通常応答情報とアドバイス情報の双方をユーザ端末３上に提示するように構成してもよい。
　これにより、通常応答情報がユーザの行った音声入力に応じた適切なものであれば、ユーザは通常応答情報を閲覧することにより自身の望む適切な情報を得ることができる。また、通常応答情報がユーザの所望の情報でない場合は、アドバイス情報を閲覧することにより、次回の音声入力を成功させるために適切な行動を選択することができる。

　上述した例では、音声認識の失敗原因を特定する処理（ステップＳ２０１）とアドバイス文生成処理（ステップＳ２０６）を別々に行っているが、音声特徴量から直接アドバイス文を生成するようにＤＮＮを構築してもよい。即ち、Ｎ次元の音声認識失敗原因候補の尤度ベクトルを出力するのではなく、テキストを逐次的に出力するＲＮＮ（Recurrent Neural Network）やＬＳＴＭ（Long Short-Term Memory）を用いてもよい。
　これにより、ユーザの音声入力に対してレスポンス性のよい情報提供を行うことができる。

　上述した例では、地図データベース５０には、環境ノイズ種別や環境ノイズレベルの分布が位置情報と紐付けられた情報や、公道やレストランや病院などといった施設の用途や目的が位置情報と紐付けられた情報が地図データとして記憶されている例を説明したが、本構成の音声認識の成功頻度や失敗頻度をユーザの使用履歴から場所ごとに抽出し、分布（成功エリアや失敗エリア）として蓄積された情報が記憶されていてもよい。また、場所ごと及び時間ごとの人間の分布情報が記憶されていてもよい。

　上述した例では、失敗原因が一時的なノイズである場合（ステップＳ３０４）、再発話有効として判定することにより、その場での再発話をユーザに促す例を説明したが、再発話をユーザに促した後ユーザが再発話を開始するまでに突発的なノイズではなく非一時的なノイズの発生を検出した場合には、その場での再発話を促す表示を取りやめ、移動を促すように構成されていてもよい。また、その場合には、ユーザにその場での再発話を促す場合であっても、地図データなどを用いて代替地の検索を予め行っておくことにより、周辺環境の変化に即座に対応可能なシステムを提供することができる。

　上述した例では、サーバ装置２が各種の判定処理を行う例を説明したが、一部をユーザ端末３が備えていてもよい。例えば、ユーザ端末３が特徴量抽出部１ｂ、音声認識エンジン部１ｃ、音声認識成否判定部１ｄを備えていてもよい。この場合には、ユーザ端末３で音声認識の成否判定が行われ、その結果に応じてサーバ装置２に対して、アドバイス情報と通常応答情報の何れかを要求する処理を行う。サーバ装置２は該要求に基づいて、アドバイス情報生成部１ｅ或いは通常応答生成部１ｆで生成した提示情報をユーザ端末３に送信する。ユーザ端末３では受信した提示情報をユーザに提示する提示処理が行われる。
　また、ユーザ端末３が更にアドバイス情報生成部１ｅ、通常応答生成部１ｆ、応答制御部１ｇを備えていてもよい。即ち、ユーザ端末３で各判定処理などが行われてもよい。

＜５．まとめ＞

　上述したように、情報処理装置（サーバ装置２）は、ユーザの音声入力の音声認識の成否を判定する音声認識成否判定部１ｄと、判定において音声認識が成功したと判定した場合にユーザに提示するための通常応答情報を生成する通常応答生成部１ｆと、判定においてユーザの周辺環境に起因して音声認識が失敗したと判定した場合にユーザに提示するためのアドバイス情報を生成するアドバイス情報生成部１ｅと、を備えている。
　ユーザの周辺環境に起因して音声認識が失敗した場合に、次の音声認識を成功させるために提示するアドバイス情報が生成される。これによって、ユーザが適切な行動を取れるようなアドバイス情報を提示することが可能となる。
　従って、ユーザはアドバイス情報に応じた適切な行動を取ることができ、音声入力を成功させる可能性を高めることができる。
　例えば、発話速度が速すぎる場合に「もっとゆっくり喋ってください」とアドバイス情報を提示するようなシステム、換言すれば、音声認識の失敗原因とアドバイス情報を一対一に対応付けたアドバイス情報生成システムを構成することは容易である。しかし、そのようなシステムの場合、その場で再発話を行うことにより解決可能な問題には有効かもしれないが、その場では再度の音声認識が成功しない場合には適切なアドバイス情報を提示することができない。
　しかし、本構成によれば、その場での再発話では解決できない問題であっても、次の音声認識を成功させるためのアドバイス情報を生成するアドバイス情報生成部１ｅを備えているため、有効なアドバイス情報をユーザに提示することが可能である。この効果は、再試行を行う場所として現在地とは異なる代替地を提示するような後述する構成を備えることにより更に容易に実現可能である。
　なお、ユーザ端末３は、ユーザの音声入力についての音声認識の成否を判定する音声認識成否判定処理（ステップＳ１０４）と、判定において音声認識が成功したと判定した場合にユーザに提示するための通常応答情報を生成する通常応答生成処理（ステップＳ１０６）と、判定においてユーザの周辺環境に起因して音声認識が失敗したと判定した場合にユーザに提示するためのアドバイス情報を生成するアドバイス情報生成処理（ステップＳ１０７）とによって生成されたいずれかの提示情報を受信する通信部３ｍと、該受信情報を提示する提示部とを備える。

　また、図６のステップＳ１０５で説明したように、判定の結果として、音声認識が成功したことを示す結果を取得した場合には通常応答情報を選択し、音声認識が失敗したことを示す結果を取得した場合にはアドバイス情報を選択する応答制御部１ｇを備えていてもよい。
　即ち、音声認識の成否に応じて応答情報（通常応答情報とアドバイス情報の何れか）が選択される。または、音声認識の成否に応じて何れの応答情報を生成するか決定される。
　従って、ユーザに提示する情報として適切な情報が選択されるため、周辺環境に応じた適切な応答がなされる。

　更に、図６のステップＳ１０６，Ｓ１０８で説明したように、応答制御部１ｇによって選択された情報をユーザに提示する応答情報提示部１ｈを備えていてもよい。
　即ち、音声認識の成否に応じた応答情報がユーザに提示される。
　これにより、音声認識が成功したと判定した場合には認識した音声指示に応じて適切な情報がユーザに提示されると共に、音声認識が失敗した場合には次回の音声認識を成功させるための適切なアドバイス情報をユーザに提示することができ、ユーザが行いたい音声入力による指示を少ない試行回数で実現することができる。

　更にまた、図７のステップＳ２０１で説明したように、音声認識が失敗した場合に、失敗原因を判定（特定）するための原因判定処理（失敗原因特定処理）を行ってもよい。
　ユーザの音声入力の音声認識についての失敗原因が特定される。
　従って、音声認識の失敗時に、失敗原因に応じた適切なアドバイス情報を生成することができ、該アドバイス情報をユーザに提示することにより次回の音声認識を成功させる可能性を高めることができる。

　加えて、図９のステップＳ３０２、Ｓ３０４などで説明したように、原因判定処理（失敗原因特定処理）では、失敗が発話態様によるものかノイズによるものかの判定を行ってもよい。
　これにより、音声認識の失敗原因について、再試行により解消可能と推測できる発話態様によるものであるのか、或いはノイズによるものであるのか、判定される。
　従って、例えば失敗原因が発話態様によるものである場合に、再度音声認識のやり直しを行うためのアドバイス情報を提示するなどの処理を行うことができる。

　そして、図９のステップＳ３０２、Ｓ３０４で説明したように、原因判定処理（失敗原因特定処理）では、失敗がノイズによるものと判定した場合に、該ノイズが一時的なノイズであるか非一時的なノイズであるかを更に判定してもよい。
　音声認識の失敗原因がノイズである場合に、該ノイズの特性を判定することにより、音声入力を再度求めるアドバイス情報とその他のアドバイス情報の何れを提示するか、適切に判定することが可能となる。
　具体的には、ノイズが一時的なノイズ（一時ノイズ）である場合には、音声入力の再試行により音声認識が成功する可能性が高いため、再度の音声入力を求めるアドバイス情報を提示し、ノイズが非一時的なノイズ（非一時ノイズ）である場合には、音声入力の再試行によって音声認識が成功する可能性が低いため、異なるアドバイス情報を提示する。
　これにより、次回の音声認識を成功させるための適切なアドバイス情報をユーザに提示することが可能となる。
　なお、本構成を用いなくとも、単に雑音レベルから「静かな場所でもう一度喋ってください」とアドバイス情報を生成するシステムを構築することは可能かもしれない。しかし、突発的で一時的な雑音が混じったことにより失敗したのであって、その場所の恒常的な雑音レベルであればその場で再発話することにより次回の音声認識が成功する可能性が高い場合であっても、同様のアドバイス情報を提示してしまう可能性が高い。この場合には、場所移動を強いる不適切なアドバイス情報となってしまう。
　更に、ユーザが周囲の静かな場所を知らない場合は、どこに移動すれば音声認識が成功するのか分からず、不十分なアドバイス情報となってしまう。
　本構成によれば、そのようなことを防止するために、ノイズが一時的ノイズであるのか非一時的ノイズであるのかを判定している。これにより、ユーザに対して適切なアドバイス情報を提示することができる。

　また、図７のアドバイス情報生成処理で説明したように、原因判定処理（失敗原因特定処理）では、分類器を用いてもよい。
　分類器を用いることにより、音声認識の失敗原因の推定を自動で行うことができる。
　これにより、音声認識の失敗時に、ユーザに対して適切なアドバイスを迅速に提示することが可能となる。

　更に、図７のアドバイス情報生成処理で説明したように、分類器は機械学習（例えばＤＮＮ）によって生成されてもよい。
　分類器を生成するための具体的な処理方法として機械学習が用いられる。
　例えばディープラーニングなどの具体的な手法を用いることにより、自動で分類器を生成することができ、失敗原因の推定に用いることができる。

　更にまた、図７のステップＳ２０１や図８で説明したように、原因判定処理（失敗原因特定処理）では、失敗原因の判定のために地図データを用いてもよい。
　これにより、音声データの解析によって得られるノイズなどの情報だけでなく、地図データを用いてノイズの発生原因などが推定されて、失敗原因の判定に利用される。
　従って、失敗原因の判定処理の精度を高めることができ、より適切なアドバイス情報の生成及び提示を行うことが可能となる。

　加えて、図７のアドバイス情報生成処理で説明したように、アドバイス情報生成部１ｅは、音声入力の再試行を行う場所を提示するための情報を含んだアドバイス情報を生成してもよい。
　これにより、次回の音声認識を成功させるための情報がユーザに提示される。
　従って、ユーザはアドバイス情報に基づいた適切な行動をとることができる。

　そして、図９のステップＳ３０４、Ｓ３０５、図７のステップＳ２０３、Ｓ２０５等で説明したように、音声認識の失敗原因が非一時的なノイズである場合において、前記再試行を行う場所は現在地とは異なる代替地とされてもよい。
　これにより、次回の音声認識を成功させるための適切な移動候補地が代替地としてユーザに提示される。
　従って、ユーザはアドバイス情報に基づいて適切な対処を行うことができ、次回の音声認識が成功する可能性を高めることができる。

　また、図９のステップＳ３０４、Ｓ３０３、図７のステップＳ２０３、Ｓ２０４等で説明したように、音声認識の失敗原因が一時的なノイズである場合において、再試行を行う場所は現在地とされてもよい。
　これにより、次回の音声認識を成功させるためのユーザがとるべき適切な行動を示唆するためのアドバイス情報が生成される。
　従って、次回の音声認識を成功させる可能性を高めることができる。また、再試行を行う場所が現在地とされることにより、ユーザは次回の音声入力を行うために現在地から移動しなくても済むため、速やかに次回の音声入力を行うことができ、ユーザの所望の機能を動作させるために要する時間も短くて済む。即ち利便性の高い機能を提供することができる。

　更に、図９のステップＳ３０１で説明したように、ユーザの現在地が発話制限エリアであると判定された場合において、再試行を行う場所は現在地とは異なる代替地とされてもよい。
　これにより、次回の音声認識を成功させるためのアドバイス情報が生成されると共に、ユーザが発話制限エリアで音声入力を行ってしまうような不適切な行動を取らなくて済むためのアドバイス情報が生成される。
　これにより、ユーザが不適切な行動を取ってしまうことを防止することができる。

　更にまた、図７のステップＳ２０５で説明したように、再試行を行う場所は地図データを用いて決定されてもよい。
　音声入力を改めて行うのに適切な場所（代替地）の決定において地図データを用いることにより、代替地の近さや騒音の大きさなどが考慮される。
　即ち、ユーザにとって音声入力の再試行が成功しやすいアドバイス情報が提示されるだけでなく、再試行の容易さを考慮した適切なアドバイス情報が提示される。即ち、ユーザにとって高い利便性を備えたサービスを提供することができる。

　加えて、図７のステップＳ２０５で説明したように、再試行を行う場所は他のユーザの実績情報を用いて決定されてもよい。
　音声入力に改めて行うのに適切な場所（代替地）の決定において、他ユーザ実績情報を用いることにより、実際に音声入力が成功しやすい地理的な状況（周辺環境）を鑑みたアドバイス情報が生成される。
　従って、代替地の候補となる場所について、地図データなどでは事前に把握できない事情が存在していたとしても、他ユーザの実際の成否情報に基づいて、適切な代替地が選択されるため、ユーザにとって次回の音声入力を成功させるための適切なアドバイス情報を提供することができる。
　また、時刻情報を更に考慮することも有効である。ユーザが実際に音声入力を行おうとしている時間帯に合わせた他ユーザ実績情報を考慮することにより、ユーザの音声入力に対する音声認識を成功させる可能性を更に高めることができる。

　システムの構成において説明したように、ユーザ端末３がユーザの音声を取得するマイクロフォンを備えていてもよい。
　マイクロフォンを備えたユーザ端末に音声認識成否判定部と通常応答生成部とアドバイス情報生成部が設けられている場合、ユーザの音声を取得し、音声認識の成否を判定し、それに応じて通常応答情報かアドバイス情報の何れかを生成する処理をユーザ端末が実行可能とされる。
　即ち、サーバ装置などの他の情報処理装置と通信を行わずにユーザ端末のみで適切な音声認識及びアドバイス情報の提示を行うことが可能となる。通信が発生しないことにより、ユーザ端末に許容されている通信容量の消費を抑えることが可能となる。

　本発明の実施の形態のプログラムは、ユーザの音声入力についての音声認識の成否を判定する音声認識成否判定機能と、前記判定において前記音声認識が成功したと判定した場合にユーザに提示するための通常応答情報を生成する通常応答生成機能と、前記判定において前記ユーザの周辺環境に起因して前記音声認識が失敗したと判定した場合にユーザに提示するためのアドバイス情報を生成するアドバイス情報生成機能と、を演算処理装置に実現させるプログラムである。
　より具体的には、図６乃至図９に示す各処理を演算処理装置としての制御部（情報処理システム１のサーバ装置２のＣＰＵ１５１やユーザ端末３のＣＰＵ１５１）に実行させるプログラムである。

　このようなプログラムにより本実施の形態の情報処理システム１の実現が容易となる。
　そしてこのようなプログラムは演算処理装置等の機器に内蔵されている記録媒体や、ＣＰＵを有するマイクロコンピュータ内のＲＯＭ等に予め記憶しておくことができる。あるいはまた、半導体メモリ、メモリカード、光ディスク、光磁気ディスク、磁気ディスクなどのリムーバブル記録媒体に、一時的あるいは永続的に格納（記憶）しておくことができる。またこのようなリムーバブル記録媒体は、いわゆるパッケージソフトウェアとして提供することができる。
　また、このようなプログラムは、リムーバブル記録媒体からパーソナルコンピュータ等にインストールする他、ダウンロードサイトから、ＬＡＮ、インターネットなどのネットワークを介してダウンロードすることもできる。

　尚、本明細書に記載された効果はあくまでも例示であって限定されるものではなく、また他の効果があってもよい。

＜６．本技術＞

　本技術は以下のような構成も採ることができる。
（１）
　ユーザの音声入力についての音声認識の成否を判定する音声認識成否判定部と、
　前記判定において前記音声認識が成功したと判定した場合にユーザに提示するための通常応答情報を生成する通常応答生成部と、
　前記判定において前記ユーザの周辺環境に起因して前記音声認識が失敗したと判定した場合にユーザに提示するためのアドバイス情報を生成するアドバイス情報生成部と、を備えた
　情報処理装置。
（２）
　前記判定の結果として、前記音声認識が成功したことを示す結果を取得した場合には前記通常応答情報を選択し、前記音声認識が失敗したことを示す結果を取得した場合には前記アドバイス情報を選択する応答制御部を備えた
　上記（１）に記載の情報処理装置。
（３）
　前記応答制御部によって選択された情報をユーザに提示する応答情報提示部を備えた
　上記（２）に記載の情報処理装置。
（４）
　前記音声認識が失敗した場合に、失敗原因を判定するための原因判定処理を行う
　上記（１）乃至（３）の何れかに記載の情報処理装置。
（５）
　前記原因判定処理では、失敗が発話態様によるものかノイズによるものかの判定を行う
　上記（４）に記載の情報処理装置。
（６）
　前記原因判定処理では、失敗がノイズによるものと判定した場合に、該ノイズが一時的なノイズであるか非一時的なノイズであるかを更に判定する
　上記（５）に記載の情報処理装置。
（７）
　前記原因判定処理では、分類器を用いる
　上記（４）乃至（６）の何れかに記載の情報処理装置。
（８）
　前記分類器は機械学習によって生成される
　上記（７）に記載の情報処理装置。
（９）
　前記原因判定処理では、失敗原因の判定のために地図データを用いる
　上記（４）乃至（８）の何れかに記載の情報処理装置。
（１０）
　前記アドバイス情報生成部は、音声入力の再試行を行う場所を提示するための情報を含んだアドバイス情報を生成する
　上記（１）乃至（９）の何れかに記載の情報処理装置。
（１１）
　前記音声認識の失敗原因が非一時的なノイズである場合において、前記再試行を行う場所は現在地とは異なる代替地とされた
　上記（１０）に記載の情報処理装置。
（１２）
　前記音声認識の失敗原因が一時的なノイズである場合において、前記再試行を行う場所は現在地とされた
　上記（１０）または（１１）の何れかに記載の情報処理装置。
（１３）
　ユーザの現在地が発話制限エリアであると判定された場合において、前記再試行を行う場所は現在地とは異なる代替地とされた
　上記（１０）乃至（１２）の何れかに記載の情報処理装置。
（１４）
　前記再試行を行う場所は地図データを用いて決定された
　上記（１０）乃至（１３）の何れかに記載の情報処理装置。
（１５）
　前記再試行を行う場所は他のユーザの実績情報を用いて決定された
　上記（１０）乃至（１４）の何れかに記載の情報処理装置。
（１６）
　ユーザの音声を取得するマイクロフォンを備えた
　上記（１）乃至（１５）の何れかに記載の情報処理装置。
（１７）
　ユーザの音声入力についての音声認識の成否を判定する音声認識成否判定手順と、
　前記判定において前記音声認識が成功したと判定した場合にユーザに提示するための通常応答情報を生成する通常応答生成手順と、
　前記判定において前記ユーザの周辺環境に起因して前記音声認識が失敗したと判定した場合にユーザに提示するためのアドバイス情報を生成するアドバイス情報生成手順と、を情報処理装置が実行する
　情報処理方法
（１８）
　ユーザの音声入力についての音声認識の成否を判定する音声認識成否判定機能と、
　前記判定において前記音声認識が成功したと判定した場合にユーザに提示するための通常応答情報を生成する通常応答生成機能と、
　前記判定において前記ユーザの周辺環境に起因して前記音声認識が失敗したと判定した場合にユーザに提示するためのアドバイス情報を生成するアドバイス情報生成機能と、を演算処理装置に実現させる
　プログラム

１…情報処理システム、１ｄ…音声認識成否判定部、１ｅ…アドバイス情報生成部、１ｆ…通常応答生成部、１ｇ…応答制御部、１ｈ…応答情報提示部、２…サーバ装置、３…ユーザ端末、５０…地図データベース

Claims

　ユーザの音声入力についての音声認識の成否を判定する音声認識成否判定部と、
　前記判定において前記音声認識が成功したと判定した場合にユーザに提示するための通常応答情報を生成する通常応答生成部と、
　前記判定において前記ユーザの周辺環境に起因して前記音声認識が失敗したと判定した場合にユーザに提示するためのアドバイス情報を生成するアドバイス情報生成部と、を備えた
　情報処理装置。
　前記判定の結果として、前記音声認識が成功したことを示す結果を取得した場合には前記通常応答情報を選択し、前記音声認識が失敗したことを示す結果を取得した場合には前記アドバイス情報を選択する応答制御部を備えた
　請求項１に記載の情報処理装置。
　前記応答制御部によって選択された情報をユーザに提示する応答情報提示部を備えた
　請求項２に記載の情報処理装置。
　前記音声認識が失敗した場合に、失敗原因を判定するための原因判定処理を行う
　請求項１に記載の情報処理装置。
　前記原因判定処理では、失敗が発話態様によるものかノイズによるものかの判定を行う
　請求項４に記載の情報処理装置。
　前記原因判定処理では、失敗がノイズによるものと判定した場合に、該ノイズが一時的なノイズであるか非一時的なノイズであるかを更に判定する
　請求項５に記載の情報処理装置。
　前記原因判定処理では、分類器を用いる
　請求項４に記載の情報処理装置。
　前記分類器は機械学習によって生成される
　請求項７に記載の情報処理装置。
　前記原因判定処理では、失敗原因の判定のために地図データを用いる
　請求項４に記載の情報処理装置。
　前記アドバイス情報生成部は、音声入力の再試行を行う場所を提示するための情報を含んだアドバイス情報を生成する
　請求項１に記載の情報処理装置。
　前記音声認識の失敗原因が非一時的なノイズである場合において、前記再試行を行う場所は現在地とは異なる代替地とされた
　請求項１０に記載の情報処理装置。
　前記音声認識の失敗原因が一時的なノイズである場合において、前記再試行を行う場所は現在地とされた
　請求項１０に記載の情報処理装置。
　ユーザの現在地が発話制限エリアであると判定された場合において、前記再試行を行う場所は現在地とは異なる代替地とされた
　請求項１０に記載の情報処理装置。
　前記再試行を行う場所は地図データを用いて決定された
　請求項１０に記載の情報処理装置。
　前記再試行を行う場所は他のユーザの実績情報を用いて決定された
　請求項１０に記載の情報処理装置。
　ユーザの音声を取得するマイクロフォンを備えた
　請求項１に記載の情報処理装置。
　ユーザの音声入力についての音声認識の成否を判定する音声認識成否判定手順と、
　前記判定において前記音声認識が成功したと判定した場合にユーザに提示するための通常応答情報を生成する通常応答生成手順と、
　前記判定において前記ユーザの周辺環境に起因して前記音声認識が失敗したと判定した場合にユーザに提示するためのアドバイス情報を生成するアドバイス情報生成手順と、を情報処理装置が実行する
　情報処理方法。
　ユーザの音声入力についての音声認識の成否を判定する音声認識成否判定機能と、
　前記判定において前記音声認識が成功したと判定した場合にユーザに提示するための通常応答情報を生成する通常応答生成機能と、
　前記判定において前記ユーザの周辺環境に起因して前記音声認識が失敗したと判定した場合にユーザに提示するためのアドバイス情報を生成するアドバイス情報生成機能と、を演算処理装置に実現させる
　プログラム。