JP2019090942A

JP2019090942A - 情報処理装置、情報処理システム、情報処理方法、および情報処理プログラム

Info

Publication number: JP2019090942A
Application number: JP2017220103A
Authority: JP
Inventors: 木付　英士; Eiji Kitsuke; 英士木付; 慧渡部; Akira Watanabe; 岩野　裕利; Hirotoshi Iwano; 裕利岩野
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2017-11-15
Filing date: 2017-11-15
Publication date: 2019-06-13
Also published as: US20190147851A1

Abstract

【課題】音声認識に失敗した場合でも、操作者が使用した言語に応じたメッセージを出力することができる技術を提供する。【解決手段】ユーザの発話に係る入力発話情報を取得し、上記ユーザとの対話を行うための第１の応答か、上記ユーザに再度の発話を促すための第２の応答のいずれかの応答を、取得した上記入力発話情報を参照して選択するように構成されており、上記ユーザとの上記対話を開始する前に上記第２の応答を選択する場合に、上記入力発話情報を参照して判定された上記ユーザの属性に応じて、上記第２の応答の内容を選択する。【選択図】図３

Description

本発明は、情報処理装置、情報処理システム、情報処理方法、および情報処理プログラムに関する。

従来、操作者の音声を認識し、入力された音声がどの言語であるかを判定し、判定した言語を用いて操作者に対するメッセージを出力する技術が知られている（例えば、特許文献１参照）。

特開２００１−１７５２７８号公報（２００１年６月２９日公開）

しかしながら、上述のような従来技術は、音声認識に失敗した場合には、操作者が使用した言語に応じたメッセージを出力することができないという問題がある。

本発明の一態様は、音声認識に失敗した場合でも、操作者が使用した言語に応じたメッセージを出力することができる技術を提供することを目的とする。

上記の課題を解決するために、本発明の一態様に係る情報処理装置は、発話情報取得部と、発話情報提示部と、制御部とを備えた情報処理装置であって、上記制御部は、ユーザの発話に係る入力発話情報を、上記発話情報取得部を介して取得し、上記ユーザとの対話を行うための第１の応答か、上記ユーザに再度の発話を促すための第２の応答のいずれかの応答を、取得した上記入力発話情報を参照して選択し、選択した上記応答に係る出力発話情報を、上記発話情報提示部を介して提示するように構成されており、上記ユーザとの上記対話を開始する前に上記第２の応答を提示する場合に、上記入力発話情報を参照して判定された上記ユーザの属性に応じて、上記第２の応答の内容を選択する構成である。

本発明の一態様によれば、音声認識に失敗した場合でも、操作者が使用した言語に応じたメッセージを出力することができる。

実施形態１に係る情報処理システム１００の概略構成を示すブロック図である。実施形態２および３に係る情報処理システム２００の概略構成を示すブロック図である。実施形態４に係る情報処理システム３００の概略構成を示すブロック図である。情報処理システム３００の処理の流れを示すフローチャートである。第１の応答群の一例を示す図である。実施形態５に係る情報処理システム４００の概略構成を示すブロック図である。情報処理装置として利用可能なコンピューの構成を例示したブロック図である。

〔実施形態１〕
以下、本発明の実施形態１について、詳細に説明する。

〔情報処理システムの概要〕
図１は、実施形態１に係る情報処理システム１００の概略構成を示すブロック図である。図１に示すように、情報処理システム１００は、第１のサーバ（情報処理装置）１１０、第２のサーバ１５０、端末装置１８０を備えている。

情報処理システム１００は、端末装置１８０に入力されたユーザの発話音声を、第１のサーバ１１０および第２のサーバ１５０で処理して、応答音声を端末装置１８０から出力することで、ユーザと音声による対話を行うシステムである。

（端末装置１８０の構成）
端末装置１８０は、端末制御部１８５、端末通信部１８１、音声入力部１８２、および音声出力部１８３を備えている。

端末制御部１８５は、端末装置１８０の各部を統括的に制御する制御部としての機能を備えた演算装置である。端末制御部１８５は、例えば１つ以上のプロセッサ（例えばＣＰＵなど）が、１つ以上のメモリ（例えばＲＡＭやＲＯＭなど）に記憶されているプログラムを実行することで端末装置１８０の各構成要素を制御する。

端末通信部１８１は、外部機器と通信可能に構成されており、例えばＷｉ−Ｆｉ（登録商標）などの無線通信回路を備えている。

音声入力部１８２は、ユーザの発話に係る入力発話情報を端末通信部１８１を介して外部機器に送信する。端末通信部１８１を介して外部機器に送信される入力発話情報は、生の音声データであっても、音声認識を行った結果のデータ、例えばテキスト情報などであってもよい。また、音声入力部１８２は、ユーザが発する声を集音し、集音した声を電子的な波形データに変換し、当該波形データをユーザの発話に係る入力発話情報として、端末通信部１８１を介して外部機器に送信してもよい。

音声出力部１８３は、音声データを音波として出力する。音声出力部１８３は、本実施形態では、人の耳が認識できる音波範囲の音を出力する。音声出力部１８３は、端末通信部１８１を介して外部機器から取得した音声データに基づく音をストリーミングにより出力する。音声出力部１８３は、第１のサーバ１１０の通信部１１５を介して提示された出力発話情報を、端末通信部１８１を介して取得し、出力発話情報に基づく音をストリーミングにより出力してもよい。なお、出力発話情報は、生の音声データであっても、音声合成を行うためのデータ、例えばテキスト情報などであってもよく、音声出力部１８３が音声合成を行う機能を有している構成であってもよい。

なお、図示は省略するが、端末装置１８０は、テストメッセージや画像を表示する表示部を備え、当該表示部に端末通信部１８１を介して第１のサーバ１１０の通信部１１５から取得した出力情報をテキスト表示することで、ユーザと「対話」する構成であってもよい。

（第１のサーバ１１０の構成）
第１のサーバ１１０は、通信部１１５と、制御部１２０と、を備えている。

通信部１１５は、外部機器と通信可能に構成されており、例えばＷｉ−Ｆｉ（登録商標）などの無線通信回路を備えている。第１のサーバ１１０は、通信部１１５を介して、端末装置１８０および第２のサーバ１５０と通信する。通信部１１５は、端末装置１８０の端末通信部１８１から送信される、ユーザの声に基づく波形データを受信する。情報処理装置としての第１のサーバ１０が、ネットワーク上のサーバに実装されている場合においては、このように、通信部１１５は、ユーザの声に基づく波形データである発話情報を取得する発話情報取得部として機能する。なお、単体の装置が情報処理システム１００の機能を有する構成においては、通信部１１５ではなく、音声入力部１８２が発話情報取得部としての機能を有していてもよい。

また、通信部１１５は、第２のサーバ１５０に、端末装置１８０から受信したユーザの声に基づく波形データを送信する。また、通信部１１５は、第２のサーバ１５０によって波形データが処理された結果の処理データを第２のサーバ１５０から受信する。

また通信部１１５は、第２のサーバ１５０から受信した音声に変換された応答フレーズを、通信部１１５を介して端末装置１８０に送信する。情報処理装置としての第１のサーバ１０が、ネットワーク上のサーバに実装されている場合においては、このように、通信部１１５は、音声に変換された応答フレーズを提示する発話情報提示部として機能する。なお、単体の装置が、端末装置１８０および第１のサーバ１１０の機能、または、情報処理システム１００の機能の全てを有する構成においては、通信部１１５ではなく、音声出力部１８３が発話情報提示部としての機能を有していてもよい。発話情報提示部としての音声出力部１８３は、出力情報をテキスト表示する表示部であってもよい。なお、単体の装置が、端末装置１８０および第１のサーバ１１０の機能を有する構成について、後述の実施形態５で詳しく説明する。

制御部１２０は、第１のサーバ１１０の各部を統括的に制御する機能を備えている演算装置である。制御部１２０は、例えば１つ以上のプロセッサ（例えばＣＰＵなど）が、１つ以上のメモリ（例えばＲＡＭやＲＯＭなど）に記憶されているプログラムを実行することで第１のサーバ１１０の各構成要素を制御する。

制御部１２０は、属性判定部１２１と、応答選択部と、を備えている。

属性判定部１２１は、通信部１１５を介して端末装置１８０から取得したユーザの発話に係る入力発話情報を参照して、ユーザの属性を判定する。属性判定部１２１は、例えば、ユーザの使用言語及び出身地の少なくとも何れかを判定する。属性判定部１２１は、例えば、ユーザの発話に係る入力発話情報を参照して、ユーザが使用した言語を判定する。また、属性判定部１２１は、ユーザの声に基づく波形データを参照して、ユーザの方言（なまり）、年齢、および性別の少なくとも何れかを判定することができてもよい。また、属性判定部１２１は、ユーザの感情を判定することができてもよい。

属性判定部１２１は、機械学習を用いて波形データに応じた判定を行ってもよい。また、属性判定部１２１は、各属性の基本となるデータと、ユーザの声に基づく波形データとの比較によってユーザの属性を判定してもよい。また、属性判定部１２１は、複数の言語のそれぞれの基本データと、ユーザの声に基づく波形データとを比較して、各言語との類似度をそれぞれ算出し、類似度が所定の閾値以上であるか否かを判定してもよい。

応答選択部は、第１のサーバ１１０が対応可能な言語のそれぞれに対して設けられる。図１は、第１のサーバ１１０が第１言語、第２言語、第３言語の３つの言語に対応可能な場合を例に示しており、制御部１２０は、第１言語応答選択部１２２、第２言語応答選択部１２３、第３言語応答選択部１２４を備えている。

第１言語応答選択部１２２、第２言語応答選択部１２３、第３言語応答選択部１２４は、静的または動的なテキスト辞書とのテキストマッチングを用いて、ユーザが発話したユーザフレーズを特定する。第１言語応答選択部１２２、第２言語応答選択部１２３、第３言語応答選択部１２４は、従来公知の編集距離等の手法を用いて、テキストの類似度でユーザフレーズとテキスト辞書とのマッチング判定をする。

また、第１言語応答選択部１２２、第２言語応答選択部１２３、第３言語応答選択部１２４は、特定したユーザフレーズに対応する応答フレーズを選択する。なお、第１言語応答選択部１２２、第２言語応答選択部１２３、第３言語応答選択部１２４は、特定したユーザフレーズによっては、対応する応答フレーズはないと判定することもできる。

（第２のサーバ１５０の構成）
第２のサーバ１５０は、通信部１５５と、サーバ制御部１６０と、を備えている。

通信部１５５は、外部機器と通信可能に構成されており、例えばＷｉ−Ｆｉ（登録商標）などの無線通信回路を備えている。第２のサーバ１５０は、通信部１５５を介して第１のサーバ１１０と通信する。

サーバ制御部１６０は、第２のサーバ１５０の各部を統括的に制御する機能を備えている演算装置である。サーバ制御部１６０は、例えば１つ以上のプロセッサ（例えばＣＰＵなど）が、１つ以上のメモリ（例えばＲＡＭやＲＯＭなど）に記憶されているプログラムを実行することで第２のサーバ１５０の各構成要素を制御する。

サーバ制御部１６０は、音声認識部であるＡＳＲ（ＡｕｔｏｍａｔｉｃＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ）と、音声合成部であるＴＴＳ（ＴｅｘｔｔｏＳｐｅｅｃｈ）１６４と、を含んでいる。

ＡＳＲは、第２のサーバ１５０で対応可能な言語のそれぞれに対して設けられる。第２のサーバ１５０が、例えば、第１言語、第２言語、第３言語の３つの言語に対応可能な場合には、図１に示すように、サーバ制御部１６０は、第１言語ＡＳＲ１６１、第２言語ＡＳＲ１６２、第３言語ＡＳＲ１６３を含むように構成される。

第１言語ＡＳＲ１６１、第２言語ＡＳＲ１６２、第３言語ＡＳＲ１６３は、通信部１５５を介して第１のサーバ１１０から取得したユーザの声に基づく波形データの音声認識を行って、テキストに変換する。第１言語ＡＳＲ１６１、第２言語ＡＳＲ１６２、第３言語ＡＳＲ１６３は、ユーザの声に基づく波形データの音声認識を行って、テキストに変換する際に、信頼度を属性として算出する構成であってもよい。

サーバ制御部１６０は、第１のサーバ１１０の属性判定部１２１が判定した言語に応じて、第１言語ＡＳＲ１６１、第２言語ＡＳＲ１６２、第３言語ＡＳＲ１６３のうち適宜の１つのＡＳＲで音声認識処理を行う構成であってもよい。また、サーバ制御部１６０は、第１のサーバ１１０から取得したユーザの声に基づく波形データを、第１言語ＡＳＲ１６１、第２言語ＡＳＲ１６２、第３言語ＡＳＲ１６３に、並列もしくは連続的に流して処理を行う構成であってもよい。

ＴＴＳ１６４は、テキストを音声に変換する。ＴＴＳ１６４は、通信部１５５を介して第１のサーバ１１０から取得した、第１言語応答選択部１２２、第２言語応答選択部１２３、および第３言語応答選択部１２４の少なくとも何れか１つが選択した応答フレーズのテキストを音声に変換する。ＴＴＳ１６４によって音声に変換された応答フレーズは、通信部１５５を介して第１のサーバ１１０に送信される。

〔多言語対話処理〕
音声入力部１８２を介してユーザの発話音声が入力されると、端末制御部１８５は、音声入力部１８２の入力を参照してユーザの発話に係る入力発話情報を取得する。端末制御部１８５は、取得した入力発話情報を端末通信部１８１を介して第１のサーバ１１０に送信する。

第１のサーバ１１０の制御部１２０は、発話情報取得部である通信部１１５を介してユーザの発話に係る入力発話情報を取得し、属性判定部１２１の機能により、ユーザの属性を判定する。例えば、属性判定部１２１は、ユーザの言語を判定し、判定結果を、ユーザの発話に係る入力発話情報と共に、通信部１１５を介して第２のサーバ１５０に送信する。

第２のサーバ１５０のサーバ制御部１６０は、通信部１５５を介して取得したユーザの属性に関する情報を参照して、第１言語ＡＳＲ１６１、第２言語ＡＳＲ１６２、第３言語ＡＳＲ１６３の少なくとも何れか一つの音声認識機能により、ユーザの発話に係る入力発話情報をテキストのユーザフレーズに変換する。

サーバ制御部１６０は、属性判定部１２１がもっとも類似していると判定した言語に応じたＡＳＲで音声認識を行う構成であってもよい。また、サーバ制御部１６０は、属性判定部１２１が算出した各言語の言語類似度を参照して、言語類似度が所定の閾値以上の言語のＡＳＲで音声認識を実行してもよい。

サーバ制御部１６０は、第１言語ＡＳＲ１６１、第２言語ＡＳＲ１６２、及び第３言語ＡＳＲ１６３の少なくとも何れか１つの機能により生成されたテキストのユーザフレーズを、通信部１５５を介して第１のサーバ１１０に送信する。なお、第１言語ＡＳＲ１６１、第２言語ＡＳＲ１６２、及び第３言語ＡＳＲ１６３は、ユーザの発話に係る入力発話情報をテキストのユーザフレーズに変換する際にテキストの信頼度を算出する構成であってもよく、サーバ制御部１６０は、テキストのユーザフレーズとともに、当該テキストの信頼度を第１のサーバ１１０に送信する構成であってもよい。

第１のサーバ１１０の制御部１２０は、通信部１１５を介して、テキストのユーザフレーズを取得する。制御部１２０は、テキストのユーザフレーズの言語に対応する第１言語応答選択部１２２、第２言語応答選択部１２３、第３言語応答選択部１２４の何れか１つの機能により、ユーザフレーズを特定し、ユーザフレーズおよびユーザの会話のシナリオに応じた応答内容の応答フレーズのテキストを選択する。

制御部１２０は、通信部１１５を介して複数言語のテキストのユーザフレーズを取得した場合には、言語毎に対応する第１言語応答選択部１２２、第２言語応答選択部１２３、第３言語応答選択部１２４でそれぞれユーザフレーズを特定し、ユーザフレーズおよびユーザの会話のシナリオに応じた応答フレーズを選択する。第１言語応答選択部１２２、第２言語応答選択部１２３、第３言語応答選択部１２４では、テキストのユーザフレーズと、特定したユーザフレーズとのテキスト類似度、および、テキストのユーザフレーズとともに第２のサーバ１５０から受信したテキストの信頼度を参照して、最適な応答フレーズのテキストを選択する。

なお、それぞれの応答選択部１２２，１２３，１２４は、属性判定部１２１によって判定されたユーザの言語だけではなく、方言、性別、年齢、感情等の様々なユーザ属性に応じた応答フレーズを選択することができてもよい。

制御部１２０は、選択した応答フレーズのテキストを通信部１１５を介して第２のサーバ１５０に送信する。

第２のサーバ１５０のサーバ制御部１６０は、通信部１５５を介して、応答フレーズのテキストを取得し、ＴＴＳ１６４の機能により、応答フレーズを音声に変換する。サーバ制御部１６０は、音声に変換された応答フレーズを通信部１５５を介して第１のサーバ１１０に送信する。

第１のサーバ１１０の制御部１２０は、第２のサーバ１５０から受信した音声に変換された応答フレーズ（出力発話情報）を、発話情報提示部である通信部１１５を介して端末装置１８０に送信する。

端末装置１８０の端末制御部１８５は、出力発話情報を、端末通信部１８１を介して取得し、取得した出力発話情報を参照して、音声出力部１８３に音声を出力させる。端末制御部１８５は、出力発話情報を、音声出力部１８３からストリーミングによって出力する。

これらの構成によれば、言語選択等の事前情報がなくても、ユーザが使用した言語に応じたメッセージを出力することができる。

〔実施形態２〕
本発明の実施形態２について、以下に説明する。なお、説明の便宜上、上記実施形態１にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を繰り返さない。

図２は、実施形態２に係る情報処理システム２００の概略構成を示すブロック図である。図２に示すように、情報処理システム２００は、第１のサーバ２１０の制御部２２０が、対応言語のそれぞれ応じた応答選択部を備えるのではく、応答選択部２２２が対応可能言語の全てに応じた応答を選択する点で実施形態１とは異なる。

第１のサーバ２１０の制御部２２０は、通信部１１５を介して、テキストのユーザフレーズを取得すると、応答選択部２２２の機能により、当該テキストを、対応可能なすべての言語に対してテキストマッチングを行う。

応答選択部２２２は、特定したユーザフレーズとのテキスト類似度を参照して、適当な応答言語と、応答フレーズとを選択する。なお応答選択部２２２は、テキスト類似度とともに、ＡＳＲが算出した信頼度や、属性判定部１２１が算出した言語類似度を参照して、適当な応答言語と、応答フレーズとを選択してもよい。

また、応答選択部２２２は、属性判定部１２１によって判定されたユーザの言語だけではなく、方言、性別、年齢、感情等の様々なユーザ属性に応じた応答フレーズを選択することができてもよい。

制御部３２０は、選択した応答言語に関する情報と、応答フレーズのテキストとを通信部１１５を介して第２のサーバ１５０に送信する。

第２のサーバ１５０のサーバ制御部１６０は、通信部１５５を介して、応答フレーズのテキストを取得し、ＴＴＳ１６４の機能により、適切な応答言語で応答フレーズを音声に変換する。サーバ制御部１６０は、音声に変換された応答フレーズを通信部１５５を介して第１のサーバ２１０に送信する。

第１のサーバ２１０の制御部２２０は、第２のサーバ１５０から受信した音声に変換された応答フレーズを、通信部１１５を介して端末装置１８０に送信する。

端末装置１８０は、端末通信部１８１を介して声に変換された応答フレーズを受信し、受信した応答フレーズを音声出力部１８３から出力するストリーミングを行う。

これらの構成によれば、ＡＳＲ後のテキストのユーザフレーズをテキストマッチングすることで、ユーザが使用した言語を推定することができる。よって、言語選択等の事前情報がなくても、ユーザが使用した言語に応じたメッセージを出力することができる。

〔実施形態３〕
本発明の実施形態３について、以下に説明する。なお、説明の便宜上、上記実施形態１または２にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を繰り返さない。

実施形態３に係る情報処理システム２００の構成は、図２に示した実施形態２の情報処理システム２００と同様であり、その説明を省略する。

応答選択部２２２の機能により、通信部１１５を介して取得したテキストのユーザフレーズを、対応可能なすべての言語に対してテキストマッチングを行った結果、十分に類似していると判定される言語が複数検出される場合がある。このような場合に、実施形態３に係る情報処理システム２００の第１のサーバ２１０は、以下のような処理を行う。

制御部２２０の応答選択部２２２は、テキストマッチングにより特定したユーザフレーズと、テキストとのテキスト類似度に、ＡＳＲが算出した信頼度を掛け合わせ、ユーザフレーズの言語を特定する。

また、制御部２２０の応答選択部２２２は、テキストマッチングを行った結果、十分に類似していると判定された複数の言語のうち、属性判定部１２１が算出した言語類似度が最も高い言語のユーザフレーズを選択してもよい。

これらの構成によれば、言語選択等の事前情報がなくてもユーザが使用した言語に応じたメッセージを出力することができる。

〔実施形態４〕
本発明の実施形態４について、以下に説明する。なお、説明の便宜上、上記実施形態１にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を繰り返さない。

図３は、実施形態４に係る情報処理システム３００の概略構成を示すブロック図である。図３に示すように、情報処理システム３００は、第１のサーバ３１０の制御部３２０が、聞き返し応答選択部３２３を備える点で実施形態２に係る情報処理システム２００とは異なる。

応答選択部２２２は、第１のサーバ３１０の不図示の記憶部に予め記憶された第１の応答群に含まれるユーザとの対話を行うための第１の応答を選択する。図５は、第１の応答群の一例を示す図である。

聞き返し応答選択部３２３は、応答選択部２２２が発話情報取得部である通信部１１５を介して取得したユーザの発話に係る入力発話情報に対する応答を第１の応答群から選択できなかった場合に、ユーザにその旨を伝える適宜の聞き返し応答、または、ユーザに再度の発話を促すための応答を、第１の応答群と異なる聞き直し応答群に含まれる第２の応答から選択する。応答選択部２２２がユーザの発話に係る入力発話情報に対する応答を選択できない場合は、例えば、複数言語に対してテキストマッチングした結果、所定の閾値以上のテキスト類似度でマッチングするフレーズが見つからず、ユーザフレーズ、またはユーザの言語が特定できなかった場合である。

聞き返し応答選択部３２３は、属性判定部１２１がユーザの言語であると判定した言語で、例えば「もう一度いってください」というフレーズを（例えばユーザの言語が英語であると判定された場合には、「Could you say that again?」というフレーズを）聞き直し応答群から選択する。聞き直し応答群には、「もう一度いってください」というユーザに再度の発話を促す第２の応答に限らず、「わかりません」という応答が含まれていてよい。

また、聞き返し応答選択部３２３は、応答選択部２２２が算出したテキスト類似度と、属性判定部１２１の判定結果と、を参照して、複数の言語の「もう一度いってください」をユーザに再度の発話を促す第２の応答として選んで、複数の言語で順次ユーザに再度の発話を促してもよい。

聞き返し応答選択部３２３は、ユーザの言語だけではなく、属性判定部１２１が推定したユーザの様々な属性に基づいて、第２の応答のフレーズを選択したり、声音や音量を変えたりしてもよい。例えば、ユーザが大阪弁を使用したと判断された場合には、聞き返し応答選択部３２３は、「もういっぺん言うとくんなはれ」のように、大阪弁のフレーズを選択してもよい。また、ユーザが子供だと判断された場合には、聞き返し応答選択部３２３は、「もう一度いってください」というフレーズの代わりに「もう一度言ってくれるかな？」というような子供向けのフレーズを選択してもよい。また、ユーザがお年寄りだと判断された場合には、聞き返し応答選択部３２３は、第２の応答の音量を大きく設定してもよい。また、聞き返し応答選択部３２３は、推定されたユーザの性別とは異なる性別の声で、例えば、男性だと判断された場合には女性の声で、女性だと判断された場合には男性の声で、第２の応答を出力する設定をしてもよい。

また、聞き返し応答選択部３２３は、属性判定部１２１が推定したユーザの感情に応じて、第２の応答の発話口調を変えてもよい。例えば、聞き返し応答選択部３２３は、ユーザが楽しそうな口調で発話した場合には、ユーザの楽しそうな感情に同調すべく、楽しそうな口調で第２の応答を出力する設定をしてもよい。また、聞き返し応答選択部３２３は、ユーザが怒っているような口調で発話した場合には、丁寧な文脈の第２の応答のフレーズを選択し、柔らかい口調で選択した第２の応答フレーズを出力する設定をしてもよい。

〔情報処理システム３００の処理〕
図４は、情報処理システム３００による情報処理の流れの一例を示すフローチャートである。図５は、第１のサーバ３１０に予め記憶された第１の応答群の例を示す図である。

（ステップＳ１）
端末装置１８０の音声入力部１８２にユーザの発話が入力されると、ユーザの発話に係る入力発話情報が端末通信部１８１を介して、第１のサーバ３１０に送信される。

（ステップＳ２）
第１のサーバ３１０の制御部３２０は、発話情報取得部である通信部１１５を介してユーザの発話に係る入力発話情報を取得し、取得した入力発話情報を、通信部１１５を介して第２のサーバ１５０に送信する。ユーザの発話に係る入力発話情報は、生の音声データ、例えばユーザの声に基づく波形データなどであっても、音声認識を行った結果のデータ、例えばテキスト情報などであってもよい。また、第２のサーバ１５０のサーバ制御部１６０は、通信部１５５を介して取得した入力発話情報を、第１言語ＡＳＲ１６１、第２言語ＡＳＲ１６２、第３言語ＡＳＲ１６３のうち、ユーザの言語に応じたＡＳＲにより、テキストのユーザフレーズに変換する。

なお、第２のサーバ１５０のサーバ制御部１６０は、各ユーザフレーズとともにそれぞれの信頼度を算出することができてもよい。また、サーバ制御部１６０は、どのユーザフレーズの信頼度も所定の閾値を超えない場合には、ユーザフレーズにマッチする言語がないと判定してもよい、
（ステップＳ３）
サーバ制御部１６０は、ユーザの言語に応じたＡＳＲによりテキストに変換されたユーザフレーズを、通信部１５５を介して第１のサーバ３１０に送信する。サーバ制御部１６０は、ユーザフレーズとともに、その信頼度を、通信部１５５を介して第１のサーバ３１０に送信してもよい。また、サーバ制御部１６０は、ユーザフレーズにマッチする言語がない場合には、マッチする言語がない旨を、通信部１５５を介して第１のサーバ３１０に送信してもよい。

第１のサーバ３１０の制御部３２０は、通信部１１５を介して取得したテキストのユーザフレーズを、応答選択部２２２の機能により、複数言語でそれぞれ第１の応答群とテキストマッチングを行う。

（ステップＳ４）
制御部３２０は、応答選択部２２２のテキストマッチング機能により、ユーザフレーズにマッチする言語はあるか否かを判定する。ユーザフレーズにマッチする言語があると判定すると、制御部３２０は、ステップＳ４に進む。ユーザフレーズにマッチする言語がないと判定すると、制御部３２０は、ステップＳ６に進む。なお、制御部３２０は、ステップS３において、マッチする言語がない旨が第２のサーバ１５０から伝達された場合には、応答選択部２２２によるテキストマッチングを行うことなく、ステップＳ６に進んでもよい。

（ステップＳ５）
制御部３２０は、応答選択部２２２の機能により、ユーザの発話、及び当該ユーザとの会話のシナリオに応じて、第１の応答群に含まれる第１の応答を選択する。応答選択部２２２は、第１の応答群から、ユーザフレーズに最もマッチした意図に対応する応答フレーズを第１の応答として選択する。

（ステップＳ６）
制御部３２０は、ステップＳ２で取得したユーザの発話に係る入力発話情報を参照して、属性判定部１２１の機能により、ユーザとの会話のシナリオに依らずに、ユーザの属性（言語）の推定をユーザとの対話を開始する前に行う。

（ステップＳ７）
制御部３２０は、属性判定部１２１が算出した、複数の言語のそれぞれに対する入力発話情報の言語類似度を参照して、最も言語類似度（推定値）が高い言語が、ユーザが使用した言語であると推定する。そして、制御部３２０は、最も推定値が高い言語で、例えば「もう一度いってください」といった、ユーザに再度の発話を促すための第２の応答を選択する。制御部３２０は、例えば、ユーザが使用した言語を機械学習により推定してもよい。制御部３２０は、予め記憶された聞き直し応答群の中から、第２の応答を選択する。

また、図示は省略するが、制御部３２０は、応答を選択するステップ５において応答内容を選択できなかった場合に、属性を判定するステップ６の判定結果に応じて、第１の応答群とは異なる聞き直し応答群に含まれる応答内容を選択してもよい。

（ステップＳ８）
制御部３２０は、ステップＳ５で選択したユーザとの対話を行うための第１の応答か、ステップＳ７で選択したユーザに再度の発話を促すための第２の応答か、のいずれかの応答に係る出力発話情報を、通信部１１５を介して第２のサーバ１５０に送信する。第２のサーバ１５０のサーバ制御部１６０は、通信部１５５を介して取得したフレーズを、ＴＴＳ１６４の機能により、テキストの言語で音声合成する。

（ステップＳ９）
サーバ制御部１６０は、音声合成された出力発話情報を通信部１５５を介して第１のサーバ３１０に送信する。第１のサーバ３１０の制御部３２０は、第２のサーバ１５０から受信した出力発話情報を、発話情報提示部である通信部１１５を介して端末装置１８０に送信する。端末装置１８０は、端末通信部１８１を介して取得した出力発話情報を音声出力部１８３から音声ストリーミングを行うことでユーザに提示する。

なお、第１のサーバ３１０の制御部３２０は、第１の応答群に含まれる第１の応答を発話情報提示部である通信部１１５を介して提示したら、そこからユーザと情報処理システム３００との対話が開始された、と定義する。そして、ユーザとの対話を開始する前に第２の応答を選択する場合には、入力発話情報を参照して判定されたユーザの属性に応じて、第２の応答の内容を選択する。

このように、情報処理システム３００では、応答選択部２２２が応答を選択できない場合、つまり、想定されたシナリオ通りの応答ができない場合には、ユーザに聞き返す等の対応を行うことができる。よって、音声認識に失敗した場合などで、ユーザの発話の意図を特定できない場合であっても、ユーザが使用した言語に応じた適切なメッセージを出力することができユーザとの対話を継続することができる。

図５は、制御部３２０が、応答選択部２２２のテキストマッチング機能により、ユーザフレーズに最もマッチした意図に対応する応答フレーズを応答群から選択する際に用いる、マッチングフレーズと、それに対応する応答フレーズとが書き込まれたテーブル(第１の応答群）の例を示す図である。図示は省略するが、第１のサーバ３１０には、図５に例を示したテーブルを記憶する記憶部が備えられている。応答選択部２２２は、マッチングフレーズと、それに対応する応答フレーズとが書き込まれたテーブルを参照して応答フレーズを選択する。

応答選択部２２２は、例えば「銀行に行きたい」というマッチングフレーズに対するユーザフレーズのテキスト類似度（編集距離）に応じて、「銀行はこの道をまっすぐ行った左手にあります。」という応答フレーズを選択してもよい。また、応答選択部２２２は、「銀行」または「ＡＴＭ」、「行きたい」または「どこ」などの複数のキーワードのマッチングによるスコアリングに基づいて、ユーザとの会話のシナリオに応じた「銀行はこの道をまっすぐ行った左手にあります。」という応答フレーズを選択してもよい。

また、応答選択部２２２は、テキストマッチングにより言語を特定して、特定した言語に応じた応答フレーズを選択してもよい。応答選択部２２２は、例えばユーザフレーズが英語であることを特定し、「I'm looking for a bank.」というマッチングフレーズに対するユーザフレーズのテキスト類似度（編集距離）に応じて、「Go straight and you can find the bank on your left.」という応答フレーズを選択してもよい。また、応答選択部２２２は、「bank」または「ATM」、「look for」、「want」、「go」などの複数のキーワードのマッチングによるスコアに基づいて、ユーザとの会話のシナリオに応じた「Go straight and you can find the bank on your left.」という応答フレーズを選択してもよい。

〔実施形態５〕
本発明の実施形態５について、以下に説明する。なお、説明の便宜上、上記実施形態４にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を繰り返さない。

図６は、実施形態５に係る情報処理システム４００の概略構成を示すブロック図である。図６に示すように、情報処理システム４００は、端末装置４８０が、実施形態４に係る第１のサーバ３１０の機能を一体に備えている点で、実施形態４に係る情報処理システム３００とは異なる。

単体の装置である端末装置４８０は、音声入力部１８２と、音声出力部１８３と、制御部３２０と、通信部１１５とを備えている。制御部３２０は、音声入力部１８２の入力を参照して、ユーザの発話に係る入力発話情報を取得する。

制御部３２０は、取得したユーザの発話に係る入力発話情報を、通信部１１５を介して第２のサーバ１５０に送信する。また、制御部３２０は、第２のサーバ１５０の第１言語ＡＳＲ１６１、第２言語ＡＳＲ１６２、第３言語ＡＳＲ１６３のうち、ユーザの言語に応じたＡＳＲにより、テキストのユーザフレーズに変換された入力発話情報を、通信部１１５を介して取得する。

制御部３２０は、取得したテキストに変換されたユーザの発話に係る入力発話情報を参照して、ユーザとの対話を行うための第１の応答を応答選択部２２２の機能により選択するか、またはユーザに再度の発話を促すための第２の応答を聞き返し応答選択部３２３の機能により選択するかのいずれかの処理を行う。

制御部３２０は、選択した第１の応答または第２の応答に係る出力発話情報を参照して上記音声出力部に音声を出力させる。

また、制御部３２０は、ユーザとの対話を開始する前に第２の応答を選択する場合に、属性判定部１２１が入力発話情報を参照して判定したユーザの属性に応じて、第２の応答の内容を選択してもよい。

なお、図示は省略するが、端末装置４８０が、さらに第２のサーバ１５０の機能を一体に備えている構成でも良い。

これらの構成によれば、ユーザとの対話を行うための第１の応答を選択できなかった場合に、ユーザの属性に応じて、ユーザに再度の発話を促すための第２の応答を選択し応答する処理を端末装置４８０単体で行うことができる。よって、音声認識に失敗した場合でも、ユーザが使用した言語に応じた聞き直し応答等の適切なメッセージを速やかに出力することができる。

〔実施形態６〕
上記各実施形態では、第１のサーバ１１０，２１０，３１０および第２のサーバ１５０の２つのサーバを用いる例を説明したが、第１のサーバ１１０，２１０，３１０および第２のサーバ１５０のそれぞれが有する各機能が、１つのサーバにて実現されていてもよく、２つ以上の複数のサーバにて実現されていてもよい。そして、複数のサーバを適用する場合においては、各サーバは、同じ事業者によって管理されていてもよいし、異なる事業者によって管理されていてもよい。

〔実施形態７〕
第１のサーバ１１０，２１０，３１０、第２のサーバ１５０、および端末装置１８０の各ブロックは、集積回路（ＩＣチップ）等に形成された論理回路（ハードウェア）によって実現してもよいし、ソフトウェアによって実現してもよい。後者の場合、第１のサーバ１１０，２１０，３１０、第２のサーバ１５０、および端末装置１８０のそれぞれを、図６に示すようなコンピュータ（電子計算機）を用いて構成することができる。

図６は、第１のサーバ１１０，２１０，３１０、第２のサーバ１５０、または端末装置１８０として利用可能なコンピュータ９１０の構成を例示したブロック図である。コンピュータ９１０は、バス９１１を介して互いに接続された演算装置９１２と、主記憶装置９１３と、補助記憶装置９１４と、入出力インターフェース９１５と、通信インターフェース９１６とを備えている。演算装置９１２、主記憶装置９１３、および補助記憶装置９１４は、それぞれ、例えばプロセッサ（例えばＣＰＵ：ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ等）、ＲＡＭ（ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）、ハードディスクドライブであってもよい。入出力インターフェース９１５には、ユーザがコンピュータ９１０に各種情報を入力するための入力装置９２０、および、コンピュータ９１０がユーザに各種情報を出力するための出力装置９３０が接続される。入力装置９２０および出力装置９３０は、コンピュータ９１０に内蔵されたものであってもよいし、コンピュータ９１０に接続された（外付けされた）ものであってもよい。例えば、入力装置９２０は、キーボード、マウス、タッチセンサなどであってもよく、出力装置９３０は、ディスプレイ、プリンタ、スピーカなどであってもよい。また、タッチセンサとディスプレイとが一体化されたタッチパネルのような、入力装置９２０および出力装置９３０の双方の機能を有する装置を適用してもよい。そして、通信インターフェース９１６は、コンピュータ９１０が外部の装置と通信するためのインターフェースである。

補助記憶装置９１４には、コンピュータ９１０を第１のサーバ１１０，２１０，３１０、第２のサーバ１５０、または端末装置１８０として動作させるための各種のプログラムが格納されている。そして、演算装置９１２は、補助記憶装置９１４に格納された上記プログラムを主記憶装置９１３上に展開して該プログラムに含まれる命令を実行することによって、コンピュータ９１０を、第１のサーバ１１０，２１０，３１０、第２のサーバ１５０、または端末装置１８０が備える各部として機能させる。なお、補助記憶装置９１４が備える、プログラム等の情報を記録する記録媒体は、コンピュータ読み取り可能な「一時的でない有形の媒体」であればよく、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブル論理回路などであってもよい。また、記録媒体に記録されているプログラムを、主記憶装置９１３上に展開することなく実行可能なコンピュータであれば、主記憶装置９１３を省略してもよい。なお、上記各装置（演算装置９１２、主記憶装置９１３、補助記憶装置９１４、入出力インターフェース９１５、通信インターフェース９１６、入力装置９２０、および出力装置９３０）は、それぞれ１つであってもよいし、複数であってもよい。

また、上記プログラムは、コンピュータ９１０の外部から取得してもよく、この場合、任意の伝送媒体（通信ネットワークや放送波等）を介して取得してもよい。そして、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。

〔まとめ〕
本発明の態様１に係る情報処理装置（第１のサーバ３１０）は、通信部（１１５）と、制御部（３２０）とを備えた情報処理装置（第１のサーバ３１０）であって、上記制御部（３２０）は、ユーザの発話に係る入力発話情報を、上記通信部（１１５）を介して取得し、上記ユーザとの対話を行うための第１の応答か、上記ユーザに再度の発話を促すための第２の応答のいずれかの応答を、取得した上記入力発話情報を参照して選択し、選択した上記応答に係る出力発話情報を、上記通信部（１１５）を介して提示するように構成されており、上記ユーザとの上記対話を開始する前に上記第２の応答を選択する場合に、上記入力発話情報を参照して判定された上記ユーザの属性に応じて、上記第２の応答の内容を選択する。

上記の構成によれば、ユーザとの対話を行うための第１の応答を選択できなかった場合に、属性判定処理の判定結果に応じて、ユーザに再度の発話を促すための第２の応答を選択するため、音声認識に失敗した場合でも、ユーザが使用した言語に応じた聞き直し応答等の適切なメッセージを出力することができる。

本発明の態様２に係る情報処理装置（第１のサーバ３１０）は、上記態様１において、上記属性は、上記ユーザの使用言語及び出身地の少なくとも何れかである。

上記の構成によれば、音声認識に失敗した場合でも、ユーザの使用言語及び出身地に応じた聞き直し応答のメッセージを出力することができる。

本発明の態様３に係る情報処理装置（第１のサーバ３１０）は、上記態様２において、上記属性は、上記ユーザの年齢及び性別の少なくとも何れかである。

上記の構成によれば、音声認識に失敗した場合でも、ユーザの年齢及び性別の少なくとも何れかに応じた聞き直し応答のメッセージを出力することができる。

本発明の態様４に係る情報処理装置（第１のサーバ３１０）は、ユーザの発話に係る入力発話情報を取得する発話情報取得部（通信部１１５）と、上記ユーザとの対話を行うための第１の応答か、上記ユーザに再度の発話を促すための第２の応答のいずれかの応答を、取得した上記入力発話情報を参照して選択する応答選択部（１２２，１２３，１２４）と、選択した上記応答に係る出力発話情報を提示する発話情報提示部（通信部１１５）とを備え、上記応答選択部（１２２，１２３，１２４）は、上記ユーザとの上記対話を開始する前に上記第２の応答を選択する場合に、上記入力発話情報を参照して判定された上記ユーザの属性に応じて、上記第２の応答の内容を選択する。

本発明の態様５に係る端末装置（１８０）は、音声入力部（１８２）と、音声出力部（１８３）と、制御部とを備えた端末装置であって、上記制御部は、上記音声入力部の入力を参照してユーザの発話に係る入力発話情報を取得し、上記ユーザとの対話を行うための第１の応答か、上記ユーザに再度の発話を促すための第２の応答のいずれかの応答を、取得した上記入力発話情報を参照して選択し、選択した上記応答に係る出力発話情報を参照して上記音声出力部に音声を出力させるように構成されており、上記ユーザとの上記対話を開始する前に上記第２の応答を選択する場合に、上記入力発話情報を参照して判定された上記ユーザの属性に応じて、上記第２の応答の内容を選択する。

上記の構成によれば、ユーザとの対話を行うための第１の応答を選択できなかった場合に、ユーザの属性応じて、ユーザに再度の発話を促すための第２の応答を選択する。これにより、音声認識に失敗した場合でも、ユーザが使用した言語に応じた聞き直し応答等の適切なメッセージを速やかに出力することができる。

本発明の態様６に係る情報処理システム（３００）は、通信部（１１５）と制御部（３２０）とを備えた情報処理装置（第１のサーバ３１０）と、音声入力部（１８２）と音声出力部（１８３）と端末通信部（１８１）と端末制御部とを備えた端末装置（１８０）と、を含む情報処理システム（３００）であって、上記端末制御部（１８５）は、上記音声入力部（１８２）の入力を参照してユーザの発話に係る入力発話情報を取得し、上記入力発話情報を、上記端末通信部（１８１）を介して送信し、上記制御部（３２０）は、上記入力発話情報を、上記通信部（１５１）を介して取得し、上記ユーザとの対話を行うための第１の応答か、上記ユーザに再度の発話を促すための第２の応答のいずれかの応答を、取得した上記入力発話情報を参照して選択し、選択した上記応答に係る出力発話情報を、上記通信部（１５１）を介して送信し、上記端末制御部（１８５）は、上記出力発話情報を、上記端末通信部（１８１）を介して取得し、取得した上記出力発話情報を参照して、上記音声出力部（１８３）に音声を出力させるように構成されており、上記制御部（３２０）は、上記ユーザとの上記対話を開始する前に上記第２の応答を選択する場合に、上記入力発話情報を参照して判定された上記ユーザの属性に応じて、上記第２の応答の内容を選択する。

本発明の各態様に係る第１のサーバ１１０，２１０，３１０、第２のサーバ１５０、または端末装置１８０は、コンピュータによって実現してもよく、この場合には、コンピュータを上記第１のサーバ１１０，２１０，３１０、第２のサーバ１５０、または端末装置１８０が備える各部（ソフトウェア要素）として動作させることにより上記第１のサーバ１１０，２１０，３１０、第２のサーバ１５０、または端末装置１８０をコンピュータにて実現させる制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。

本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。

１サーバ第
１００、２００、３００情報処理システム
１１０、２１０、３１０第１のサーバ（情報処理装置）
１５０第２のサーバ
１２０、２２０、３２０制御部
１２１属性判定部
１２２第１言語応答選択部
１２３第２言語応答選択部
１２４第３言語応答選択部
１６４ＴＴＳ
１８０端末装置
１８２音声入力部
１８３音声出力部
２２２、３２３応答選択部
１６１第１言語ＡＳＲ
１６２第２言語ＡＳＲ
１６３第３言語ＡＳＲ

Claims

通信部と、制御部とを備えた情報処理装置であって、
上記制御部は、
ユーザの発話に係る入力発話情報を、上記通信部を介して取得し、
上記ユーザとの対話を行うための第１の応答か、上記ユーザに再度の発話を促すための第２の応答のいずれかの応答を、取得した上記入力発話情報を参照して選択し、
選択した上記応答に係る出力発話情報を、上記通信部を介して提示する
ように構成されており、
上記ユーザとの上記対話を開始する前に上記第２の応答を選択する場合に、上記入力発話情報を参照して判定された上記ユーザの属性に応じて、上記第２の応答の内容を選択する
ことを特徴とする情報処理装置。
上記属性は、
上記ユーザの使用言語及び出身地の少なくとも何れかである
ことを特徴とする請求項１に記載の情報処理装置。
上記属性は、
上記ユーザの年齢及び性別の少なくとも何れかである
ことを特徴とする請求項１に記載の情報処理装置。
ユーザの発話に係る入力発話情報を取得する発話情報取得部と、
上記ユーザとの対話を行うための第１の応答か、上記ユーザに再度の発話を促すための第２の応答のいずれかの応答を、取得した上記入力発話情報を参照して選択する応答選択部と、
選択した上記応答に係る出力発話情報を提示する発話情報提示部とを備え、
上記応答選択部は、上記ユーザとの上記対話を開始する前に上記第２の応答を選択する場合に、上記入力発話情報を参照して判定された上記ユーザの属性に応じて、上記第２の応答の内容を選択する
ことを特徴とする情報処理装置。
音声入力部と、音声出力部と、制御部とを備えた端末装置であって、
上記制御部は、
上記音声入力部の入力を参照してユーザの発話に係る入力発話情報を取得し、
上記ユーザとの対話を行うための第１の応答か、上記ユーザに再度の発話を促すための第２の応答のいずれかの応答を、取得した上記入力発話情報を参照して選択し、
選択した上記応答に係る出力発話情報を参照して上記音声出力部に音声を出力させる
ように構成されており、
上記ユーザとの上記対話を開始する前に上記第２の応答を選択する場合に、上記入力発話情報を参照して判定された上記ユーザの属性に応じて、上記第２の応答の内容を選択する
ことを特徴とする端末装置。
通信部と制御部とを備えた情報処理装置と、
音声入力部と音声出力部と端末通信部と端末制御部とを備えた端末装置と、
を含む情報処理システムであって、
上記端末制御部は、
上記音声入力部の入力を参照してユーザの発話に係る入力発話情報を取得し、
上記入力発話情報を、上記端末通信部を介して送信し、
上記制御部は、
上記入力発話情報を、上記通信部を介して取得し、
上記ユーザとの対話を行うための第１の応答か、上記ユーザに再度の発話を促すための第２の応答のいずれかの応答を、取得した上記入力発話情報を参照して選択し、
選択した上記応答に係る出力発話情報を、上記通信部を介して送信し、
上記端末制御部は、
上記出力発話情報を、上記端末通信部を介して取得し、
取得した上記出力発話情報を参照して、上記音声出力部に音声を出力させる
ように構成されており、
上記制御部は、
上記ユーザとの上記対話を開始する前に上記第２の応答を選択する場合に、上記入力発話情報を参照して判定された上記ユーザの属性に応じて、上記第２の応答の内容を選択
することを特徴とする情報処理システム。
ユーザの発話、及び当該ユーザとの会話のシナリオに応じて第１の応答群に含まれる応答内容を選択する応答選択ステップと、
上記ユーザとの会話のシナリオに依らずに、上記ユーザの属性を判定する属性判定ステップと、
上記応答選択ステップにおいて応答内容を選択できなかった場合に、上記属性判定ステップの判定結果に応じて、上記第１の応答群とは異なる聞き直し応答群に含まれる応答内容を選択する聞き直し応答選択ステップと、を含む
ことを特徴とする情報処理方法。
請求項１に記載の情報処理装置としてコンピュータを機能させるための情報処理プログラムであって、上記制御部としてコンピュータを機能させるための情報処理プログラム。