JP6654691B2

JP6654691B2 - 情報処理装置

Info

Publication number: JP6654691B2
Application number: JP2018510188A
Authority: JP
Inventors: 真一本多; めぐみ菊池; 隆史佐竹
Original assignee: Sony Interactive Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2016-04-07
Filing date: 2016-04-07
Publication date: 2020-02-26
Anticipated expiration: 2036-04-07
Also published as: WO2017175351A1; JPWO2017175351A1; US10839800B2; US20190096401A1

Description

本発明は、ユーザーから音声による入力を受け付ける情報処理装置、情報処理方法、プログラム、及び情報記憶媒体に関する。

ユーザーが発話する音声を受け付けて、その音声の内容に応じて情報処理を実行する情報処理装置が知られている。このような技術によれば、ユーザーは手を使ってキーボードやタッチパネルで文字を入力する代わりに、声で各種の指示や情報を入力することができる。また、ユーザーの発話から、感情や態度など発話した内容以外のものを読み取る技術も研究されている（例えば非特許文献１参照）。

Kikuo Maekawa and Hiroki Mori、"VOICE-QUALITY ANALYSIS OF JAPANESE FILLED PAUSES: A PRELIMINARY REPORT"、［online］、[平成27年11月16日検索]、インターネット<URL:http://www2.ninjal.ac.jp/kikuo/Maekawa-DISS2015.pdf>

上記従来例の技術においては、ユーザーと情報処理装置との間で円滑なコミュニケーションを実現するうえで様々な課題がある。例えば、ユーザーの音声を受け付ける際には、精度よくユーザーの発話内容を認識する必要がある。しかしながら、ユーザーに完全に自由な発話を許すこととすると、ユーザーの発話内容を正確に認識することが難しくなる。そこで、ユーザーから受け付ける情報の種類が限られている場合には、ユーザーに選択肢を提示することによって、ユーザーが発話する内容をこの選択肢に限定することが考えられる。ところが、ユーザーの発話内容を選択肢だけに制限すると、ユーザーの発話が機械的になり、ユーザーの感情や態度が発話内容に表れにくくなる。そのため、ユーザーに自然な発話をさせたい場合には、ユーザーの発話内容を選択肢だけに制限することは望ましくない。

また、ユーザーの発話に先立って情報処理装置がユーザーに対する発言を音声で再生する場合、その発言の再生が終了するまでは、ユーザーが発話を開始することができない。そのため、情報処理装置がユーザーにとって興味のない発言などを行うと、円滑なコミュニケーションが損なわれることもあり得る。

本発明は上記実情を考慮してなされたものであって、その目的の一つは、ユーザーとの間で音声による円滑なコミュニケーションを実現することのできる情報処理装置、情報処理方法、プログラム、及び情報記憶媒体を提供することにある。

本発明に係る情報処理装置は、複数の選択肢をユーザーに提示する選択肢提示部と、前記複数の選択肢のいずれかを選択する前記ユーザーの発話内容を認識する音声認識部と、前記認識されるユーザーの発話内容に含まれる語句が、予め用意された前記複数の選択肢のそれぞれに対応する辞書に含まれる語句と対応するか否かに基づいて、前記ユーザーが選択した選択肢を特定する選択結果特定部と、を含むことを特徴とする。

本発明に係る別の情報処理装置は、ユーザーに提示すべき発言を音声で再生する再生部と、前記ユーザーの発話内容を認識する音声認識部と、を含み、前記再生部は、前記発言の再生中に前記音声認識部が前記ユーザーの発話を検出した場合に、前記発言の再生を中止することを特徴とする。

本発明に係る情報処理方法は、複数の選択肢をユーザーに提示するステップと、前記複数の選択肢のいずれかを選択する前記ユーザーの発話内容を認識するステップと、前記認識されるユーザーの発話内容に含まれる語句が、予め用意された前記複数の選択肢のそれぞれに対応する辞書に含まれる語句と対応するか否かに基づいて、前記ユーザーが選択した選択肢を特定するステップと、を含むことを特徴とする。

本発明に係るプログラムは、複数の選択肢をユーザーに提示する選択肢提示部、前記複数の選択肢のいずれかを選択する前記ユーザーの発話内容を認識する音声認識部、及び、前記認識されるユーザーの発話内容に含まれる語句が、予め用意された前記複数の選択肢のそれぞれに対応する辞書に含まれる語句と対応するか否かに基づいて、前記ユーザーが選択した選択肢を特定する選択結果特定部、としてコンピュータを機能させるためのプログラムである。このプログラムは、コンピュータ読み取り可能で非一時的な情報記憶媒体に格納されて提供されてよい。

本発明の実施の形態に係る情報処理装置の構成を示す構成ブロック図である。本発明の実施の形態に係る情報処理装置の機能を示す機能ブロック図である。選択肢を表示する画面の一例を示す図である。ユーザーが行う選択発話の一例を示す図である。本発明の実施の形態に係る情報処理装置が実行する処理の流れの一例を示すフロー図である。

以下、本発明の実施形態について、図面に基づき詳細に説明する。

図１は、本発明の一実施形態に係る情報処理装置１の構成を示す構成ブロック図である。情報処理装置１は、例えば家庭用ゲーム機や携帯型ゲーム機、パーソナルコンピュータ、スマートホン等であって、図１に示すように、制御部１１と、記憶部１２と、インタフェース部１３と、を含んで構成されている。また、情報処理装置１は、表示装置１４、マイクロホン１５、スピーカー１６、及びカメラ１７と接続されている。

制御部１１はＣＰＵ等を含んで構成され、記憶部１２に記憶されているプログラムを実行して各種の情報処理を実行する。本実施形態において制御部１１が実行する処理の具体例については、後述する。記憶部１２は、ＲＡＭ等のメモリデバイスを含み、制御部１１が実行するプログラム、及び当該プログラムによって処理されるデータを格納する。インタフェース部１３は、情報処理装置１が表示装置１４、マイクロホン１５、スピーカー１６、及びカメラ１７との間で各種の情報を授受するためのインタフェースである。

表示装置１４は、ヘッドマウントディスプレイや家庭用テレビ受像機、液晶ディスプレイ等であって、情報処理装置１が出力する映像信号に応じた画像を画面上に表示する。特に表示装置１４がヘッドマウントディスプレイのようにユーザーの視界を覆うタイプのデバイスである場合、ユーザーは自分の手元が見えなくなるため、コントローラ等の操作入力デバイスを手で操作しにくくなる。そこで、後述するように情報処理装置１がユーザーの声による情報の入力を受け付けることで、ユーザーは自分の手元が確認できない状況でも容易に情報の入力を行うことができる。マイクロホン１５は、情報処理装置１のユーザーが発する声を集音して得られる音声信号を情報処理装置１に対して出力する。スピーカー１６は、情報処理装置１が出力する音声信号に従って音声を鳴動させる。カメラ１７は、ユーザーの様子を示す映像を撮像し、撮像された映像を情報処理装置１に入力する。なお、表示装置１４、マイクロホン１５、及びスピーカー１６は、いずれも情報処理装置１の筐体内に内蔵されてもよいし、情報処理装置１と有線又は無線により接続される別個の装置であってもよい。

また、情報処理装置１は、ユーザーの頭部の動きを検出するために、３軸加速度センサーや地磁気センサーなどの姿勢検出センサーを備えたデバイスと接続されてもよい。このようなデバイスをユーザーが装着することで、ユーザーの頭部の動作を検出できる。また、情報処理装置１は、ユーザーの操作入力を受け付ける操作入力デバイス（コントローラ等）と接続されてもよい。

以下、情報処理装置１が実現する機能について、図２を用いて説明する。図２に示すように、情報処理装置１は、機能的に、エージェント処理部２１、音声信号取得部２２、音声認識部２３、及び選択結果特定部２４を含んで構成されている。これらの機能は、制御部１１が記憶部１２に記憶されたプログラムに従って動作することにより実現される。このプログラムは、インターネット等の通信ネットワークを介して情報処理装置１に提供されてもよいし、光ディスク等のコンピュータ読み取り可能な情報記憶媒体に格納されて提供されてもよい。

エージェント処理部２１は、ユーザーとコミュニケーションを行う仮想的なエージェントを実現し、エージェントによるユーザーとの会話処理を実行する。具体的にエージェント処理部２１は、会話の一部として、ユーザーに対して選択肢の提示と、その選択肢に対するユーザーの選択の受け入れを行う。本実施形態においてエージェント処理部２１は、表示装置１４の画面に複数の選択肢を表示することによって、ユーザーに選択肢を提示する。

図３は、選択肢を表示する画面の一例を示している。この図の例では、「どこに行く？」というエージェントからユーザーに向けた質問と、その質問に対する回答の候補として、「プール」、「日昇公園」、「梅ランド」、「クール猫パーク」の４個の選択肢が提示されている。さらにこの例では、日本語の各選択肢の語句に対して、英語に翻訳した語句と、選択肢を識別するラベル（ここでは数字）が並んで表示されている。また、この図の例では、４個の選択肢が上から順に並んでいるのではなく、画面中央から見て上下左右の４方向に配置されている。なお、エージェント処理部２１は、選択肢を画面に表示させる代わりに、複数の選択肢を順に音声としてスピーカー１６から再生してもよい。また、選択肢は画面に表示するが、質問だけは音声として再生してもよい。

図３に例示されるような選択肢が提示されると、ユーザーはその中から自分が選択する内容に関する発話を行う。以下では、この選択肢の提示を受けてユーザーが行う発話を、選択発話という。また、ユーザーが選択する選択肢のことを選択結果という。後述するように、本実施形態では、ユーザーによる選択発話の内容は必ずしも選択肢の語句そのものと一致しておらずともよい。選択発話の内容は、音声信号取得部２２、音声認識部２３、及び選択結果特定部２４によって処理され、これにより選択結果特定部２４がユーザーの選択結果を特定する。エージェント処理部２１は、特定された選択結果の情報を用いて、続くエージェントの発言内容を決定する。そして、決定したエージェントの発言内容を話す音声信号を生成し、スピーカー１６に対して出力する。これにより、エージェントの発言がスピーカー１６から音声として再生される。エージェント処理部２１は、エージェントの発言を音声として再生する代わりに、表示装置１４の画面に表示させてもよい。

エージェント処理部２１は、ユーザーの選択結果だけでなく、選択発話の特徴を示す各種の特徴量を算出し、その算出結果を用いて続くエージェントの発言内容を決定してもよい。また、カメラ１７によって撮像されたユーザーの表情や動作などに関する情報を用いてエージェントの発言内容を決定してもよい。ユーザーが選択肢の中から選択を行う場合にも、その選択を積極的に行ったか、または消極的に行ったかなど、様々な感情が込められていると考えられる。エージェント処理部２１は、選択発話自体や、選択発話を行った際のユーザーの様子を解析することによって、ユーザーの感情や思考を反映する各種のパラ言語情報、非言語情報などに関する特徴量を求めることができる。このような特徴量を用いて以降のエージェントの振る舞いを決定することによって、単に選択肢の提示と選択結果の受け入れだけを行う場合と比較して、エージェント処理部２１は人間同士の会話に近い自然なコミュニケーションを実現することができる。

また、エージェント処理部２１は、エージェントの発言を音声として再生するだけでなく、エージェントを表すキャラクターなどの画像を表示装置１４の画面に表示してもよい。さらに、ユーザーの発話内容やエージェントの発言内容などに応じてこのキャラクターが動作する様子を示す映像を表示してもよい。

音声信号取得部２２は、マイクロホン１５によって集音された音声信号を取得し、音声認識部２３に対して出力する。本実施形態において音声信号取得部２２は、エージェントの質問に対して応答するユーザーの声を含んだ音声信号を取得することになる。

音声認識部２３は、音声信号取得部２２が取得した音声信号を解析することによって、ユーザーの発話内容を特定する。このような発話内容の特定は、隠れマルコフモデルを用いた統計的手法や動的時間伸縮法など、各種公知の音声認識技術などを用いて実現できる。特定されたユーザーの発話内容は、選択結果特定部２４による選択結果の特定に用いられる。

なお、音声認識部２３は、ユーザーが発話を終えてから音声認識処理を実行するのではなく、ユーザーが発話を行っている間、随時音声認識処理を実行してもよい。この場合、ユーザーが発話を続けている間、音声認識部２３は、音声信号取得部２２によって順次取得される所定時間分の音声信号に対して音声認識処理を実行し、その所定時間分の音声信号が何の音素に対応するかを特定する。このような処理を時間の経過に伴って繰り返し実行することによって、リアルタイムでユーザーの発話内容を特定することができる。

選択結果特定部２４は、音声認識部２３による音声認識の結果特定される選択発話の内容に応じて、ユーザーの選択結果を特定する。ここで、選択肢として提示された語句そのもの（例えば「プール」など）をユーザーが発話し、かつ、その語句が音声認識部２３によって正しく認識された場合、選択結果特定部２４は、ユーザーが発話した選択肢をそのまま選択結果として特定すればよい。しかしながら、ユーザーは選択肢の語句そのものを発話するとは限らない。また、ユーザーが選択肢の語句そのものを発話した場合であっても、周囲の雑音やユーザー本人の滑舌、音声認識処理の精度などの問題から、ユーザーの発話内容を常に音声認識部２３が正確に認識できるとは限らない。そこで選択結果特定部２４は、音声認識部２３による音声認識結果に基づいて、各種の判定処理を実行して、ユーザーの選択結果を特定する。

以下、選択結果特定部２４が選択結果を特定するために実行する処理の具体例について、説明する。まず、辞書を利用して選択結果を特定する具体例について説明する。

辞書を使用する第１の例として、複数の選択肢のそれぞれに対応する関連語辞書を用いる例について説明する。この例では、選択肢の語句のそれぞれに対して、選択肢の語句そのものと、これに関連する語句とを含んだ関連語辞書を予め用意しておく。例えば選択肢の語句が固有名詞の場合、関連語辞書にはその略称や愛称などが含まれてよい。選択結果特定部２４は、音声認識部２３によって認識されたユーザーの発話内容が関連語辞書に登録されたいずれかの語句と一致した場合に、その関連語辞書に対応する選択肢が選択されたと判定する。同じ語句についての様々な表現を予め関連語辞書に登録しておくことで、表示された選択肢をユーザーが別の表現で発話した場合にも、ユーザーの選択結果を特定できる。

また、関連語辞書は、選択肢の語句やその関連語句を様々な言語に翻訳した翻訳語を含んでもよい。図３の例では日本語と英語の双方で選択肢の語句が表示されているが、それ以外の外国語についても、選択肢の語句の翻訳表現を関連語辞書に登録しておく。こうすれば、ユーザーが外国語で選択肢の内容を発話した場合であっても、選択結果を特定できる。なお、関連語辞書には、外国語の翻訳表現だけに限らず、選択肢の語句を各地方の方言で表現した語句が含まれてもよい。また、語句の文字自体は同じであってもユーザーによっては発話時のイントネーションが異なり、このようなイントネーションの違いにより音声認識処理で違う語句と認識される可能性がある。そこで、関連語辞書は同じ語句を各種のイントネーションで発話した表現を含んでもよい。また、通常の英語表現のほかに、日本人訛りの英語（いわゆるカタカナ英語）などを含んでもよい。

次に辞書を使用する第２の例として、選択肢に付加されるラベルを示すラベル辞書を用いる例について説明する。この例では、エージェント処理部２１は、各選択肢を表示する際に、その選択肢を識別するためのラベルを付加して表示する。図３の例では、各選択肢に数字のラベルが付加されている。この場合にユーザーは、選択肢の語句の代わりに、選択肢に付加されたラベルを示す語句を発話してもよい。例えば図３の例でプールを選択したい場合、ユーザーは「いち」と発話してもよい。選択肢に付加されるラベルは、数字に限らず、アルファベットやギリシア文字（「α」、「β」…）、フォネティックコード（「Ａｌｆａ」、「Ｂｒａｖｏ」…）、五十音（「あ」「い」「う」「え」…）、いろは仮名（「い」「ろ」「は」「に」…）など、各種のものあってよい。また、ラベルは「○」「△」「□」などの記号であってもよい。この場合、ユーザーは「まる」「さんかく」などと発話することによって、選択肢を選択できる。

この第２の例では、ラベルに対応する語句を登録したラベル辞書が予め用意され、エージェント処理部２１が各選択肢にラベルを付加して提示する際に、各選択肢に付加されたラベルを示す語句を含んだラベル辞書が対応づけられる。選択結果特定部２４は、ユーザーの発話内容がラベル辞書に含まれる語句に一致する場合、そのラベルが付加された選択肢を選択結果として特定する。関連語辞書の例と同様に、ラベル辞書には、「いち」や「まる」などのラベルを直接表す語句だけでなく、その語句を各国語に翻訳した語句や、イントネーション違いの語句などが含まれてよい。

また、ラベル辞書には、選択肢に付加されるラベルを示す語句に限らず、選択肢の表示態様を示す語句が含まれてもよい。このような表示態様を示す語句の例としては、選択肢の画面内における表示位置を示す語句が挙げられる。具体的に、図３の例では複数の選択肢が上下左右に並んで配置されている。この場合、ラベル辞書には、「うえ」「した」「みぎ」「ひだり」といった位置を表す語句が含まれてよい。こうすれば、ユーザーは、例えば「うえ」と発話することで上方向に表示された「プール」を選択できる。また、表示態様を示す語句は、表示順序を示す数字や序数などの語句を含んでもよい。こうすれば、選択肢に数字のラベルが付加されていない場合であっても、ユーザーは「いちばん」「ひとつめ」などの数字や序数を示す語句を発話することで、その数によって指定される選択肢を選択できる。また、各選択肢が互いに異なる文字色や背景色で表示されている場合、ラベル辞書はその文字色や背景色（表示色）の名前（例えば「あか」「あお」など）を含んでよい。これにより、ユーザーは表示色で選択肢を指定できる。

以上説明した第１の例、及び第２の例では、いずれも選択肢に対応づけられた辞書を用いてユーザーの発話内容が特定の語句に一致するか否かのマッチングを行うこととしているが、いずれの場合にも限られた語句だけを含んだ辞書を用いることになる。そのため、不特定多数の語句を含んだ辞書を用いて自然言語の音声認識処理を行う場合と比較すれば、処理負荷はそれほど高くなく、認識精度も高くなる。なお、選択結果特定部２４は、この第１の例と第２の例を組み合わせて用いてもよい。この場合、選択結果特定部２４は、関連語辞書及びラベル辞書の全てに含まれる語句をユーザーの発話内容と比較して、一致する語句を探せばよい。

以上の説明では、音声認識部２３によって認識されたユーザーの発話内容が、いずれかの辞書に含まれる語句と完全に一致することを前提とした。しかしながら、ユーザーの発話内容は、様々な理由から各辞書に含まれる語句と完全に一致しない場合がある。そこで、選択結果特定部２４は、各種の判断基準を用いることによって、完全に一致しない場合であっても、ユーザーの発話内容が辞書に含まれる語句と対応すると判断してもよい。以下、このような判断基準のいくつかの例について、説明する。なお、以下の説明では、関連語辞書やラベル辞書に含まれる語句（すなわち、選択結果特定部２４がユーザーの発話内容と比較すべき語句）を、比較対象語句という。以下に例示する判断基準によってユーザーの発話内容がいずれかの比較対象語句に対応すると判断された場合、選択結果特定部２４は、その比較対象語句に対応する選択肢をユーザーが選択したとみなす。

判断基準の第１の例として、装飾表現に関する判断基準について説明する。ユーザーは選択肢の語句やその関連語句、あるいは選択肢に付与されたラベルを示す語句等を単独で発話するとは限らず、様々な語句（装飾表現）を前後に付け加える場合がある。特にユーザーが通常の会話に近い態度で発話をする場合、ユーザーは単独の語句を発話するよりも比較対象語句を含んだセンテンスを話す可能性が高い。例えば図３の例では、１番のプールを選択しようとする場合に、「プールかな…」「イチかな。」「イチでしょ！」など、選択肢の語句やラベルを示す語句等を一部に含んだ内容を発話すると考えられる。選択結果特定部２４は、このような場合であってもユーザーの選択結果を正しく特定することが望まれる。そこで選択結果特定部２４は、ユーザーの発話内容に含まれる一部の音素列が比較対象語句と一致する場合、一致する比較対象語句に対応する選択肢を選択結果として特定する。このようにユーザーの発話全体のうちの一部の語句が比較対象語句とマッチするかを選択結果特定部２４が判断することで、ユーザーは自然な会話に近い態度で選択肢を選ぶ発話を行うことができる。

次に第２の例として、表現の揺らぎに関する判断基準について説明する。ユーザーの発話内容は、音声認識処理における誤認識やユーザーの発話の癖などによって、比較対象語句に近いが完全には一致しない語句として認識される場合がある。このような場合に対応するために、選択結果特定部２４は、比較対象語句とユーザーの発話内容との間で表現の揺らぎとして予め定められたパターンのずれが生じている場合に、両者が一致すると判断する。

具体例として、ユーザーの滑舌が悪い場合、特に子音が誤認識される場合がある。そこで選択結果特定部２４は、ユーザーの発話内容と比較対象語句とで母音が一致した場合に、子音が一致せずとも両者が対応すると判断してもよい。一例として、「イキ」「イシ」などの語句がユーザーの発話内容に含まれる場合に、選択結果特定部２４はユーザーが日本語の「イチ」と発話したと推定し、１番目の選択肢を選択結果として特定してもよい。また、英語の「ｐｅａｃｈ」が比較対象語句に含まれており、ユーザーの発話内容に対する音声認識結果に、「ｂｅａｃｈ」のように一部の子音だけが異なる別の語句が含まれる場合、「ｐｅａｃｈ」を選択結果として特定してもよい。

また、選択結果特定部２４は、ユーザーの発話内容から長音を省略した語句が比較対象語句に一致する場合に、両者が対応すると判断してもよい。例えばユーザーが日本語で「イーチ」と発話した場合に、１番目の選択肢を選択結果として特定する。同様に、英語など他の言語においても、「ａｌｐｈａａａ」などのように同じ母音が連続する語句をユーザーが発話した場合に、母音を短縮した比較対象語句が選択されたと判断してもよい。また、訛りや方言などによって変化する音がある場合、選択結果特定部２４は、そのような音の変化した語句を比較対象語句に対応すると判断する判断基準を用いてもよい。例えば、「シガグ」というユーザーの発話を日本語の「シカク」を意味するものと判断してもよい。また、イギリス英語とアメリカ英語で同じ単語の発音の仕方に違いがある場合に、このような音の変化した語句を比較対象語句に対応すると判断してもよい。具体的には、ｖｉｔａｍｉｎにおける最初のｉの発音や、ｈｅｒｂの最初のｈの発音などのように、イギリス英語とアメリカ英語で発音の仕方に違いがあることが知られている。このような判断基準を用いて比較対象語句とユーザーの発話内容とを比較することで、方言などにより表現が変化した語句を全て辞書に含めなくとも、このような語句が比較対象語句と対応していると判断することができる。

次に第３の例として、部分一致の判断基準について説明する。この例では、選択結果特定部２４は、比較対象語句とユーザーの発話内容とが所定の基準の範囲内で部分的に一致する場合に、両者が対応すると判断する。例えば人名は、その前半部分が元の名前と一致するが後半部分が一致しない愛称で呼ばれることがある。具体的には、「マルサス」という名前であれば「マルちゃん」「マルくん」「マルさん」などの呼ばれ方をする可能性があり得る。また、「クリスティーナ」は、「クリス」、「クリスィー」などと呼ばれる可能性がある。そこで、例えば選択結果特定部２４は、先頭の所定数の音素、または先頭の所定割合の音素が比較対象語句と一致する語句がユーザーの発話内容に含まれる場合に、ユーザーの発話内容と比較対象語句とが対応すると判断する。こうすれば、ユーザーが選択肢の語句の一部を変化させた表現を用いた場合に、このような変化した表現を網羅的に辞書に登録しておかなくとも、選択結果を正しく特定できる。なお、人名に限らず、選択肢の語句が「ｃｕｔｅ」でユーザーが「ｃｕｔｙ」と発話した場合など、語尾が活用する語句などの場合にも、同様の判断基準でユーザーの選択結果を特定することができる。

以上説明した判断基準は、組み合わせて用いられてよい。これにより、ユーザーが多様な表現で選択肢を選ぶ発話を行ったとしても、選択結果特定部２４はユーザーの選択結果を特定することができる。

前述したように、エージェント処理部２１は、選択結果特定部２４によって特定された選択結果に応じて、続くエージェントの発言を決定する。さらにエージェント処理部２１は、ユーザーの選択結果だけでなく、選択発話から読み取られるユーザーの感情や態度に応じて、その後の発言を変化させてもよい。発話内容からユーザーの感情や態度を判断する手法としては、公知のものが利用可能である。

具体的に、エージェント処理部２１は、選択発話を記録した音声信号から算出されるパラ言語情報の特徴量を用いてユーザーの感情を推定する。パラ言語情報は、話速、音量（声圧）、声の抑揚、イントネーション（ユーザーが強調する語句など）、言葉遣い（丁寧口調かくだけた口調かなど）、発言量などを含んでよい。また、マイクロホン１５が取得する音声信号に限らず、カメラ１７によって撮像されるユーザーの映像から得られる各種の情報を利用してもよい。映像から得られる情報としては、ユーザーの表情、視線、瞬き、また頷きや手振りなどの動作（ジェスチャー）が挙げられる。

また、エージェント処理部２１は、選択肢が提示されてからユーザーが選択発話を開始するまでの経過時間（以下、思考時間という）を特徴量の一つとして算出し、感情の評価処理に用いてもよい。思考時間が短いほど、ユーザーは迷いなく選択肢を選んでいると推定され、思考時間が長い場合、ユーザーは選択の際に迷いがあったと考えられる。このような情報を参照することで、ユーザーの感情を読み取ることができる。思考時間を用いてユーザーの感情を評価する場合、ユーザーが選んだ選択結果が選択肢として提示された際の提示順序に応じて、評価基準を変化させてもよい。複数の選択肢が画面上に表示される場合、ユーザーは上から順に選択肢を見て、どの選択肢を選ぶか決定すると考えられる。つまり、後に提示される選択肢に目を通すまでには時間がかかると想定される。そのためエージェント処理部２１は、後に提示される選択肢が選択結果として特定された場合、先に提示される選択肢が選択結果として特定された場合と比較して、思考時間が実際より短いものとして感情の評価を行う。こうすれば、ユーザーが選択肢を視認してから選択発話を行うまでの時間に応じて評価を行うことができる。

また、前述したようにユーザーは選択発話において選択肢の語句そのものを発話する代わりに、ラベルを示す語句を発話する場合がある。このような場合にも、その語句が選択肢の語句を指しているものとして、感情の評価を行えばよい。例えばユーザーが「Ａだよ」という発話を行った場合、Ａというラベルが「かわいい」という選択肢に付加されていたのであれば、エージェント処理部２１はユーザーが「かわいい」と発話したときと同様の評価基準で感情の評価を行う。その結果、ユーザーが本心からかわいいと思っているか、あるいは皮肉っぽく発言したのか、などを評価することができる。一方、Ａというラベルが「リンゴ」という選択肢に付加されていた場合には、ユーザーがリンゴについて発言したという前提の下に感情の評価を行う。この場合には、その発言が皮肉かどうか、などの評価を行う必要はない。

エージェント処理部２１は、以上説明した感情の評価処理によって得られる評価結果を、発言内容の決定に用いてもよいし、その他の出力内容に反映させてもよい。例えばエージェント処理部２１がゲームの処理を実行する場合、評価結果に応じてゲームの進行を変化させてもよい。この例では、ユーザーが選択発話を強い感情で行ったと評価される場合、ゲームで有利な効果を発生させてもよい。また、エージェント処理部２１は、評価結果そのものをユーザーに提示してもよい。また、感情の評価結果によっては、エージェント処理部２１は、選択結果特定部２４によって特定された選択結果を変更してもよい。一例として、ユーザーがある選択結果を選んだ際に、選択発話に対して感情の評価処理を実行した結果、その発言に消極的であったと評価された場合、エージェント処理部２１は別の選択肢が選択結果として特定されたものとして処理を続行してもよい。

以上説明したように、情報処理装置１は、感情の評価結果を利用することで、複数の選択肢のうちの一つをユーザーに選択させる場合であっても、選択肢の数以上にその後の処理内容を様々に変化させることができる。また、感情の評価結果をフィードバックした結果をユーザーに提示することで、情報処理装置１はユーザーが自然に感情を込めた発話を行うように誘導することができる。これにより、選択肢をユーザーに選ばせるにもかかわらず、人間同士の会話に近い自然なコミュニケーションを行っているようにユーザーに感じさせることができる。

以下、エージェント処理部２１による会話のタイミング制御に関して説明する。通常、エージェント処理部２１は、音声認識部２３によってユーザーの発話の終了が検出されてから、その発話内容を解析した結果に基づいてエージェントの次の発言の内容を決定し、決定した発言を出力する。しかしながら、周囲の騒音などが原因でユーザーの発話が終了したことを検出できない場合がある。そこで音声認識部２３は、選択肢が提示されてから所定時間が経過しても発話の終了が検出できない場合に、無条件で音声認識処理を終了し、それまで取得された音声信号に対する認識処理結果を用いて次の処理を実行してもよい。一般的に、自由会話の場合と異なり、選択肢の提示に対するユーザーの回答にはそれほど時間がかからないと考えられることから、所定時間で音声認識処理を終了しても、その中にユーザーの選択内容が含まれる可能性は高いと想定される。

また、前述したようにユーザーの発話中にリアルタイムで音声認識処理を実行する場合、選択結果特定部２４もリアルタイムで音声認識処理の結果を用いて選択発話内から比較対象語句と対応する語句の検出を行ってもよい。その結果、対応する語句が検出されれば、その結果に基づいて選択結果特定部２４は選択結果を特定できるので、その時点で音声認識部２３による音声認識処理を中断してもよい。こうすれば、ユーザーが発話を終了した後、間を置かずに適切なタイミングでエージェントの発言を再生させることができ、音声認識処理による会話の遅延を回避できる。さらに、選択結果の特定ができた後にユーザーの発話の終了が検出できない状態が所定時間続いた場合、エージェント処理部２１は次の発言の再生を開始してもよい。選択結果の特定ができていれば、ユーザーの発話の終了が検出できない場合であっても、自然にユーザーの選択発話を受けた次の会話を提示することができる。

具体的なタイミング制御について、図４を例として説明する。図４は、ユーザーが行った選択発話の一例を示している。この図の例では、ユーザーは選択肢が提示されたタイミング（時刻ｔ０）から少し間を空けて選択発話を始め（時刻ｔ１）、さらに選択発話中においても冒頭にフィラーの発声（すなわち、言語的に意味をなさない発声）をしてから（時刻ｔ２）、選択した選択肢に対応するラベルを示す語句（「イチ」）を発話している。この語句自体の発話は時刻ｔ３に終了しているが、その後もユーザーは発話を続け、時刻ｔ４に発話を終了している。このような場合において、選択結果特定部２４は、時刻ｔ３を経過した後、それまでに取得された音声信号に対する音声認識処理の結果を用いて、ユーザーが１番の選択肢を選択したことを特定できる。この特定処理が時刻ｔ４よりも前に完了すれば、エージェント処理部２１はユーザーを待たせずにユーザーの発話に対するエージェントの応答を出力することができる。この場合、音声認識部２３は、選択結果特定部２４が選択結果の特定を完了した時点で、それ以降の選択発話に対する音声認識処理を中断してもよい。また、エージェント処理部２１は、時刻ｔ３までに得られた音声信号を用いて、ユーザーの感情の評価処理を実行してもよい。

なお、エージェント処理部２１は、選択結果特定部２４が選択結果として特定した発話部分（図４の例における時刻ｔ２から時刻ｔ３まで）とその前後の部分に対して、それぞれ独立に感情の評価処理を実行してもよい。これにより、ユーザーが選択を迷っている状態、決定した選択内容を発話している状態、及び発話し終えた後の状態のそれぞれについて感情の評価を行うことができる。なお、エージェント処理部２１は、これらの状態の全てについて感情の評価処理を行うのではなく、一部の状態についてのみ感情の評価処理を実行してもよい。

また、エージェントの発言をエージェント処理部２１が音声として再生している間に、ユーザーがその発言を遮って自分の発言を始めたい場合がある。特にエージェントの発言時間が長くなると、このような場合が生じ得る。また、エージェントの発言が複数の選択肢を順に提示するものである場合、ユーザーが最初の方に提示された選択肢を選択しようとしているのであれば、ユーザーは後の選択肢を聞かずに選択発話を開始したいこともあると考えられる。そこで音声認識部２３は、エージェントの発言が再生されている間にも、ユーザーの発話を監視し、発話内容の認識処理を実行してもよい。

音声認識部２３は、特にユーザーがエージェントの発言を遮って発話をする可能性のある状態に限って、上述したような監視処理を実行してもよい。例えばエージェント処理部２１が再生しようとするエージェントの発言が所定の長さ未満であれば、音声認識部２３はエージェントの発言が完了するまでユーザーの発話は無視することとし、所定の長さ以上の場合にユーザーの発話を監視してもよい。この場合の所定の長さは、例えば再生時間を単位として決定されてもよいし、語数、モーラ数などによって決定されてもよい。

さらに音声認識部２３は、ユーザーの発話の検出処理の内容を時間とともに変化させてもよい。具体的に、エージェントが発言を開始したばかりの状態では、ユーザーがその発言を遮りたい場合は少ないと想定される。一方で、エージェントの発言がある程度続いていると、ユーザーがエージェントの発言を遮って自分の発話を開始したいという欲求は高まると考えられる。そこで、音声認識部２３は、エージェントの発言開始時を起算点として、所定の長さの発言が再生されるまではユーザーの発話の検出を行わず、所定の長さの発言が再生されたタイミング以降、ユーザーの発話を監視してもよい。また、監視自体はエージェントの発言開始時から開始するが、ユーザーがエージェントの発言を遮る発話を行ったと検出する検出基準を、所定の長さの発言がされる前後で変更してもよい。具体的に、例えばエージェント処理部２１は、エージェントが所定の長さの発言を終えるまでは、ユーザーが「やめて」などの予め定められた語句を発話したことを音声認識部２３が検出した場合に限ってエージェントの発言を中止することとし、エージェントが所定の長さを超えて発言している状態では、ユーザーが何らかの発話を行ったと判定された場合にエージェントの発言を中止してもよい。

以下、本実施形態に係る情報処理装置１が実行する処理の流れの一例について、図５のフロー図を用いて説明する。

まずエージェント処理部２１は、ユーザーに対する質問、及びその回答候補となる複数の選択肢を表示装置１４の画面に表示させてユーザーに提示する（Ｓ１）。その後、音声信号取得部２２による音声信号の取得、及び音声認識部２３による取得された音声信号に対する音声認識処理が開始される（Ｓ２）。ユーザーが選択発話を行っている間、所定時間が経過するごとに、音声認識部２３は、ユーザーの発話が終了したか否かを判定する（Ｓ３）。具体的に音声認識部２３は、ユーザーの音声が一定時間検出できなかったり、Ｓ１の選択肢の提示から所定時間以上の時間が経過したりした場合に、ユーザーの発話が終了したと判定する。

ユーザーの発話が終了していなければ、選択結果特定部２４がユーザーの選択結果を特定済みか否か判定する（Ｓ４）。特定済みであれば、Ｓ３に戻ってユーザーの発話の終了が検出されるまで処理が繰り返される。まだ特定済みでなければ、選択結果特定部２４は、それまでに得られる音声認識処理の結果を辞書に含まれる比較対象語句と対比して、選択結果の特定を試みる（Ｓ５）。選択結果が特定できれば、選択結果特定部２４はその選択結果をエージェント処理部２１に対して出力する（Ｓ６）。その後、Ｓ３に戻ってユーザーの発話が終了したか否かの判定が行われる。

Ｓ３でユーザーの発話が終了した場合、エージェント処理部２１はそれまで得られた音声信号に基づいてユーザーの感情を評価する評価処理を実行する（Ｓ７）。そして、Ｓ６で出力されるユーザーの選択結果と、Ｓ７における感情の評価処理の結果に基づいて、エージェントの次の発言内容を決定し、出力する（Ｓ８）。これにより、ユーザーの選択に応じた会話が行われる。

なお、以上の説明ではエージェント処理部２１がユーザーに選択肢を提示する場合の処理について説明したが、これに限らず、エージェント処理部２１は選択肢を提示せずにユーザーに任意の回答が可能な質問を提示してもよい。また、エージェント処理部２１は、まず任意の回答が可能な質問をユーザーに提示し、これに対するユーザーの回答の認識に失敗した場合に、その質問に対する回答候補の選択肢を提示するようにしてもよい。

以上説明した本実施形態に係る情報処理装置１によれば、選択肢を提示することでユーザーの回答内容を絞り込むことができ、誤認識の可能性を低減できる。その一方で、ユーザーが選択肢の語句そのものを回答しない場合であっても、ユーザーの回答がどの選択肢を選択するものなのかを特定できるので、ユーザーに自然な発言での回答を促すことができる。

なお、本発明の実施の形態は、以上説明したものに限られない。以上の説明では選択肢はエージェントによる質問とともに提示されることとしたが、情報処理装置１は、エージェントによらずに単にユーザーに質問と選択肢を提示してもよい。

また、以上の説明ではユーザーのすぐそばにあるローカルの情報処理装置１がエージェントの発言内容の決定、音声認識処理、選択結果の特定、感情の評価処理などの処理を全て実行することとしたが、これらの処理の一部、又は全部は通信ネットワークを介して接続されたサーバ装置によって実行されてもよい。特にサーバ装置が選択肢を決定し、ローカルの端末装置から得られる音声信号に対する音声認識処理を行って選択結果を特定する場合、このサーバ装置が本発明における情報処理装置として機能することになる。

１情報処理装置、１１制御部、１２記憶部、１３インタフェース部、１４表示装置、１５マイクロホン、１６スピーカー、１７カメラ、２１エージェント処理部、２２音声信号取得部、２３音声認識部、２４選択結果特定部。

Claims

複数の選択肢をユーザーに提示する選択肢提示部と、
前記複数の選択肢のいずれかを選択する前記ユーザーの発話内容を認識する音声認識部と、
前記認識されるユーザーの発話内容に含まれる語句が、予め用意された前記複数の選択肢のそれぞれに対応する辞書に含まれる語句と対応するか否かに基づいて、前記ユーザーが選択した選択肢を特定する選択結果特定部と、
前記ユーザーの発話を含む音声信号の特徴量を算出することによって、前記ユーザーの感情を評価し、当該感情の評価結果と、前記ユーザーが選択した選択肢と、に応じた出力を行う出力部と、
を含み、
前記特徴量は、前記複数の選択肢が前記ユーザーに提示されてから、前記ユーザーが前記複数の選択肢のいずれかを選択する発話を行うまでの経過時間を含む
ことを特徴とする情報処理装置。
請求項１に記載の情報処理装置において、
前記複数の選択肢のそれぞれに対応する辞書は、当該選択肢の語句に関連する語句、及び当該選択肢の語句を他の言語に翻訳した語句のいずれか少なくとも一つを含む
ことを特徴とする情報処理装置。
請求項１に記載の情報処理装置において、
前記選択肢提示部は、前記複数の選択肢のそれぞれに対して、当該選択肢を識別するラベルを付加して前記ユーザーに提示し、
前記複数の選択肢のそれぞれに対応する辞書は、当該選択肢に付加されたラベルを示す語句を含む
ことを特徴とする情報処理装置。
請求項１に記載の情報処理装置において、
前記複数の選択肢のそれぞれに対応する辞書は、当該選択肢の表示態様を示す語句を含む
ことを特徴とする情報処理装置。
請求項４に記載の情報処理装置において、
前記選択肢の表示態様を示す語句は、前記選択肢の表示位置、表示順序、及び、表示色のいずれか少なくとも一つを含む
ことを特徴とする情報処理装置。
請求項１に記載の情報処理装置において、
前記選択結果特定部は、前記発話内容に含まれる語句が、前記辞書に含まれる語句の一部と一致する場合に、両者が対応すると判定する
ことを特徴とする情報処理装置。
請求項１に記載の情報処理装置において、
前記選択結果特定部は、前記発話内容に含まれる語句と前記辞書に含まれる語句との間のずれが予め定められたパターンに該当する場合に、両者が対応すると判定する
ことを特徴とする情報処理装置。
請求項１に記載の情報処理装置において、
前記出力部は、前記経過時間を用いて前記ユーザーの感情を評価する際に、前記選択結果特定部が特定する選択肢が前記ユーザーに提示された際の提示順序に応じて、評価基準を変化させる
ことを特徴とする情報処理装置。
請求項１に記載の情報処理装置において、
ユーザーに提示すべき発言を音声で再生する再生部をさらに含み、
前記再生部は、前記発言の再生中に前記音声認識部が前記ユーザーの発話を検出した場合に、前記発言の再生を中止する
ことを特徴とする情報処理装置。
請求項９に記載の情報処理装置において、
前記音声認識部は、前記発言の長さに応じて、前記発言の再生中に前記ユーザーの発話を検出するか否かを決定する
ことを特徴とする情報処理装置。
請求項９に記載の情報処理装置において、
前記音声認識部は、前記発言の再生開始からの経過時間に応じて、前記ユーザーの発話の検出基準を変化させる
ことを特徴とする情報処理装置。
ユーザーに提示すべき発言を音声で再生する再生部と、
前記ユーザーの発話内容を認識する音声認識部と、
を含み、
前記再生部は、前記発言の再生中に前記音声認識部が前記ユーザーの発話を検出した場合に、前記発言の再生を中止し、
前記音声認識部は、前記発言の再生開始からの経過時間に応じて、前記ユーザーの発話の検出基準を変化させる
ことを特徴とする情報処理装置。
請求項１２に記載の情報処理装置において、
前記音声認識部は、前記発言の長さに応じて、前記発言の再生中に前記ユーザーの発話を検出するか否かを決定する
ことを特徴とする情報処理装置。
複数の選択肢をユーザーに提示するステップと、
前記複数の選択肢のいずれかを選択する前記ユーザーの発話内容を認識するステップと、
前記認識されるユーザーの発話内容に含まれる語句が、予め用意された前記複数の選択肢のそれぞれに対応する辞書に含まれる語句と対応するか否かに基づいて、前記ユーザーが選択した選択肢を特定するステップと、
前記ユーザーの発話を含む音声信号の特徴量を算出することによって、前記ユーザーの感情を評価し、当該感情の評価結果と、前記ユーザーが選択した選択肢と、に応じた出力を行うステップと、
を含み、
前記特徴量は、前記複数の選択肢が前記ユーザーに提示されてから、前記ユーザーが前記複数の選択肢のいずれかを選択する発話を行うまでの経過時間を含む
ことを特徴とする情報処理方法。
複数の選択肢をユーザーに提示する選択肢提示部、
前記複数の選択肢のいずれかを選択する前記ユーザーの発話内容を認識する音声認識部、
前記認識されるユーザーの発話内容に含まれる語句が、予め用意された前記複数の選択肢のそれぞれに対応する辞書に含まれる語句と対応するか否かに基づいて、前記ユーザーが選択した選択肢を特定する選択結果特定部、及び、
前記ユーザーの発話を含む音声信号の特徴量を算出することによって、前記ユーザーの感情を評価し、当該感情の評価結果と、前記ユーザーが選択した選択肢と、に応じた出力を行う出力部、
としてコンピュータを機能させるためのプログラムであって、
前記特徴量は、前記複数の選択肢が前記ユーザーに提示されてから、前記ユーザーが前記複数の選択肢のいずれかを選択する発話を行うまでの経過時間を含む
プログラム。
請求項１５に記載のプログラムを記憶した、コンピュータ読み取り可能な情報記憶媒体。