JP2018045192A

JP2018045192A - 音声対話装置および発話音量調整方法

Info

Publication number: JP2018045192A
Application number: JP2016181914A
Authority: JP
Inventors: 池野　篤司; Tokuji Ikeno; 篤司池野; 宗明島田; Muneaki Shimada; 浩太畠中; Kota HATANAKA; 西島　敏文; Toshifumi Nishijima; 敏文西島; 史憲片岡; Fuminori Kataoka; 刀根川　浩巳; Hiromi Tonegawa; 浩巳刀根川; 倫秀梅山; Norihide Umeyama
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2016-09-16
Filing date: 2016-09-16
Publication date: 2018-03-22

Abstract

【課題】状況に応じて適切な音量で応答が可能な音声対話装置を提供する。【解決手段】音声対話装置は、ユーザから入力された音声の入力音量を取得する音量取得手段と、前記ユーザとのあいだの距離を取得する距離取得手段と、前記音量取得手段が取得した前記入力音量と前記距離取得手段が取得した前記距離に基づいて、前記ユーザに対する音声出力の音量を決定する出力音量決定手段と、を備える。前記出力音量決定手段は、基準入力音量と基準出力音量を距離ごとに対応付けたテーブルを記憶しており、前記音量取得手段が取得した前記入力音量と前記距離取得手段が取得した距離に対応する基準入力音量とを比較し、前記距離取得手段が取得した距離に対応する基準出力音量を前記比較結果に応じて調整した音量を、前記出力音量として決定することができる。【選択図】図５

Description

本発明は、音声対話装置に関し、特に、音声対話装置において発話音量を決定する技術に関する。

音声対話装置は、状況に応じて適切な音量で発話を行うことが求められる。特許文献１は、ステレオカメラによりユーザまでの距離を計測し、距離を加味して発話音量を調整することを開示する。具体的には、ユーザが閾値距離よりも遠くにいる場合は発話音量を大きくし、ユーザが閾値距離よりも近くにいる場合は発話音量を小さくしている。

特許文献２は、入力された発話音量（発話音圧）から音源の距離を求められることを開示する。具体的には発話音量が小さいほど音源が遠くに位置すると考えられるので、解像度の高い画像処理を行い、発話音量が小さいほど音源が近くに位置するので解像度の低い画像処理を行うことを開示する。

特開２００８−２５４１２２号公報特開２００９−１３６９６８号公報

特許文献１はユーザとの距離のみに応じて音声対話装置の発話音量を決定しているが、ユーザとの距離だけでなくユーザの発話音量に応じた音量で応答することが好ましい。したがって、特許文献１の手法に特許文献２の手法を組み合わせることが考えられる。

しかしながら、ユーザが音声対話装置に対して発話する場合、装置の近くで発話する場合は小さな声で、遠くから発話する場合は大きな声で発話するのが自然である。したがって、音声対話装置が受けるユーザ発話の音量は同程度となり、音声対話装置の発話音量は一定になり不自然である。ユーザが遠くにいる場合に応答がユーザまで届かなかったり、ユーザが極めて近くにいる場合に過大な音量で応答してしまったりという不都合が生じる。

本発明は、状況に応じて適切な音量で応答が可能な音声対話装置を提供することを目的とする。

本発明にかかる音声対話装置は、ユーザから入力された音声の入力音量を取得する音量取得手段と、前記ユーザとのあいだの距離を取得する距離取得手段と、前記音量取得手段が取得した前記入力音量と前記距離取得手段が取得した前記距離に基づいて、前記ユーザに対する音声出力の音量を決定する出力音量決定手段と、を備える。

本発明における前記出力音量決定手段は、基準入力音量と基準出力音量を距離に応じて定義したテーブルを記憶しており、前記音量取得手段が取得した前記入力音量と前記距離取得手段が取得した距離に対応する基準入力音量とを比較し、前記距離取得手段が取得した距離に対応する基準出力音量を前記比較結果に応じて調整した音量を、前記出力音量として決定することができる。ここで、前記テーブルに含まれる基準入力音量と基準出力音
量は、前記距離が大きいほど、基準入力音量の大きさが小さく（広義単調減少）、かつ、基準出力音量の大きさが大きい（広義単調増加）ことが好ましい。

一般に、ユーザとの距離が遠いほど大きな音量で応答し、ユーザとの距離が近いほど小さな音量で応答することが好ましい。また、ユーザの発話音量に応じた音量に応じた音量で応答することが好ましい。上記の構成によれば、ユーザとのあいだの距離とユーザから受け取る音声の入力音量の両方を考慮に入れて応答の音量（音圧）を決定しているので、適切な音量での応答が可能となる。

本発明における前記距離取得手段は、ユーザの画像を取得する画像取得手段と、前記画像からユーザの顔または身体を検出する検出手段と、前記検出手段によって検出されたユーザの顔または身体からユーザとのあいだの距離を求める距離検出手段と、を備えてもよい。本発明における前記距離取得手段は、また、距離センサであってもよい。距離センサは、レーザ、超音波、赤外線などを用いたものであってもよいし、ステレオ方式やＤＦＤ（Depth from Defocus）方式を用いたものであってもよい。

なお、本発明は、上記手段の少なくとも一部を備える音声対話装置として捉えることもできる。本発明は、また、上記処理の少なくとも一部を実行する音声対話方法あるいは発話音量調整方法として捉えることができる。また、本発明は、この方法をコンピュータに実行させるためのコンピュータプログラム、あるいはこのコンピュータプログラムを非一時的に記憶したコンピュータ可読記憶媒体として捉えることもできる。上記手段および処理の各々は可能な限り互いに組み合わせて本発明を構成することができる。

本発明によれば、音声対話装置において状況に応じて適切な音量で応答できる。

図１は、実施形態に係る音声対話システムのシステム構成を示す図である。図２は、実施形態に係る音声対話システムの機能構成を示す図である。図３は、実施形態に係る音声対話システムにおける対話処理の流れの例を示す図である。図４は、実施形態に係る音声対話システムにおける対話処理の流れの別の例を示す図である。図５（Ａ）は距離と基準入力音量の関係、図５（Ｂ）は距離と基準出力音量の関係、図５（Ｃ）は発話音量の制御処理の流れを示すフローチャートである。

以下に図面を参照して、この発明の好適な実施の形態を例示的に詳しく説明する。以下で説明される実施形態は音声対話ロボットをローカルの音声対話端末として用いたシステムであるが、ローカルの音声対話端末はロボットである必要はなく任意の情報処理装置や音声対話インタフェースなどを用いることができる。

＜システム構成＞
図１は本実施形態に係る音声対話システムのシステム構成を示す図であり、図２は機能構成を示す図である。本実施形態に係る音声対話システムは、図１、図２に示すように、ロボット１００、スマートフォン１１０、音声認識サーバ２００、対話サーバ３００から構成される。

ロボット（音声対話ロボット）１００は、音声入力部（マイク）１０１、画像入力部（カメラ）１０２、音声出力部（スピーカー）１０３、通信部（ＢＴ：Bluetooth（登録商
標））、コマンド送受信部１０４を含む。図示は省略しているが、ロボット１００は、可動関節（顔、腕、足等）、当該可動関節の駆動制御部、各種のライト、当該ライトの点灯・消灯などの制御部などを有している。

ロボット１００は、音声入力部１０１によってユーザからの音声を取得し、画像入力部１０２によってユーザを写した画像を取得する。ロボット１００は、通信部１０５を介して入力音声と入力画像をスマートフォン１１０に送信する。ロボット１００は、スマートフォン１１０からコマンドを取得すると、それに応じて音声出力部１０３から音声を出力したり、可動関節部を駆動したりする。

スマートフォン１１０は、マイクロプロセッサなどの演算装置、メモリなどの記憶部、タッチスクリーンなどの入出力装置、通信装置などを含むコンピュータである。スマートフォン１００は、マイクロプロセッサがプログラムを実行することにより、入力音声処理部１１１、音声合成処理部１１２、コマンド送受信部１１３、位置情報処理部１１４、簡易応答作成部１１５、制御部１１６、通信部（ＢＴ）１１７、通信部（ＴＣＰ／ＩＰ）１１８を備える。

入力音声処理部１１１は、ロボット１００からの音声データを受け取り、通信部１１８を介して音声認識サーバ２００に送信して音声認識処理を依頼する。なお、入力音声処理部１１１が一部の前処理を行ってから、音声認識サーバ２００へ音声認識処理を依頼してもよい。入力音声処理部１１１は、音声認識サーバ２００による音声認識結果を通信部１１８を介して対話サーバへ送信し、ユーザ発話に応答する応答文のテキスト（ロボット１００に発話させる文章）の生成を依頼する。

音声合成処理部１１２は、応答文のテキストを取得して、音声合成処理を行ってロボット１００に発話させる音声データを生成する。

位置情報処理部１１４は、ＧＰＳにより測位した位置情報や日時情報を履歴として保持する。

簡易応答作成部１１５は、ユーザ発話をロボット１００から受け取って、音声認識サーバ２００および対話サーバ３００による応答を返すまでのあいだに、相づちや返事あるいは入力された音声データの繰り返しのような簡易的な応答を作成して、ロボット１００から出力させる。

制御部１１６は、スマートフォン１１０の全体的な処理を司る。通信部１１７は、Ｂｌｕｅｔｏｏｔｈ（登録商標）規格にしたがって、ロボット１００とのあいだで通信を行う。通信部１１８は、ＴＣＰ／ＩＰ規格にしたがって音声認識サーバ２００や対話サーバ３００とのあいだで通信を行う。

音声認識サーバ２００は、マイクロプロセッサなどの演算装置、メモリ、通信装置などを含むコンピュータであり、通信部２０１および音声認識処理部２０２を備える。音声認識サーバ２００は、豊富な資源を有しており、高精度な音声認識が可能である。

対話サーバ３００は、マイクロプロセッサなどの演算装置、メモリ、通信装置などを含むコンピュータであり、通信部３０１、応答作成部３０２、情報記憶部３０３を備える。情報記憶部３０３には、応答作成のための対話シナリオが格納される。応答作成部３０２は、情報記憶部３０３の対話シナリオを参照して、ユーザ発話に対する応答を作成する。対話サーバ３００は、豊富な資源（高速な演算部や、大容量の対話シナリオＤＢなど）を有しており、高度な応答を生成可能である。

＜全体処理＞
図３を参照して、本実施形態に係る音声対話システムにおける全体的な処理の流れを説明する。

ステップＳ１１において、ロボット１００が音声入力部１０１からユーザの発話の音声の入力を受けると、ロボット１１０は通信部１０５を介して入力音声データをスマートフォン１１０の入力音声処理部１１１に送信し、入力音声処理部１１１が当該入力音声データを音声認識サーバ２００へ送信する。

ステップＳ１２において、音声認識サーバ２００の音声認識処理部２０２が音声認識処理を実施する。

ステップＳ１３において、スマートフォン１１０の入力音声処理部１１１が音声認識サーバ２００による認識結果を取得するとともに、位置情報処理部１１４がＧＰＳから位置情報を取得する。入力音声処理部１１１は、音声認識結果および位置情報を対話サーバ３００へ送信して、応答文の作成を依頼する。なお、ここでは音声認識結果をスマートフォン１１０を介して音声認識サーバ２００から対話サーバ３００へ送っているが、音声認識結果は音声認識サーバ２００から対話サーバ３００へ直接送られてもよい。

ステップＳ１４において、対話サーバ３００の応答作成部３０２は、音声認識結果に対する応答のテキストを生成する。この際、情報記憶部３０３に記憶されている対話シナリオを参照する。対話サーバ３００によって生成された応答文テキストはスマートフォン１１０に送信される。

ステップＳ１５において、対話サーバ３００は、受け取ったユーザ発話の内容を情報記憶部３０３に記憶し、ステップＳ１６において、受け取った位置情報を情報記憶部３０３に記憶する。どこでどのような発話がなされたのかをユーザごとに情報記憶部３０３に記憶しておくことで、将来の応答文作成に活用できる。

ステップＳ１７において、スマートフォン１１０が対話サーバ３００から応答文テキストを受信すると、音声合成処理部１１２が音声合成処理により応答文テキストの音声データを生成する。コマンド送受信部１１３は、当該音声データを出力するように、ロボット１００に対してコマンドを送信する。

ステップＳ１８において、ロボット１００のコマンド送受信部１０４がスマートフォン１１０からのコマンドを受信して、音声出力部１０３から応答の音声データを出力する。

なお、上記の処理にはある程度の時間が必要であり、そのあいだロボット１００が応答発話しないでいると、ユーザとの対話が不自然に間延びしてしまう。そこで、スマート１１０は上記の処理を行っているあいだに、簡易応答作成部１１５からロボット１００に対して、相づちや返事、入力された音声データの繰り返しなどの簡易的な応答のための音声データを作成し、ロボット１００に送信して応答の発話を行わせる。また、スマートフォン１１０の位置情報を対話に利用して対話の幅を拡げることもできる。

＜発話音量調整方法＞
図４は、本実施形態に係る音声対話システムにおいてロボット１００が応答する際に行う発話音量調整（決定）方法を説明するフローチャートである。

ユーザがロボット１００に向かって発話すると、音声入力部（マイク）１０１がユーザ
の音声を取得する（Ｓ２１）とともに、画像入力部（カメラ）１０２がユーザの画像を取得する。ユーザの存在する方向は、マイクアレイへの音波到来時間の差によって把握してもよいし、また、その他の技術によって把握してもよい。

ユーザ発話の音声データはスマートフォン１１０に送られ、スマートフォン１１０は、音声データに対する音声認識処理と応答作成処理を実施する（Ｓ２２）。この処理は、図３を用いて説明したので繰り返さない。

ステップＳ２３において、ロボット１００の音声入力部１０１は、ユーザ音声の音量（音圧）を検出する。

ロボット１００の画像入力部１０２は、ステップＳ２５において画像からユーザの顔を検出し、ステップＳ２６において顔画像のサイズを取得する。ここでは撮影画像から顔を抽出しているが、身体を抽出してもよい。

ステップＳ２３において取得されたユーザ発話の音量およびステップＳ２６において取得された顔画像の大きさは、ロボット１００からスマートフォン１１０に送信される。ステップＳ２７において、スマートフォン１１０の制御部１１６は、音量および顔サイズに基づいてユーザの位置、すなわちロボット１００とユーザとのあいだの距離が算出される。

ステップＳ２８において、制御部１１６は、ユーザ発話の音量およびユーザとのあいだの距離に基づいて、ロボット１００がユーザ発話に応答する際の発話音量を決定する。この決定処理の詳細について、図５（Ａ）〜図５（Ｃ）を参照して説明する。

図５（Ａ）は、スマートフォン１１０があらかじめ格納している、ユーザとロボットのあいだの距離と基準入力音量との関係を表すテーブルである。基準入力音量は、ユーザが通常程度の音量で発話した際に、ロボット１００に入力されると想定される音量である。ユーザは一般にロボットから離れるほど大きな声で発話する傾向にあるが、やはり距離が大きいほど入力音量は小さくなることが想定される。したがって、基準入力音量は、ユーザとロボットのあいだの距離が大きくなるほど小さいように設定される。

図５（Ｂ）は、スマートフォン１１０があらかじめ格納している、ユーザとロボットのあいだの距離と基準出力音量との関係を表すテーブルである。基準出力音量は、ロボット１００が発話する際の音量の基準となる音量である。ユーザとロボットのあいだの距離が離れるほど、ロボット１００は大きな音量で発話する必要がある。したがって、基準出力音量は、ユーザとロボットのあいだの距離が大きくなるほど大きいように設定される。

なお、図５（Ａ），５（Ｂ）では、基準入力音量や基準出力音量が距離に応じて線形に変化するように示しているが、これらの図は距離と音量の関係を例示的に説明するものに過ぎず、必ずしも音量と距離が線形の関係でなくても構わない。また、これらの図では基準の音量が距離に応じた狭義の単調減少／増加関数で表されているが、広義の単調減少／増加関数であってもよい。例えば、階段関数などを採用してもよい。

図５（Ｃ）は、ステップＳ２８の発話音量制御処理の詳細な流れを示すフローチャートである。ステップＳ３１において、制御部１１６は、ユーザとのあいだの距離を取得する。ステップＳ３２において、制御部１１６は、図５（Ａ）（Ｂ）のテーブルを参照して、距離に応じた基準入力音量と基準出力音量を取得する。

ステップＳ３２において、制御部１１６は、入力音量と基準入力音量を比較する。入力
音量が基準入力音量よりも小さければ、ステップＳ３４に進んで、制御部１１６は、出力音量を基準出力音量よりも小さな音量として決定する。入力音量が基準入力音量と同程度であれば、ステップＳ３５に進んで、制御部１１６は、基準出力音量を出力音量とする。入力音量が基準入力音量よりも大きければ、ステップＳ３６に進んで、制御部１１６は、出力音量を基準出力音量よりも大きな音量として決定する。

ステップＳ３４やＳ３６において、入力音量と基準入力音量の比較結果に基づいて出力音量を決定する方法はいくつかの方法が考えられる。例えば、入力音量と基準入力音量の差あるいは比に応じて基準出力音量を増減させた値を出力音量とすることができる。あるいは、入力音量と基準入力音量の差あるいは比を所定の基準でレベル分けし、当該レベルに応じて基準出力音量を増減させた値を出力音量とすることができる。

図４の説明に戻る。スマートフォン１１０は、発話音量の決定と応答文の取得が完了したら、音声合成処理部１１２によって音声データを生成して、ロボット１００に対して、決定された発話音量で当該音声データを出力するようにコマンドを送信する。このコマンドを受けて、ロボット１００は、指定された出力音量で指定された応答を音声出力部（スピーカー）１０３から出力する。

なお、ここではユーザとのあいだの距離および発話音量に基づいて、ロボットからの応答出力の音量を調整しているが、ユーザ発話に対するロボット１００の動作量（頭や腕などの動作量）を調整するようにしてもよい。例えば、出力音量を決定するのと同様に、ユーザとの距離が大きいほど、またはユーザ発話音量が大きいほど、ロボット１００の動作量を大きく決定することが考えられる。

＜本実施形態の有利な効果＞
本実施形態に係る音声対話システムでは、ユーザとの距離およびユーザ発話の音量を考慮してロボットからの応答の音量を決定しているので、いずれか一方のみに基づいて応答の音量を決定するよりも状況に即した決定が行える。

＜変形例＞
上記の説明では、ロボット１００とユーザとのあいだの距離を、撮影画像中のユーザの顔または身体の大きさに基づいて求めているが、当該距離の求め方はこれに限られず、任意の距離センサによって求めて構わない。距離センサとして、レーザ、超音波、赤外線などを用いたものを採用可能である。また、画像を元に距離検出する方法として、ステレオ測距やＤＦＤ測距なども採用可能である。

また、上記の説明では、ユーザとのインタフェースとなるロボットと、音声認識や応答作成などの処理を行うスマートフォン１１０、音声認識サーバ２００、対話サーバ３００を異なる装置で構成する例を示したが、本システムの構成はこれに限られない。例えば、ロボット１００とスマートフォン１１０の機能を１つに装置に搭載してもよいし、さらに、音声認識サーバ２００や対話サーバ３００の機能もまとめて搭載してもよい。あるいは、音声認識サーバ２００および対話サーバ３００が、ロボットあるいはスマートフォントとは異なる１つのサーバで実現されてもよい。

＜その他＞
上記の実施形態および変形例の構成は、本発明の技術的思想を逸脱しない範囲内で、適宜組み合わせて利用することができる。また、本発明は、その技術的思想を逸脱しない範囲で適宜変更を加えて実現しても構わない。

１００：ロボット
１０１：音声入力部
１０２：画像入力部
１０３：音声出力部
１０４：コマンド送受信部
１０５：通信部（ＢＴ）
１１０：スマートフォン
１１１：入力音声処理部
１１２：音声合成処理部
１１３：コマンド送受信部
１１４：位置情報処理部
１１５：簡易応答作成部
１１６：制御部
１１７：通信部（ＢＴ）
１１８：通信部（ＴＣＰ／ＩＰ）
２００：音声認識サーバ
２０１：通信部（ＴＣＰ／ＩＰ）
２０２：音声認識処理部
３００：対話サーバ
３０１：通信部（ＴＣＰ／ＩＰ）
３０２：応答作成部
３０３：情報記憶部

Claims

ユーザから入力された音声の入力音量を取得する音量取得手段と、
前記ユーザとのあいだの距離を取得する距離取得手段と、
前記音量取得手段が取得した前記入力音量と前記距離取得手段が取得した前記距離に基づいて、前記ユーザに対する音声出力の音量を決定する出力音量決定手段と、
を備える音声対話装置。
前記出力音量決定手段は、基準入力音量と基準出力音量を距離に応じて定義したテーブルを記憶しており、前記音量取得手段が取得した前記入力音量と前記距離取得手段が取得した距離に対応する基準入力音量とを比較し、前記距離取得手段が取得した距離に対応する基準出力音量を前記比較結果に応じて調整した音量を、前記出力音量として決定するものであり、
前記距離が大きいほど、基準入力音量の大きさが小さく、かつ、基準出力音量の大きさが大きい、
請求項１に記載の音声対話装置。
前記距離取得手段は、
ユーザの画像を取得する画像取得手段と、
前記画像からユーザの顔または身体を検出する検出手段と、
前記検出手段によって検出されたユーザの顔または身体からユーザとのあいだの距離を求める距離検出手段と、
を備える、請求項１または２に記載の音声対話装置。
前記距離取得手段は、距離センサである、
請求項１または２に記載の音声対話装置。
音声対話装置が行う発話音量調整方法であって、
ユーザから入力された音声の入力音量を取得する音量取得ステップと、
前記ユーザとのあいだの距離を取得する距離取得ステップと、
前記音量取得ステップにおいて取得した前記入力音量と前記距離取得ステップにおいて取得した前記距離に基づいて、前記ユーザに対する音声出力の音量を決定する出力音量決定ステップと、
を含む発話音量調整方法。
請求項５に記載の方法の各ステップをコンピュータに実行させるためのプログラム。