JP6768613B2

JP6768613B2 - 音声処理装置、方法およびプログラム

Info

Publication number: JP6768613B2
Application number: JP2017176615A
Authority: JP
Inventors: 成宗松村; 純史布引; 細淵　貴司; 貴司細淵
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2017-09-14
Filing date: 2017-09-14
Publication date: 2020-10-14
Anticipated expiration: 2037-09-14
Also published as: JP2019053156A

Description

この発明は、ユーザの発話音声を検知する音声処理装置、方法およびプログラムに関する。

従来、音声対話機能を備えたロボットが様々開発されてきた。

音声対話では、ロボットの発話中にユーザが割込んで発話するバージインへの対応が重要である（例えば、非特許文献１を参照）。バージインへ対応するためには、ロボットが発話中にユーザが発話した事を検知する必要がある。

ロボットのマイクには、ユーザの発話音声以外にも、ロボットの発話音声が入り込むことがある。さらに、ロボットがユーザに対する応答としてジェスチャ提示するような場合には、ジェスチャ提示に伴い動作するサーボモータ等によるノイズが入り込むこともある。このようなロボットの発話音声やノイズが原因で、ユーザが発話してないにもかかわらず、ユーザが発話を開始したと誤検知されてしまう問題がある。

従来、この問題に対応する為に、ユーザ発話音声とロボット発話音声・ノイズとを分離するための研究が各種行われてきている（例えば、非特許文献２を参照）。

不特定話者音声自由対話システムTOSBURG―マルチモーダル応答と音声応答キャンセルの利用―，電子情報通信学会論文誌A Vol.J77-A No.2 pp.241-250 ロボットとの音声対話における発話の重なりを含む入力音の判別，情報処理学会第75回全国大会講演論文集，2013(1)，481-482 (2013-03-06)

ところが、信号処理により完全にユーザ発話音声とロボット発話音声・ノイズとを分離する事は非常に難しい。さらに、高度な信号処理を行うほど、処理に必要な演算能力が高くなる問題や、ユーザの発話を検知するために必要な時間が長くなるという問題がある。

この発明は上記事情に着目してなされたもので、その目的とするところは、取得された音声データから、装置により出力されるデータに起因して発生される音声やノイズを分離処理する必要なく、当該取得された音声データに基づいてユーザの発話音声を検知することができる音声処理装置、方法およびプログラムを提供することにある。

上記課題を解決するために、この発明の第１の態様は、音声処理装置において、ユーザの発話音声に対応する第１の音声データを取得する音声データ取得部と、前記取得された第１の音声データから前記発話音声の音圧レベルを計測し、当該計測された音圧レベルが閾値より高い場合に、前記第１の音声データを前記ユーザの発話音声として検知する発話検知部と、前記ユーザに対し音声を出力するための第２の音声データおよび前記ユーザに対しジェスチャを提示するためのモーションデータを出力するデータ出力部と、前記閾値を可変設定する閾値設定部を備える。そして、この閾値設定部により、前記第２の音声データと前記モーションデータとのうちのいずれが出力されているかを判定し、前記第２の音声データおよび前記モーションデータがいずれも出力されていない期間中には、前記閾値を第１の値に設定し、前記第２の音声データが出力されている期間中には、前記閾値を、前記第１の値より高くかつ前記第２の音声データに基づいて前記ユーザに対し出力される前記音声の音圧レベルより高い第２の値に設定し、前記モーションデータに基づいて前記ユーザに対しジェスチャが提示されている期間中には、前記閾値を、前記第１および第２の値より高くかつ前記ジェスチャの提示により発生するノイズの音圧レベルより高い第３の値に設定するようにし、さらに前記閾値設定部は、前記出力されるモーションデータが、前記ユーザの発話に対する応答テキストデータに対応するジェスチャを提示するための第１の種類のモーションデータと、前記ユーザの発話状況に応じて提示するジェスチャに対応する第２の種類のモーションデータとを有する場合に、前記第１の種類のモーションデータが出力されるときには、前記第３の値を、前記第２の種類のモーションデータが出力されるときより高い値に設定するようにしたものである。

この発明の第２の態様は、前記第１の種類のモーションデータを身振り手振りによるジェスチャを提示するためのデータとし、前記第２の種類のモーションデータを相槌または首を傾けるジェスチャを提示するためのデータとしたものである。
この発明の第３の態様は、前記第２の種類のモーションデータにより提示される前記相槌または首を傾けるジェスチャを、前記第１の種類のモーションデータにより提示される前記身振り手振りによるジェスチャよりも、サーボモータの速度または移動量が小さくなるようにしたものである。

この発明の第１の態様によれば、ユーザの発話音声に対応する第１の音声データが取得され、取得された第１の音声データから発話音声の音圧レベルが計測され、当該計測された音圧レベルが閾値より高い場合に、第１の音声データがユーザの発話音声として検知される。データ出力部によるデータの出力期間中には、上記閾値が、当該出力期間外より高い値に設定される。例えば、音声を発している最中の対象に話しかける際には、一般的にユーザは通常よりも大きな声で発話する傾向がある。また、身振り手振り等のジェスチャを提示している最中の対象に話しかける際には、一般的にユーザはさらに大きな声で発話する傾向がある。したがって、データ出力部によりデータが出力され、これに起因して音声が発生されたりジェスチャが提示されたりする期間中には、上述したように高く設定された閾値に基づいて、取得される音声データにおいて、上記発生される音声やノイズをフィルタ等を用いて分離する必要なくユーザの発話音声を検知することができる。また、音声やノイズの分離処理を併用する場合には、当該分離処理による負荷が低減されることになる。
さらに、モーションデータに基づいてユーザに対しジェスチャが提示されている期間中に設定される閾値が、ユーザに対し第２の音声データに基づく音声を出力している期間に設定される閾値より高くかつ上記ジェスチャの提示により発生するノイズの音圧レベルより高い値に設定される。すなわち、ユーザに対し音声が出力される期間より、ジェスチャが提示される期間の方が、閾値が高くなるように設定される。このため、出力される音声データに起因して発生される音声、および出力されるモーションデータに起因して発生されるノイズを、いずれもユーザの発話音声として誤検知することなく、ユーザの発話音声を検知することができる。
さらに、出力されるモーションデータが、身振り手振りによるジェスチャを提示するための第１の種類のデータと、相槌または首を傾けるジェスチャを提示するための第２の種類のデータとを有する場合に、第１の種類のデータが出力されるときには、上記閾値が、第２の種類のデータが出力されるときより高い値に設定される。このように、閾値を、出力されるモーションデータの種類に応じたものにすることによって、例えば、閾値をそれぞれ、出力されているモーションデータに起因して発生されるノイズがユーザの発話音声として誤検知されない最大限度の値に設定することができる。

すなわちこの発明の各態様によれば、取得された音声データから、装置により出力されるデータに起因して発生される音声やノイズを分離処理する必要なく、当該取得された音声データに基づいてユーザの発話音声を検知することができる音声処理装置、方法およびプログラムを提供することができる。

この発明の第１の実施形態に係る、ユーザとの音声対話を実現する音声対話装置の一例を示す図。図１に示した音声対話装置の機能構成を示すブロック図。図２に示した音声対話装置の制御ユニットによって実行されるユーザ発話検知処理の一例を示すフロー図。

以下、図面を参照してこの発明に係る実施形態を説明する。
［第１の実施形態］
（構成）
図１は、この発明の第１の実施形態に係る、ユーザとの音声対話を実現する音声対話装置の一例を示す図である。本実施形態では、音声処理装置の非限定的な例として音声対話装置１について説明する。

音声対話装置１は、マイク１３を介して入力されたユーザの発話音声に応答して、スピーカ１４を介して音声を返したり、可動部１６を稼働させることにより相槌または首を傾けるジェスチャを提示したり、可動部１７，１８を稼働させることにより身振り手振りジェスチャを提示するものである。また、音声対話装置１は、スピーカ１４を介して音声を発している最中や、可動部１６，１７，１８を稼働させることによりジェスチャを提示している最中にも、ユーザの発話音声を検知することができる。

図２は、図１に示した音声対話装置１の機能構成を示すブロック図である。
音声対話装置１は、制御ユニット１１と、記憶ユニット１２と、マイク１３と、スピーカ１４と、サーボモータ１５とを備えている。

マイク１３は、ユーザの発話音声を制御ユニット１１に入力する。
スピーカ１４は、制御ユニット１１から出力される音声データを再生する。
サーボモータ１５は、制御ユニット１１から出力されるモーションデータに基づき動作して、音声対話装置１にジェスチャを提示させる。

記憶ユニット１２は、記憶媒体として例えばＨＤＤ（Hard Disc Drive）またはＳＳＤ（Solid State Drive）等の随時書き込みおよび読み出しが可能な不揮発メモリを使用したものであり、本実施形態を実現するために使用される記憶領域として、音声データ記憶部１２１と、閾値記憶部１２２と、発話テキストデータ記憶部１２３と、応答テキストデータ記憶部１２４と、応答音声データ記憶部１２５と、モーションデータ記憶部１２６とを備えている。

音声データ記憶部１２１は、マイク１３を介して取得された音声に関して制御ユニット１１によって生成された音声データを記憶させるために使用される。

閾値記憶部１２２は、ユーザの発話音声を検知するための閾値を記憶させるために使用される。また、閾値記憶部１２２は、音声対話装置１による、ユーザに対し音声を出力するための音声データの出力状況、および、ユーザに対しジェスチャを提示するためのモーションデータの出力状況に応じて、上記閾値として用いる値を定義する、閾値テーブルを記憶させるためにも使用される。

発話テキストデータ記憶部１２３は、音声データに基づく発話音声の認識の結果である発話テキストデータを記憶させるために使用される。

応答テキストデータ記憶部１２４は、発話したユーザへの応答文章に対応する応答テキストデータを記憶させるために使用される。

応答音声データ記憶部１２５は、応答テキストデータに対応する応答音声データを記憶させるために使用される。

モーションデータ記憶部１２６は、応答テキストデータに対応するモーションデータを記憶させるために使用される。例えば、応答テキストデータの内容に対して身振り手振りを提示して応じるためのモーションデータが記憶される。なお、モーションデータ記憶部１２６は、ユーザの発話状況に応じて提示すべきジェスチャに対応するモーションデータを記憶させるためにも使用される。例えば、ユーザの発話が停止するタイミングで相槌または首を傾けて応じるための、会話に必要な最低限のモーションデータが記憶される。

制御ユニット１１は、音声処理装置を構成するものであり、ＣＰＵ（Central Processing Unit）を含み、本実施形態における処理機能を実行するために、音声データ取得部１１０１と、ユーザ発話検知部１１０２と、音声・モーション中断部１１０３と、音声認識部１１０４と、応答内容生成部１１０５と、音声合成部１１０６と、音声データ出力部１１０７と、エコーキャンセル部１１０８と、モーションデータ生成部１１０９と、モーションデータ出力部１１１０と、閾値設定部１１１１とを備えている。これらの各部における処理機能はいずれも、図示しないプログラムメモリに格納されたプログラムを上記ＣＰＵに実行させることによって実現される。

音声データ取得部１１０１は、マイク１３を介して入力されたユーザの発話音声を含む音声をデジタルデータに変換し、変換後の音声データを記憶ユニット１２の音声データ記憶部１２１に記憶させる処理を実行する。

ユーザ発話検知部１１０２は、記憶ユニット１２の音声データ記憶部１２１に記憶される音声データと、記憶ユニット１２の閾値記憶部１２２に記憶される閾値とを読み出す処理を実行する。その後、ユーザ発話検知部１１０２は、読み出された音声データから音圧レベルを計測し、読み出された閾値より当該計測された音圧レベルが高い場合に、当該音声データをユーザの発話音声として検知する処理を実行する。これにより、ユーザの発話の開始や停止が検知される。

音声・モーション中断部１１０３は、ユーザの発話の開始が検知された際に、音声対話装置１のスピーカ１４において音声データに基づき音声が出力されている場合や、サーボモータ１５等がモーションデータに基づき動作している場合に、当該音声データの出力処理およびモーションデータの出力処理を中断させる処理を実行する。

音声認識部１１０４は、記憶ユニット１２の音声データ記憶部１２１に記憶される音声データを読み出す処理を実行する。その後、音声認識部１１０４は、読み出された音声データから、ユーザの発話音声に対応する発話テキストデータを生成し、生成された発話テキストデータを記憶ユニット１２の発話テキストデータ記憶部１２３に記憶させる処理を実行する。

応答内容生成部１１０５は、記憶ユニット１２の発話テキストデータ記憶部１２３に記憶される発話テキストデータを読み出す処理を実行する。その後、応答内容生成部１１０５は、読み出された発話テキストデータに基づいて、発話したユーザへの応答文章に対応する応答テキストデータを生成し、生成された応答テキストデータを記憶ユニット１２の応答テキストデータ記憶部１２４に記憶させる処理を実行する。

音声合成部１１０６は、記憶ユニット１２の応答テキストデータ記憶部１２４に記憶される応答テキストデータを読み出し、読み出された応答テキストデータに対応する応答音声データを合成し、合成された応答音声データを記憶ユニット１２の応答音声データ記憶部１２５に記憶させる処理を実行する。

音声データ出力部１１０７は、記憶ユニット１２の応答音声データ記憶部１２５に記憶される応答音声データを読み出し、読み出された応答音声データをスピーカ１４に出力する処理を実行する。その後、スピーカ１４において、出力された応答音声データに基づき音声が出力され、発話したユーザとの音声対話がなされる。

エコーキャンセル部１１０８は、音声データ出力部１１０７からスピーカ１４に出力される応答音声データに基づいて、スピーカ１４において出力されマイク１３に入力される音声が、音声データ取得部１１０１においてユーザの発話音声とともに取得されることを妨げるように、当該音声を打ち消す処理を実行する。

モーションデータ生成部１１０９は、記憶ユニット１２の応答テキストデータ記憶部１２４に記憶される応答テキストデータを読み出す処理を実行する。その後、モーションデータ生成部１１０９は、読み出された応答テキストデータに基づいて、音声対話装置１がユーザに対し提示すべきジェスチャに対応するモーションデータを生成し、生成されたモーションデータを記憶ユニット１２のモーションデータ記憶部１２６に記憶させる処理を実行する。また、モーションデータ生成部１１０９は、ユーザ発話検知部１１０２によって検知されるユーザの発話状況にも基づいて、音声対話装置１がユーザに対し提示すべきジェスチャに対応するモーションデータを生成し、生成されたモーションデータを記憶ユニット１２のモーションデータ記憶部１２６に記憶させる処理を実行する。

モーションデータ出力部１１１０は、記憶ユニット１２のモーションデータ記憶部１２６に記憶されるモーションデータを読み出し、読み出されたモーションデータをサーボモータ１５に出力する処理を実行する。その後、出力されたモーションデータに基づきサーボモータ１５等が動作して、音声対話装置１がユーザに対しジェスチャを提示することとなる。なお、モーションデータは、対応するジェスチャをユーザに対し提示するための、サーボモータ１５への指示信号であってもよい。

閾値設定部１１１１は、音声データ出力部１１０７における音声データの出力状況、および、モーションデータ出力部１１１０におけるモーションデータの出力状況を、判定する処理を実行する。その後、閾値設定部１１１１は、記憶ユニット１２の閾値記憶部１２２に記憶される閾値テーブルを参照し、当該判定の結果に応じて上記閾値として用いる値を選択し、当該選択された値を、ユーザの発話を検知するための上記閾値として、記憶ユニット１２の閾値記憶部１２２に記憶させる処理を実行する。

（動作）
次に、以上のように構成された音声対話装置１の動作を説明する。
図３は、図２に示した音声対話装置１の制御ユニット１１によって実行されるユーザ発話検知処理の一例を示すフロー図である。

一例として、以下に説明するフロー図では、音声データ出力部１１０７において出力される音声データに基づきスピーカ１４において出力される音声の音圧レベルよりも、モーションデータ出力部１１１０において出力されるモーションデータに基づきサーボモータ１５等が動作することにより発生するノイズの音圧レベルの方が高い場合について説明する。なお、当該音圧レベルは、ユーザ発話検知部１１０２において計測されるものであっても、あるいは、ユーザ発話検知部１１０２とは別に計測されるものであってもよい。

先ず、ユーザの発話音声を検知するための各発話検知レベルにおいて閾値として用いる値を、音声データ出力部１１０７における音声データの出力状況、および、モーションデータ出力部１１１０におけるモーションデータの出力状況に応じて、閾値記憶部１２２に記憶される閾値テーブルにオペレータは予め記憶させておく。

例えば、モーションデータ出力部１１１０と音声データ出力部１１０７の両方においてデータが出力されていない状況に対しては、上記閾値として用いる値として、第１の値（待機レベル）を上記閾値テーブルに記憶させておく。また、モーションデータ出力部１１１０においてモーションデータが出力されておらず、音声データ出力部１１０７において音声データが出力されている状況に対しては、上記閾値として用いる値として、上記第１の値より高く、かつ、音声データ出力部１１０７において出力される音声データに基づきスピーカ１４において出力される音声の音圧レベルよりも高い第２の値（発話実行中レベル）を、上記閾値テーブルに記憶させておく。さらに、モーションデータ出力部１１１０においてモーションデータが出力されている状況に対しては、上記閾値として用いる値として、上記第１および第２の値より高く、かつ、モーションデータ出力部１１１０において出力されるモーションデータに基づきサーボモータ１５等が動作することにより発生するノイズの音圧レベルより高い第３の値（モーション実行中レベル）を、上記閾値テーブルに記憶させておく。

ステップＳ１からステップＳ５では、ユーザの発話音声の検知処理に先立ち、上記閾値テーブルを利用して、ユーザの発話音声を検知するための閾値が設定される。

最初に、ステップＳ１において、制御ユニット１１は、閾値設定部１１１１の制御の下、モーションデータ出力部１１１０においてモーションデータが出力されているか否か、すなわち、音声対話装置１がモーション実行中であるか否かを判定する。

音声対話装置１がモーション実行中であると判定された場合には、すなわち、モーションデータ出力部１１１０においてモーションデータが出力されている期間では、ステップＳ２において、制御ユニット１１は、閾値設定部１１１１の制御の下、閾値記憶部１２２に記憶される閾値テーブルを参照し、上記閾値として用いる値として、当該モーション実行中の判定結果に応じた上記第３の値を選択し、当該選択された第３の値を上記閾値として閾値記憶部１２２に記憶させる。これにより、ユーザ発話検知部１１０２においてユーザの発話を検知するための閾値として、第３の値が設定されたことになる。すなわち、ユーザ発話検知レベルがモーション実行中レベルに設定される。

音声対話装置１がモーション実行中ではないと判定された場合には、すなわち、モーションデータ出力部１１１０においてモーションデータが出力されていない期間では、ステップＳ３において、制御ユニット１１は、閾値設定部１１１１の制御の下、音声データ出力部１１０７において音声データが出力されているか否か、すなわち、音声対話装置１が発話中であるか否かを判定する。

音声対話装置１が発話中であると判定された場合には、すなわち、音声データ出力部１１０７において音声データが出力されている期間では、ステップＳ４において、制御ユニット１１は、閾値設定部１１１１の制御の下、閾値記憶部１２２に記憶される閾値テーブルを参照し、上記閾値として用いる値として、当該発話中の判定結果に応じた上記第２の値を選択し、当該選択された第２の値を上記閾値として閾値記憶部１２２に記憶させる。これにより、ユーザ発話検知部１１０２においてユーザの発話を検知するための閾値として、第２の値が設定されたことになる。すなわち、ユーザ発話検知レベルが発話実行中レベルに設定される。

音声対話装置１が発話中でもないと判定された場合には、すなわち、モーションデータ出力部１１１０と音声データ出力部１１０７の両方においてデータが出力されていない期間（出力期間外）では、ステップＳ５において、制御ユニット１１は、閾値設定部１１１１の制御の下、閾値記憶部１２２に記憶される閾値テーブルを参照し、上記閾値として用いる値として、当該判定の結果に応じた上記第１の値を選択し、当該選択された第１の値を上記閾値として閾値記憶部１２２に記憶させる。これにより、ユーザ発話検知部１１０２においてユーザの発話を検知するための閾値として、第１の値が設定されたことになる。すなわち、ユーザ発話検知レベルが待機レベルに設定される。

ステップＳ６およびステップＳ７では、上述のように設定されたユーザ発話検知レベルでユーザ発話検知処理が実行される。

ステップＳ６において、制御ユニット１１は、音声データ取得部１１０１の制御の下、マイク１３を介して入力されたユーザの発話音声を含む音声をデジタルデータに変換し、変換後の音声データを音声データ記憶部１２１に記憶させる。

ステップＳ７において、制御ユニット１１は、ユーザ発話検知部１１０２の制御の下、音声データ記憶部１２１に記憶される音声データと、閾値記憶部１２２に記憶される、ステップＳ１からステップＳ５において設定された閾値とを読み出す。その後、制御ユニット１１は、ユーザ発話検知部１１０２の制御の下、読み出された音声データから音圧レベルを計測し、読み出された閾値より当該計測された音圧レベルが高い場合に、当該音声データをユーザの発話音声として検知する。

音声データがユーザの発話音声として検知された際には、以下のような処理を実行することができる。

例えば、音声対話装置１がモーション実行中あるいは発話中であると判定されていた場合には、制御ユニット１１は、音声・モーション中断部１１０３の制御の下、音声データ出力部１１０７における音声データの出力処理、および、モーションデータ出力部１１１０におけるモーションデータの出力処理を、中断させることができる。

あるいは、音声データがユーザの発話音声として検知されたことを契機として、ユーザの発話音声として検知された音声データの認識処理を実行し、発話したユーザに対して応答をするようにしてもよい。

例えば、制御ユニット１１は、音声認識部１１０４、応答内容生成部１１０５、および音声合成部１１０６の制御の下、応答音声データを合成し、音声データ出力部１１０７の制御の下、応答音声データをスピーカ１４に出力する。これにより、スピーカ１４において、出力された応答音声データに基づき音声が出力され、発話したユーザとの音声対話がなされる。

また、上記のように応答音声データが出力されるようにする代わりに、あるいは応答音声データが出力されるようにするのに加えて、ジェスチャ提示されるようにしてもよい。この場合、制御ユニット１１は、音声認識部１１０４、応答内容生成部１１０５、およびモーションデータ生成部１１０９の制御の下、モーションデータを生成し、モーションデータ出力部１１１０の制御の下、モーションデータをサーボモータ１５に出力する。これにより、出力されたモーションデータに基づきサーボモータ１５等が動作して、音声対話装置１がユーザに対しジェスチャを提示することとなる。

（効果）
以上詳述したように、この発明の第１の実施形態では、以下のような効果が奏せられる。

（１）音声データ出力部１１０７において出力される音声データに基づきスピーカ１４において出力される音声の音圧レベルよりも、モーションデータ出力部１１１０において出力されるモーションデータに基づきサーボモータ１５等が動作することにより発生するノイズの音圧レベルの方が高い場合において、ユーザに対し音声を出力するための音声データの出力状況、および、ユーザに対しジェスチャを提示するためのモーションデータの出力状況に応じて、ユーザの発話音声を検知するための閾値として用いる値が、閾値記憶部１２２に記憶される閾値テーブルに記憶される。

例えば、モーションデータ出力部１１１０と音声データ出力部１１０７の両方においてデータが出力されていない状況に対しては、待機レベルである第１の値が記憶される。一方、モーションデータ出力部１１１０においてモーションデータが出力されておらず、音声データ出力部１１０７において音声データが出力されている状況に対しては、第１の値より高く、かつ、音声データ出力部１１０７において出力される音声データに基づきスピーカ１４において出力される音声の音圧レベルよりも高い第２の値が記憶される。また、モーションデータ出力部１１１０においてモーションデータが出力されている状況に対しては、上記第１および第２の値より高く、かつ、モーションデータ出力部１１１０において出力されるモーションデータに基づきサーボモータ１５等が動作することにより発生するノイズの音圧レベルより高い第３の値が記憶される。

例えば、音声を発している最中の対象に話しかける際には、一般的にユーザは通常よりも大きな声で発話する傾向がある。また、身振り手振り等のジェスチャを提示している最中の対象に話しかける際には、一般的にユーザはさらに大きな声で発話する傾向がある。したがって、音声データ出力部１１０７およびモーションデータ出力部１１１０においてデータが出力され、これに起因して音声が発生されたりジェスチャが提示されたりする期間中には、ユーザの発話音声を検知するための閾値として、上述したような待機レベルの値より高い値を使用することにより、取得される音声データにおいて、上記発生される音声やノイズをフィルタ等を用いて分離する必要なくユーザの発話音声を検知することができる。閾値として、上述したように定義した第２の値や第３の値を設定することにより、出力される音声データに起因して発生される音声、および、出力されるモーションデータに起因して発生されるノイズを、ユーザの発話音声として誤検知することなく、ユーザの発話音声を検知することができる。また、音声やノイズの分離処理を併用する場合には、当該分離処理による負荷が低減されることになる。

（２）取得された音声データがユーザの発話音声として検知された際に、音声対話装置１がモーション実行中あるいは発話中であると判定されていた場合には、音声・モーション中断部１１０３の制御の下、音声データ出力部１１０７における音声データの出力処理、および、モーションデータ出力部１１１０におけるモーションデータの出力処理が中断される。

このため、例えば、出力されるデータに起因する音声やノイズの発生を停止させることができ、ユーザの発話を容易に検知および認識することができるようになる。

［他の実施形態］
なお、この発明は上記第１の実施形態に限定されるものではない。
例えば、上記第１の実施形態では、モーションデータ出力部におけるデータの出力中には、ユーザの発話を検知するための閾値として第３の値が設定される場合を例にとって説明した。しかしながら、出力されるモーションデータの種類に応じて、異なる値の閾値が設定されるようにしてもよい。例えば、出力されるモーションデータが、身振り手振りによるジェスチャを提示するための第１の種類のデータと、相槌または首を傾けるジェスチャを提示するための第２の種類のデータとを有する場合に、より会話を円滑に進めるためのジェスチャに対応する第１の種類のデータが出力されるときには、上記閾値を、会話に必要な最低限のジェスチャに対応する第２の種類のデータが出力されるときより高い値に設定するようにしてもよい。

一般的に、モーションデータの種類に応じて装置は異なるモーションを実行するものであり、それゆえ、上記のように出力されるモーションデータの種類が異なると、モーションデータに起因して発生されるノイズも異なるものとなる。例えば、上述したような相槌や首を傾けるジェスチャは、身振り手振りによるジェスチャよりもサーボモータの速度や移動量が小さい場合が多い。したがって、閾値を、出力されるモーションデータの種類に応じたものにすることによって、例えば、閾値をそれぞれ、出力されているモーションデータに起因して発生されるノイズがユーザの発話音声として誤検知されない最大限度の値に設定することができる。

さらに、音声データ出力部およびモーションデータ出力部においてデータが出力される期間外においても、ユーザ発話検知部において検知される音圧レベルに応じて、上記閾値の値を変更するようにしてもよい。

また、スピーカとマイクの物理的な配置やエコーキャンセル機能の性能、サーボモータ等のノイズの大きさおよびノイズキャンセラの有無等によって、音声データ出力部において出力される音声データに起因して発生される音声の音圧レベルや、モーションデータ出力部において出力されるモーションデータに起因して発生されるノイズの音圧レベルは変化する。したがって、閾値テーブルにおいて定義される閾値に用いられる各値の大小関係は、各音圧レベルを実際に計測した上で、適宜変更してもよい。

さらに、例えば、上記第１の実施形態では、ユーザの発話音声に対して応答を返す音声対話装置において、上記で詳細に説明したようなユーザ発話検知処理を実現する場合について説明した。しかしながら、上記で詳細に説明したようなユーザ発話検知処理を他の装置において実現してもよい。例えば、固定の音声を発したりジェスチャを提示し、これに対しユーザが発話した応答メッセージを入力し集計するような広告装置やアンケート装置において、上記で詳細に説明したようなユーザ発話検知処理を実現してもよい。

その他、音声処理装置の種類とその構成、ならびに、閾値テーブルの構成等についても、この発明の要旨を逸脱しない範囲で種々変形して実施可能である。

要するにこの発明は、上記第１の実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記第１の実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、上記第１の実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態に亘る構成要素を適宜組み合せてもよい。

１…音声対話装置、１１…制御ユニット、１１０１…音声データ取得部、１１０２…ユーザ発話検知部、１１０３…音声・モーション中断部、１１０４…音声認識部、１１０５…応答内容生成部、１１０６…音声合成部、１１０７…音声データ出力部、１１０８…エコーキャンセル部、１１０９…モーションデータ生成部、１１１０…モーションデータ出力部、１１１１…閾値設定部、１２…記憶ユニット、１２１…音声データ記憶部、１２２…閾値記憶部、１２３…発話テキストデータ記憶部、１２４…応答テキストデータ記憶部、１２５…応答音声データ記憶部、１２６…モーションデータ記憶部、１３…マイク、１４…スピーカ、１５…サーボモータ、１６，１７，１８…可動部

Claims

ユーザの発話音声に対応する第１の音声データを取得する音声データ取得部と、
前記取得された第１の音声データから前記発話音声の音圧レベルを計測し、当該計測された音圧レベルが閾値より高い場合に、前記第１の音声データを前記ユーザの発話音声として検知する発話検知部と、
前記ユーザに対し音声を出力するための第２の音声データおよび前記ユーザに対しジェスチャを提示するためのモーションデータを出力するデータ出力部と、
前記閾値を可変設定する閾値設定部と
を備え、
前記閾値設定部は、
前記第２の音声データと前記モーションデータとのうちのいずれが出力されているかを判定し、
前記第２の音声データおよび前記モーションデータがいずれも出力されていない期間中には、前記閾値を第１の値に設定し、
前記第２の音声データが出力されている期間中には、前記閾値を、前記第１の値より高くかつ前記第２の音声データに基づいて前記ユーザに対し出力される前記音声の音圧レベルより高い第２の値に設定し、
前記モーションデータに基づいて前記ユーザに対しジェスチャが提示されている期間中には、前記閾値を、前記第１および第２の値より高くかつ前記ジェスチャの提示により発生するノイズの音圧レベルより高い第３の値に設定し、
さらに前記閾値設定部は、前記出力されるモーションデータが、前記ユーザの発話に対する応答テキストデータに対応するジェスチャを提示するための第１の種類のモーションデータと、前記ユーザの発話状況に応じて提示するジェスチャに対応する第２の種類のモーションデータとを有する場合に、前記第１の種類のモーションデータが出力されるときには、前記第３の値を、前記第２の種類のモーションデータが出力されるときより高い値に設定する
音声処理装置。
前記第１の種類のモーションデータは身振り手振りによるジェスチャを提示するためのデータであり、前記第２の種類のモーションデータは相槌または首を傾けるジェスチャを提示するためのデータである、請求項１に記載の音声処理装置。
前記第２の種類のモーションデータにより提示される前記相槌または首を傾けるジェスチャは、前記第１の種類のモーションデータにより提示される前記身振り手振りによるジェスチャよりも、サーボモータの速度または移動量が小さい、請求項２に記載の音声処理装置。
コンピュータおよびメモリを備える装置が実行する音声処理方法であって、
ユーザの発話音声を検知するための閾値を可変設定する過程と、
前記ユーザの発話音声に対応する第１の音声データを取得する過程と、
前記取得された第１の音声データから前記発話音声の音圧レベルを計測し、当該計測された音圧レベルが前記閾値より高い場合に、前記第１の音声データを前記ユーザの発話音声として検知する過程と
を備え、
前記閾値を可変設定する過程は、
前記ユーザに対し音声を出力するための第２の音声データと前記ユーザに対しジェスチャを提示するためのモーションデータとのうちのいずれが出力されているかを判定し、
前記第２の音声データおよび前記モーションデータがいずれも出力されていない期間中には、前記閾値を第１の値に設定し、
前記第２の音声データが出力される期間中には、前記閾値を、前記第１の値より高くかつ前記第２の音声データに基づいて前記ユーザに対し出力される音声の音圧レベルより高い第２の値に設定し、
前記モーションデータに基づいて前記ユーザに対しジェスチャが提示されている期間中には、前記閾値を、前記第１および第２の値より高くかつ前記ジェスチャの提示により発生するノイズの音圧レベルより高い第３の値に設定し、
さらに前記閾値を可変設定する過程は、前記出力されるモーションデータが、前記ユーザの発話に対する応答テキストデータに対応するジェスチャを提示するための第１の種類のモーションデータと、前記ユーザの発話状況に応じて提示するジェスチャに対応する第２の種類のモーションデータとを有する場合に、前記第１の種類のモーションデータが出力されるときには、前記第３の値を、前記第２の種類のモーションデータが出力されるときより高い値に設定する
音声処理方法。
請求項１乃至３のいずれかに記載の音声処理装置が備える各部としてコンピュータを機能させるプログラム。