JP6768613B2 - 音声処理装置、方法およびプログラム - Google Patents

音声処理装置、方法およびプログラム Download PDF

Info

Publication number
JP6768613B2
JP6768613B2 JP2017176615A JP2017176615A JP6768613B2 JP 6768613 B2 JP6768613 B2 JP 6768613B2 JP 2017176615 A JP2017176615 A JP 2017176615A JP 2017176615 A JP2017176615 A JP 2017176615A JP 6768613 B2 JP6768613 B2 JP 6768613B2
Authority
JP
Japan
Prior art keywords
voice
data
user
output
motion data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017176615A
Other languages
English (en)
Other versions
JP2019053156A (ja
Inventor
成宗 松村
成宗 松村
純史 布引
純史 布引
細淵 貴司
貴司 細淵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2017176615A priority Critical patent/JP6768613B2/ja
Publication of JP2019053156A publication Critical patent/JP2019053156A/ja
Application granted granted Critical
Publication of JP6768613B2 publication Critical patent/JP6768613B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • User Interface Of Digital Computer (AREA)

Description

この発明は、ユーザの発話音声を検知する音声処理装置、方法およびプログラムに関する。
従来、音声対話機能を備えたロボットが様々開発されてきた。
音声対話では、ロボットの発話中にユーザが割込んで発話するバージインへの対応が重要である(例えば、非特許文献1を参照)。バージインへ対応するためには、ロボットが発話中にユーザが発話した事を検知する必要がある。
ロボットのマイクには、ユーザの発話音声以外にも、ロボットの発話音声が入り込むことがある。さらに、ロボットがユーザに対する応答としてジェスチャ提示するような場合には、ジェスチャ提示に伴い動作するサーボモータ等によるノイズが入り込むこともある。このようなロボットの発話音声やノイズが原因で、ユーザが発話してないにもかかわらず、ユーザが発話を開始したと誤検知されてしまう問題がある。
従来、この問題に対応する為に、ユーザ発話音声とロボット発話音声・ノイズとを分離するための研究が各種行われてきている(例えば、非特許文献2を参照)。
不特定話者音声自由対話システムTOSBURG―マルチモーダル応答と音声応答キャンセルの利用―,電子情報通信学会論文誌A Vol.J77-A No.2 pp.241-250 ロボットとの音声対話における発話の重なりを含む入力音の判別,情報処理学会 第75回全国大会講演論文集,2013(1),481-482 (2013-03-06)
ところが、信号処理により完全にユーザ発話音声とロボット発話音声・ノイズとを分離する事は非常に難しい。さらに、高度な信号処理を行うほど、処理に必要な演算能力が高くなる問題や、ユーザの発話を検知するために必要な時間が長くなるという問題がある。
この発明は上記事情に着目してなされたもので、その目的とするところは、取得された音声データから、装置により出力されるデータに起因して発生される音声やノイズを分離処理する必要なく、当該取得された音声データに基づいてユーザの発話音声を検知することができる音声処理装置、方法およびプログラムを提供することにある。
上記課題を解決するために、この発明の第1の態様は、音声処理装置において、ユーザの発話音声に対応する第1の音声データを取得する音声データ取得部と、前記取得された第1の音声データから前記発話音声の音圧レベルを計測し、当該計測された音圧レベルが閾値より高い場合に、前記第1の音声データを前記ユーザの発話音声として検知する発話検知部と、前記ユーザに対し音声を出力するための第2の音声データおよび前記ユーザに対しジェスチャを提示するためのモーションデータを出力するデータ出力部と、前記閾値を可変設定する閾値設定部を備える。そして、この閾値設定部により、前記第2の音声データと前記モーションデータとのうちのいずれが出力されているかを判定し、前記第2の音声データおよび前記モーションデータがいずれも出力されていない期間中には、前記閾値を第1の値に設定し、前記第2の音声データが出力されている期間中には、前記閾値を、前記第1の値より高くかつ前記第2の音声データに基づいて前記ユーザに対し出力される前記音声の音圧レベルより高い第2の値に設定し、前記モーションデータに基づいて前記ユーザに対しジェスチャが提示されている期間中には、前記閾値を、前記第1および第2の値より高くかつ前記ジェスチャの提示により発生するノイズの音圧レベルより高い第3の値に設定するようにし、さらに前記閾値設定部は、前記出力されるモーションデータが、前記ユーザの発話に対する応答テキストデータに対応するジェスチャを提示するための第1の種類のモーションデータと、前記ユーザの発話状況に応じて提示するジェスチャに対応する第2の種類のモーションデータとを有する場合に、前記第1の種類のモーションデータが出力されるときには、前記第3の値を、前記第2の種類のモーションデータが出力されるときより高い値に設定するようにしたものである。
この発明の第の態様は、前記第1の種類のモーションデータを身振り手振りによるジェスチャを提示するためのデータとし、前記第2の種類のモーションデータを相槌または首を傾けるジェスチャを提示するためのデータとしたものである。
この発明の第の態様は、前記第2の種類のモーションデータにより提示される前記相槌または首を傾けるジェスチャを、前記第1の種類のモーションデータにより提示される前記身振り手振りによるジェスチャよりも、サーボモータの速度または移動量が小さくなるようにしたものである。
この発明の第1の態様によれば、ユーザの発話音声に対応する第1の音声データが取得され、取得された第1の音声データから発話音声の音圧レベルが計測され、当該計測された音圧レベルが閾値より高い場合に、第1の音声データがユーザの発話音声として検知される。データ出力部によるデータの出力期間中には、上記閾値が、当該出力期間外より高い値に設定される。例えば、音声を発している最中の対象に話しかける際には、一般的にユーザは通常よりも大きな声で発話する傾向がある。また、身振り手振り等のジェスチャを提示している最中の対象に話しかける際には、一般的にユーザはさらに大きな声で発話する傾向がある。したがって、データ出力部によりデータが出力され、これに起因して音声が発生されたりジェスチャが提示されたりする期間中には、上述したように高く設定された閾値に基づいて、取得される音声データにおいて、上記発生される音声やノイズをフィルタ等を用いて分離する必要なくユーザの発話音声を検知することができる。また、音声やノイズの分離処理を併用する場合には、当該分離処理による負荷が低減されることになる。
さらに、モーションデータに基づいてユーザに対しジェスチャが提示されている期間中に設定される閾値が、ユーザに対し第2の音声データに基づく音声を出力している期間に設定される閾値より高くかつ上記ジェスチャの提示により発生するノイズの音圧レベルより高い値に設定される。すなわち、ユーザに対し音声が出力される期間より、ジェスチャが提示される期間の方が、閾値が高くなるように設定される。このため、出力される音声データに起因して発生される音声、および出力されるモーションデータに起因して発生されるノイズを、いずれもユーザの発話音声として誤検知することなく、ユーザの発話音声を検知することができる。
さらに、出力されるモーションデータが、身振り手振りによるジェスチャを提示するための第1の種類のデータと、相槌または首を傾けるジェスチャを提示するための第2の種類のデータとを有する場合に、第1の種類のデータが出力されるときには、上記閾値が、第2の種類のデータが出力されるときより高い値に設定される。このように、閾値を、出力されるモーションデータの種類に応じたものにすることによって、例えば、閾値をそれぞれ、出力されているモーションデータに起因して発生されるノイズがユーザの発話音声として誤検知されない最大限度の値に設定することができる。
すなわちこの発明の各態様によれば、取得された音声データから、装置により出力されるデータに起因して発生される音声やノイズを分離処理する必要なく、当該取得された音声データに基づいてユーザの発話音声を検知することができる音声処理装置、方法およびプログラムを提供することができる。
この発明の第1の実施形態に係る、ユーザとの音声対話を実現する音声対話装置の一例を示す図。 図1に示した音声対話装置の機能構成を示すブロック図。 図2に示した音声対話装置の制御ユニットによって実行されるユーザ発話検知処理の一例を示すフロー図。
以下、図面を参照してこの発明に係る実施形態を説明する。
[第1の実施形態]
(構成)
図1は、この発明の第1の実施形態に係る、ユーザとの音声対話を実現する音声対話装置の一例を示す図である。本実施形態では、音声処理装置の非限定的な例として音声対話装置1について説明する。
音声対話装置1は、マイク13を介して入力されたユーザの発話音声に応答して、スピーカ14を介して音声を返したり、可動部16を稼働させることにより相槌または首を傾けるジェスチャを提示したり、可動部17,18を稼働させることにより身振り手振りジェスチャを提示するものである。また、音声対話装置1は、スピーカ14を介して音声を発している最中や、可動部16,17,18を稼働させることによりジェスチャを提示している最中にも、ユーザの発話音声を検知することができる。
図2は、図1に示した音声対話装置1の機能構成を示すブロック図である。
音声対話装置1は、制御ユニット11と、記憶ユニット12と、マイク13と、スピーカ14と、サーボモータ15とを備えている。
マイク13は、ユーザの発話音声を制御ユニット11に入力する。
スピーカ14は、制御ユニット11から出力される音声データを再生する。
サーボモータ15は、制御ユニット11から出力されるモーションデータに基づき動作して、音声対話装置1にジェスチャを提示させる。
記憶ユニット12は、記憶媒体として例えばHDD(Hard Disc Drive)またはSSD(Solid State Drive)等の随時書き込みおよび読み出しが可能な不揮発メモリを使用したものであり、本実施形態を実現するために使用される記憶領域として、音声データ記憶部121と、閾値記憶部122と、発話テキストデータ記憶部123と、応答テキストデータ記憶部124と、応答音声データ記憶部125と、モーションデータ記憶部126とを備えている。
音声データ記憶部121は、マイク13を介して取得された音声に関して制御ユニット11によって生成された音声データを記憶させるために使用される。
閾値記憶部122は、ユーザの発話音声を検知するための閾値を記憶させるために使用される。また、閾値記憶部122は、音声対話装置1による、ユーザに対し音声を出力するための音声データの出力状況、および、ユーザに対しジェスチャを提示するためのモーションデータの出力状況に応じて、上記閾値として用いる値を定義する、閾値テーブルを記憶させるためにも使用される。
発話テキストデータ記憶部123は、音声データに基づく発話音声の認識の結果である発話テキストデータを記憶させるために使用される。
応答テキストデータ記憶部124は、発話したユーザへの応答文章に対応する応答テキストデータを記憶させるために使用される。
応答音声データ記憶部125は、応答テキストデータに対応する応答音声データを記憶させるために使用される。
モーションデータ記憶部126は、応答テキストデータに対応するモーションデータを記憶させるために使用される。例えば、応答テキストデータの内容に対して身振り手振りを提示して応じるためのモーションデータが記憶される。なお、モーションデータ記憶部126は、ユーザの発話状況に応じて提示すべきジェスチャに対応するモーションデータを記憶させるためにも使用される。例えば、ユーザの発話が停止するタイミングで相槌または首を傾けて応じるための、会話に必要な最低限のモーションデータが記憶される。
制御ユニット11は、音声処理装置を構成するものであり、CPU(Central Processing Unit)を含み、本実施形態における処理機能を実行するために、音声データ取得部1101と、ユーザ発話検知部1102と、音声・モーション中断部1103と、音声認識部1104と、応答内容生成部1105と、音声合成部1106と、音声データ出力部1107と、エコーキャンセル部1108と、モーションデータ生成部1109と、モーションデータ出力部1110と、閾値設定部1111とを備えている。これらの各部における処理機能はいずれも、図示しないプログラムメモリに格納されたプログラムを上記CPUに実行させることによって実現される。
音声データ取得部1101は、マイク13を介して入力されたユーザの発話音声を含む音声をデジタルデータに変換し、変換後の音声データを記憶ユニット12の音声データ記憶部121に記憶させる処理を実行する。
ユーザ発話検知部1102は、記憶ユニット12の音声データ記憶部121に記憶される音声データと、記憶ユニット12の閾値記憶部122に記憶される閾値とを読み出す処理を実行する。その後、ユーザ発話検知部1102は、読み出された音声データから音圧レベルを計測し、読み出された閾値より当該計測された音圧レベルが高い場合に、当該音声データをユーザの発話音声として検知する処理を実行する。これにより、ユーザの発話の開始や停止が検知される。
音声・モーション中断部1103は、ユーザの発話の開始が検知された際に、音声対話装置1のスピーカ14において音声データに基づき音声が出力されている場合や、サーボモータ15等がモーションデータに基づき動作している場合に、当該音声データの出力処理およびモーションデータの出力処理を中断させる処理を実行する。
音声認識部1104は、記憶ユニット12の音声データ記憶部121に記憶される音声データを読み出す処理を実行する。その後、音声認識部1104は、読み出された音声データから、ユーザの発話音声に対応する発話テキストデータを生成し、生成された発話テキストデータを記憶ユニット12の発話テキストデータ記憶部123に記憶させる処理を実行する。
応答内容生成部1105は、記憶ユニット12の発話テキストデータ記憶部123に記憶される発話テキストデータを読み出す処理を実行する。その後、応答内容生成部1105は、読み出された発話テキストデータに基づいて、発話したユーザへの応答文章に対応する応答テキストデータを生成し、生成された応答テキストデータを記憶ユニット12の応答テキストデータ記憶部124に記憶させる処理を実行する。
音声合成部1106は、記憶ユニット12の応答テキストデータ記憶部124に記憶される応答テキストデータを読み出し、読み出された応答テキストデータに対応する応答音声データを合成し、合成された応答音声データを記憶ユニット12の応答音声データ記憶部125に記憶させる処理を実行する。
音声データ出力部1107は、記憶ユニット12の応答音声データ記憶部125に記憶される応答音声データを読み出し、読み出された応答音声データをスピーカ14に出力する処理を実行する。その後、スピーカ14において、出力された応答音声データに基づき音声が出力され、発話したユーザとの音声対話がなされる。
エコーキャンセル部1108は、音声データ出力部1107からスピーカ14に出力される応答音声データに基づいて、スピーカ14において出力されマイク13に入力される音声が、音声データ取得部1101においてユーザの発話音声とともに取得されることを妨げるように、当該音声を打ち消す処理を実行する。
モーションデータ生成部1109は、記憶ユニット12の応答テキストデータ記憶部124に記憶される応答テキストデータを読み出す処理を実行する。その後、モーションデータ生成部1109は、読み出された応答テキストデータに基づいて、音声対話装置1がユーザに対し提示すべきジェスチャに対応するモーションデータを生成し、生成されたモーションデータを記憶ユニット12のモーションデータ記憶部126に記憶させる処理を実行する。また、モーションデータ生成部1109は、ユーザ発話検知部1102によって検知されるユーザの発話状況にも基づいて、音声対話装置1がユーザに対し提示すべきジェスチャに対応するモーションデータを生成し、生成されたモーションデータを記憶ユニット12のモーションデータ記憶部126に記憶させる処理を実行する。
モーションデータ出力部1110は、記憶ユニット12のモーションデータ記憶部126に記憶されるモーションデータを読み出し、読み出されたモーションデータをサーボモータ15に出力する処理を実行する。その後、出力されたモーションデータに基づきサーボモータ15等が動作して、音声対話装置1がユーザに対しジェスチャを提示することとなる。なお、モーションデータは、対応するジェスチャをユーザに対し提示するための、サーボモータ15への指示信号であってもよい。
閾値設定部1111は、音声データ出力部1107における音声データの出力状況、および、モーションデータ出力部1110におけるモーションデータの出力状況を、判定する処理を実行する。その後、閾値設定部1111は、記憶ユニット12の閾値記憶部122に記憶される閾値テーブルを参照し、当該判定の結果に応じて上記閾値として用いる値を選択し、当該選択された値を、ユーザの発話を検知するための上記閾値として、記憶ユニット12の閾値記憶部122に記憶させる処理を実行する。
(動作)
次に、以上のように構成された音声対話装置1の動作を説明する。
図3は、図2に示した音声対話装置1の制御ユニット11によって実行されるユーザ発話検知処理の一例を示すフロー図である。
一例として、以下に説明するフロー図では、音声データ出力部1107において出力される音声データに基づきスピーカ14において出力される音声の音圧レベルよりも、モーションデータ出力部1110において出力されるモーションデータに基づきサーボモータ15等が動作することにより発生するノイズの音圧レベルの方が高い場合について説明する。なお、当該音圧レベルは、ユーザ発話検知部1102において計測されるものであっても、あるいは、ユーザ発話検知部1102とは別に計測されるものであってもよい。
先ず、ユーザの発話音声を検知するための各発話検知レベルにおいて閾値として用いる値を、音声データ出力部1107における音声データの出力状況、および、モーションデータ出力部1110におけるモーションデータの出力状況に応じて、閾値記憶部122に記憶される閾値テーブルにオペレータは予め記憶させておく。
例えば、モーションデータ出力部1110と音声データ出力部1107の両方においてデータが出力されていない状況に対しては、上記閾値として用いる値として、第1の値(待機レベル)を上記閾値テーブルに記憶させておく。また、モーションデータ出力部1110においてモーションデータが出力されておらず、音声データ出力部1107において音声データが出力されている状況に対しては、上記閾値として用いる値として、上記第1の値より高く、かつ、音声データ出力部1107において出力される音声データに基づきスピーカ14において出力される音声の音圧レベルよりも高い第2の値(発話実行中レベル)を、上記閾値テーブルに記憶させておく。さらに、モーションデータ出力部1110においてモーションデータが出力されている状況に対しては、上記閾値として用いる値として、上記第1および第2の値より高く、かつ、モーションデータ出力部1110において出力されるモーションデータに基づきサーボモータ15等が動作することにより発生するノイズの音圧レベルより高い第3の値(モーション実行中レベル)を、上記閾値テーブルに記憶させておく。
ステップS1からステップS5では、ユーザの発話音声の検知処理に先立ち、上記閾値テーブルを利用して、ユーザの発話音声を検知するための閾値が設定される。
最初に、ステップS1において、制御ユニット11は、閾値設定部1111の制御の下、モーションデータ出力部1110においてモーションデータが出力されているか否か、すなわち、音声対話装置1がモーション実行中であるか否かを判定する。
音声対話装置1がモーション実行中であると判定された場合には、すなわち、モーションデータ出力部1110においてモーションデータが出力されている期間では、ステップS2において、制御ユニット11は、閾値設定部1111の制御の下、閾値記憶部122に記憶される閾値テーブルを参照し、上記閾値として用いる値として、当該モーション実行中の判定結果に応じた上記第3の値を選択し、当該選択された第3の値を上記閾値として閾値記憶部122に記憶させる。これにより、ユーザ発話検知部1102においてユーザの発話を検知するための閾値として、第3の値が設定されたことになる。すなわち、ユーザ発話検知レベルがモーション実行中レベルに設定される。
音声対話装置1がモーション実行中ではないと判定された場合には、すなわち、モーションデータ出力部1110においてモーションデータが出力されていない期間では、ステップS3において、制御ユニット11は、閾値設定部1111の制御の下、音声データ出力部1107において音声データが出力されているか否か、すなわち、音声対話装置1が発話中であるか否かを判定する。
音声対話装置1が発話中であると判定された場合には、すなわち、音声データ出力部1107において音声データが出力されている期間では、ステップS4において、制御ユニット11は、閾値設定部1111の制御の下、閾値記憶部122に記憶される閾値テーブルを参照し、上記閾値として用いる値として、当該発話中の判定結果に応じた上記第2の値を選択し、当該選択された第2の値を上記閾値として閾値記憶部122に記憶させる。これにより、ユーザ発話検知部1102においてユーザの発話を検知するための閾値として、第2の値が設定されたことになる。すなわち、ユーザ発話検知レベルが発話実行中レベルに設定される。
音声対話装置1が発話中でもないと判定された場合には、すなわち、モーションデータ出力部1110と音声データ出力部1107の両方においてデータが出力されていない期間(出力期間外)では、ステップS5において、制御ユニット11は、閾値設定部1111の制御の下、閾値記憶部122に記憶される閾値テーブルを参照し、上記閾値として用いる値として、当該判定の結果に応じた上記第1の値を選択し、当該選択された第1の値を上記閾値として閾値記憶部122に記憶させる。これにより、ユーザ発話検知部1102においてユーザの発話を検知するための閾値として、第1の値が設定されたことになる。すなわち、ユーザ発話検知レベルが待機レベルに設定される。
ステップS6およびステップS7では、上述のように設定されたユーザ発話検知レベルでユーザ発話検知処理が実行される。
ステップS6において、制御ユニット11は、音声データ取得部1101の制御の下、マイク13を介して入力されたユーザの発話音声を含む音声をデジタルデータに変換し、変換後の音声データを音声データ記憶部121に記憶させる。
ステップS7において、制御ユニット11は、ユーザ発話検知部1102の制御の下、音声データ記憶部121に記憶される音声データと、閾値記憶部122に記憶される、ステップS1からステップS5において設定された閾値とを読み出す。その後、制御ユニット11は、ユーザ発話検知部1102の制御の下、読み出された音声データから音圧レベルを計測し、読み出された閾値より当該計測された音圧レベルが高い場合に、当該音声データをユーザの発話音声として検知する。
音声データがユーザの発話音声として検知された際には、以下のような処理を実行することができる。
例えば、音声対話装置1がモーション実行中あるいは発話中であると判定されていた場合には、制御ユニット11は、音声・モーション中断部1103の制御の下、音声データ出力部1107における音声データの出力処理、および、モーションデータ出力部1110におけるモーションデータの出力処理を、中断させることができる。
あるいは、音声データがユーザの発話音声として検知されたことを契機として、ユーザの発話音声として検知された音声データの認識処理を実行し、発話したユーザに対して応答をするようにしてもよい。
例えば、制御ユニット11は、音声認識部1104、応答内容生成部1105、および音声合成部1106の制御の下、応答音声データを合成し、音声データ出力部1107の制御の下、応答音声データをスピーカ14に出力する。これにより、スピーカ14において、出力された応答音声データに基づき音声が出力され、発話したユーザとの音声対話がなされる。
また、上記のように応答音声データが出力されるようにする代わりに、あるいは応答音声データが出力されるようにするのに加えて、ジェスチャ提示されるようにしてもよい。この場合、制御ユニット11は、音声認識部1104、応答内容生成部1105、およびモーションデータ生成部1109の制御の下、モーションデータを生成し、モーションデータ出力部1110の制御の下、モーションデータをサーボモータ15に出力する。これにより、出力されたモーションデータに基づきサーボモータ15等が動作して、音声対話装置1がユーザに対しジェスチャを提示することとなる。
(効果)
以上詳述したように、この発明の第1の実施形態では、以下のような効果が奏せられる。
(1)音声データ出力部1107において出力される音声データに基づきスピーカ14において出力される音声の音圧レベルよりも、モーションデータ出力部1110において出力されるモーションデータに基づきサーボモータ15等が動作することにより発生するノイズの音圧レベルの方が高い場合において、ユーザに対し音声を出力するための音声データの出力状況、および、ユーザに対しジェスチャを提示するためのモーションデータの出力状況に応じて、ユーザの発話音声を検知するための閾値として用いる値が、閾値記憶部122に記憶される閾値テーブルに記憶される。
例えば、モーションデータ出力部1110と音声データ出力部1107の両方においてデータが出力されていない状況に対しては、待機レベルである第1の値が記憶される。一方、モーションデータ出力部1110においてモーションデータが出力されておらず、音声データ出力部1107において音声データが出力されている状況に対しては、第1の値より高く、かつ、音声データ出力部1107において出力される音声データに基づきスピーカ14において出力される音声の音圧レベルよりも高い第2の値が記憶される。また、モーションデータ出力部1110においてモーションデータが出力されている状況に対しては、上記第1および第2の値より高く、かつ、モーションデータ出力部1110において出力されるモーションデータに基づきサーボモータ15等が動作することにより発生するノイズの音圧レベルより高い第3の値が記憶される。
例えば、音声を発している最中の対象に話しかける際には、一般的にユーザは通常よりも大きな声で発話する傾向がある。また、身振り手振り等のジェスチャを提示している最中の対象に話しかける際には、一般的にユーザはさらに大きな声で発話する傾向がある。したがって、音声データ出力部1107およびモーションデータ出力部1110においてデータが出力され、これに起因して音声が発生されたりジェスチャが提示されたりする期間中には、ユーザの発話音声を検知するための閾値として、上述したような待機レベルの値より高い値を使用することにより、取得される音声データにおいて、上記発生される音声やノイズをフィルタ等を用いて分離する必要なくユーザの発話音声を検知することができる。閾値として、上述したように定義した第2の値や第3の値を設定することにより、出力される音声データに起因して発生される音声、および、出力されるモーションデータに起因して発生されるノイズを、ユーザの発話音声として誤検知することなく、ユーザの発話音声を検知することができる。また、音声やノイズの分離処理を併用する場合には、当該分離処理による負荷が低減されることになる。
(2)取得された音声データがユーザの発話音声として検知された際に、音声対話装置1がモーション実行中あるいは発話中であると判定されていた場合には、音声・モーション中断部1103の制御の下、音声データ出力部1107における音声データの出力処理、および、モーションデータ出力部1110におけるモーションデータの出力処理が中断される。
このため、例えば、出力されるデータに起因する音声やノイズの発生を停止させることができ、ユーザの発話を容易に検知および認識することができるようになる。
[他の実施形態]
なお、この発明は上記第1の実施形態に限定されるものではない。
例えば、上記第1の実施形態では、モーションデータ出力部におけるデータの出力中には、ユーザの発話を検知するための閾値として第3の値が設定される場合を例にとって説明した。しかしながら、出力されるモーションデータの種類に応じて、異なる値の閾値が設定されるようにしてもよい。例えば、出力されるモーションデータが、身振り手振りによるジェスチャを提示するための第1の種類のデータと、相槌または首を傾けるジェスチャを提示するための第2の種類のデータとを有する場合に、より会話を円滑に進めるためのジェスチャに対応する第1の種類のデータが出力されるときには、上記閾値を、会話に必要な最低限のジェスチャに対応する第2の種類のデータが出力されるときより高い値に設定するようにしてもよい。
一般的に、モーションデータの種類に応じて装置は異なるモーションを実行するものであり、それゆえ、上記のように出力されるモーションデータの種類が異なると、モーションデータに起因して発生されるノイズも異なるものとなる。例えば、上述したような相槌や首を傾けるジェスチャは、身振り手振りによるジェスチャよりもサーボモータの速度や移動量が小さい場合が多い。したがって、閾値を、出力されるモーションデータの種類に応じたものにすることによって、例えば、閾値をそれぞれ、出力されているモーションデータに起因して発生されるノイズがユーザの発話音声として誤検知されない最大限度の値に設定することができる。
さらに、音声データ出力部およびモーションデータ出力部においてデータが出力される期間外においても、ユーザ発話検知部において検知される音圧レベルに応じて、上記閾値の値を変更するようにしてもよい。
また、スピーカとマイクの物理的な配置やエコーキャンセル機能の性能、サーボモータ等のノイズの大きさおよびノイズキャンセラの有無等によって、音声データ出力部において出力される音声データに起因して発生される音声の音圧レベルや、モーションデータ出力部において出力されるモーションデータに起因して発生されるノイズの音圧レベルは変化する。したがって、閾値テーブルにおいて定義される閾値に用いられる各値の大小関係は、各音圧レベルを実際に計測した上で、適宜変更してもよい。
さらに、例えば、上記第1の実施形態では、ユーザの発話音声に対して応答を返す音声対話装置において、上記で詳細に説明したようなユーザ発話検知処理を実現する場合について説明した。しかしながら、上記で詳細に説明したようなユーザ発話検知処理を他の装置において実現してもよい。例えば、固定の音声を発したりジェスチャを提示し、これに対しユーザが発話した応答メッセージを入力し集計するような広告装置やアンケート装置において、上記で詳細に説明したようなユーザ発話検知処理を実現してもよい。
その他、音声処理装置の種類とその構成、ならびに、閾値テーブルの構成等についても、この発明の要旨を逸脱しない範囲で種々変形して実施可能である。
要するにこの発明は、上記第1の実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記第1の実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、上記第1の実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態に亘る構成要素を適宜組み合せてもよい。
1…音声対話装置、11…制御ユニット、1101…音声データ取得部、1102…ユーザ発話検知部、1103…音声・モーション中断部、1104…音声認識部、1105…応答内容生成部、1106…音声合成部、1107…音声データ出力部、1108…エコーキャンセル部、1109…モーションデータ生成部、1110…モーションデータ出力部、1111…閾値設定部、12…記憶ユニット、121…音声データ記憶部、122…閾値記憶部、123…発話テキストデータ記憶部、124…応答テキストデータ記憶部、125…応答音声データ記憶部、126…モーションデータ記憶部、13…マイク、14…スピーカ、15…サーボモータ、16,17,18…可動部

Claims (5)

  1. ユーザの発話音声に対応する第1の音声データを取得する音声データ取得部と、
    前記取得された第1の音声データから前記発話音声の音圧レベルを計測し、当該計測された音圧レベルが閾値より高い場合に、前記第1の音声データを前記ユーザの発話音声として検知する発話検知部と、
    前記ユーザに対し音声を出力するための第2の音声データおよび前記ユーザに対しジェスチャを提示するためのモーションデータを出力するデータ出力部と、
    前記閾値を可変設定する閾値設定部と
    を備え、
    前記閾値設定部は、
    前記第2の音声データと前記モーションデータとのうちのいずれが出力されているかを判定し、
    前記第2の音声データおよび前記モーションデータがいずれも出力されていない期間中には、前記閾値を第1の値に設定し、
    前記第2の音声データが出力されている期間中には、前記閾値を、前記第1の値より高くかつ前記第2の音声データに基づいて前記ユーザに対し出力される前記音声の音圧レベルより高い第2の値に設定し、
    前記モーションデータに基づいて前記ユーザに対しジェスチャが提示されている期間中には、前記閾値を、前記第1および第2の値より高くかつ前記ジェスチャの提示により発生するノイズの音圧レベルより高い第3の値に設定し、
    さらに前記閾値設定部は、前記出力されるモーションデータが、前記ユーザの発話に対する応答テキストデータに対応するジェスチャを提示するための第1の種類のモーションデータと、前記ユーザの発話状況に応じて提示するジェスチャに対応する第2の種類のモーションデータとを有する場合に、前記第1の種類のモーションデータが出力されるときには、前記第3の値を、前記第2の種類のモーションデータが出力されるときより高い値に設定する
    音声処理装置。
  2. 前記第1の種類のモーションデータは身振り手振りによるジェスチャを提示するためのデータであり、前記第2の種類のモーションデータは相槌または首を傾けるジェスチャを提示するためのデータである、請求項に記載の音声処理装置。
  3. 前記第2の種類のモーションデータにより提示される前記相槌または首を傾けるジェスチャは、前記第1の種類のモーションデータにより提示される前記身振り手振りによるジェスチャよりも、サーボモータの速度または移動量が小さい、請求項に記載の音声処理装置。
  4. コンピュータおよびメモリを備える装置が実行する音声処理方法であって、
    ユーザの発話音声を検知するための閾値を可変設定する過程と、
    前記ユーザの発話音声に対応する第1の音声データを取得する過程と、
    前記取得された第1の音声データから前記発話音声の音圧レベルを計測し、当該計測された音圧レベルが前記閾値より高い場合に、前記第1の音声データを前記ユーザの発話音声として検知する過程と
    を備え、
    前記閾値を可変設定する過程は、
    前記ユーザに対し音声を出力するための第2の音声データと前記ユーザに対しジェスチャを提示するためのモーションデータとのうちのいずれが出力されているかを判定し、
    記第2の音声データおよび前記モーションデータがいずれも出力されていない期間中には、前記閾値を第1の値に設定し、
    前記第2の音声データが出力される期間中には、前記閾値を、前記第1の値より高くかつ前記第2の音声データに基づいて前記ユーザに対し出力される音声の音圧レベルより高い第2の値に設定し、
    前記モーションデータに基づいて前記ユーザに対しジェスチャが提示されている期間中には、前記閾値を、前記第1および第2の値より高くかつ前記ジェスチャの提示により発生するノイズの音圧レベルより高い第3の値に設定し、
    さらに前記閾値を可変設定する過程は、前記出力されるモーションデータが、前記ユーザの発話に対する応答テキストデータに対応するジェスチャを提示するための第1の種類のモーションデータと、前記ユーザの発話状況に応じて提示するジェスチャに対応する第2の種類のモーションデータとを有する場合に、前記第1の種類のモーションデータが出力されるときには、前記第3の値を、前記第2の種類のモーションデータが出力されるときより高い値に設定する
    音声処理方法。
  5. 請求項1乃至のいずれかに記載の音声処理装置が備える各部としてコンピュータを機能させるプログラム。
JP2017176615A 2017-09-14 2017-09-14 音声処理装置、方法およびプログラム Active JP6768613B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017176615A JP6768613B2 (ja) 2017-09-14 2017-09-14 音声処理装置、方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017176615A JP6768613B2 (ja) 2017-09-14 2017-09-14 音声処理装置、方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2019053156A JP2019053156A (ja) 2019-04-04
JP6768613B2 true JP6768613B2 (ja) 2020-10-14

Family

ID=66013757

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017176615A Active JP6768613B2 (ja) 2017-09-14 2017-09-14 音声処理装置、方法およびプログラム

Country Status (1)

Country Link
JP (1) JP6768613B2 (ja)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3398401B2 (ja) * 1992-03-16 2003-04-21 株式会社東芝 音声認識方法及び音声対話装置
JPH08146991A (ja) * 1994-11-17 1996-06-07 Canon Inc 情報処理装置及びその制御方法
JP4587009B2 (ja) * 2000-10-11 2010-11-24 ソニー株式会社 ロボット制御装置およびロボット制御方法、並びに記録媒体
JP4622384B2 (ja) * 2004-04-28 2011-02-02 日本電気株式会社 ロボット、ロボット制御装置、ロボットの制御方法およびロボットの制御用プログラム
JP2009109536A (ja) * 2007-10-26 2009-05-21 Panasonic Electric Works Co Ltd 音声認識システム及び音声認識装置

Also Published As

Publication number Publication date
JP2019053156A (ja) 2019-04-04

Similar Documents

Publication Publication Date Title
US10586534B1 (en) Voice-controlled device control using acoustic echo cancellation statistics
US9451362B2 (en) Adaptive beam forming devices, methods, and systems
JPWO2017145373A1 (ja) 音声認識装置
JP2013200423A (ja) 音声対話支援装置、方法、およびプログラム
JP2006201749A (ja) 音声による選択装置、及び選択方法
US10529331B2 (en) Suppressing key phrase detection in generated audio using self-trigger detector
JP2007010971A (ja) 音声認識方法及び音声認識装置
JP5638479B2 (ja) 書き起こし支援システムおよび書き起こし支援方法
JPWO2007138741A1 (ja) 音声入力システム、対話型ロボット、音声入力方法、および、音声入力プログラム
JP2008256802A (ja) 音声認識装置および音声認識方法
JP2006251545A (ja) 音声対話システム及びコンピュータプログラム
JPWO2019138651A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
JP6766675B2 (ja) 音声対話装置
JP2012163692A (ja) 音声信号処理システム、音声信号処理方法および音声信号処理方法プログラム
JP5375423B2 (ja) 音声認識システム、音声認識方法および音声認識プログラム
JP4491438B2 (ja) 音声対話装置、音声対話方法、およびプログラム
JP6768613B2 (ja) 音声処理装置、方法およびプログラム
WO2018135276A1 (ja) 言動制御装置、ロボット、制御プログラムおよび言動制御装置の制御方法
JP2019113636A (ja) 音声認識システム
JP2019132997A (ja) 音声処理装置、方法およびプログラム
JP5166470B2 (ja) 音声認識装置、及びコンテンツ再生装置
JP6772881B2 (ja) 音声対話装置
JP6748565B2 (ja) 音声対話システム及び音声対話方法
JP6723033B2 (ja) 情報処理装置、情報処理システム、サーバ、端末装置、情報処理方法及びプログラム
JP4143487B2 (ja) 時系列情報制御システム及びその方法並びに時系列情報制御プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190129

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191224

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200221

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200707

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200831

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200915

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200923

R150 Certificate of patent or registration of utility model

Ref document number: 6768613

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150