JP2006201749A

JP2006201749A - 音声による選択装置、及び選択方法

Info

Publication number: JP2006201749A
Application number: JP2005347641A
Authority: JP
Inventors: Kazuya Nomura; 和也野村
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2004-12-21
Filing date: 2005-12-01
Publication date: 2006-08-03
Also published as: EP1768103A4; CN1969315B; WO2006068123A1; EP1768103A1; US7698134B2; US20070219805A1; CN1969315A; EP1768103B1

Abstract

【課題】従来の音声認識方法では、選択項目を合成音声により出力している間は音声認識を行うことが困難であった。
【解決手段】選択項目をガイドするガイド音声を出力する出力手段１０１と、出力手段１０１よって出力されたガイド音声の出力中又はその出力終了後に一定時間内に発声された、選択項目を選択するための選択指示を認識する音声認識手段１０６と、音声認識手段１０６によって選択指示が認識された場合、選択指示された選択項目を選択する対話制御・結果選択手段１０７とを備えることにより、出力手段１０１によってガイド音声が出力されている間、その出力が終了し一定時間が経過するまでに選択項目を選択する音声を発することで、音声認識手段１０６によってその選択項目を選択することができ、ガイド音声の出力中でも選択項目を選択することができる。
【選択図】図１

Description

本発明は、システムによって提示された項目を音声により選択するための音声による選択装置、及び選択方法に関するものである。

従来、音声による選択装置として、制御対象を音声により特定した後に制御内容の選択項目を順次音声で出力し、選択するものが知られている（例えば、特許文献１参照）。

このものによれば、スイッチを制御して音声制御システムを動作可能な状態にし、この状態で制御対象となる機器の名称を発声することにより、その名称が認識され、その名称の機器の制御項目が順次音声合成によって発せられ、適当な制御項目が発せられた段階で「ＹＥＳ」と発することにより、その項目に合った制御を実行することができる。

また、パソコンの画面をプロジェクタを用いて大画面にして表示し、その画面を基に、その画面に表示された項目を発することによりその項目が強調表示され、実行ボタンを操作すると、その項目の詳細が表示され、その項目の詳細の監視、制御が可能になるというものも知られている（例えば、特許文献２参照）。
特開平３−２９３４００号公報特開平６−１４９５３４号公報

しかしながら、特許文献１、２に記載されたものでは、具体的にシステムが提示する選択項目と重なったユーザーの声を受理する方法を与えておらず、従って、通常の音声認識方法では選択項目を合成音声により出力中は音声認識させることが困難であると同時に、システムから提示される選択項目の出力方法も音声に限定され、例えば、音楽や画像などの選択を音声により直接行うことはできないという問題を有していた。

本発明は、このような従来の問題に対処してなされたものであり、選択項目を合成音声により出力中でも、音楽や画像、その他を選択項目とした場合でも音声認識させることができる音声による選択装置、および選択方法を提供するものである。

本発明の音声による選択装置は、選択項目をガイドするガイド音声を出力する出力手段と、出力手段よって出力されたガイド音声の出力中又はその出力終了後に一定時間内に発声された、選択項目を選択するための選択指示を認識する音声認識手段と、音声認識手段によって選択指示が認識された場合、選択指示された選択項目を選択する対話制御・結果選択手段とを備えた構成を有する。

この構成により、出力手段によってガイド音声が出力されている間、その出力が終了し一定時間が経過するまでに選択項目を選択する音声を発することで、音声認識手段によってその選択項目を選択することができ、ガイド音声の出力中でも選択項目を選択することができる。

また、本発明の音声による選択装置は、出力手段よって出力されたガイド音声の出力中又はその出力終了後に一定時間内に選択指示が発声されなかった場合、対話制御・結果選択手段が出力手段に選択項目の次の選択項目をガイドするガイド音声を出力するよう制御
する構成を有する。

この構成により、選択項目を選択する音声を発しない場合には、次々と一定時間後に次の選択項目をガイドするガイド音声が出力されることになり、好きな選択項目で任意に選択指示を発し、該当の選択項目を選択することができる。

また、本発明の音声による選択装置は、音声認識手段が、音声認識手段に入力される音声から出力手段よって出力されたガイド音声を減じる音声除去手段を備えた構成を有する。

この構成により、出力手段よって出力されたガイド音声が音声認識手段に入力され、音声認識手段による選択指示の音声認識に支障を与えるのを極力排除することができ、ガイド音声出力中でも正確に選択指示を認識することができる。

また、本発明の音声による選択装置は、ガイド音声に対応する楽曲の一部または全部を再生する楽曲再生手段をさらに備え、音声認識手段が、楽曲再生手段によって音楽を再生している間又はその後一定時間内に入力された選択指示を音声認識する構成を有する。

この構成により、ガイド音声に対応する楽曲の再生中、又は、その後一定時間内に選択項目を選択指示する音声を発するだけで、その楽曲を選択し、聴取することができる。

また、本発明の音声による選択装置は、ガイド音声に対応する画像を生成する画像生成手段をさらに備え、音声認識手段が、画像生成手段によって画像を生成している間又はその後一定時間内に入力された選択指示を音声認識する構成を有する。

この構成により、ガイド音声に対応する画像を生成し表示している間、又は、その後一定時間内に選択項目を選択指示する音声を発するだけで、その画像を選択し、例えば、静止画であれば、静止画をそのまま継続してみることができ、動画であれば、その動画を引続いて見ることができることになる。

さらに、本発明の音声による選択方法は、選択項目をガイドするガイド音声を出力する出力手順と、出力手順において出力されたガイド音声の出力中又はその出力終了後一定時間内に発声された、選択項目を選択するための選択指示を認識する音声認識手順と、音声認識手順によって選択指示が認識された場合、選択指示された選択項目を選択する対話制御・結果選択手順とを備えた構成を有する。

この構成により、出力手順においてガイド音声が出力されている間、その出力が終了し一定時間が経過するまでに選択項目を選択する音声を発することで、音声認識手順によってその選択項目を選択することができ、ガイド音声の出力中でも選択項目を選択することができる。

さらにまた、本発明の音声による選択装置は、選択項目をガイドするガイド音声を出力する出力手段と、出力手段よって出力されたガイド音声の出力中又はその出力終了後に一定時間を設定する入力待ち時間設定部と、入力待ち時間設定部によって設定された一定時間内に発声された、選択項目を選択するための選択指示を認識する音声認識手段と、音声認識手段によって選択指示が認識された場合、選択指示された選択項目を選択する対話制御・結果選択手段とを備えた構成を有する。

この構成により、出力手段によってガイド音声が出力されている間、その出力が終了し一定時間設けられた入力待ち時間が経過するまでに選択項目を選択する音声を発すること
で、音声認識手段によってその選択項目を選択することができ、ガイド音声の出力中でも選択項目をより確実に選択することができる。

本発明の音声による選択装置は、選択項目をガイドするガイド音声を出力する出力手段と、出力手段よって出力されたガイド音声の出力中又はその出力終了後一定時間内に発声された、選択項目を選択するための選択指示を認識する音声認識手段と、音声認識手段によって選択指示が認識された場合、選択指示された選択項目を選択する対話制御・結果選択手段とを備えたものであり、出力手段によってガイド音声が出力されている間、その出力が終了し一定時間が経過するまでに選択項目を選択する音声を発することで、その選択項目を選択することができ、ガイド音声の出力中でも選択項目を選択することができる。

また、本発明の音声による選択方法は、選択項目をガイドするガイド音声を出力する出力手順と、出力手順において出力されたガイド音声の出力中又はその出力終了後一定時間内に発声された、選択項目を選択するための選択指示を認識する音声認識手順と、音声認識手順によって選択指示が認識された場合、選択指示された選択項目を選択する対話制御・結果選択手順とを備えたものであり、出力手順においてガイド音声が出力されている間、その出力が終了し一定時間が経過するまでに選択項目を選択する音声を発することで、その選択項目を選択することができ、ガイド音声の出力中でも選択項目を選択することができる。

また、本発明の音声による選択装置は、選択項目をガイドするガイド音声を出力する出力手段と、出力手段よって出力されたガイド音声の出力中又はその出力終了後に一定時間を設定する入力待ち時間設定部と、入力待ち時間設定部によって設定された一定時間内に発声された、選択項目を選択するための選択指示を認識する音声認識手段と、音声認識手段によって選択指示が認識された場合、選択指示された選択項目を選択する対話制御・結果選択手段とを備えたものであり、出力手段によってガイド音声が出力されている間、その出力が終了し一定時間設けられた入力待ち時間が経過するまでに選択項目を選択する音声を発することで、音声認識手段によってその選択項目を選択することができ、ガイド音声の出力中でも選択項目をより確実に選択することができる。

以下、本発明の実施の形態について、図面を参照しながら説明する。

（実施の形態１）
図１は、本発明の実施の形態１における音声による選択装置の概略構成を示すブロック図である。

本発明の実施の形態１における音声による選択装置は、図１に示すように、ユーザーに対してガイドとなる音声や音声応答といったシステム側の音声を出力するスピーカ（音声出力部）１０１と、ユーザーが発した音声を音声信号に変換するマイクロホン１０２と、スピーカ１０１で出力されたガイド音に相当する出力相当信号を、マイクロホン１０２から出力された音声信号から除去するシステム音声除去部１０３と、マイクロホン１０２から出力され、システム音声除去部１０３によって重畳信号分を除去して得た音声信号に基づき、ユーザー音声の発話内容を認識する音声認識部１０６と、音声認識部１０６で得たユーザー音声の内容に基づき、対応する応答音声を選択してユーザーとの対話を制御すると同時に結果を選択する対話制御・結果選択部１０７と、応答音声データを記憶した応答音声データベース１０９と、対話制御・結果選択部１０７の出力に基づき、応答音声データベース１０９のデータを利用してスピーカ１０１や音声応答除去部１０３に出力するための音声応答信号を生成する応答生成部１０８とを備えている。

システム音声除去部１０３は、マイクロホン１０２から出力された音声信号と応答生成部１０８から出力された応答音声信号とに基づき、例えば、ＬＭＳ（ＬｅａｓｔＭｅａｎＳｑｕａｒｅ）／ニュートンアルゴリズムを利用して得たフィルタ係数（インパルス応答）を学習しながら最適に調整するフィルタ係数学習部１０４と、フィルタ係数学習部１０４からの出力であるインパルス応答により応答音声信号を補正して出力する適応フィルタ１０５と、マイクロホン１０２より出力された音声信号から適応フィルタ１０５より出力された出力信号を減算する減算器１１０とを有している。

音声認識部１０６は、マイクロホン１０２から出力され、システム音声除去部１０３で音声応答の相当重畳分を減算した音声信号を音響処理する音響処理部と、音響処理部で得た音声の最小単位を基に最もそれらしい音素候補を選びだし識別する音素識別部と、音声対話システムの利用目的に関連する単語等を記憶した辞書データベースと、音素認識部で得られた音素と辞書データベースからの音声データとを基にして単語の候補を選定し、構文、意味、文脈等の言語情報を利用しながら正しい文章を得るための言語処理を実行する言語処理部とを有している。

なお、音響処理部は、例えば、ＬＰＣケプストラム（ＬｉｎｅａｒＰｒｅｄｉｃｔｏｒＣｏｅｆｆｉｃｉｅｎｔＣｅｐｓｔｒｕｍ：線形予測係数化ケプストラム）等を利用して、マイクロホン１０２から出力された音声信号を特徴量ベクトルという時系列のベクトルに変換し、音声スペクトルの概形（スペクトル包絡）を推定するように構成している。

また、音素識別部は、例えば、ＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ：隠れマルコフモデル）法等を利用して、入力された音声を基に音響処理部で抽出した音響パラメータを用い、音声信号の音素記号化を行い、予め用意してある標準音素モデルと比較し、最もそれらしい音素の候補を選び出すように構成している。

一方、対話制御・結果選択部１０７は、音声認識部１０６で認識した音声信号の内容に基づき、応答内容を選択制御して応答生成部１０８へ出力すると同時に結果を選択出力するようにしてある。

応答生成部１０８は、対話制御・結果選択部１０７で決定した内容に基づき、応答音声データベース１０９からのデータを利用して応答音声信号を生成し、スピーカ１０１に出力する。

次に、本発明の実施の形態１における音声による選択装置の動作を図２、図３を用いて詳細に説明する。

なお、図２は、本発明の実施の形態１における音声による選択装置の動作を説明するフローチャート、図３は、タイムチャートである。

まず、選択開始動作に入ると、対話制御・結果選択部１０７の制御の基で、選択項目のカウンタＮが１にセットされる（ステップ２０１）。選択項目のカウンタＮが１にセットされると、次に、応答生成部１０８が対話制御・結果選択部１０７からの指令に基づき応答音声データベース１０９からガイド音声をスピーカ１０１へ出力する（ステップ２０２）。

例えば、図３のシステムのタイムチャートに示すように、「次の中からご希望の曲名を選んでください。」というようなガイド音声（３０１）をスピーカ１０１へ出力する。

ガイド音声がスピーカ１０１から出力されると、次に、ユーザーからの選択指示を音声認識できるように音声認識の起動を行う（ステップ２０３）。これにより、音声認識部１０６が、図３に示すように、起動する（３０２）。

音声認識部１０６が起動すると、次に、対話制御・結果選択部１０７の制御の基で、応答生成部１０８が応答音声データベース１０９をアクセスし、第１番目の選択項目に対応する音声データを出力する（ステップ２０４）。

すなわち、これにより、例えば、図３に示すように、「めだかの学校。」というガイド音声(３０３)をスピーカ１０１へ出力する。そして、「めだかの学校。」というガイド音声(３０３)が出力されている間３０８Ａと、その出力が終了した後の一定時間（入力待ち時間）３０８Ｂは、第１番目の選択項目である「めだかの学校」を選択できる時間３０８となる。したがって、この間３０８にユーザーが選択を指示する言葉、例えば、「これだ！」という言葉を発声すれば、「めだかの学校」を選択することができる。

「めだかの学校」を選択することができる期間３０８に、ユーザーが選択指示する言葉、例えば「これだ！」という言葉を発声しなかった場合には、選択項目のカウンタＮに１を加え、次の選択項目に対応するガイド音声を出力する状態になる。

すなわち、選択項目に対応する音声を出力すると（ステップ２０４）、その選択項目の提示中、または提示終了後一定時間内にユーザーが選択を指示する言葉を発声したかどうかの判定を対話制御・結果選択部１０７が実施する（ステップ２０５）。

ユーザーが選択指示した場合（ステップ２０５において「はい」の場合）には、そこで、例えば、「めだかの学校」が選択されるが、選択指示しなかった場合（ステップ２０５において「いいえ」の場合）には、選択項目のカウンタＮに１を加え（ステップ２０６）、次の選択項目に対応する音声、すなわち、第２番目の選択項目に対応するガイド音声を出力する状態になる（ステップ２０４）。

これにより応答生成部１０８が、応答音声データベース１０９をアクセスし、２番目のガイド音声である、例えば「てるてる坊主。」というガイド音声（３０４）をスピーカ１０１に出力する。

この場合も、「てるてる坊主。」というガイド音声(３０４)を出力している間３０９Ａと、その出力が終了した後の一定時間（入力待ち時間）３０９Ｂは、第２番目の選択項目である「てるてる坊主」を選択できる時間３０９となり、この期間３０９にユーザーが選択指示する言葉、例えば、「これだ！」という言葉を発声すれば、第２番目の選択項目である「てるてる坊主」を選択することができるようになる。

選択項目提示中、または、提示終了後一定時間内に、ユーザーが選択を指示する言葉、例えば「これだ！」という言葉を発声しなかった場合には、それが対話制御・結果選択部１０７で判定され（ステップ２０５）、その判定後、「いいえ」のパスに分岐し、先と同様に、選択項目のカウンタＮに１を加え（ステップ２０６）、次の第３番目の選択項目に対応するガイド音声を出力するようになる（ステップ２０４）。

そして、これにより応答生成部１０８が、応答音声データベース１０９をアクセスし、第３番目のガイド音声として、例えば「キラキラ星。」というガイド音声(３０５)をスピーカ１０１へ出力する。

第３番目のガイド音声「キラキラ星。」（３０５）が出力されている期間３１０Ａと、出力が終了した後の一定時間（入力待ち時間）３１０Ｂは、第３番目の選択項目である「キラキラ星」を選択できる時間３１０であり、この期間３１０にユーザーが選択指示する言葉、例えば「これだ！」という言葉を発声すれば、第３番目の選択項目である「キラキラ星」を選択できるようになる。

図３では、ユーザーが第３番目の選択項目である「キラキラ星」を選択指示するために、第３番目のガイド音声「キラキラ星。」(３０５)が出力されている間、または、その後一定期間の間に、それを選択するための音声、例えば「これだ！」という指示音声(３０６)を発声したものとしている。

ここで、ガイド音声「キラキラ星。」（３０５）を出力している間に、ユーザーが「これだ！」という指示音声（３０６）と発声すれば、ガイド音声「キラキラ星。」（３０５）と、「これだ！」（３０６）という指示音声が重なってマイクロホン１０２に入力されるが、音声応答除去部１０３にてガイド音声相当分の信号、すなわち、「キラキラ星。」（３０５）の音声相当分の信号がマイクロホン１０２に入力された信号から除去され、音声認識部１０６ではユーザーが発声した指示音声「これだ！」（３０６）を正しく認識することができる。

図２において、選択項目提示中、または提示終了後一定時間内に、ユーザーが選択指示する言葉、例えば「これだ！」と言う言葉を発声した場合には、それが音声認識部１０６で認識され、対話制御・結果選択部１０７で判定され（ステップ２０５）、「はい」のパスに分岐する。

「はい」のパスに分岐すると、音声認識を行ってその音声認識を終了し（ステップ２０７）、そのときの選択項目を選択し（ステップ２０８）、以降、選択された結果、例えば「キラキラ星」に基づいて、対話制御・結果選択部１０７が対話制御を行う。

なお、図示していないが、最後の選択項目が提示された段階で、一定時間経過しても選択指示する言葉がユーザーから発声せられない場合、スピーカ１０１からタイムアウトという警告を行い、音声認識を終了して選択を中止するように構成している。

以上のように、本発明の実施の形態１によれば、システムが音声による選択項目を提示している期間、または、提示終了後一定時間設けられた入力待ち時間内に、ユーザーが選択指示を行う言葉を発声した場合には、その選択指示する言葉を発した段階の選択項目を選択することができる。

（実施の形態２）
図４は、本発明の実施の形態２における音声による選択装置の概略構成を示すブロック図、図５は、同装置の動作を説明するフローチャート、図６は、同装置の動作を説明するタイムチャートである。

なお、図４〜図６において、図１〜図３に示した実施の形態１と同一の符号、番号などを付したものは、図１〜図３に示した実施の形態１と同一の構成、同一の内容のものを示しており、ここではその詳細な説明は省略する。

本実施の形態では、実施の形態１の構成に加え、更に、対話制御・結果選択部１０７の指令により制御される音楽再生部４１１と、音楽を複数蓄積した音楽データベース４１２とを備えている。

音楽再生部４１１は、対話制御・結果選択部１０７からの指示により音楽データベース４１２をアクセスし、対話制御・結果選択部１０７において指示した音楽を再生するように構成されている。そして、音楽再生部４１１で再生された音楽は、ミキサー４１３を介して応答生成部１０８からの出力と共にスピーカ１０１に出力するように構成されている。

したがって、本実施の形態によれば、図５、図６に示すように、選択項目となるガイド音声を出力するだけでなく、その選択項目に対応する音楽、そのものを同時に出力することになり、音楽を選択する場合により便利である。

すなわち、本実施の形態によれば、実施の形態１において、第Ｎ番目の選択項目に対応するガイド音声を出力するステップ２０４が、第Ｎ番目の選択項目に対応する音楽を出力するステップ５０４になっており、このステップ５０４において、第Ｎ番目の選択項目に対応するガイド音声と、第Ｎ番目の選択項目に対応する音楽の両方を順に出力すれば、先ず、曲名が出力され、続いて音楽が出力されるため、音楽を選択する場合に、より便利になる。

なお、ここで、選択のために出力する音楽は、音楽全部（ひとつの楽曲全体）でなくてもよく、例えば、イントロだけ、或いは、サビ部分だけで充分である。そして、選択のために出力する音楽が全部であってもイントロやサビの部分だけであっても、選択のために出力した音楽が選択された場合、音楽生成部４１１により、その音楽をそのまま継続して出力することもできるし、一旦音楽の最初に戻ってから出力することも可能である。

このように、本実施の形態によれば、音楽を選択項目として提示し、その間、または、提示終了後一定時間内にユーザーが選択指示する言葉を発声すれば、そのユーザーが希望した音楽を容易に選択することができる。

（実施の形態３）
図７は、本発明の実施の形態２における音声による選択装置の概略構成を示すブロック図、図８は、同装置の動作を説明するフローチャート、図９は、同装置の動作を説明するタイムチャートである。

なお、図７〜図９において、図１〜図３に示した実施の形態１と同一の符号、番号などを付したものは、図１〜図３に示した実施の形態１と同一の構成、同一の内容のものを示しているので、ここではその詳細な説明は省略する。

本実施の形態では、実施の形態１の構成に加え、更に、対話制御・結果選択部１０７の指令により制御される画像生成部７１１と、静止画、動画などの画像を複数蓄積した画像データベース７１２と、画像生成部７１１で生成された画像を表示するディスプレイ７００とを備えている。

画像生成部７１１は、対話制御・結果選択部１０７からの指示により画像データベース７１２をアクセスし、対話制御・結果選択部１０７において指示した静止画、動画などの画像データを出力し、画像を生成するように構成されている。そして、画像生成部７１１で生成された画像は、ディスプレイ７００で表示される。

したがって、本実施の形態によれば、図８、図９に示すように、選択項目となるガイド音声を出力するだけでなく、その選択項目に対応する画像をも同時にディスプレイ７００で表示することになり、選択項目を選択する場合により便利である。

すなわち、本実施の形態によれば、実施の形態１において、第Ｎ番目の選択項目に対応するガイド音声を出力するステップ２０４が、第Ｎ番目の選択項目に対応する画像を出力するステップ８０４になり、このステップ８０４において、第Ｎ番目の選択項目に対応するガイド音声と、第Ｎ番目の選択項目に対応する画像の両方を出力し、前者はスピーカ１０１から音声として、後者はディスプレイ７００で画像、又は、動画として表示される。そのため、これらを基に、選択項目をより容易に選択することができるようになる。

なお、選択のために出力する画像が動画である場合、その動画の全部でなくてもよく、例えば、最初の、あるいはサビの一定時間だけで充分である。そして、選択のために出力する画像が全部であっても一定時間だけであっても、選択のために出力した画像が選択された場合、画像生成部７１１により、その画像をそのまま継続して表示することもできるし、一旦動画の最初に戻ってから表示することも可能である。

このように、本実施の形態によれば、選択項目のガイド音声に加え、それに対応する画像をも選択項目として提示し、その提示の時間、または、提示終了後一定時間内にユーザーが選択指示する言葉を発声すれば、そのユーザーが希望した選択項目を選択できるようにしているため、例えば、絵画や映画といった画像そのものでも良いが、音楽の場合、ジャケットの画像を提示することによって、音楽をより選択しやすくすることができるという効果を有する。

（実施の形態４）
上記各実施の形態では、例えば図３に示す、選択のための時間３０８Ｂ、３０９Ｂ等を積極的に設ける構成は有していないが、この選択のための時間３０８Ｂ、３０９Ｂ等を設ける入力待ち時間設定部を有する音声による選択装置について図１０から図１２を用いて説明する。

この入力待ち時間設定部を備えることで、より確実に音声認識を行うことが出来る。

図１０は、本発明の実施の形態４における音声による選択装置の概略構成を示すブロック図、図１１は、同装置の動作を説明するフローチャート、図１２は、同装置の動作を説明するタイムチャートである。

図１０において、本実施の形態の基本的な構成は、上記実施の形態１記載の音声による選択装置の構成図と同様であるため、両者の相違点についてのみここでは説明し、その他の基本的な構成、動作については省略する。

本実施の形態の対話制御・結果選択部１００７と応答生成部１００８は、実施の形態１のそれらとは異なる機能を有しており、さらに本実施の形態では、対話制御・結果選択部１００７と応答生成部１００８とに接続される入力待ち時間設定部１０１１を有している。

実施の形態１と同様に、対話制御・結果選択部１００７の制御の下、音声認識部１０６が起動すると、応答生成部１００８が応答音声データベース１０９をアクセスし、選択項目に対応する音声データを出力する。

さらに、対話制御・結果選択部１００７では、選択項目に対応する音声データが出力され終わったか否かを判定する。

対話制御・結果選択部１００７の判定の結果、音声データが出力されたことが確認されたとき、ユーザーが応答するための期間を設定する入力待ち時間設定部１０１１により、
入力待ち時間が設定される。

応答生成部１００８では、この入力待ち時間の間、対話制御・結果選択部１００７により、その動作が禁止される。

次に、本実施の形態の音声による選択装置による動作について、図１１と図１２とを用いて説明するが、音声認識の起動まで（Ｓ２０１〜Ｓ２０３）は、実施の形態１の動作と同様であるので、ここでは省略する。

ステップＳ２０３で音声認識部１０６が起動すると、次に、対話制御・結果選択部１０７の制御の基で、応答生成部１０８が応答音声データベース１０９をアクセスし、第１番目の選択項目に対応する音声データを出力する（ステップ２０４）。

すなわち、これにより、例えば、図１２に示すように、「めだかの学校。」というガイド音声(３０３)をスピーカ１０１へ出力する。

次に、対話制御・結果選択部１００７は、「めだかの学校。」というガイド音声(３０３)の出力が終了したか否かの判定を行う。

判定の結果、ガイド音声(３０３)の出力が終了している場合は、入力待ち時間設定部１０１１は、対話制御・結果選択部１００７の制御の下、入力待ち時間１２０８Ｂを設定する（ステップ１１０９）
そして、「めだかの学校。」というガイド音声(３０３)が出力されている間３０８Ａと、その出力が終了した後の一定時間１２０８Ｂは、第１番目の選択項目である「めだかの学校」を選択できる時間１２０８となる。したがって、この間１２０８にユーザーが選択を指示する言葉、例えば、「これだ！」という言葉を発声すれば、「めだかの学校」を選択することができる。

対話制御・結果選択部１００７は、入力待ち時間設定部１０１１で設定された入力時間の間、応答生成部１００８により、次のガイド音声、または、誤作動によるガイド音声等が起きないように応答生成部１００８の動作を禁止する。

応答生成部１００８の動作を禁止するか否かは、入力待ち時間設定部１０１１で設定された時間が経過したか否かの判定により行う。

次に、「めだかの学校」を選択することができる期間１２０８に、ユーザーが選択指示する言葉、例えば「これだ！」という言葉を発声しなかった場合には、選択項目のカウンタＮに１を加え、次の選択項目に対応するガイド音声を出力する状態になる。

すなわち、ステップ２０４で選択項目に対応する音声を出力すると、その選択項目の提示中、または提示終了後、ステップＳ１１０９で設定された入力待ち時間の一定時間内にユーザーが選択を指示する言葉を発声したかどうかの判定を、対話制御・結果選択部１００７が行う（ステップ１１０５）。

次に、入力待ち時間中にユーザーが選択を指示する言葉を発声した場合（ステップ１１０５において「はい」の場合）には、そこで、例えば、「めだかの学校」が選択されるが、選択を指示する言葉を発声しなかった場合（ステップ１１０５において「いいえ」の場合）には、選択項目のカウンタＮに１を加え（ステップ１１０６）、次の選択項目に対応する音声、すなわち、第２番目の選択項目に対応するガイド音声を出力する状態になる（ステップ２０４）。

その後の処理は、実施の形態１の図２に示す動作と同様である。

以上より、本実施の形態では、入力待ち時間設定部１０１１を備えることで、ユーザーの応答を待つ、積極的な待ち時間を設定することができる。

このように積極的に待ち時間を設定することで、次のガイド音声等が誤って入力待ち時間中に出力されて、入力待ち時間を侵食するということなく、確実にユーザーの応答できる期間を必ず設けることができる。

本実施の形態の入力待ち時間設定部１０１１を備えた構成は、上記実施の形態２や実施の形態３の構成にも適用して、本実施の形態と同様の動作および効果が得られることは、言うまでもないことである。

なお、本発明は、上記各実施の形態を適宜組み合わせて、例えば、選択項目のガイド音声に加え、それに対応する画像及び楽曲をも選択項目として提示し、その提示の時間、または、提示終了後一定時間設けられた入力待ち時間内にユーザーが選択指示する言葉を発声することにより、そのユーザーが希望した選択項目を選択できるようにしても良い。

本発明にかかる音声による選択装置は，選択項目をガイドするガイド音声を出力する出力手段と、出力手段よって出力されたガイド音声の出力中又はその出力終了後設けられた入力待ち時間一定時間内に発声された、選択項目を選択するための選択指示を認識する音声認識手段と、音声認識手段によって選択指示が認識された場合、選択指示された選択項目を選択する対話制御・結果選択手段とを備えた構成を有し、カーオーディオ、カーエアコンなどの車載用電子機器や、電子黒板、プロジェクタなどの電子事務機器、体の不自由な方用の家庭用電子機器などとして幅広く有用である。

本発明の実施の形態１における音声による選択装置の概略構成を示すブロック図本発明の実施の形態１における音声による選択装置の動作を示すフローチャート本発明の実施の形態１における音声による選択装置の動作を示すタイムチャート本発明の実施の形態２における音声による選択装置の概略構成を示すブロック図本発明の実施の形態２における音声による選択装置の動作を示すフローチャート本発明の実施の形態２における音声による選択装置の動作を示すタイムチャート本発明の実施の形態３における音声による選択装置の概略構成を示すブロック図本発明の実施の形態３における音声による選択装置の動作を示すフローチャート本発明の実施の形態３における音声による選択装置の動作を示すタイムチャート本発明の実施の形態４における音声による選択装置の概略構成を示すブロック図本発明の実施の形態４における音声による選択装置の動作を示すフローチャート本発明の実施の形態４における音声による選択装置の動作を示すタイムチャート

符号の説明

１０１スピーカ
１０２マイクロホン
１０３システム音声除去部
１０４フィルタ係数学習部
１０５適応フィルタ部
１０６音声認識部
１０７，１００７対話制御・結果選択部
１０８，１００８応答生成部
１０９応答音声データベース
１１０減算器
４１１音楽再生部
４１２音楽データベース
４１３ミキサー部
７００ディスプレイ
７１１画像生成部
７１２画像・動画データベース
１０１１入力待ち時間設定部

Claims

選択項目をガイドするガイド音声を出力する出力手段と、前記出力手段よって出力された前記ガイド音声の出力中又はその出力終了後に一定時間内に発声された、前記選択項目を選択するための選択指示を認識する音声認識手段と、前記音声認識手段によって前記選択指示が認識された場合、前記選択指示された選択項目を選択する対話制御・結果選択手段とを備えた音声による選択装置。
前記出力手段よって出力された前記ガイド音声の出力中又はその出力終了後に一定時間内に選択指示が発声されなかった場合、前記対話制御・結果選択手段が前記出力手段に前記選択項目の次の選択項目をガイドするガイド音声を出力するよう制御することを特徴とする請求項１記載の音声による選択装置。
前記音声認識手段が、前記音声認識手段に入力される音声から前記出力手段よって出力された前記ガイド音声を減じる音声除去手段を備えた請求項１または２に記載の音声による選択装置。
前記ガイド音声に対応する楽曲の一部または全部を再生する楽曲再生手段をさらに備え、前記音声認識手段が、前記楽曲再生手段によって前記楽曲を再生している間又は再生終了後に一定時間内に入力された選択指示を音声認識することを特徴とする請求項１から３までのうちのいずれかに記載の音声による選択装置。
前記ガイド音声に対応する画像を生成する画像生成手段をさらに備え、前記音声認識手段が、前記画像生成手段によって前記画像を生成している間又は生成後に一定時間内に入力された選択指示を音声認識することを特徴とする請求項１から４までのうちのいずれかに記載の音声による選択装置。
選択項目をガイドするガイド音声を出力する出力手順と、前記出力手順において出力された前記ガイド音声の出力中又はその出力終了後に一定時間内に発声された、前記選択項目を選択するための選択指示を認識する音声認識手順と、前記音声認識手順によって前記選択指示が認識された場合、前記選択指示された選択項目を選択する対話制御・結果選択手順とを備えた音声による選択方法。
選択項目をガイドするガイド音声を出力する出力手段と、前記出力手段よって出力された前記ガイド音声の出力中又はその出力終了後に一定時間を設定する入力待ち時間設定部と、前記入力待ち時間設定部によって設定された前記一定時間内に発声された、前記選択項目を選択するための選択指示を認識する音声認識手段と、前記音声認識手段によって前記選択指示が認識された場合、前記選択指示された選択項目を選択する対話制御・結果選択手段とを備えた音声による選択装置。