JP2006251544A

JP2006251544A - 音声認識装置

Info

Publication number: JP2006251544A
Application number: JP2005069849A
Authority: JP
Inventors: Masaki Ashizawa; 正樹芦澤
Original assignee: Clarion Co Ltd
Current assignee: Faurecia Clarion Electronics Co Ltd
Priority date: 2005-03-11
Filing date: 2005-03-11
Publication date: 2006-09-21

Abstract

【課題】自動車のような走行中の車輌内において音声認識により車載機器を操作する場合に音声認識にたとえ失敗したとしても次にユーザの発声レベルを変化させること無しに音声認識を成功させることを可能とする。
【解決手段】車輌が停止している場合に、音声入力装置１から入力された音声信号のレベルが音声認識機能部４による音声認識が可能な入力レベルとなるような増幅率を初期値としてプログラマブルゲインアンプ２０に設定する。車輌が走行している場合に、音声入力装置１から入力された音声信号のレベルが過大（又は過小）である場合はプログラマブルゲインアンプ２０に設定されている増幅率を入力レベル記憶部５３が記憶している音声信号のレベルに基づいてより小（大）なる値に変更する。
【選択図】図１

Description

本発明は、音声認識により種々の機器を操作するための音声認識装置に関し、より具体的には音声認識のためにユーザが発声する音声レベルがバックグラウンドノイズ等の変動に伴なって変化した場合にも自動的に対応可能な音声認識装置に関する。

音声認識技術の進歩に伴なって種々の機器を音声入力によって操作することが可能になっている。ところで人間は一般的にはバックグラウンドノイズが大きい場合にはより大きな声（より大きな音声レベル）で、バックグラウンドノイズが小さい場合にはより小さな声（より小さな音声レベル）で話す傾向がある。従って、バックグラウンドノイズがあまり変動しない環境で使用される機器、たとえば家庭用の電子レンジ，マッサージ器等ではユーザが機器操作のために発声する音声のレベルもそれほど大きくは変化しないため、音声入力レベルを一定のままで使用したとしても問題が生じる可能性はほとんどあり得ないと考えられる。

しかし、車載用機器、具体的にはカーナビゲーションシステム、カーオーディオシステム等の機器を音声認識によって操作する場合には、車輌そのものの遮音特性、走行状態、窓の開閉状態、路面の状態、周囲の状況等に応じてバックグラウンドノイズが大きく変化する。従って、ユーザの発声のレベルのバックグラウンドノイズの変動に伴なって変動することになる。このような場合、音声認識装置へのユーザの音声入力のレベルも変動するため、ユーザの音声入力のレベルが過大になったり、または逆に過小になったりして音声認識が正常に行なえない可能性が生じる。

上述したような車載用機器は、安全性，利便性等の面から音声認識による操作が望ましく、更にカーナビゲーションシステム、カーオーディオシステムのみならず、将来的には電話機，インターネット端末装置等も車載用機器として一般的になることが予想される。更には車輌そのものの操作さえも音声認識により可能になることも予想されるが、その前段階としてたとえばライトのオン／オフ，ワイパー及びウィンカー等の操作が音声認識により操作可能になる可能性がある。

しかし前述したように、車載用機器においては、バックグラウンドノイズのランダムな変動に伴なってユーザの発声レベルも大きく変化し、またユーザ（運転者）が代わった場合には個々のユーザ固有の基本的な発声レベルも異なるという問題もある。

更に、上述のような車載機器に限らず、たとえばいわゆるヘッドフォンステレオ，携帯電話機，ノートタイプのパーソナルコンピュータ，ＰＤＡ等のような携帯機器も将来的には音声認識によって操作されるようになる可能性もある。しかしそのような携帯機器は現在においてもバックグラウンドノイズが大きく変化する状況で使用されているのが実情であるため、上述同様の問題が生じ得る可能性が大きい。

図４はカーナビゲーションシステム等の車載用機器のための従来の一般的な音声認識装置の構成例を示すブロック図である。音声入力装置（具体的にはマイクロフォン）１から入力された音声は前処理部２において前処理される。この前処理とは、音声入力装置１から入力されたアナログの音声信号を適宜のゲインで増幅し、不要な帯域（具体的には人間の音声帯域以外の帯域）を除去する処理である。これらの目的のために前処理部２には音声信号増幅器２１及び帯域制限フィルタ２２が備えられている。

前処理部２において前処理されたアナログの音声信号はアナログ−デジタル変換器（Ａ／Ｄ）３によってデジタル信号に変換されて音声認識機能部４に与えられる。音声認識機能部４はデジタル音声信号を解析して最終的にはキャラクタデータ（文字データ）として音声認識結果を出力する。この音声認識機能部４による音声認識結果は制御部５に入力される。なお、音声認識のための構成及び処理内容そのものは既に十分に実用化されており公知の技術である。

制御部５では音声認識機能部４から入力された音声認識結果が予め登録されている操作コマンドのいずれであるかを判定する。たとえば、音声認識結果が「もくてきちはのぐちひでよきねんかん（目的地は野口英世記念館）」であったとすると、制御部５は目的地を指定するコマンドであると判断し、目的地の指定であることを示すコマンド信号と、目的地として指定されていると考えられる「野口英世記念館」を表すキャラクタデータをカーナビゲーションシステムである車載用機器４０の制御部４１へ与える。

カーナビゲーションシステムである車載用機器４０の制御部４１は表示部４２にたとえば「目的地として野口英世記念館をサーチします」等のような表示を行なうと共に合成音声出力部４３において「もくてきちとしてのぐちひでよきねんかんをさーちします」という合成音声信号を生成し、音声出力部であるスピーカ４４から発声する。また同時に制御部４１は地図データ上で「野口英世記念館」をサーチする処理を開始する。但し、音声認識結果が操作コマンドとして登録されていない場合には、制御部５は操作コマンドが発声されたのではないと判断して何等の処理も行なわない。

ところで、音声認識機能部４が必ず音声認識に成功するとは限らない。その主たる原因としては、ユーザの発声レベルが過小である又は過大である場合が考えられる。このような原因により音声認識に失敗した場合には、音声認識装置１０の制御部５は「声が小さすぎる／大きすぎる」等のメッセージを表示部４２に表示したり、または合成音声によってスピーカ４４から報知する。

従って、「声が小さすぎる／大きすぎる」等のメッセージを受けたユーザ（運転者）はその後は音声認識が可能になるように発声レベルを調節する。具体的には、ユーザは意識的に声を大きくしたり逆に小さくしたりする必要が生じる。このことは、本来は簡便且つ容易であるはずの音声認識による操作コマンドの発声のために余分な注意力を注がなければならない状況が生じることになり、集中力を奪われてかえって危険な状況をもたらす虞がある。

また、「声が小さすぎるる」とのメッセージを受けたユーザは次には必要以上に大きな声を出したり、必要以上に音声入力装置（マイクロフォン１）に口を近付けたりすることになり、次には逆に「声が大きすぎる」とのメッセージを受け取ることにもなりかねない。このことは逆の場合にも当てはまることであり、この結果として音声認識機能そのものに疑問を抱くようになる可能性もあり、結果的に使い勝手が悪くなるという問題を生じる。

なお、特許文献１には、音声認識用マイクを使用して車内外の雑音を入力し、雑音検出手段によりその雑音レベルを検出し、ＣＰＵが、検出された雑音レベル量に比例して音声案内の音量を自動可変させると共に、車速センサからのパルス数により走行速度を求め、その走行速度からセンサ信号処理手段内の雑音量予測手段が車内外のノイズ量を予測し、ＣＰＵが、予測されたノイズ量の大小に比例して音声案内の音量を自動可変させる技術が開示されている。
特開２００２−９１４８８号公報

上述した特許文献１に開示されている技術は、車載機器（具体的にはカーナビゲーションシ装置）からの音声出力をユーザが聞き取れるようにするために音量調整する技術である。従って、前述したような問題点の解決には役立たない。

本発明は以上のような事情に鑑みてなされたものであり、自動車のような走行中の車輌内において音声認識により車載機器を操作する場合に音声認識にたとえ失敗したとしても次にユーザの発声レベルを変化させること無しに音声認識を成功させることを可能とした音声認識装置の提供を主たる目的とする。

また、本発明は上記のような車載機器のみならず、ユーザが携帯する機器においても上述同様に音声認識を成功させることを可能とした音声認識装置の提供を主たる目的とする。

本発明の第１の発明に係る音声認識装置は、音声を入力する音声入力手段と、該音声入力手段から入力された音声信号を増幅する増幅手段と、該増幅手段により増幅された音声信号を音声認識する音声認識手段とを備え、該音声認識手段による認識結果に従って、原動機により走行する車輌の車載機器を制御する音声認識装置において、車輌の走行状態を検出する走行状態検出手段と、該走行状態検出手段が車輌が停止していることを検出している場合に、前記音声入力手段から入力された音声信号のレベルが前記音声認識手段による音声認識が可能な入力レベルとなるような増幅率を初期値として前記増幅手段に設定する制御手段とを備えたことを特徴とする。

このような本発明の第１の発明に係る音声認識装置では、車輌が停止している場合に、音声入力手段から入力された音声信号のレベルが音声認識手段による音声認識が可能な入力レベルとなるような増幅率が初期値として増幅器に設定される。

また本発明の第２の発明に係る音声認識装置は、音声を入力する音声入力手段と、該音声入力手段から入力された音声信号を増幅する増幅手段と、該増幅手段により増幅された音声信号を音声認識する音声認識手段とを備え、該音声認識手段による認識結果に従って、原動機により走行する車輌の車載機器を制御する音声認識装置において、車輌の走行状態を検出する走行状態検出手段と、該走行状態検出手段が車輌が走行していることを検出している場合に、前記音声入力手段から入力された音声信号のレベルを記憶する記憶手段と、該記憶手段にレベルが記憶された音声信号を前記音声認識手段が音声認識に成功したか否かを判断する判断手段と、該判断手段が音声認識に失敗したと判断した場合に、前記音声認識手段により音声認識可能な音声信号のレベルよりも前記音声入力手段から入力された音声信号のレベルが小であるか又は大であるかを判断する音声信号のレベル判定手段と、前記走行状態検出手段が車輌が停止していることを検出している場合に、前記音声入力手段から入力された音声信号のレベルが前記音声認識手段による音声認識が可能な入力レベルとなるような増幅率を初期値として前記増幅手段に設定し、前記走行状態検出手段が車輌が走行していることを検出している場合に、前記レベル判定手段が前記音声入力手段から入力された音声信号のレベルが大であると判定した場合は前記増幅手段に設定されている増幅率を前記記憶手段が記憶している音声信号のレベルに基づいてより小なる値に、前記レベル判定手段が前記音声入力手段から入力された音声信号のレベルが小であると判定した場合は前記増幅手段に設定されている増幅率を前記記憶手段が記憶している音声信号のレベルに基づいてより大なる値に、それぞれ変更する制御手段とを備えたことを特徴とする。

このような本発明の第２の発明に係る音声認識装置では、車輌が停止している場合に、音声入力手段から入力された音声信号のレベルが音声認識手段による音声認識が可能な入力レベルとなるような増幅率が初期値として増幅器に設定される。また、車輌が走行している場合に、レベル判定手段が音声入力手段から入力された音声信号のレベルが大であると判定した場合は増幅手段に設定されている増幅率が記憶手段が記憶している音声信号のレベルに基づいてより小なる値に、レベル判定手段が音声入力手段から入力された音声信号のレベルが小であると判定した場合は増幅手段に設定されている増幅率が記憶手段が記憶している音声信号のレベルに基づいてより大なる値に、それぞれ変更される。

また本発明の第３の発明に係る音声認識装置は上記の第１又は第２の発明の音声認識装置において、前記制御手段は、前記増幅手段の増幅率を変更した時点から所定時間経過後までの間に前記増幅手段の増幅率の再度の変更を行なわなかった場合は、増幅率を変更した時点以前の状態に前記増幅手段の増幅率を戻すようにしてあることを特徴とする。

このような本発明の第３の発明に係る音声認識装置では上記の第１又は第２の発明の音声認識装置において、増幅手段の増幅率を変更した時点から所定時間経過後までの間に増幅手段の増幅率の再度の変更が行なわれなかった場合は、増幅率を変更した時点以前の状態に増幅手段の増幅率が戻される。

また本発明の第４の発明に係る音声認識装置は上記の第１乃至第３の発明のいずれかの音声認識装置において、前記制御手段は、前記走行状態検出手段が車輌が停止していることを検出している場合に、前記音声入力手段から入力された音声信号のレベルが前記音声認識手段による音声認識が可能な最低の入力レベルとなるような増幅率を初期値として前記増幅手段に設定することを特徴とする。

このような本発明の第４の発明に係る音声認識装置では上記の第１乃至第３の発明のいずれかの音声認識装置において、車輌が停止している場合に、音声入力手段から入力された音声信号のレベルが音声認識手段による音声認識が可能な最低の入力レベルとなるような増幅率が初期値として増幅手段に設定される。

また本発明の第５の発明に係る音声認識装置は上記の第１乃至第４の発明いずれかの音声認識装置において、前記原動機は内燃機関であり、前記走行状態検出手段が車輌が停止していることを検出している場合に前記内燃機関が駆動されているアイドリング状態であるか否かを検出するアイドリング検出手段を更に備え、前記制御手段は、前記アイドリング検出手段がアイドリング状態であることを検出している場合に前記初期値の設定を行なうようにしてあることを特徴とする。

このような本発明の第５の発明に係る音声認識装置では上記の第１乃至第４の発明のいずれかの音声認識装置において、車輌が原動機として内燃機関を使用する場合において、車輌が停止していて内燃機関が駆動されているアイドリング状態である間に初期値の設定が行なわれる。

また本発明の第６の発明に係る音声認識装置は上記の第１乃至第４の発明いずれかの音声認識装置において、前記原動機は電動モータ、又は内燃機関と電動モータとの組み合わせであり、前記車輌は走行の開始時には前記電動モータのみを使用するように構成されており、前記制御手段は、前記走行状態検出手段が車輌が停止していることを検出している場合に前記初期値の設定を行なうようにしてあることを特徴とする。

このような本発明の第６の発明に係る音声認識装置では上記の第１乃至第４の発明いずれかの音声認識装置において、車輌が走行開始時に電動モータのみを使用する場合において、車輌が停止している間に初期値の設定が行なわれる。

更に本発明の第７の発明に係る音声認識装置は、音声を入力する音声入力手段と、該音声入力手段から入力された音声信号を増幅する増幅手段と、該増幅手段により増幅された音声信号を音声認識する音声認識手段とを備え、該音声認識手段による認識結果に従って機器を制御する音声認識装置において、前記音声入力手段から入力された音声信号の音声認識に前記音声認識手段が成功したか否かを判断する判断手段と、該判断手段が音声認識に失敗したと判断した場合に、前記音声認識手段により音声認識可能な音声信号のレベルよりも前記音声入力手段から入力された音声信号のレベルが小であるか又は大であるかを判断する音声信号のレベル判定手段と、該レベル判定手段が前記音声入力手段から入力された音声信号のレベルが大であると判定した場合は前記増幅手段に設定されている増幅率をより小なる値に、前記レベル判定手段が前記音声入力手段から入力された音声信号のレベルが小であると判定した場合は前記増幅手段に設定されている増幅率をより大なる値に、それぞれ変更する制御手段とを備えたことを特徴とする。

このような本発明の第７の発明に係る音声認識装置では、音声認識に失敗した際に、レベル判定手段が音声入力手段から入力された音声信号のレベルが大であると判定した場合は増幅手段に設定されている増幅率がそれまで設定されていた増幅率に比してより小なる値に、また逆にレベル判定手段が音声入力手段から入力された音声信号のレベルが小であると判定した場合は増幅手段に設定されている増幅率がそれまで設定されていた増幅率に比してより大なる値に、それぞれ変更される。

また更に本発明の第８の発明に係る音声認識装置は上記の第７の発明の音声認識装置において、前記音声入力手段から入力された音声信号のレベルを記憶する記憶手段を更に備え、前記制御手段は、前記レベル判定手段が前記音声入力手段から入力された音声信号のレベルが大であると判定した場合は前記増幅手段に設定されている増幅率を前記記憶手段が記憶している音声信号のレベルに基づいてより小なる値に、前記レベル判定手段が前記音声入力手段から入力された音声信号のレベルが小であると判定した場合は前記増幅手段に設定されている増幅率を前記記憶手段が記憶している音声信号のレベルに基づいてより大なる値に、それぞれ変更するようにしてあることを特徴とする。

このような本発明の第８の発明に係る音声認識装置では上記の第７の発明の音声認識装置において、音声認識に失敗した際に、増幅手段に設定されている増幅率が、記憶手段に記憶されている音声信号のレベルに基づいて、それまで設定されていた増幅率に比してより小なる値に、また逆により大なる値に、それぞれ変更される。

また更に本発明の第９の発明に係る音声認識装置は上記の第７又は第８の発明の音声認識装置において、前記制御手段は、前記増幅手段の増幅率を変更した時点から所定時間経過後までの間に前記増幅手段の増幅率の再度の変更を行なわなかった場合は、増幅率を変更した時点以前の状態に前記増幅手段の増幅率を戻すようにしてあることを特徴とする。

このような本発明の第９の発明に係る音声認識装置では上記の第７又は第８の発明の音声認識装置において、増幅手段の増幅率を変更した時点から所定時間経過後までの間に増幅手段の増幅率の再度の変更が行なわれなかった場合は、増幅率を変更した時点以前の状態に増幅手段の増幅率が戻される。

第１の発明に係る音声認識装置によれば、車輌が停止しているバックグラウンドノイズが最も小さいと考えられる状態において音声入力手段から入力された音声信号のレベルが音声認識手段による音声認識が可能な入力レベルとなるような増幅率が初期値として増幅器に設定される。従って、初期値を基準として爾後の増幅率の調整が可能になる。

また本発明の第２の発明に係る音声認識装置によれば、車輌が停止しているバックグラウンドノイズが最も小さいと考えられる状態において音声入力手段から入力された音声信号のレベルが音声認識手段による音声認識が可能な入力レベルとなるような増幅率が初期値として増幅器に設定される。従って、初期値を基準として爾後の増幅率の調整が可能になる。予め入力、音声認識に失敗した際に、レベル判定手段が音声入力手段から入力された音声信号のレベルが大であると判定した場合は増幅手段の増幅率がより小なる値に、また逆にレベル判定手段が音声入力手段から入力された音声信号のレベルが小であると判定した場合は増幅手段の増幅率がより大なる値に、それぞれ変更される。従って、ユーザは音声認識に失敗した際の音声レベルと同一のレベルで、即ち声を大きくすることも小さくすることもなしに再度同一の発声を行なったとしても音声認識される可能性が非常に大きくなる。

また本発明の第３の発明に係る音声認識装置によれば上記の第１又は第２の発明の音声認識装置において、増幅手段の増幅率が変更された後の所定時間経過後までの間に増幅手段の増幅率の再度の変更が行なわれなかった場合は元の増幅率に戻される。従って、一時的な原因により増幅率が変更された場合にはその増幅率は所定時間経過後には自動的に元の増幅率に戻されるので、次には音声認識に成功する確率が高くなる。

また本発明の第４の発明に係る音声認識装置によれば上記の第１乃至第３の発明のいずれかの音声認識装置において、車輌が停止している際に入力された音声信号のレベルが音声認識手段による音声認識が可能な最低の入力レベルとなるように増幅率が初期値として設定される。従って、車輌が停止している状態に比してバックグラウンドノイズが高い通常の走行時には初期値を基準として増幅率を設定すればよいので、処理が簡便になる。

また本発明の第５の発明に係る音声認識装置によれば上記の第１乃至第４の発明のいずれかの音声認識装置において、車輌が原動機として内燃機関を使用する場合において、バックグラウンドノイズが最も小さいと考えられるアイドリング状態に対応して初期値が設定される。従って、車輌がアイドリング状態である場合に比してバックグラウンドノイズが高い通常の走行時には初期値を基準として増幅率を設定すればよいので、処理が簡便になる。

更に本発明の第６の発明に係る音声認識装置によれば上記の第１乃至第４の発明のいずれかの音声認識装置において、車輌が走行開始時に電動モータのみを使用する場合において、バックグラウンドノイズが最も小さいと考えられる停止状態に対応して初期値が設定される。従って、車輌が停止状態である場合に比してバックグラウンドノイズが高い通常の走行時には初期値を基準として増幅率を設定すればよいので、処理が簡便になる。

また本発明の第７の発明に係る音声認識装置によれば、音声認識に失敗した際に、レベル判定手段が音声入力手段から入力された音声信号のレベルが大であると判定した場合は増幅手段の増幅率がそれ以前に比してより小なる値に、また逆にレベル判定手段が音声入力手段から入力された音声信号のレベルが小であると判定した場合は増幅手段の増幅率がそれ以前に比してより大なる値に、それぞれ変更される。従って、ユーザは音声認識に失敗した際の音声レベルと同一のレベルで、即ち声を大きくすることも小さくすることもなしに再度同一の発声を行なえば音声認識に成功する可能性が非常に大きくなる。

また本発明の第８の発明に係る音声認識装置によれば上記の第７の発明の音声認識装置において、音声認識に失敗した際に、音声認識に失敗した際に、増幅手段に設定されている増幅率が、記憶手段に記憶されている音声信号のレベルに基づいて、それまで設定されていた増幅率に比してより小なる値に、また逆により大なる値に、それぞれ変更される。従って、第７の発明の音声認識装置においてより適切な調整が可能になる。

また本発明の第９の発明に係る音声認識装置によれば上記の第７又は第８の発明の音声認識装置において、増幅手段の増幅率が変更された後の所定時間経過後までの間に増幅手段の増幅率の再度の変更が行なわれなかった場合は元の増幅率に戻される。従って、一時的な原因により増幅率が変更された場合にはその増幅率は所定時間経過後には自動的に元の増幅率に戻されるので、次には音声認識に成功する確率が高くなる。

以下、本発明の実施の形態について図面を参照して説明する。図１は本発明に係る音声認識装置の構成例を示すブロック図であり、一例として車載機器としてのカーナビゲーションシステムに適用されている例を示している。

音声入力装置（具体的にはマイクロフォン）１から入力された音声は前処理部２において前処理される。この前処理とは、音声入力装置１から入力されたアナログの音声信号を後述する制御部５内のゲイン調整部５２からの指示に従って適宜のゲインで増幅し、不要な帯域（具体的には人間の音声帯域以外の帯域）を除去する処理である。これらの目的のために前処理部２にはプログラマブルゲインアンプ２０及び帯域制限フィルタ２２が備えられている。

なお、プログラマブルゲインアンプ２０のゲインはゲイン調整部５２により設定される。また、音声入力装置１から入力された音声信号のレベル（増幅される前のアナログ信号のレベル）は後述する制御部５の入力レベル記憶部５３に一時記憶される。

前処理部２において前処理されたアナログの音声信号はアナログ−デジタル変換器（Ａ／Ｄ）３によってデジタル信号に変換されて音声認識機能部４に与えられる。音声認識機能部４はデジタル音声信号を解析して最終的にはキャラクタデータ（文字データ）として音声認識結果を出力する。この音声認識機能部４による音声認識結果は制御部５の音声認識結果判断部５１に与えられる。なお、音声認識機能部４による音声認識のための構成及び処理内容そのものは既に十分に実用化されており公知の技術である。

制御部５の音声認識結果判断部５１では音声認識機能部４から与えられた音声認識結果が予め登録されている操作コマンドのいずれであるかを判定する。たとえば、音声認識結果が「もくてきちはのぐちひでよきねんかん（目的地は野口英世記念館）」であったとすると、音声認識結果判断部５１はカーナビゲーションシステムである車載用機器４０の制御部４１へ指示を与えることにより、その表示部５２にたとえば「目的地として野口英世記念館をサーチします」等のような表示を行なうと共に対応する処理を行なう。なおこの際、カーナビゲーションシステムである車載用機器４０に備えられている合成音声出力部４３から「目的地として野口英世記念館をサーチします」等のような合成音声メッセージを出力させてスピーカ４４から発声（復唱）させることも勿論可能である。

また、制御部５には車輌本体３０から車速を示す信号ＳＳと、原動機（通常は内燃エンジン）が駆動状態にあるか否かを示す信号ＳＥとが与えられている。車速を示す信号ＳＳは、通常の車輌であれば一般的に装備されている速度検出用のセンサの出力信号を利用することが可能であり、また原動機が駆動状態にあるか否かを示す信号ＳＥも通常の車輌であれば一般的に装備されているタコメータ（レブカウンタ）用のセンサの出力信号を利用することが可能である。

ところで、音声認識機能部４が必ず音声認識に成功するとは限らないことは従来技術の場合と同様である。しかし、本発明に係る音声認識装置においては、音声認識機能部４が音声認識に失敗した場合にも、従来技術のように「声が小さすぎる／大きすぎる」等のメッセージを車載用機器４０の表示部４２に表示するようなことはなく、後述するような処理を実行することによりユーザには単に同一の音声コマンドの発声を再度行なわせるのみにて認識可能になる。

以下、上述のような構成の本発明に係る音声認識装置の動作について、主として制御部５による制御手順を示す図２，図３のフローチャートを参照して説明する。

まず、本発明に係る音声認識装置が組み込まれているカーナビゲーションシステム等の車載用機器４０が搭載されている車輌のキーがアクセサリ位置にされると本発明に係る音声認識装置が起動する（ステップＳ１０）。その後、キーがイグニッション位置にされ、更にスタータ位置にされると、図示しない原動機である内燃機関（通常はガソリンエンジン又はディーゼルエンジン）が起動してアイドリング状態になり、車輌は走行可能になる。

本発明に係る音声認識装置が起動すると、制御部５は信号ＳＳ及びＳＥの状態を判断する。具体的には、制御部５は原動機である内燃機関が起動しておりかつ車輌が停止状態、即ちアイドリング状態であるか否かを判断する（ステップＳ１１）。通常、原動機である内燃機関が起動した直後の車輌は、それまでは駐車状態であった可能性が高く、この場合には直ちに走行を開始することは稀である（ステップＳ１１でＹＥＳ）。但し、たとえば長時間の信号待ち、踏切待ち等の間に原動機である内燃機関を停止させていたような場合には車輌は直ちに走行を開始することもある（ステップＳ１１でＮＯ）。

原動機である内燃機関が始動されておりかつ停止状態（アイドリング状態）である場合（ステップＳ１１でＹＥＳ）、それまでは駐車状態であったとみなされるので、制御部５は音声認識チェック用のメッセージを表示部４２に表示すると共に合成音声出力部４３で合成音声を生成してスピーカ４４から発声する（ステップＳ１２）。但し、メッセージの表示と合成音声の発声とはいずれか一方のみを行なってもよい。この音声認識チェック用のメッセージはたとえば「音声入力機能をチェックします。○○○と普段の声で発声して下さい。」等であり、「○○○」の部分は入力レベル測定のために効果的な言葉を使用することが望ましい。

このようなメッセージに対して応答入力があると（ステップＳ１３でＹＥＳ）、その応答入力の音声入力レベルがプログラマブルゲインアンプ２０によって測定され、制御部５の入力レベル記憶部５３に一時記憶される（ステップＳ１５）。制御部５はこの入力レベル記憶部５３に一時記憶された音声入力レベルに基づいてプログラマブルゲインアンプ２０のゲインを設定する（ステップＳ１６）。このゲイン設定は具体的には、入力レベル記憶部５３に一時記憶されている音声入力レベルが音声認識機能部４による音声認識可能な最低の音声レベルになるように設定される。その理由は、車輌の通常の使用状態において最もバックグラウンドノイズが小さい状態がアイドリング状態であるとみなされるからである。従って、アイドリング状態においてユーザは最も低い音声レベルで発声し、アイドリング状態以外の走行状態等においてはバックグラウンドノイズがより大きいため、ユーザはアイドリング状態に比してより大きい音声レベルで発声すると考えられるからである。

以上のようにしてアイドリング状態においてゲイン設定が行なわれると後述するステップＳ１８へ処理が進められる。なお、ステップＳ１２における音声認識チェック用メッセージに対して応答入力がないまま所定時間が経過した場合は（ステップＳ１３でＮＯ，Ｓ１４でＹＥＳ）、後述するステップＳ１７へ処理を進める。

ところで、先のステップＳ１３において表示及び／又は発声されたメッセージに対する応答入力がない場合は（ステップＳ１３でＮＯ，Ｓ１４でＮＯ、Ｓ１１でＹＥＳ）、制御部５はメッセージを反復して応答入力を待つが、応答入力がないままに車輌が走行を開始した場合（ステップＳ１３でＮＯ、Ｓ１４でＮＯ，Ｓ１１でＮＯ）、制御部５はプログラマブルゲインアンプ２０のゲインを前回（それまで）の設定値、または所定値に設定する（ステップＳ１７）。この場合の所定値とは、たとえば統計学的に、あるいは経験上、妥当と思われる適宜の値である。このような処理は、前述したように長時間の信号待ち，踏切待ち等の後に走行を再開した場合、または駐車状態から音声認識チェック用メッセージに対する応答入力なしに車輌が走行を開始した場合等にはプログラマブルゲインアンプ２０のゲインがそれまでと同一に維持されるか、または所定値に設定されることを意味している。

以上のように、アイドリング状態においてプログラマブルゲインアンプ２０のゲイン設定を行なうことが望ましいが、そうでない場合にもそれまでの値又は所定値にプログラマブルゲインアンプ２０のゲイン設定がいずれにしろ行なわれる。この後、音声入力があるか否かを制御部５は常時監視している（ステップＳ１８でＮＯ）。そして音声入力があると（ステップＳ１８でＹＥＳ）、プログラマブルゲインアンプ２０が音声入力レベルを測定してその結果が制御部５の入力レベル記憶部５３に一時記憶され（ステップＳ１９）、また同時に前処理部５によって前処理され、Ａ／Ｄ３によってデジタル信号に変換され、音声認識機能部４において音声認識処理が行われる（ステップＳ２０）。

ここで、音声認識機能部４が音声認識に成功した場合（ステップＳ２１でＹＥＳ）、音声認識結果は音声認識機能部４から制御部５の音声認識結果判断部５１に与えられ、予め登録されている操作コマンドのいずれであるかが判定される。音声認識結果がいずれかの操作コマンドであれば制御部５の音声認識結果判断部５１からカーナビゲーションシステムである車載用機器４０の制御部４１へコマンド信号が与えられ、表示部４２にコマンドが表示されると共に合成音声出力部４３において合成音声が生成され、スピーカ４４から合成音声によって復唱される（いずれか一方でもよい）（ステップＳ２２）。その後ステップＳ１８へ処理が戻される。また、カーナビゲーションシステムである車載用機器４０の制御部４１は与えられたコマンド信号に応じた処理を実行する。なお、表示部４２にコマンドが表示されると共にスピーカ４４から合成音声によってコマンドが復唱された時点で直ちに「取り消し」等のような予め決められている音声コマンドをユーザが発声した場合には、先に音声入力されたコマンドは取り消される。

ところで、先のステップＳ２０における音声認識処理が失敗したことが判明した場合（ステップＳ２１でＮＯ）、音声認識機能部４から制御部５の音声認識結果判断部５１へ音声認識に失敗したこと、及び音声入力レベルが過小／過大であることを示す信号が与えられる。なお、音声入力レベルが過小／過大であることの検出それ自体は従来の音声認識装置においても可能な公知技術である。

音声入力レベルが過小／過大であることを示す信号に応じて制御部５の音声認識結果判断部５１は、プログラマブルゲインアンプ２０のゲインの適切な設定値を求める（ステップＳ２３）。たとえば、音声入力レベルが過小であった場合には、音声認識結果判断部５１はプログラマブルゲインアンプ２０のゲインをより大きくするように調整する。具体的には、入力レベル記憶部５３に一時記憶している音声入力レベルが音声認識機能部４による音声認識可能なレベルの範囲の低い部分になるようなプログラマブルゲインアンプ２０のゲインを求める。

逆に音声入力レベルが過大であった場合には、音声認識結果判断部５１はプログラマブルゲインアンプ２０のゲインをより小さくするように調整する。具体的には、入力レベル記憶部５３に一時記憶している音声入力レベルが音声認識機能部４による音声認識可能なレベルの範囲の高い部分になるようなプログラマブルゲインアンプ２０のゲインを求める。

このようにして求められたプログラマブルゲインアンプ２０のゲインの設定値は音声認識結果判断部５１からゲイン調整部５２に与えられ、ゲイン調整部５２によってプログラマブルゲインアンプ２０のゲインの設定値が変更される（ステップＳ２４）。この後、制御部５の音声認識結果判断部５１は、音声認識に失敗したこと、及び再度音声認識のための発声をユーザに促すためのメッセージをカーナビゲーションシステムである車載用機器４０の表示部４２に表示すると共にスピーカ４４から合成音声によって案内する（ステップＳ２５）。但し、表示部４２への表示とスピーカ４４から合成音声による案内とはいずれか一方でもよい。

制御部５はこの音声入力を再度促すメッセージの後、ユーザの応答を待機する（ステップＳ２６でＮＯ）。そして、ユーザが応答すると（ステップＳ２６でＹＥＳ）、制御部５は音声認識機能部４が音声認識に成功したか否かを判断する（ステップＳ２７）。音声認識に成功した場合（ステップＳ２７でＹＥＳ）、前述同様に認識結果を表示部４２に表示し、またスピーカ４４から合成音声で復唱する（ステップＳ２８）。この場合、即ちプログラマブルゲインアンプ２０のゲインを変更した後に音声認識に成功した場合は制御部５は所定時間の経時を行なう（ステップＳ２９）。この所定時間が経過する間に新たなユーザによる音声入力がなければ（ステップＳ３０でＮＯ、Ｓ２９でＹＥＳ）、制御部５はプログラマブルゲインアンプ２０のゲインを現在の値に変更する以前の値に戻し（ステップＳ３１）、前述のステップＳ１８へ処理を戻す。

上述の処理は、一時的にバックグラウンドノイズが通常の走行時に比して非常に大きい状態、たとえば高速道路のトンネル内を通過中のような状態、前後左右を大型車に囲まれて走行しているような状態、一時的に窓をあけていたような状態等、また逆に一時的にバックグラウンドノイズが通常の走行時に比して非常に小さい状態、たとえば信号，踏み切り待ち等で一時的に停止している状態等を想定した処理であり、その後ある程度の時間が経過すればそのようなバックグラウンドノイズが通常の走行状態に比して非常に大きい状態又は逆に非常に小さい状態は通常は解消されることことが予想されるので、それ以前の状態にプログラマブルゲインアンプ２０のゲインを戻すようにしている。

なお、上述のステップ２７において音声認識に失敗した場合（ステップＳ２７でＮＯ）、制御部５はプログラマブルゲインアンプ２０のゲインの変化量をより大きくするようにゲイン調整部５２に指示を与え、これに応じてプログラマブルゲインアンプ２０のゲインの変化量がより大きくされる（ステップＳ３２）。具体的には、ステップＳ２４においてプログラマブルゲインアンプ２０のゲインを大きくする処理を行なった場合にはプログラマブルゲインアンプ２０のゲインがより大きくされ、逆にステップＳ２４においてプログラマブルゲインアンプ２０のゲインを小さくする処理を行なった場合にはプログラマブルゲインアンプ２０のゲインがより小さくされる。そしてこの後は前述のステップＳ２５へ処理が移されてユーザに再度の音声入力を促すメッセージが発声される。

このようにして、プログラマブルゲインアンプ２０のゲインを変化させた後にも音声認識に失敗した場合には、プログラマブルゲインアンプ２０のゲインの変化量をより大きくすることによって音声認識に成功する可能性が大になる。

なお、上述の所定時間が経過しない内に新たにユーザからの音声入力があった場合（ステップＳ３０でＹＥＳ）、制御部５は前述のステップＳ１９へ処理を戻して通常の音声認識処理が実行される。

ところで、以上の実施の形態では本発明に係る音声認識装置を内燃エンジンを原動機として走行する車輌に適用した場合について説明した。しかし近年では原動機として電動モータのみを備える電気自動車，走行開始時に電動モータを使用してある程度走行速度が上昇した場合に内燃エンジンによる走行に切り替えるいわゆるハイブリッドカーが実用化されている。このような少なくとも走行開始時には電動モータを使用する車輌ではいわゆるアイドリング状態は存在せず、従って停車時にはバックグラウンドノイズは存在しないに等しい。従って、図２のフローチャートにおいて、ステップＳ１０から直接ステップＳ１７へ処理を進めることにより、プログラマブルゲインアンプ２０のゲインを前回（それまで）の設定値、または所定値に設定すればよい。この場合の所定値とは、電気自動車又はハイブリッドカーを対象とした統計学的に、あるいは経験上、妥当と思われる適宜の値である。

更に上述の実施の形態においては本発明に係る音声認識装置が搭載される車輌としては自動車を前提としているが、自動車に限らずたとえば鉄道車輌等にも適用可能であることは勿論あるが、更には船舶，航空機等にも適用可能である。

また更に上述の実施の形態においては本発明に係る音声認識装置が車輌に搭載されることを前提としているが、たとえばいわゆるヘッドフォンステレオ，携帯電話機，ノートタイプのパーソナルコンピュータ，ＰＤＡ等のような携帯型の機器に適用することも勿論可能である。このような携帯型機器を音声認識により操作する場合、バックグラウンドノイズがランダムにかつ大幅に変動することが予想されるため、上述したような本発明に係る音声認識装置を組み込んで使用すれば非常に有効であることはいうまでもない。

本発明に係る音声認識装置の構成例を示すブロック図であり、一例として車載機器としてのカーナビゲーションシステムに適用されている例を示している。本発明に係る音声認識装置の動作を説明するための主として制御部による制御手順を示すフローチャートである。本発明に係る音声認識装置の動作を説明するための主として制御部による制御手順を示すフローチャートである。カーナビゲーションシステム等の車載用機器のための従来の一般的な音声認識装置の構成例を示すブロック図である。

符号の説明

１音声入力装置（マイクロフォン）
４音声認識機能部
５制御部
１０音声認識装置
２０プログラマブルゲインアンプ
３０車輌本体
４０車載用機器
５１音声認識結果判断部
５２ゲイン調整部
５３入力レベル記憶部

Claims

音声を入力する音声入力手段と、該音声入力手段から入力された音声信号を増幅する増幅手段と、該増幅手段により増幅された音声信号を音声認識する音声認識手段とを備え、該音声認識手段による認識結果に従って、原動機により走行する車輌の車載機器を制御する音声認識装置において、
車輌の走行状態を検出する走行状態検出手段と、
該走行状態検出手段が車輌が停止していることを検出している場合に、前記音声入力手段から入力された音声信号のレベルが前記音声認識手段による音声認識が可能な入力レベルとなるような増幅率を初期値として前記増幅手段に設定する制御手段と
を備えたことを特徴とする音声認識装置。
音声を入力する音声入力手段と、該音声入力手段から入力された音声信号を増幅する増幅手段と、該増幅手段により増幅された音声信号を音声認識する音声認識手段とを備え、該音声認識手段による認識結果に従って、原動機により走行する車輌の車載機器を制御する音声認識装置において、
車輌の走行状態を検出する走行状態検出手段と、
該走行状態検出手段が車輌が走行していることを検出している場合に、前記音声入力手段から入力された音声信号のレベルを記憶する記憶手段と、
該記憶手段にレベルが記憶された音声信号を前記音声認識手段が音声認識に成功したか否かを判断する判断手段と、
該判断手段が音声認識に失敗したと判断した場合に、前記音声認識手段により音声認識可能な音声信号のレベルよりも前記音声入力手段から入力された音声信号のレベルが小であるか又は大であるかを判断する音声信号のレベル判定手段と、
前記走行状態検出手段が車輌が停止していることを検出している場合に、前記音声入力手段から入力された音声信号のレベルが前記音声認識手段による音声認識が可能な入力レベルとなるような増幅率を初期値として前記増幅手段に設定し、前記走行状態検出手段が車輌が走行していることを検出している場合に、前記レベル判定手段が前記音声入力手段から入力された音声信号のレベルが大であると判定した場合は前記増幅手段に設定されている増幅率を前記記憶手段が記憶している音声信号のレベルに基づいてより小なる値に、前記レベル判定手段が前記音声入力手段から入力された音声信号のレベルが小であると判定した場合は前記増幅手段に設定されている増幅率を前記記憶手段が記憶している音声信号のレベルに基づいてより大なる値に、それぞれ変更する制御手段と
を備えたことを特徴とする音声認識装置。
前記制御手段は、前記増幅手段の増幅率を変更した時点から所定時間経過後までの間に前記増幅手段の増幅率の再度の変更を行なわなかった場合は、増幅率を変更した時点以前の状態に前記増幅手段の増幅率を戻すようにしてあることを特徴とする請求項１又は２に記載の音声認識装置。
前記制御手段は、前記走行状態検出手段が車輌が停止していることを検出している場合に、前記音声入力手段から入力された音声信号のレベルが前記音声認識手段による音声認識が可能な最低の入力レベルとなるような増幅率を初期値として前記増幅手段に設定することを特徴とする請求項１乃至３のいずれかに記載の音声認識装置。
前記原動機は内燃機関であり、前記走行状態検出手段が車輌が停止していることを検出している場合に前記内燃機関が駆動されているアイドリング状態であるか否かを検出するアイドリング検出手段を更に備え、
前記制御手段は、前記アイドリング検出手段がアイドリング状態であることを検出している場合に前記初期値の設定を行なうようにしてあることを特徴とする請求項１乃至４のいずれかに記載の音声認識装置。
前記原動機は電動モータ、又は内燃機関と電動モータとの組み合わせであり、前記車輌は走行の開始時には前記電動モータのみを使用するように構成されており、
前記制御手段は、前記走行状態検出手段が車輌が停止していることを検出している場合に前記初期値の設定を行なうようにしてあることを特徴とする請求項１乃至４のいずれかに記載の音声認識装置。
音声を入力する音声入力手段と、該音声入力手段から入力された音声信号を増幅する増幅手段と、該増幅手段により増幅された音声信号を音声認識する音声認識手段とを備え、該音声認識手段による認識結果に従って機器を制御する音声認識装置において、
前記音声入力手段から入力された音声信号の音声認識に前記音声認識手段が成功したか否かを判断する判断手段と、
該判断手段が音声認識に失敗したと判断した場合に、前記音声認識手段により音声認識可能な音声信号のレベルよりも前記音声入力手段から入力された音声信号のレベルが小であるか又は大であるかを判断する音声信号のレベル判定手段と、
該レベル判定手段が前記音声入力手段から入力された音声信号のレベルが大であると判定した場合は前記増幅手段に設定されている増幅率をより小なる値に、前記レベル判定手段が前記音声入力手段から入力された音声信号のレベルが小であると判定した場合は前記増幅手段に設定されている増幅率をより大なる値に、それぞれ変更する制御手段と
を備えたことを特徴とする音声認識装置。
前記音声入力手段から入力された音声信号のレベルを記憶する記憶手段を更に備え、
前記制御手段は、前記レベル判定手段が前記音声入力手段から入力された音声信号のレベルが大であると判定した場合は前記増幅手段に設定されている増幅率を前記記憶手段が記憶している音声信号のレベルに基づいてより小なる値に、前記レベル判定手段が前記音声入力手段から入力された音声信号のレベルが小であると判定した場合は前記増幅手段に設定されている増幅率を前記記憶手段が記憶している音声信号のレベルに基づいてより大なる値に、それぞれ変更するようにしてあることを特徴とする請求項７に記載の音声認識装置。
前記制御手段は、前記増幅手段の増幅率を変更した時点から所定時間経過後までの間に前記増幅手段の増幅率の再度の変更を行なわなかった場合は、増幅率を変更した時点以前の状態に前記増幅手段の増幅率を戻すようにしてあることを特徴とする請求項７又は８に記載の音声認識装置。