JP2006251544A - 音声認識装置 - Google Patents
音声認識装置 Download PDFInfo
- Publication number
- JP2006251544A JP2006251544A JP2005069849A JP2005069849A JP2006251544A JP 2006251544 A JP2006251544 A JP 2006251544A JP 2005069849 A JP2005069849 A JP 2005069849A JP 2005069849 A JP2005069849 A JP 2005069849A JP 2006251544 A JP2006251544 A JP 2006251544A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- level
- input
- voice recognition
- vehicle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】 自動車のような走行中の車輌内において音声認識により車載機器を操作する場合に音声認識にたとえ失敗したとしても次にユーザの発声レベルを変化させること無しに音声認識を成功させることを可能とする。
【解決手段】 車輌が停止している場合に、音声入力装置1から入力された音声信号のレベルが音声認識機能部4による音声認識が可能な入力レベルとなるような増幅率を初期値としてプログラマブルゲインアンプ20に設定する。車輌が走行している場合に、音声入力装置1から入力された音声信号のレベルが過大(又は過小)である場合はプログラマブルゲインアンプ20に設定されている増幅率を入力レベル記憶部53が記憶している音声信号のレベルに基づいてより小(大)なる値に変更する。
【選択図】 図1
【解決手段】 車輌が停止している場合に、音声入力装置1から入力された音声信号のレベルが音声認識機能部4による音声認識が可能な入力レベルとなるような増幅率を初期値としてプログラマブルゲインアンプ20に設定する。車輌が走行している場合に、音声入力装置1から入力された音声信号のレベルが過大(又は過小)である場合はプログラマブルゲインアンプ20に設定されている増幅率を入力レベル記憶部53が記憶している音声信号のレベルに基づいてより小(大)なる値に変更する。
【選択図】 図1
Description
本発明は、音声認識により種々の機器を操作するための音声認識装置に関し、より具体的には音声認識のためにユーザが発声する音声レベルがバックグラウンドノイズ等の変動に伴なって変化した場合にも自動的に対応可能な音声認識装置に関する。
音声認識技術の進歩に伴なって種々の機器を音声入力によって操作することが可能になっている。ところで人間は一般的にはバックグラウンドノイズが大きい場合にはより大きな声(より大きな音声レベル)で、バックグラウンドノイズが小さい場合にはより小さな声(より小さな音声レベル)で話す傾向がある。従って、バックグラウンドノイズがあまり変動しない環境で使用される機器、たとえば家庭用の電子レンジ,マッサージ器等ではユーザが機器操作のために発声する音声のレベルもそれほど大きくは変化しないため、音声入力レベルを一定のままで使用したとしても問題が生じる可能性はほとんどあり得ないと考えられる。
しかし、車載用機器、具体的にはカーナビゲーションシステム、カーオーディオシステム等の機器を音声認識によって操作する場合には、車輌そのものの遮音特性、走行状態、窓の開閉状態、路面の状態、周囲の状況等に応じてバックグラウンドノイズが大きく変化する。従って、ユーザの発声のレベルのバックグラウンドノイズの変動に伴なって変動することになる。このような場合、音声認識装置へのユーザの音声入力のレベルも変動するため、ユーザの音声入力のレベルが過大になったり、または逆に過小になったりして音声認識が正常に行なえない可能性が生じる。
上述したような車載用機器は、安全性,利便性等の面から音声認識による操作が望ましく、更にカーナビゲーションシステム、カーオーディオシステムのみならず、将来的には電話機,インターネット端末装置等も車載用機器として一般的になることが予想される。更には車輌そのものの操作さえも音声認識により可能になることも予想されるが、その前段階としてたとえばライトのオン/オフ,ワイパー及びウィンカー等の操作が音声認識により操作可能になる可能性がある。
しかし前述したように、車載用機器においては、バックグラウンドノイズのランダムな変動に伴なってユーザの発声レベルも大きく変化し、またユーザ(運転者)が代わった場合には個々のユーザ固有の基本的な発声レベルも異なるという問題もある。
更に、上述のような車載機器に限らず、たとえばいわゆるヘッドフォンステレオ,携帯電話機,ノートタイプのパーソナルコンピュータ,PDA等のような携帯機器も将来的には音声認識によって操作されるようになる可能性もある。しかしそのような携帯機器は現在においてもバックグラウンドノイズが大きく変化する状況で使用されているのが実情であるため、上述同様の問題が生じ得る可能性が大きい。
図4はカーナビゲーションシステム等の車載用機器のための従来の一般的な音声認識装置の構成例を示すブロック図である。音声入力装置(具体的にはマイクロフォン)1から入力された音声は前処理部2において前処理される。この前処理とは、音声入力装置1から入力されたアナログの音声信号を適宜のゲインで増幅し、不要な帯域(具体的には人間の音声帯域以外の帯域)を除去する処理である。これらの目的のために前処理部2には音声信号増幅器21及び帯域制限フィルタ22が備えられている。
前処理部2において前処理されたアナログの音声信号はアナログ−デジタル変換器(A/D)3によってデジタル信号に変換されて音声認識機能部4に与えられる。音声認識機能部4はデジタル音声信号を解析して最終的にはキャラクタデータ(文字データ)として音声認識結果を出力する。この音声認識機能部4による音声認識結果は制御部5に入力される。なお、音声認識のための構成及び処理内容そのものは既に十分に実用化されており公知の技術である。
制御部5では音声認識機能部4から入力された音声認識結果が予め登録されている操作コマンドのいずれであるかを判定する。たとえば、音声認識結果が「もくてきちはのぐちひでよきねんかん(目的地は野口英世記念館)」であったとすると、制御部5は目的地を指定するコマンドであると判断し、目的地の指定であることを示すコマンド信号と、目的地として指定されていると考えられる「野口英世記念館」を表すキャラクタデータをカーナビゲーションシステムである車載用機器40の制御部41へ与える。
カーナビゲーションシステムである車載用機器40の制御部41は表示部42にたとえば「目的地として野口英世記念館をサーチします」等のような表示を行なうと共に合成音声出力部43において「もくてきちとしてのぐちひでよきねんかんをさーちします」という合成音声信号を生成し、音声出力部であるスピーカ44から発声する。また同時に制御部41は地図データ上で「野口英世記念館」をサーチする処理を開始する。但し、音声認識結果が操作コマンドとして登録されていない場合には、制御部5は操作コマンドが発声されたのではないと判断して何等の処理も行なわない。
ところで、音声認識機能部4が必ず音声認識に成功するとは限らない。その主たる原因としては、ユーザの発声レベルが過小である又は過大である場合が考えられる。このような原因により音声認識に失敗した場合には、音声認識装置10の制御部5は「声が小さすぎる/大きすぎる」等のメッセージを表示部42に表示したり、または合成音声によってスピーカ44から報知する。
従って、「声が小さすぎる/大きすぎる」等のメッセージを受けたユーザ(運転者)はその後は音声認識が可能になるように発声レベルを調節する。具体的には、ユーザは意識的に声を大きくしたり逆に小さくしたりする必要が生じる。このことは、本来は簡便且つ容易であるはずの音声認識による操作コマンドの発声のために余分な注意力を注がなければならない状況が生じることになり、集中力を奪われてかえって危険な状況をもたらす虞がある。
また、「声が小さすぎるる」とのメッセージを受けたユーザは次には必要以上に大きな声を出したり、必要以上に音声入力装置(マイクロフォン1)に口を近付けたりすることになり、次には逆に「声が大きすぎる」とのメッセージを受け取ることにもなりかねない。このことは逆の場合にも当てはまることであり、この結果として音声認識機能そのものに疑問を抱くようになる可能性もあり、結果的に使い勝手が悪くなるという問題を生じる。
なお、特許文献1には、音声認識用マイクを使用して車内外の雑音を入力し、雑音検出手段によりその雑音レベルを検出し、CPUが、検出された雑音レベル量に比例して音声案内の音量を自動可変させると共に、車速センサからのパルス数により走行速度を求め、その走行速度からセンサ信号処理手段内の雑音量予測手段が車内外のノイズ量を予測し、CPUが、予測されたノイズ量の大小に比例して音声案内の音量を自動可変させる技術が開示されている。
特開2002−91488号公報
上述した特許文献1に開示されている技術は、車載機器(具体的にはカーナビゲーションシ装置)からの音声出力をユーザが聞き取れるようにするために音量調整する技術である。従って、前述したような問題点の解決には役立たない。
本発明は以上のような事情に鑑みてなされたものであり、自動車のような走行中の車輌内において音声認識により車載機器を操作する場合に音声認識にたとえ失敗したとしても次にユーザの発声レベルを変化させること無しに音声認識を成功させることを可能とした音声認識装置の提供を主たる目的とする。
また、本発明は上記のような車載機器のみならず、ユーザが携帯する機器においても上述同様に音声認識を成功させることを可能とした音声認識装置の提供を主たる目的とする。
本発明の第1の発明に係る音声認識装置は、音声を入力する音声入力手段と、該音声入力手段から入力された音声信号を増幅する増幅手段と、該増幅手段により増幅された音声信号を音声認識する音声認識手段とを備え、該音声認識手段による認識結果に従って、原動機により走行する車輌の車載機器を制御する音声認識装置において、車輌の走行状態を検出する走行状態検出手段と、該走行状態検出手段が車輌が停止していることを検出している場合に、前記音声入力手段から入力された音声信号のレベルが前記音声認識手段による音声認識が可能な入力レベルとなるような増幅率を初期値として前記増幅手段に設定する制御手段とを備えたことを特徴とする。
このような本発明の第1の発明に係る音声認識装置では、車輌が停止している場合に、音声入力手段から入力された音声信号のレベルが音声認識手段による音声認識が可能な入力レベルとなるような増幅率が初期値として増幅器に設定される。
また本発明の第2の発明に係る音声認識装置は、音声を入力する音声入力手段と、該音声入力手段から入力された音声信号を増幅する増幅手段と、該増幅手段により増幅された音声信号を音声認識する音声認識手段とを備え、該音声認識手段による認識結果に従って、原動機により走行する車輌の車載機器を制御する音声認識装置において、車輌の走行状態を検出する走行状態検出手段と、該走行状態検出手段が車輌が走行していることを検出している場合に、前記音声入力手段から入力された音声信号のレベルを記憶する記憶手段と、該記憶手段にレベルが記憶された音声信号を前記音声認識手段が音声認識に成功したか否かを判断する判断手段と、該判断手段が音声認識に失敗したと判断した場合に、前記音声認識手段により音声認識可能な音声信号のレベルよりも前記音声入力手段から入力された音声信号のレベルが小であるか又は大であるかを判断する音声信号のレベル判定手段と、前記走行状態検出手段が車輌が停止していることを検出している場合に、前記音声入力手段から入力された音声信号のレベルが前記音声認識手段による音声認識が可能な入力レベルとなるような増幅率を初期値として前記増幅手段に設定し、前記走行状態検出手段が車輌が走行していることを検出している場合に、前記レベル判定手段が前記音声入力手段から入力された音声信号のレベルが大であると判定した場合は前記増幅手段に設定されている増幅率を前記記憶手段が記憶している音声信号のレベルに基づいてより小なる値に、前記レベル判定手段が前記音声入力手段から入力された音声信号のレベルが小であると判定した場合は前記増幅手段に設定されている増幅率を前記記憶手段が記憶している音声信号のレベルに基づいてより大なる値に、それぞれ変更する制御手段とを備えたことを特徴とする。
このような本発明の第2の発明に係る音声認識装置では、車輌が停止している場合に、音声入力手段から入力された音声信号のレベルが音声認識手段による音声認識が可能な入力レベルとなるような増幅率が初期値として増幅器に設定される。また、車輌が走行している場合に、レベル判定手段が音声入力手段から入力された音声信号のレベルが大であると判定した場合は増幅手段に設定されている増幅率が記憶手段が記憶している音声信号のレベルに基づいてより小なる値に、レベル判定手段が音声入力手段から入力された音声信号のレベルが小であると判定した場合は増幅手段に設定されている増幅率が記憶手段が記憶している音声信号のレベルに基づいてより大なる値に、それぞれ変更される。
また本発明の第3の発明に係る音声認識装置は上記の第1又は第2の発明の音声認識装置において、前記制御手段は、前記増幅手段の増幅率を変更した時点から所定時間経過後までの間に前記増幅手段の増幅率の再度の変更を行なわなかった場合は、増幅率を変更した時点以前の状態に前記増幅手段の増幅率を戻すようにしてあることを特徴とする。
このような本発明の第3の発明に係る音声認識装置では上記の第1又は第2の発明の音声認識装置において、増幅手段の増幅率を変更した時点から所定時間経過後までの間に増幅手段の増幅率の再度の変更が行なわれなかった場合は、増幅率を変更した時点以前の状態に増幅手段の増幅率が戻される。
また本発明の第4の発明に係る音声認識装置は上記の第1乃至第3の発明のいずれかの音声認識装置において、前記制御手段は、前記走行状態検出手段が車輌が停止していることを検出している場合に、前記音声入力手段から入力された音声信号のレベルが前記音声認識手段による音声認識が可能な最低の入力レベルとなるような増幅率を初期値として前記増幅手段に設定することを特徴とする。
このような本発明の第4の発明に係る音声認識装置では上記の第1乃至第3の発明のいずれかの音声認識装置において、車輌が停止している場合に、音声入力手段から入力された音声信号のレベルが音声認識手段による音声認識が可能な最低の入力レベルとなるような増幅率が初期値として増幅手段に設定される。
また本発明の第5の発明に係る音声認識装置は上記の第1乃至第4の発明いずれかの音声認識装置において、前記原動機は内燃機関であり、前記走行状態検出手段が車輌が停止していることを検出している場合に前記内燃機関が駆動されているアイドリング状態であるか否かを検出するアイドリング検出手段を更に備え、前記制御手段は、前記アイドリング検出手段がアイドリング状態であることを検出している場合に前記初期値の設定を行なうようにしてあることを特徴とする。
このような本発明の第5の発明に係る音声認識装置では上記の第1乃至第4の発明のいずれかの音声認識装置において、車輌が原動機として内燃機関を使用する場合において、車輌が停止していて内燃機関が駆動されているアイドリング状態である間に初期値の設定が行なわれる。
また本発明の第6の発明に係る音声認識装置は上記の第1乃至第4の発明いずれかの音声認識装置において、前記原動機は電動モータ、又は内燃機関と電動モータとの組み合わせであり、前記車輌は走行の開始時には前記電動モータのみを使用するように構成されており、前記制御手段は、前記走行状態検出手段が車輌が停止していることを検出している場合に前記初期値の設定を行なうようにしてあることを特徴とする。
このような本発明の第6の発明に係る音声認識装置では上記の第1乃至第4の発明いずれかの音声認識装置において、車輌が走行開始時に電動モータのみを使用する場合において、車輌が停止している間に初期値の設定が行なわれる。
更に本発明の第7の発明に係る音声認識装置は、音声を入力する音声入力手段と、該音声入力手段から入力された音声信号を増幅する増幅手段と、該増幅手段により増幅された音声信号を音声認識する音声認識手段とを備え、該音声認識手段による認識結果に従って機器を制御する音声認識装置において、前記音声入力手段から入力された音声信号の音声認識に前記音声認識手段が成功したか否かを判断する判断手段と、該判断手段が音声認識に失敗したと判断した場合に、前記音声認識手段により音声認識可能な音声信号のレベルよりも前記音声入力手段から入力された音声信号のレベルが小であるか又は大であるかを判断する音声信号のレベル判定手段と、該レベル判定手段が前記音声入力手段から入力された音声信号のレベルが大であると判定した場合は前記増幅手段に設定されている増幅率をより小なる値に、前記レベル判定手段が前記音声入力手段から入力された音声信号のレベルが小であると判定した場合は前記増幅手段に設定されている増幅率をより大なる値に、それぞれ変更する制御手段とを備えたことを特徴とする。
このような本発明の第7の発明に係る音声認識装置では、音声認識に失敗した際に、レベル判定手段が音声入力手段から入力された音声信号のレベルが大であると判定した場合は増幅手段に設定されている増幅率がそれまで設定されていた増幅率に比してより小なる値に、また逆にレベル判定手段が音声入力手段から入力された音声信号のレベルが小であると判定した場合は増幅手段に設定されている増幅率がそれまで設定されていた増幅率に比してより大なる値に、それぞれ変更される。
また更に本発明の第8の発明に係る音声認識装置は上記の第7の発明の音声認識装置において、前記音声入力手段から入力された音声信号のレベルを記憶する記憶手段を更に備え、前記制御手段は、前記レベル判定手段が前記音声入力手段から入力された音声信号のレベルが大であると判定した場合は前記増幅手段に設定されている増幅率を前記記憶手段が記憶している音声信号のレベルに基づいてより小なる値に、前記レベル判定手段が前記音声入力手段から入力された音声信号のレベルが小であると判定した場合は前記増幅手段に設定されている増幅率を前記記憶手段が記憶している音声信号のレベルに基づいてより大なる値に、それぞれ変更するようにしてあることを特徴とする。
このような本発明の第8の発明に係る音声認識装置では上記の第7の発明の音声認識装置において、音声認識に失敗した際に、増幅手段に設定されている増幅率が、記憶手段に記憶されている音声信号のレベルに基づいて、それまで設定されていた増幅率に比してより小なる値に、また逆により大なる値に、それぞれ変更される。
また更に本発明の第9の発明に係る音声認識装置は上記の第7又は第8の発明の音声認識装置において、前記制御手段は、前記増幅手段の増幅率を変更した時点から所定時間経過後までの間に前記増幅手段の増幅率の再度の変更を行なわなかった場合は、増幅率を変更した時点以前の状態に前記増幅手段の増幅率を戻すようにしてあることを特徴とする。
このような本発明の第9の発明に係る音声認識装置では上記の第7又は第8の発明の音声認識装置において、増幅手段の増幅率を変更した時点から所定時間経過後までの間に増幅手段の増幅率の再度の変更が行なわれなかった場合は、増幅率を変更した時点以前の状態に増幅手段の増幅率が戻される。
第1の発明に係る音声認識装置によれば、車輌が停止しているバックグラウンドノイズが最も小さいと考えられる状態において音声入力手段から入力された音声信号のレベルが音声認識手段による音声認識が可能な入力レベルとなるような増幅率が初期値として増幅器に設定される。従って、初期値を基準として爾後の増幅率の調整が可能になる。
また本発明の第2の発明に係る音声認識装置によれば、車輌が停止しているバックグラウンドノイズが最も小さいと考えられる状態において音声入力手段から入力された音声信号のレベルが音声認識手段による音声認識が可能な入力レベルとなるような増幅率が初期値として増幅器に設定される。従って、初期値を基準として爾後の増幅率の調整が可能になる。予め入力、音声認識に失敗した際に、レベル判定手段が音声入力手段から入力された音声信号のレベルが大であると判定した場合は増幅手段の増幅率がより小なる値に、また逆にレベル判定手段が音声入力手段から入力された音声信号のレベルが小であると判定した場合は増幅手段の増幅率がより大なる値に、それぞれ変更される。従って、ユーザは音声認識に失敗した際の音声レベルと同一のレベルで、即ち声を大きくすることも小さくすることもなしに再度同一の発声を行なったとしても音声認識される可能性が非常に大きくなる。
また本発明の第3の発明に係る音声認識装置によれば上記の第1又は第2の発明の音声認識装置において、増幅手段の増幅率が変更された後の所定時間経過後までの間に増幅手段の増幅率の再度の変更が行なわれなかった場合は元の増幅率に戻される。従って、一時的な原因により増幅率が変更された場合にはその増幅率は所定時間経過後には自動的に元の増幅率に戻されるので、次には音声認識に成功する確率が高くなる。
また本発明の第4の発明に係る音声認識装置によれば上記の第1乃至第3の発明のいずれかの音声認識装置において、車輌が停止している際に入力された音声信号のレベルが音声認識手段による音声認識が可能な最低の入力レベルとなるように増幅率が初期値として設定される。従って、車輌が停止している状態に比してバックグラウンドノイズが高い通常の走行時には初期値を基準として増幅率を設定すればよいので、処理が簡便になる。
また本発明の第5の発明に係る音声認識装置によれば上記の第1乃至第4の発明のいずれかの音声認識装置において、車輌が原動機として内燃機関を使用する場合において、バックグラウンドノイズが最も小さいと考えられるアイドリング状態に対応して初期値が設定される。従って、車輌がアイドリング状態である場合に比してバックグラウンドノイズが高い通常の走行時には初期値を基準として増幅率を設定すればよいので、処理が簡便になる。
更に本発明の第6の発明に係る音声認識装置によれば上記の第1乃至第4の発明のいずれかの音声認識装置において、車輌が走行開始時に電動モータのみを使用する場合において、バックグラウンドノイズが最も小さいと考えられる停止状態に対応して初期値が設定される。従って、車輌が停止状態である場合に比してバックグラウンドノイズが高い通常の走行時には初期値を基準として増幅率を設定すればよいので、処理が簡便になる。
また本発明の第7の発明に係る音声認識装置によれば、音声認識に失敗した際に、レベル判定手段が音声入力手段から入力された音声信号のレベルが大であると判定した場合は増幅手段の増幅率がそれ以前に比してより小なる値に、また逆にレベル判定手段が音声入力手段から入力された音声信号のレベルが小であると判定した場合は増幅手段の増幅率がそれ以前に比してより大なる値に、それぞれ変更される。従って、ユーザは音声認識に失敗した際の音声レベルと同一のレベルで、即ち声を大きくすることも小さくすることもなしに再度同一の発声を行なえば音声認識に成功する可能性が非常に大きくなる。
また本発明の第8の発明に係る音声認識装置によれば上記の第7の発明の音声認識装置において、音声認識に失敗した際に、音声認識に失敗した際に、増幅手段に設定されている増幅率が、記憶手段に記憶されている音声信号のレベルに基づいて、それまで設定されていた増幅率に比してより小なる値に、また逆により大なる値に、それぞれ変更される。従って、第7の発明の音声認識装置においてより適切な調整が可能になる。
また本発明の第9の発明に係る音声認識装置によれば上記の第7又は第8の発明の音声認識装置において、増幅手段の増幅率が変更された後の所定時間経過後までの間に増幅手段の増幅率の再度の変更が行なわれなかった場合は元の増幅率に戻される。従って、一時的な原因により増幅率が変更された場合にはその増幅率は所定時間経過後には自動的に元の増幅率に戻されるので、次には音声認識に成功する確率が高くなる。
以下、本発明の実施の形態について図面を参照して説明する。図1は本発明に係る音声認識装置の構成例を示すブロック図であり、一例として車載機器としてのカーナビゲーションシステムに適用されている例を示している。
音声入力装置(具体的にはマイクロフォン)1から入力された音声は前処理部2において前処理される。この前処理とは、音声入力装置1から入力されたアナログの音声信号を後述する制御部5内のゲイン調整部52からの指示に従って適宜のゲインで増幅し、不要な帯域(具体的には人間の音声帯域以外の帯域)を除去する処理である。これらの目的のために前処理部2にはプログラマブルゲインアンプ20及び帯域制限フィルタ22が備えられている。
なお、プログラマブルゲインアンプ20のゲインはゲイン調整部52により設定される。また、音声入力装置1から入力された音声信号のレベル(増幅される前のアナログ信号のレベル)は後述する制御部5の入力レベル記憶部53に一時記憶される。
前処理部2において前処理されたアナログの音声信号はアナログ−デジタル変換器(A/D)3によってデジタル信号に変換されて音声認識機能部4に与えられる。音声認識機能部4はデジタル音声信号を解析して最終的にはキャラクタデータ(文字データ)として音声認識結果を出力する。この音声認識機能部4による音声認識結果は制御部5の音声認識結果判断部51に与えられる。なお、音声認識機能部4による音声認識のための構成及び処理内容そのものは既に十分に実用化されており公知の技術である。
制御部5の音声認識結果判断部51では音声認識機能部4から与えられた音声認識結果が予め登録されている操作コマンドのいずれであるかを判定する。たとえば、音声認識結果が「もくてきちはのぐちひでよきねんかん(目的地は野口英世記念館)」であったとすると、音声認識結果判断部51はカーナビゲーションシステムである車載用機器40の制御部41へ指示を与えることにより、その表示部52にたとえば「目的地として野口英世記念館をサーチします」等のような表示を行なうと共に対応する処理を行なう。なおこの際、カーナビゲーションシステムである車載用機器40に備えられている合成音声出力部43から「目的地として野口英世記念館をサーチします」等のような合成音声メッセージを出力させてスピーカ44から発声(復唱)させることも勿論可能である。
また、制御部5には車輌本体30から車速を示す信号SSと、原動機(通常は内燃エンジン)が駆動状態にあるか否かを示す信号SEとが与えられている。車速を示す信号SSは、通常の車輌であれば一般的に装備されている速度検出用のセンサの出力信号を利用することが可能であり、また原動機が駆動状態にあるか否かを示す信号SEも通常の車輌であれば一般的に装備されているタコメータ(レブカウンタ)用のセンサの出力信号を利用することが可能である。
ところで、音声認識機能部4が必ず音声認識に成功するとは限らないことは従来技術の場合と同様である。しかし、本発明に係る音声認識装置においては、音声認識機能部4が音声認識に失敗した場合にも、従来技術のように「声が小さすぎる/大きすぎる」等のメッセージを車載用機器40の表示部42に表示するようなことはなく、後述するような処理を実行することによりユーザには単に同一の音声コマンドの発声を再度行なわせるのみにて認識可能になる。
以下、上述のような構成の本発明に係る音声認識装置の動作について、主として制御部5による制御手順を示す図2,図3のフローチャートを参照して説明する。
まず、本発明に係る音声認識装置が組み込まれているカーナビゲーションシステム等の車載用機器40が搭載されている車輌のキーがアクセサリ位置にされると本発明に係る音声認識装置が起動する(ステップS10)。その後、キーがイグニッション位置にされ、更にスタータ位置にされると、図示しない原動機である内燃機関(通常はガソリンエンジン又はディーゼルエンジン)が起動してアイドリング状態になり、車輌は走行可能になる。
本発明に係る音声認識装置が起動すると、制御部5は信号SS及びSEの状態を判断する。具体的には、制御部5は原動機である内燃機関が起動しておりかつ車輌が停止状態、即ちアイドリング状態であるか否かを判断する(ステップS11)。通常、原動機である内燃機関が起動した直後の車輌は、それまでは駐車状態であった可能性が高く、この場合には直ちに走行を開始することは稀である(ステップS11でYES)。但し、たとえば長時間の信号待ち、踏切待ち等の間に原動機である内燃機関を停止させていたような場合には車輌は直ちに走行を開始することもある(ステップS11でNO)。
原動機である内燃機関が始動されておりかつ停止状態(アイドリング状態)である場合(ステップS11でYES)、それまでは駐車状態であったとみなされるので、制御部5は音声認識チェック用のメッセージを表示部42に表示すると共に合成音声出力部43で合成音声を生成してスピーカ44から発声する(ステップS12)。但し、メッセージの表示と合成音声の発声とはいずれか一方のみを行なってもよい。この音声認識チェック用のメッセージはたとえば「音声入力機能をチェックします。○○○と普段の声で発声して下さい。」等であり、「○○○」の部分は入力レベル測定のために効果的な言葉を使用することが望ましい。
このようなメッセージに対して応答入力があると(ステップS13でYES)、その応答入力の音声入力レベルがプログラマブルゲインアンプ20によって測定され、制御部5の入力レベル記憶部53に一時記憶される(ステップS15)。制御部5はこの入力レベル記憶部53に一時記憶された音声入力レベルに基づいてプログラマブルゲインアンプ20のゲインを設定する(ステップS16)。このゲイン設定は具体的には、入力レベル記憶部53に一時記憶されている音声入力レベルが音声認識機能部4による音声認識可能な最低の音声レベルになるように設定される。その理由は、車輌の通常の使用状態において最もバックグラウンドノイズが小さい状態がアイドリング状態であるとみなされるからである。従って、アイドリング状態においてユーザは最も低い音声レベルで発声し、アイドリング状態以外の走行状態等においてはバックグラウンドノイズがより大きいため、ユーザはアイドリング状態に比してより大きい音声レベルで発声すると考えられるからである。
以上のようにしてアイドリング状態においてゲイン設定が行なわれると後述するステップS18へ処理が進められる。なお、ステップS12における音声認識チェック用メッセージに対して応答入力がないまま所定時間が経過した場合は(ステップS13でNO,S14でYES)、後述するステップS17へ処理を進める。
ところで、先のステップS13において表示及び/又は発声されたメッセージに対する応答入力がない場合は(ステップS13でNO,S14でNO、S11でYES)、制御部5はメッセージを反復して応答入力を待つが、応答入力がないままに車輌が走行を開始した場合(ステップS13でNO、S14でNO,S11でNO)、制御部5はプログラマブルゲインアンプ20のゲインを前回(それまで)の設定値、または所定値に設定する(ステップS17)。この場合の所定値とは、たとえば統計学的に、あるいは経験上、妥当と思われる適宜の値である。このような処理は、前述したように長時間の信号待ち,踏切待ち等の後に走行を再開した場合、または駐車状態から音声認識チェック用メッセージに対する応答入力なしに車輌が走行を開始した場合等にはプログラマブルゲインアンプ20のゲインがそれまでと同一に維持されるか、または所定値に設定されることを意味している。
以上のように、アイドリング状態においてプログラマブルゲインアンプ20のゲイン設定を行なうことが望ましいが、そうでない場合にもそれまでの値又は所定値にプログラマブルゲインアンプ20のゲイン設定がいずれにしろ行なわれる。この後、音声入力があるか否かを制御部5は常時監視している(ステップS18でNO)。そして音声入力があると(ステップS18でYES)、プログラマブルゲインアンプ20が音声入力レベルを測定してその結果が制御部5の入力レベル記憶部53に一時記憶され(ステップS19)、また同時に前処理部5によって前処理され、A/D3によってデジタル信号に変換され、音声認識機能部4において音声認識処理が行われる(ステップS20)。
ここで、音声認識機能部4が音声認識に成功した場合(ステップS21でYES)、音声認識結果は音声認識機能部4から制御部5の音声認識結果判断部51に与えられ、予め登録されている操作コマンドのいずれであるかが判定される。音声認識結果がいずれかの操作コマンドであれば制御部5の音声認識結果判断部51からカーナビゲーションシステムである車載用機器40の制御部41へコマンド信号が与えられ、表示部42にコマンドが表示されると共に合成音声出力部43において合成音声が生成され、スピーカ44から合成音声によって復唱される(いずれか一方でもよい)(ステップS22)。その後ステップS18へ処理が戻される。また、カーナビゲーションシステムである車載用機器40の制御部41は与えられたコマンド信号に応じた処理を実行する。なお、表示部42にコマンドが表示されると共にスピーカ44から合成音声によってコマンドが復唱された時点で直ちに「取り消し」等のような予め決められている音声コマンドをユーザが発声した場合には、先に音声入力されたコマンドは取り消される。
ところで、先のステップS20における音声認識処理が失敗したことが判明した場合(ステップS21でNO)、音声認識機能部4から制御部5の音声認識結果判断部51へ音声認識に失敗したこと、及び音声入力レベルが過小/過大であることを示す信号が与えられる。なお、音声入力レベルが過小/過大であることの検出それ自体は従来の音声認識装置においても可能な公知技術である。
音声入力レベルが過小/過大であることを示す信号に応じて制御部5の音声認識結果判断部51は、プログラマブルゲインアンプ20のゲインの適切な設定値を求める(ステップS23)。たとえば、音声入力レベルが過小であった場合には、音声認識結果判断部51はプログラマブルゲインアンプ20のゲインをより大きくするように調整する。具体的には、入力レベル記憶部53に一時記憶している音声入力レベルが音声認識機能部4による音声認識可能なレベルの範囲の低い部分になるようなプログラマブルゲインアンプ20のゲインを求める。
逆に音声入力レベルが過大であった場合には、音声認識結果判断部51はプログラマブルゲインアンプ20のゲインをより小さくするように調整する。具体的には、入力レベル記憶部53に一時記憶している音声入力レベルが音声認識機能部4による音声認識可能なレベルの範囲の高い部分になるようなプログラマブルゲインアンプ20のゲインを求める。
このようにして求められたプログラマブルゲインアンプ20のゲインの設定値は音声認識結果判断部51からゲイン調整部52に与えられ、ゲイン調整部52によってプログラマブルゲインアンプ20のゲインの設定値が変更される(ステップS24)。この後、制御部5の音声認識結果判断部51は、音声認識に失敗したこと、及び再度音声認識のための発声をユーザに促すためのメッセージをカーナビゲーションシステムである車載用機器40の表示部42に表示すると共にスピーカ44から合成音声によって案内する(ステップS25)。但し、表示部42への表示とスピーカ44から合成音声による案内とはいずれか一方でもよい。
制御部5はこの音声入力を再度促すメッセージの後、ユーザの応答を待機する(ステップS26でNO)。そして、ユーザが応答すると(ステップS26でYES)、制御部5は音声認識機能部4が音声認識に成功したか否かを判断する(ステップS27)。音声認識に成功した場合(ステップS27でYES)、前述同様に認識結果を表示部42に表示し、またスピーカ44から合成音声で復唱する(ステップS28)。この場合、即ちプログラマブルゲインアンプ20のゲインを変更した後に音声認識に成功した場合は制御部5は所定時間の経時を行なう(ステップS29)。この所定時間が経過する間に新たなユーザによる音声入力がなければ(ステップS30でNO、S29でYES)、制御部5はプログラマブルゲインアンプ20のゲインを現在の値に変更する以前の値に戻し(ステップS31)、前述のステップS18へ処理を戻す。
上述の処理は、一時的にバックグラウンドノイズが通常の走行時に比して非常に大きい状態、たとえば高速道路のトンネル内を通過中のような状態、前後左右を大型車に囲まれて走行しているような状態、一時的に窓をあけていたような状態等、また逆に一時的にバックグラウンドノイズが通常の走行時に比して非常に小さい状態、たとえば信号,踏み切り待ち等で一時的に停止している状態等を想定した処理であり、その後ある程度の時間が経過すればそのようなバックグラウンドノイズが通常の走行状態に比して非常に大きい状態又は逆に非常に小さい状態は通常は解消されることことが予想されるので、それ以前の状態にプログラマブルゲインアンプ20のゲインを戻すようにしている。
なお、上述のステップ27において音声認識に失敗した場合(ステップS27でNO)、制御部5はプログラマブルゲインアンプ20のゲインの変化量をより大きくするようにゲイン調整部52に指示を与え、これに応じてプログラマブルゲインアンプ20のゲインの変化量がより大きくされる(ステップS32)。具体的には、ステップS24においてプログラマブルゲインアンプ20のゲインを大きくする処理を行なった場合にはプログラマブルゲインアンプ20のゲインがより大きくされ、逆にステップS24においてプログラマブルゲインアンプ20のゲインを小さくする処理を行なった場合にはプログラマブルゲインアンプ20のゲインがより小さくされる。そしてこの後は前述のステップS25へ処理が移されてユーザに再度の音声入力を促すメッセージが発声される。
このようにして、プログラマブルゲインアンプ20のゲインを変化させた後にも音声認識に失敗した場合には、プログラマブルゲインアンプ20のゲインの変化量をより大きくすることによって音声認識に成功する可能性が大になる。
なお、上述の所定時間が経過しない内に新たにユーザからの音声入力があった場合(ステップS30でYES)、制御部5は前述のステップS19へ処理を戻して通常の音声認識処理が実行される。
ところで、以上の実施の形態では本発明に係る音声認識装置を内燃エンジンを原動機として走行する車輌に適用した場合について説明した。しかし近年では原動機として電動モータのみを備える電気自動車,走行開始時に電動モータを使用してある程度走行速度が上昇した場合に内燃エンジンによる走行に切り替えるいわゆるハイブリッドカーが実用化されている。このような少なくとも走行開始時には電動モータを使用する車輌ではいわゆるアイドリング状態は存在せず、従って停車時にはバックグラウンドノイズは存在しないに等しい。従って、図2のフローチャートにおいて、ステップS10から直接ステップS17へ処理を進めることにより、プログラマブルゲインアンプ20のゲインを前回(それまで)の設定値、または所定値に設定すればよい。この場合の所定値とは、電気自動車又はハイブリッドカーを対象とした統計学的に、あるいは経験上、妥当と思われる適宜の値である。
更に上述の実施の形態においては本発明に係る音声認識装置が搭載される車輌としては自動車を前提としているが、自動車に限らずたとえば鉄道車輌等にも適用可能であることは勿論あるが、更には船舶,航空機等にも適用可能である。
また更に上述の実施の形態においては本発明に係る音声認識装置が車輌に搭載されることを前提としているが、たとえばいわゆるヘッドフォンステレオ,携帯電話機,ノートタイプのパーソナルコンピュータ,PDA等のような携帯型の機器に適用することも勿論可能である。このような携帯型機器を音声認識により操作する場合、バックグラウンドノイズがランダムにかつ大幅に変動することが予想されるため、上述したような本発明に係る音声認識装置を組み込んで使用すれば非常に有効であることはいうまでもない。
1 音声入力装置(マイクロフォン)
4 音声認識機能部
5 制御部
10 音声認識装置
20 プログラマブルゲインアンプ
30 車輌本体
40 車載用機器
51 音声認識結果判断部
52 ゲイン調整部
53 入力レベル記憶部
4 音声認識機能部
5 制御部
10 音声認識装置
20 プログラマブルゲインアンプ
30 車輌本体
40 車載用機器
51 音声認識結果判断部
52 ゲイン調整部
53 入力レベル記憶部
Claims (9)
- 音声を入力する音声入力手段と、該音声入力手段から入力された音声信号を増幅する増幅手段と、該増幅手段により増幅された音声信号を音声認識する音声認識手段とを備え、該音声認識手段による認識結果に従って、原動機により走行する車輌の車載機器を制御する音声認識装置において、
車輌の走行状態を検出する走行状態検出手段と、
該走行状態検出手段が車輌が停止していることを検出している場合に、前記音声入力手段から入力された音声信号のレベルが前記音声認識手段による音声認識が可能な入力レベルとなるような増幅率を初期値として前記増幅手段に設定する制御手段と
を備えたことを特徴とする音声認識装置。 - 音声を入力する音声入力手段と、該音声入力手段から入力された音声信号を増幅する増幅手段と、該増幅手段により増幅された音声信号を音声認識する音声認識手段とを備え、該音声認識手段による認識結果に従って、原動機により走行する車輌の車載機器を制御する音声認識装置において、
車輌の走行状態を検出する走行状態検出手段と、
該走行状態検出手段が車輌が走行していることを検出している場合に、前記音声入力手段から入力された音声信号のレベルを記憶する記憶手段と、
該記憶手段にレベルが記憶された音声信号を前記音声認識手段が音声認識に成功したか否かを判断する判断手段と、
該判断手段が音声認識に失敗したと判断した場合に、前記音声認識手段により音声認識可能な音声信号のレベルよりも前記音声入力手段から入力された音声信号のレベルが小であるか又は大であるかを判断する音声信号のレベル判定手段と、
前記走行状態検出手段が車輌が停止していることを検出している場合に、前記音声入力手段から入力された音声信号のレベルが前記音声認識手段による音声認識が可能な入力レベルとなるような増幅率を初期値として前記増幅手段に設定し、前記走行状態検出手段が車輌が走行していることを検出している場合に、前記レベル判定手段が前記音声入力手段から入力された音声信号のレベルが大であると判定した場合は前記増幅手段に設定されている増幅率を前記記憶手段が記憶している音声信号のレベルに基づいてより小なる値に、前記レベル判定手段が前記音声入力手段から入力された音声信号のレベルが小であると判定した場合は前記増幅手段に設定されている増幅率を前記記憶手段が記憶している音声信号のレベルに基づいてより大なる値に、それぞれ変更する制御手段と
を備えたことを特徴とする音声認識装置。 - 前記制御手段は、前記増幅手段の増幅率を変更した時点から所定時間経過後までの間に前記増幅手段の増幅率の再度の変更を行なわなかった場合は、増幅率を変更した時点以前の状態に前記増幅手段の増幅率を戻すようにしてあることを特徴とする請求項1又は2に記載の音声認識装置。
- 前記制御手段は、前記走行状態検出手段が車輌が停止していることを検出している場合に、前記音声入力手段から入力された音声信号のレベルが前記音声認識手段による音声認識が可能な最低の入力レベルとなるような増幅率を初期値として前記増幅手段に設定することを特徴とする請求項1乃至3のいずれかに記載の音声認識装置。
- 前記原動機は内燃機関であり、前記走行状態検出手段が車輌が停止していることを検出している場合に前記内燃機関が駆動されているアイドリング状態であるか否かを検出するアイドリング検出手段を更に備え、
前記制御手段は、前記アイドリング検出手段がアイドリング状態であることを検出している場合に前記初期値の設定を行なうようにしてあることを特徴とする請求項1乃至4のいずれかに記載の音声認識装置。 - 前記原動機は電動モータ、又は内燃機関と電動モータとの組み合わせであり、前記車輌は走行の開始時には前記電動モータのみを使用するように構成されており、
前記制御手段は、前記走行状態検出手段が車輌が停止していることを検出している場合に前記初期値の設定を行なうようにしてあることを特徴とする請求項1乃至4のいずれかに記載の音声認識装置。 - 音声を入力する音声入力手段と、該音声入力手段から入力された音声信号を増幅する増幅手段と、該増幅手段により増幅された音声信号を音声認識する音声認識手段とを備え、該音声認識手段による認識結果に従って機器を制御する音声認識装置において、
前記音声入力手段から入力された音声信号の音声認識に前記音声認識手段が成功したか否かを判断する判断手段と、
該判断手段が音声認識に失敗したと判断した場合に、前記音声認識手段により音声認識可能な音声信号のレベルよりも前記音声入力手段から入力された音声信号のレベルが小であるか又は大であるかを判断する音声信号のレベル判定手段と、
該レベル判定手段が前記音声入力手段から入力された音声信号のレベルが大であると判定した場合は前記増幅手段に設定されている増幅率をより小なる値に、前記レベル判定手段が前記音声入力手段から入力された音声信号のレベルが小であると判定した場合は前記増幅手段に設定されている増幅率をより大なる値に、それぞれ変更する制御手段と
を備えたことを特徴とする音声認識装置。 - 前記音声入力手段から入力された音声信号のレベルを記憶する記憶手段を更に備え、
前記制御手段は、前記レベル判定手段が前記音声入力手段から入力された音声信号のレベルが大であると判定した場合は前記増幅手段に設定されている増幅率を前記記憶手段が記憶している音声信号のレベルに基づいてより小なる値に、前記レベル判定手段が前記音声入力手段から入力された音声信号のレベルが小であると判定した場合は前記増幅手段に設定されている増幅率を前記記憶手段が記憶している音声信号のレベルに基づいてより大なる値に、それぞれ変更するようにしてあることを特徴とする請求項7に記載の音声認識装置。 - 前記制御手段は、前記増幅手段の増幅率を変更した時点から所定時間経過後までの間に前記増幅手段の増幅率の再度の変更を行なわなかった場合は、増幅率を変更した時点以前の状態に前記増幅手段の増幅率を戻すようにしてあることを特徴とする請求項7又は8に記載の音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005069849A JP2006251544A (ja) | 2005-03-11 | 2005-03-11 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005069849A JP2006251544A (ja) | 2005-03-11 | 2005-03-11 | 音声認識装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006251544A true JP2006251544A (ja) | 2006-09-21 |
Family
ID=37092086
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005069849A Pending JP2006251544A (ja) | 2005-03-11 | 2005-03-11 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006251544A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014109601A (ja) * | 2012-11-30 | 2014-06-12 | Ntt Docomo Inc | 音声処理システム、音声処理装置、音声処理方法及びプログラム |
-
2005
- 2005-03-11 JP JP2005069849A patent/JP2006251544A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014109601A (ja) * | 2012-11-30 | 2014-06-12 | Ntt Docomo Inc | 音声処理システム、音声処理装置、音声処理方法及びプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9230538B2 (en) | Voice recognition device and navigation device | |
CN102211583B (zh) | 信息娱乐***控制 | |
US20100204987A1 (en) | In-vehicle speech recognition device | |
JP4973722B2 (ja) | 音声認識装置、音声認識方法、及びナビゲーション装置 | |
JP4622991B2 (ja) | カーオーディオシステムの音量制御装置 | |
JP5413321B2 (ja) | 通信システム、車載端末、および携帯端末 | |
JP6361565B2 (ja) | 車載機器の動作制御装置 | |
JP2010283506A (ja) | 車載用音響処理装置 | |
US20130211832A1 (en) | Speech signal processing responsive to low noise levels | |
JP2008026463A (ja) | 音声対話装置 | |
JP4297186B2 (ja) | 通信型ロードノイズ制御システム、車載ロードノイズ制御装置及びサーバ | |
JP2000322078A (ja) | 車載型音声認識装置 | |
JP4910563B2 (ja) | 音声認識装置 | |
JP2000338994A (ja) | 車載用音声認識装置 | |
US11557275B2 (en) | Voice system and voice output method of moving machine | |
JP2006251544A (ja) | 音声認識装置 | |
JP2018087871A (ja) | 音声出力装置 | |
JP3897946B2 (ja) | 緊急情報送信システム | |
JP2004301875A (ja) | 音声認識装置 | |
JP2000321080A (ja) | 雑音抑圧装置,音声認識装置及び車両用ナビゲーション装置 | |
JP2019204015A (ja) | 情報処理装置、プログラム、及び制御方法 | |
JP2003162295A (ja) | 車載用音声認識装置 | |
WO2024070080A1 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
JP2002132290A (ja) | 車載用音声認識装置 | |
KR20060057726A (ko) | 대화형 네비게이션 시스템 및 그 제어방법 |