JP4924652B2

JP4924652B2 - 音声認識装置及びカーナビゲーション装置

Info

Publication number: JP4924652B2
Application number: JP2009112777A
Authority: JP
Inventors: まなぶ大塚; 一郎赤堀
Original assignee: Denso Corp
Current assignee: Denso Corp
Priority date: 2009-05-07
Filing date: 2009-05-07
Publication date: 2012-04-25
Anticipated expiration: 2024-01-07
Also published as: JP2009169445A

Description

本発明は、音声認識装置、及び、音声認識装置を備えるカーナビゲーション装置に関する。

従来より、利用者が発した音声をマイクロフォンで集音し、これを予め認識語として記憶された音声のパターンと比較し、一致度の高い認識語を利用者が発声した語彙であると認識する音声認識装置が知られている。この種の音声認識装置は、例えばカーナビゲーション装置などに組み込まれる。

音声認識装置の音声認識率は、マイクロフォンから入力される音声信号に含まれる雑音成分の量によって左右されることが知られているが、自動車等の車両内においては、車両に搭載されたオーディオ機器の動作時に、そのオーディオ機器のスピーカにて再生中の音楽等が雑音として利用者の音声と共にマイクロフォンで集音されてしまう。このため、従来では、音声認識の際にオーディオ機器をミュートに設定し、音楽等がマイクロフォンに入力されないようにしていた（例えば、非特許文献１参照）。

しかしながら、このような構成の従来装置では、音声認識の際に一時的に音楽等の再生が中断されてしまうため、利用者に不満が及ぶ可能性が高かった。そこで、近年では、スピーカに入力されるオーディオ信号を取得し、これに基づき、マイクロフォンから得た音声信号に含まれる雑音成分を推定し、その雑音成分を音声信号から除去する雑音除去装置、を音声認識装置に設けることが考えられている。

雑音除去装置としては、雑音成分の推定方法に、ＬＭＳ（Least Mean Squar）アルゴリズムを用いたものが知られている。この種の雑音除去装置では、オーディオ機器のスピーカに入力されるオーディオ信号を取得し、そのオーディオ信号を適応フィルタにてフィルタリングすることで、音声信号から雑音成分を除去するための雑音除去信号を生成し、この雑音除去信号に基づいて、マイクロフォンから取得した音声信号に含まれる雑音成分を除去する。

また、この雑音除去装置は、雑音除去後の音声信号に基づき、ＮＬＭＳ法（Normalized-LMS法、別名、学習同定法）などを用いて、適応フィルタの特性（フィルタ係数）を変更するフィルタ学習部を備えており、このフィルタ学習部の繰返し動作によって、音声信号に含まれる雑音成分が雑音除去信号により適切に除去されるようにする。

ところで、車両に搭載されるオーディオ機器としては、ステレオ再生機能を有するオーディオ機器（以下、ステレオ・オーディオ機器ともいう。）が広く普及しているため、車両用の雑音除去装置では、音楽等がステレオ再生されることを前提として、その音楽等がマイクロフォンにて集音されることにより発生する雑音成分を適切に除去できるようにすることが好ましい。しかしながら、上述した雑音除去装置を、単にステレオ・オーディオ機器用に設計変更しただけでは、音声信号から複数チャンネルの全雑音成分を適切に除去することができないといった問題があった。

ステレオ・オーディオ機器用の雑音除去装置の構成例としては、例えば、各チャンネル毎に、適応フィルタと上記フィルタ学習部とを設けることが考えられるが（例えば特許文献１図２５参照）、このような構成では、個々のチャンネルに対応するフィルタ学習部が、他のチャンネルの雑音成分が残存する雑音除去後の音声信号に基づいて、フィルタ係数を更新するため、学習プロセスの相互干渉が起こり、各チャンネルのフィルタ学習部において、フィルタ係数の誤学習が生じる。このため、上記構成の雑音除去装置では、音声信号から複数のチャンネルの全雑音成分を適切に除去することができないのである。

そこで、特許文献１記載の音声認識装置では、オーディオ機器のスピーカに入力される各チャンネルのオーディオ信号を取得し、これらをモノラル信号に変換し、そのモノラル信号に基づいて雑音成分を推定し、音声信号から雑音成分を除去するようにしている。

また、特許文献２記載の音響エコーキャンセル方法では、オーディオ機器のスピーカに入力される各チャンネル毎のオーディオ信号を非線形変換することにより、マイクロフォンにて集音されるオーディオ機器の再生音について、チャンネル間の相関関係を低減し、各チャンネルに対応するフィルタ学習部において、フィルタ係数の誤学習が行われないようにしている。

特開２００１−１００７８５号公報特開平１０−１９０８４８号公報

"発表ニュースリリース「カーＡＶ＆ナビゲーションシステム’９９夏モデル５機種発売"、［online］、平成１１年５月１８日、富士通テン株式会社、［平成１５年１０月１６日検索］、インターネット＜URL: http://www.fujitsu-ten.co.jp/release/1999/0518.html＞

さて、雑音除去装置を用いることで、マイクロフォンから入力される音声信号からオーディオ機器の再生音に関する雑音成分を除去することができれば、音楽等を流しながら音声認識を行うことが可能となる訳であるが、音楽等を流しながら音声認識を行う場合には、いくつかの問題が生じる。

即ち、従来では、音声認識の開始時に、オーディオ機器をミュートに設定して、音楽等が流れないようにしたり、音声認識の開始を知らせるビープ音を出力して、利用者に音声認識開始の合図をしていたのであるが、音楽等を流しながら音声認識を開始すると、ビープ音を鳴らしても、それが音楽等に打ち消されて、利用者がビープ音に気づかない可能性がある。即ち、音楽等を流しながら音声認識を開始する場合には、利用者が何時音声認識が開始されたのか把握し辛くなる可能性がある。

本発明は、こうした問題に鑑みなされたものであり、音響の多チャンネル再生を行うオーディオ機器から各チャンネルのオーディオ信号を取得し、各チャンネルのオーディオ信号に基づき、マイクロフォンから入力される音声信号から、オーディオ機器の再生音に関する雑音成分を除去する雑音除去装置を備える音声認識装置に関して、利便性の高い音声認識装置を提供すると共に、当該音声認識装置を備えたカーナビゲーション装置を提供することを目的とする。

かかる目的を達成するためになされた本発明の音声認識装置は、音響の多チャンネル再生を行うオーディオ機器から各チャンネルのオーディオ信号を取得し、それら各チャンネルのオーディオ信号に基づき、マイクロフォンから入力される音声信号から、オーディオ機器の再生音に関する雑音成分を除去する雑音除去装置と、雑音除去装置より得られる雑音除去後の音声信号に基づき、マイクロフォンに入力された利用者の音声を認識する音声認識手段と、外部（操作部等）から音声認識開始指令が入力されると音声認識手段を作動させる制御手段と、を備える音声認識装置であって、制御手段が、オーディオ機器の動作時に、上記音声認識開始指令が入力されると、オーディオ機器によって再生される音響の音量を変更した後、音声認識手段を作動させることを特徴とする。

このように構成された音声認識装置では、音声認識の前後でオーディオ機器によって再生される音楽等の音量を変化させて、音声認識の開始を利用者に案内するので、利用者は、その音量の変化によって音声認識が開始されたことを確実に知ることができる。よって、本発明によれば、ビープ音が音楽等に打ち消されて、利用者がビープ音に気づかないなど、音楽等を流しながら音声認識を開始する場合に、利用者が何時音声認識が開始されたのか把握し辛くなる上記問題を解消することができる。

ところで、この音量調整の際には、ロンバート効果を利用して利用者に大きな声を発声させるようにすると好ましい。尚、ロンバート効果とは、大きな雑音環境下では、発声者の発声音量が上がる現象のことをいう。

即ち、音声認識装置は、音声認識手段の動作時において、雑音除去装置から得られた雑音除去後の音声信号に基づき、利用者の発声音量に関する履歴情報を作成する履歴作成手段と、その履歴作成手段により作成された履歴情報に基づいて、次回の音声認識時にオーディオ機器に対して設定すべき音量を決定する音量決定手段と、を備え、制御手段は、音声認識開始指令が入力されると、オーディオ機器によって再生される音響の音量を、音量決定手段が決定した音量に変更した後、音声認識手段を作動させる構成にされると好ましい。

この音声認識装置によれば、履歴情報に基づいて、ロンバート効果が発揮されるように音量を変更することができ、声の小さい利用者の発声音量を上げることができて、音声認識率を向上させることができる。

具体的に、ロンバート効果を利用して音声認識率を向上させるためには、履歴情報に基づいて、利用者の発声音量の大小を評価し、その評価値が評価基準値より小さい場合には、音声認識時におけるオーディオ機器の再生音量を、予め定められた基準値よりも大きい音量に決定するように、音量決定手段を構成すればよい。このように構成された音声認識装置によれば、音声認識率が向上する。この他、音量決定手段は、上記評価値が予め定められた評価基準値より大きい場合には、次回の音声認識時にオーディオ機器に対して設定すべき音量を、予め定められた基準値よりも小さい音量に決定する構成にされてもよい。

この他、本発明の音声認識装置を、カーナビゲーション装置に組み込めば、車両の運転者等がリモートコントローラを用いずにカーナビゲーション装置を正確に操作することができるようになる。従って、このカーナビゲーション装置によれば、装置の操作性が向上する。

ところで、上述の音声認識装置に設ける雑音除去装置は、次のように構成することができる。即ち、雑音除去装置は、音響の多チャンネル再生を行うオーディオ機器から各チャンネルのオーディオ信号を取得し、各チャンネルのオーディオ信号に基づき、マイクロフォンから入力される音声信号から、オーディオ機器の再生音に関する雑音成分を除去する雑音除去装置であって、各チャンネル毎の雑音除去信号生成手段と、各雑音除去信号生成手段が生成した雑音除去信号を用いて、マイクロフォンから入力される音声信号に含まれる雑音成分を除去し、その雑音除去後の音声信号を出力する除去出力手段と、除去出力手段が出力する音声信号を、非線形変換する変換手段と、を備えた構成にすることができる。

また、各雑音除去信号生成手段は、自身に割り当てられたチャンネルのオーディオ信号を、オーディオ機器から取得するオーディオ信号取得手段と、オーディオ信号取得手段が取得したオーディオ信号を、予め設定されたフィルタ係数に従い濾波することで、雑音成分を除去するための雑音除去信号を生成する濾波手段と、変換手段による非線形変換後の音声信号と、オーディオ信号取得手段が取得したオーディオ信号と、に基づき、濾波手段に設定されたフィルタ係数を更新する係数更新手段と、を備えた構成にすることができる。

更に言えば、濾波手段は、予め設定されたフィルタ係数Ｗ[ｋ]と、オーディオ信号取得手段が取得したオーディオ信号Ｘ（ｔ）とを、次の関係式

に従い畳み込み演算することにより、オーディオ信号Ｘ（ｔ）を濾波して、雑音除去信号Ｃ（ｔ）を生成し、変換手段は、除去出力手段が出力する音声信号Ｕ（ｔ）を、非線形関数ｆ（ｘ）に代入して、非線形変換後の音声信号ｆ（Ｕ（ｔ））を生成し、係数更新手段は、変換手段が生成した非線形変換後の音声信号ｆ（Ｕ（ｔ））と、オーディオ信号取得手段が取得したオーディオ信号Ｘ（ｔ）と、濾波手段に設定されているフィルタ係数Ｗ[ｋ]と、に基づいて、予め設定された定数α，βを含む次の関係式

に従い、フィルタ係数Ｆ[ｋ]を算出し、このフィルタ係数Ｆ[ｋ]を濾波手段に対して設定することにより、フィルタ係数Ｗ［ｋ］を更新する構成にすることができる（但し、定数Ｋは、タップ数であり、２以上の整数値をとる。又、変数ｔは、時間を表す変数であり、整数値をとる。）。

このように構成された雑音除去装置では、除去出力手段から出力される雑音除去後の音声信号を、非線形変換し、その非線形変換後の音声信号を用いて各チャンネル毎に用意された濾波手段のフィルタ係数を、そのチャンネルに対応する係数更新手段にて更新するため、各係数更新手段間で相互干渉が起こりにくく、各係数更新手段においてフィルタ係数の誤学習が起こりにくい。

即ち、各チャンネルの係数更新手段におけるフィルタ係数の学習動作については、従来、自チャンネル以外の他のチャンネルの雑音成分によって大きく影響を受けていたが、この雑音除去装置によれば、非線形変換後の音声信号をフィルタ係数の学習に用いるので、その影響を小さくすることができ、他チャンネルの雑音成分や他チャンネルの係数更新手段の挙動により、各係数更新手段においてフィルタ係数の誤学習が生じるのを抑制することができる。

従って、この雑音除去装置によれば、オーディオ機器によって多チャンネル再生（ステレオ再生）された音楽等の雑音成分が重畳された上記音声信号から、音楽等の雑音成分を、適切に除去することができ、雑音除去装置の雑音除去性能が向上する。

尚、この雑音除去装置における変換手段は、非線形関数であるｔａｎｈ関数を用いて上記非線形変換を行う構成にすることができる。その他、変換手段は、非線形関数であるｓｉｇｎ関数を用いて非線形変換を行う構成にされてもよいし、非線形関数である関数ｇ（ｘ）を用いて非線形変換を行う構成にされてもよい。

但し、変数ｍは、１より大きい正の実数である。

非線形関数の種類によって、当該装置の雑音除去性能及び当該装置の変換手段にかかる処理負荷は変化するが、ｔａｎｈ関数を用いる雑音除去装置によれば、変換手段にかかる処理負荷を抑えて、雑音除去性能を十分に高めることができる。

また、ｓｉｇｎ関数を用いると、ｔａｎｈ関数を用いる雑音除去装置と比較して、雑音除去性能が低下するが、反面、変換手段にかかる処理負荷を低減することができる。その他、関数ｇ（ｘ）を用いると、ｔａｎｈ関数を用いる雑音除去装置と同程度の雑音除去性能を得つつ、処理負荷を低減することができる。

但し、雑音除去装置においては、上述したもの以外の非線形関数を用いても良い。この非線形関数の選択は、周知の独立成分分析（ＩＣＡ）の知見に基づいて行うことができる。独立成分分析については、例えば、『A.J.Bell，T.J.Sejnowski,"An information-maximisation approach to blind separation and blind deconvolution",Neural Computation,7(6),pp.1129-1159,1995』、『H.Mathis,S.Douglas,"On optimal and universal nonlinearities for blind signal separation",Proc.of Intnl.Conf.on Acoustics,Speech and Signal Processing(ICASSP),2001』等の文献を参考にされたい。

本発明が適用されたカーナビゲーション装置１の概略構成を表すブロック図である。オーディオキャンセラ２０の機能ブロック図である。非線形変換部２７Ｌ，２７Ｒで用いられる非線形関数ｆ（ｘ）を示した図である。オーディオキャンセラ２０が実行する雑音除去処理を表すフローチャートである。オーディオキャンセラ２０が実行する第一フィルタ学習処理を表すフローチャート（ａ）、及び、オーディオキャンセラ２０が実行する第二フィルタ学習処理を表すフローチャート（ｂ）である。制御部４０が実行する音声認識関連処理を表すフローチャートである。カーナビゲーション装置１の動作態様を示したタイムチャートである。

以下に本発明の実施例について、図面とともに説明する。図１は、本発明が適用されたカーナビゲーション装置１の概略構成を表すブロック図である。
本実施例のカーナビゲーション装置１は、マイクロフォン３及び車載オーディオ機器５に接続された音声認識装置１０と、ＣＰＵやメモリ４１等を備えモニタ７の表示制御やその他の当該装置各部を統括制御する制御部４０と、オーディオ機器５のスピーカＳＲ，ＳＬに接続され、制御部４０からの指令信号に従って音声信号を生成しスピーカＳＲ，ＳＬに出力する音声生成部５０と、を備える。

このカーナビゲーション装置１は、操作スイッチ類（ＰＴＴ（Push to Talk）スイッチ９等）から入力される指令信号に従い、制御部４０にて各種処理を実行する。カーナビゲーション装置１の制御部４０が実行する処理としては、目的地までの経路探索・案内や、周辺施設案内、モニタ７に表示する道路地図の地域・スケール変更など、周知のカーナビゲーション装置が実行する処理が挙げられる。その他、当該カーナビゲーション装置１の制御部４０は、後述する音声認識関連処理（図６参照）を実行する。

オーディオ機器５は、音響の多チャンネル再生機能（ステレオ再生機能）を有し、オーディオ機器本体部６と、チャンネル毎のスピーカＳＲ，ＳＬと、を備える。
オーディオ機器本体部６は、スピーカＳＲ，ＳＬから出力される音響の音量を調節するための音量調節部６ａを備えており、オーディオ機器本体部６組付の操作パネル（図示せず）や、カーナビゲーション装置１の制御部４０から入力される指令信号に従って、音量調節部６ａを制御し、スピーカＳＲ，ＳＬから出力される音響の音量を調節する。尚、オーディオ機器本体部６から出力される各チャンネルのオーディオ信号は、そのチャンネルに対応するスピーカＳＲ，ＳＬと、音声認識装置１０に入力される。

音声認識装置１０は、マイクロフォン３から入力される音声信号をアナログ−ディジタル変換するＡ／Ｄ変換器１１と、オーディオ機器５から入力されるＬチャンネルのオーディオ信号をアナログ−ディジタル変換するＡ／Ｄ変換器１３と、オーディオ機器５から入力されるＲチャンネルのオーディオ信号をアナログ−ディジタル変換するＡ／Ｄ変換器１５と、オーディオキャンセラ２０と、音声認識部３０と、を備える。

また、オーディオキャンセラ２０は、図２に示すように、加算部２１と、上記各チャンネル毎の適応フィルタ２３Ｌ，２３Ｒ及びフィルタ学習部２５Ｌ，２５Ｒ並びに非線形変換部２７Ｌ，２７Ｒと、を備える。尚、図２は、オーディオキャンセラ２０の概略構成を表した機能ブロック図である。

オーディオキャンセラ２０が備える適応フィルタ２３Ｌは、端子Ｓ１を介してＡ／Ｄ変換器１３から入力されるディジタル変換後のＬチャンネルのオーディオ信号Ｘ_L（ｔ）と、予め設定されたフィルタ係数Ｗ_L［ｋ］と、を式（５）に従い畳み込み演算することによって、オーディオ信号Ｘ_L（ｔ）をフィルタ係数Ｗ_L［ｋ］でフィルタリング（濾波）し、マイクロフォン３から入力された音声信号から、スピーカＳＬにて出力された音響に関する雑音成分を除去するための雑音除去信号Ｕ_L（ｔ）を生成する。尚、ここで用いる変数ｋは、１≦ｋ≦Ｋを満足する整数値をとる。また、定数Ｋはタップ数を表すものであり、２以上の整数値をとる。その他、変数ｔは、サンプリング周期Ｔを単位とする時間変数であり、整数値をとる。

一方、適応フィルタ２３Ｒは、端子Ｓ３を介してＡ／Ｄ変換器１５から入力されるディジタル変換後のＲチャンネルのオーディオ信号Ｘ_R（ｔ）と、予め設定されたフィルタ係数Ｗ_R［ｋ］と、を式（６）に従い畳み込み演算することによって、オーディオ信号Ｘ_R（ｔ）をフィルタ係数Ｗ_R［ｋ］でフィルタリング（濾波）し、マイクロフォン３から入力された音声信号から、スピーカＳＲにて出力された音響に関する雑音成分を除去するための雑音除去信号Ｕ_R（ｔ）を生成する。

また、加算部２１は、端子Ｓ２を介してＡ／Ｄ変換器１１から入力されるディジタル変換後の音声信号Ｘ_M（ｔ）と、適応フィルタ２３Ｌから出力される雑音除去信号Ｕ_L（ｔ）と、適応フィルタ２３Ｒから出力される雑音除去信号Ｕ_R（ｔ）と、を加算して、スピーカＳＬ，ＳＲにて出力された音響に関する雑音成分を、音声信号Ｘ_M（ｔ）から除去し、雑音除去後の音声信号Ｕ（ｔ）を出力する。

Ｕ（ｔ）＝Ｘ_M（ｔ）＋Ｕ_L（ｔ）＋Ｕ_R（ｔ） …式（７）
尚、本実施例では、上記信号Ｘ_M（ｔ），Ｘ_L（ｔ），Ｘ_R（ｔ），Ｕ_L（ｔ），Ｕ_R（ｔ），Ｕ（ｔ）の取り得る値が、−１以上１以下の実数であるとする。

非線形変換部２７Ｌ，２７Ｒは、加算部２１が出力する上記雑音除去後の音声信号Ｕ（ｔ）を取得し、これを非線形関数ｆ（ｘ）に代入して非線形変換し、その非線形変換後の音声信号ｆ（Ｕ（ｔ））を出力する。尚、図３は、この非線形変換部２７Ｌ，２７Ｒで用いられる非線形関数ｆ（ｘ）の例を示した図である。図３（ａ）は、ｙ＝ｆ（ｘ）＝ｔａｎｈ（ａ・ｘ）を示したグラフであり、図３（ｂ）は、ｙ＝ｆ（ｘ）＝ｓｉｇｎ（ｘ）を示したグラフである。尚、ｓｉｇｎ（ｘ）は、ｘが正の実数であるときに値１をとり、ｘが負の実数であるときに値−１をとり、ｘが０であるときに値０をとる関数である。また、図３（ｃ）は、ｙ＝ｆ（ｘ）＝ｇ（ｘ）を示したグラフである（式（４）参照）。

フィルタ学習部２５Ｌは、この非線形変換部２７Ｌから出力される非線形変換後の音声信号ｆ（Ｕ（ｔ））を取得し、この信号ｆ（Ｕ（ｔ））と、Ａ／Ｄ変換器１３から入力されるディジタル変換後のＬチャンネルのオーディオ信号Ｘ_L（ｔ）と、既に適応フィルタ２３Ｌに設定されているフィルタ係数Ｗ_L［ｋ］と、に基づいて、式（８）に従い、次に適応フィルタ２３Ｌに対して設定すべきフィルタ係数Ｆ_L［ｋ］を算出する。

この後、フィルタ学習部２５Ｌは、算出したフィルタ係数Ｆ_L［ｋ］を、既に設定されているＷ_L［ｋ］に代えて、適応フィルタ２３Ｌに設定し、フィルタ係数Ｗ_L［ｋ］を更新する。

同様に、フィルタ学習部２５Ｒは、非線形変換部２７Ｒから出力される非線形変換後の音声信号ｆ（Ｕ（ｔ））を取得し、この信号ｆ（Ｕ（ｔ））と、Ａ／Ｄ変換器１５から入力されるディジタル変換後のＲチャンネルのオーディオ信号Ｘ_R（ｔ）と、既に適応フィルタ２３Ｒに設定されているフィルタ係数Ｗ_R［ｋ］と、に基づいて、式（１０）に従い、次に適応フィルタ２３Ｒに対して設定すべきフィルタ係数Ｆ_R［ｋ］を算出する。

この後、フィルタ学習部２５Ｒは、算出したフィルタ係数Ｆ_R［ｋ］を、既に設定されているＷ_R［ｋ］に代えて、適応フィルタ２３Ｒに設定し、フィルタ係数Ｗ_R［ｋ］を更新する。

以上に、オーディオキャンセラ２０の基本構成について説明したが、次にオーディオキャンセラ２０が実行する処理全体の流れを説明することにする。図４は、上述した構成のオーディオキャンセラ２０が実行する雑音除去処理を表すフローチャートである。この雑音除去処理は、当該カーナビゲーション装置１の起動時若しくは、オーディオ機器５の起動時に実行される。

オーディオキャンセラ２０は、まず最初に初期設定を行い、フィルタ係数Ｗ_L［ｋ］，Ｗ_R［ｋ］を初期値に設定する（Ｓ１１０）。その後、オーディオキャンセラ２０は、Ａ／Ｄ変換器１１から音声信号Ｘ_M（ｔ）を取得し、Ａ／Ｄ変換器１３からＬチャンネルのオーディオ信号Ｘ_L（ｔ）を取得し、Ａ／Ｄ変換器１５からＲチャンネルのオーディオ信号Ｘ_R（ｔ）を取得する（Ｓ１２０）。そして、式（５）に従い雑音除去信号Ｕ_L（ｔ）を生成し（Ｓ１３０）、式（６）に従い雑音除去信号Ｕ_R（ｔ）を生成する（Ｓ１４０）。

この後、オーディオキャンセラ２０は、音声信号Ｘ_M（ｔ）に、雑音除去信号Ｕ_L（ｔ）と雑音除去信号Ｕ_R（ｔ）とを加算して、音声信号Ｕ（ｔ）を生成する（Ｓ１５０）。また、Ｌチャンネルの過去Ｋ・Ｔ時間分のオーディオ信号の振幅の平均値ｎｏｒｍ_Lを算出し（Ｓ１６０）、Ｒチャンネルの過去Ｋ・Ｔ時間分のオーディオ信号の振幅の平均値ｎｏｒｍ_Rを算出する（Ｓ１７０）。

そして、算出したＬチャンネルのオーディオ信号の振幅の平均値ｎｏｒｍ_Lが所定の閾値ＡＬより大きいか否か判断し、ｎｏｒｍ_L＞ＡＬであると判断すると（Ｓ１８０でＹｅｓ）、第一フィルタ学習処理（図５（ａ）参照。詳細後述）を実行し（Ｓ１９０）、その処理後、Ｓ２００に移行する。一方、ｎｏｒｍ_L≦ＡＬであると判断すると（Ｓ１８０でＮｏ）、第一フィルタ学習処理を実行することなく、Ｓ２００に移行する。

Ｓ２００では、算出したＲチャンネルのオーディオ信号の振幅の平均値ｎｏｒｍ_Rが所定の閾値ＡＲより大きいか否か判断し、ｎｏｒｍ_R＞ＡＲであると判断すると（Ｓ２００でＹｅｓ）、第二フィルタ学習処理（図５（ｂ）参照。詳細後述）を実行し（Ｓ２１０）、その処理後、Ｓ２２０に移行する。一方、ｎｏｒｍ_R≦ＡＲであると判断すると（Ｓ２００でＮｏ）、第二フィルタ学習処理を実行することなく、Ｓ２２０に移行する。

Ｓ２２０では、制御部４０から終了指令信号が入力されているか否か判断し、終了指令信号が入力されていると判断すると、当該雑音除去処理を終了し、終了指令信号が入力されていないと判断すると、Ｓ１２０に処理を戻して、最新の信号Ｘ_M（ｔ），Ｘ_L（ｔ），Ｘ_R（ｔ）を取得し、上述したＳ１２０からＳ２２０までのステップを再度実行する。

図５（ａ）は、オーディオキャンセラ２０が実行する第一フィルタ学習処理を表すフローチャートである。第一フィルタ学習処理において、オーディオキャンセラ２０は、式（９）に従い学習レートα_Lを算出し（Ｓ１９１）、式（８）に従いフィルタ係数Ｆ_L［ｋ］を算出する（Ｓ１９３）。その後、フィルタ係数Ｆ_L［ｋ］を、次回のＳ１３０で用いるフィルタ係数Ｗ_L［ｋ］に設定して（Ｓ１９５）、当該第一フィルタ学習処理を終了する。

また、図５（ｂ）は、オーディオキャンセラ２０が実行する第二フィルタ学習処理を表すフローチャートである。第二フィルタ学習処理を実行すると、オーディオキャンセラ２０は、式（１１）に従い学習レートα_Rを算出し（Ｓ２１１）、式（１０）に従いフィルタ係数Ｆ_R［ｋ］を算出する（Ｓ２１３）。そして、フィルタ係数Ｆ_R［ｋ］を、次回のＳ１４０で用いるフィルタ係数Ｗ_R［ｋ］に設定して（Ｓ２１５）、当該第二フィルタ学習処理を終了する。

このように構成されたオーディオキャンセラ２０が生成した雑音除去後の音声信号Ｕ（ｔ）は、端子Ｓ０を介して、音声認識部３０に入力される。
音声認識部３０は、制御部４０から入力される動作開始指令信号に従い動作を開始し、オーディオキャンセラ２０から所定期間音声信号Ｕ（ｔ）を取得し、取得した所定期間分の音声信号Ｕ（ｔ）を音響分析し、音声信号Ｕ（ｔ）の特徴量（例えばケプストラム）を得る。尚、音声信号Ｕ（ｔ）を取得する上記所定期間を、以下では、音声認識対象区間と表現する。

その後、音声認識部３０は、上記特徴量を、周知の技法を用いて、自身が備える図示しない音声辞書に登録された音声パターンと比較し、一致度の高い音声パターンに対応する語彙を、音声認識対象区間に利用者が発声した語彙であると認識して、その認識結果を制御部４０に入力する。

また、音声認識部３０は、パワー算出部３１を備えており、このパワー算出部３１によって、音声認識対象区間において利用者が発した音声のパワー（音圧の二乗の時間平均）を算出する構成にされている。このパワー算出部３１は、音声認識が行われる度に、音声信号Ｕ（ｔ）に基づき算出した音声認識対象区間における音声のパワーＰ１（ｚ）を、制御部４０に入力する。

図６は、制御部４０が実行する音声認識関連処理を表すフローチャートである。制御部４０は、カーナビゲーション装置１が起動されると、当該カーナビゲーション装置１がオフされるまで、繰返し音声認識関連処理を実行する。

音声認識関連処理を実行すると、制御部４０は、ＰＴＴスイッチ９から音声認識開始指令信号が入力されるまで待機し、ＰＴＴスイッチ９から音声認識開始指令信号が入力されたと判断すると（Ｓ３１０でＹｅｓ）、ビープ音の生成指令信号を音声生成部５０に入力して、スピーカＳＬ，ＳＲからビープ音を出力させる（Ｓ３２０）。その後、制御部４０は、オーディオ機器本体部６に音響（音楽等）の再生音量を現在の音量からγ倍するように要求し、オーディオ機器本体部６に、スピーカＳＲ，ＳＬから出力される音響の音量を現在の値からγ倍に変更させる（Ｓ３３０）。

また、制御部４０は、音声認識部３０に対して動作開始指令信号を入力して、音声認識部３０を作動させる（Ｓ３４０）。その後、音声認識部３０による音声認識が終了するまで待機し、音声認識が終了したと判断すると（Ｓ３５０でＹｅｓ）、オーディオ機器５の再生音量を、元の設定値に変更する（Ｓ３６０）。即ち、制御部４０は、オーディオ機器５に対してＳ３３０での要求によりγ倍させた音量を１／γ倍させて、元の音量に変更させる。その後、制御部４０は、音声認識部３０から得た認識結果に基づいて、利用者から発せられマイクロフォン３に入力された音声に従う処理を実行する（Ｓ３７０）。

また、制御部４０は、今回の音声認識対象区間内に、利用者が発した音声のパワーに関する上記算出値Ｐ１（ｚ）を音声認識部３０から取得する（Ｓ３８０）。そして、この値Ｐ１（ｚ）を、メモリ４１に記憶された履歴データファイルに追加書込する（Ｓ３９０）。尚、変数ｚは、音声認識回数を表す変数である。

この後、制御部４０は、メモリ４１に記憶された履歴データファイル内に少なくともＳ回分の算出値Ｐ１が書き込まれているか否か判断し（Ｓ４００）、Ｓ回分の算出値Ｐ１が書き込まれていないと判断すると（Ｓ４００でＮｏ）当該音声認識関連処理を終了し、Ｓ回分の算出値Ｐ１が書き込まれていると判断すると（Ｓ４００でＹｅｓ）、Ｓ４１０に移行する。

そして、今回の算出値Ｐ１（ｚ）を含む過去Ｓ回分の算出値Ｐ１（ｚ），Ｐ１（ｚ−１），Ｐ１（ｚ−２），…Ｐ１（ｚ−Ｓ＋１）の平均値Ｐ０（ｚ）を算出し（Ｓ４１０）、その算出値Ｐ０（ｚ）をメモリ４１に書き込む（Ｓ４２０）。

更に、制御部４０は、メモリ４１に書き込まれた算出値Ｐ０（ｚ）と、予め設定された評価基準許容上限値Ｐ_UPと、予め設定された評価基準許容下限値Ｐ_DOWNと、に基づき、γ’を算出する（Ｓ４４０）。

γ’＝ｈ（γ，Ｐ０（ｚ），Ｐ_UP，Ｐ_DOWN） …式（１４）
尚、γ’算出の際には、上記γと、Ｐ０（ｚ）と、Ｐ_UP及びＰ_DOWNと、を変数にもつ所定の関数ｈが用いられる。但し、関数ｈは、値Ｐ_UPと比較して値Ｐ０（ｚ）が大きい場合に、γより小さい値をとり、値Ｐ_DOWNと比較して値Ｐ０（ｚ）が小さい場合に、γより大きい値をとり、また、値Ｐ０（ｚ）が値Ｐ_DOWN以上でかつ値Ｐ_UP以下の場合に、γと同一の値をとるものである。具体的に説明すると、γ’は、例えば、次式に従って算出される。尚、εは予め適切に設定された正の実係数である。

この後、制御部４０は、算出した値γ’を、変数γに設定し、変数γの値を更新する（Ｓ４５０）。即ち、制御部４０は、Ｓ３３０における音量の調節倍率を、前回の値から、算出したγ’の値に変更する。このステップを終了すると、制御部４０は、当該音声認識関連処理を終了する。

図７は、上述した構成のカーナビゲーション装置１の動作態様を示したタイムチャートである。当該カーナビゲーション装置１は、ＰＴＴスイッチ９から、音声認識開始指令信号としてのトリガ入力があると、ビープ音をスピーカＳＬ，ＳＲから出力し、音声認識を開始する旨を利用者に合図する。その後に、利用者から発せられた所定期間（音声認識対象区間）の音声についての音声信号Ｕ（ｔ）を、音声認識部３０に取得させ、音声認識させる。また、音声認識対象区間においては、スピーカＳＬ，ＳＲから出力される音響（音楽等）の音量をγ倍に設定する。

以上に、カーナビゲーション装置１の構成について説明したが、このカーナビゲーション装置１によれば、Ａ／Ｄ変換器１１，１３，１５と、オーディオキャンセラ２０と、からなる雑音除去装置が、音響の多チャンネル再生を行うオーディオ機器５から各チャンネル（Ｌチャンネル、Ｒチャンネル）のオーディオ信号を取得し、それら各チャンネルのオーディオ信号に基づいて、マイクロフォン３から入力される音声信号Ｘ_M（ｔ）から、オーディオ機器５の再生音に関する雑音成分を除去する。

このオーディオキャンセラ２０では、変換手段としての非線形変換部２７Ｌ，２７Ｒが除去出力手段としての加算部２１から出力される雑音除去後の音声信号Ｕ（ｔ）を非線形変換する。そして、係数更新手段としてのフィルタ学習部２５Ｌが、その非線形変換後の信号ｆ（Ｕ（ｔ））と、自身に割り当てられたＬチャンネルのオーディオ信号と、に基づいて、式（８）に従い、濾波手段としての適応フィルタ２３Ｌに設定すべきフィルタ係数Ｆ_L［ｋ］を算出し、これを適応フィルタ２３Ｌに設定して、フィルタ係数Ｗ_L［ｋ］を更新する。

同様に、係数更新手段としてのフィルタ学習部２５Ｒは、非線形変換後の信号ｆ（Ｕ（ｔ））と、自身に割り当てられたＲチャンネルのオーディオ信号と、に基づき、式（１０）に従い、濾波手段としての適応フィルタ２３Ｒに設定すべきフィルタ係数Ｆ_R［ｋ］を算出し、これを適応フィルタ２３Ｒに設定して、フィルタ係数Ｗ_R［ｋ］を更新する。

このように本実施例のオーディオキャンセラ２０では、フィルタ学習部２５Ｌ（フィルタ学習部２５Ｒ）が、Ｒチャンネル（Ｌチャンネル）の雑音成分やフィルタ学習部２５Ｒ（フィルタ学習部２５Ｌ）の挙動により影響を受けて、フィルタ係数の誤学習を行うのを抑制するために、加算部２１から出力される音声信号Ｕ（ｔ）を、非線形変換部２７Ｌ，２７Ｒにて非線形変換し、非線形変換後の音声信号ｆ（Ｕ（ｔ）を用いて、フィルタ学習部２５Ｌ，２５Ｒにフィルタ係数の学習・更新を行わせるようにした。

従って、本実施例のオーディオキャンセラ２０によれば、マイクロフォン３から得た音声信号Ｘ_M（ｔ）に含まれるオーディオ機器５の再生音に関する雑音成分を、従来装置よりも適切に除去することができる。

よって、このカーナビゲーション装置１では、音声認識時にオーディオ機器５をミュートに設定し、オーディオ機器５にて再生中の音楽等の該再生を中断しなくとも、マイクロフォン３に入力された利用者の音声を、音声認識手段としての音声認識部３０で正確に認識し、それに対応する処理を実行することができる。

つまり、このカーナビゲーション装置１によれば、オーディオ機器５から音楽等が流れている場合であっても、音声認識を正確に実行し、それに対応する処理を実行することができ、当該装置の操作性が向上する。更に言えば、音声認識時の音楽再生の中断を原因とする利用者の不満を解消することができる。

尚、非線形変換部２７Ｌ，２７Ｒにおいて、非線形関数であるｔａｎｈ関数を用いて上記非線形変換を行うと、簡単な計算で精度よく雑音除去を行うことができ、オーディオキャンセラ２０の雑音除去性能が向上すると共に、オーディオキャンセラ２０の処理負荷を抑えることができて、安価にオーディオキャンセラ２０を製造することができる。

また、非線形変換部２７Ｌ，２７Ｒにおいて、非線形関数であるｓｉｇｎ関数を用いて非線形変換を行うと、ｔａｎｈ関数を用いる場合よりも、雑音除去性能が若干落ちるものの、オーディオキャンセラ２０の処理負荷を抑えることができて、安価にオーディオキャンセラ２０を製造することができる。

その他、非線形変換部２７Ｌ，２７Ｒにおいて、非線形関数である式（４）に示す関数ｇ（ｘ）を用いて非線形変換を行うと、ｔａｎｈ関数を用いた場合と、概ね同程度の雑音除去性能を得つつ、オーディオキャンセラ２０の処理負荷を抑えることができて、安価にオーディオキャンセラ２０を製造することができる。

また、本実施例のカーナビゲーション装置１では、オーディオ機器５の動作時に、ＰＴＴスイッチ９から音声認識開始指令信号が入力されると、制御部４０が、オーディオ機器５のスピーカＳＬ，ＳＲから出力される音響の音量（オーディオ機器５の再生音量）をγ倍に設定した後（Ｓ３３０）、音声認識部３０を作動させる（Ｓ３４０）。

また、音声認識部３０が、オーディオキャンセラ２０から得られた雑音除去後の音声信号Ｕ（ｔ）に基づき、利用者の発声音量を評価し、その評価値Ｐ１（ｚ）を制御部４０に入力し、制御部４０が、その評価値Ｐ１（ｚ）を履歴データファイルに書き込んで、利用者の発声音量に関する履歴情報を作成する（Ｓ３９０）。更に、制御部４０は、その履歴データファイルに記録された過去Ｓ回分の値Ｐ１（ｚ）に基づいて、次回の音声認識時にオーディオ機器５に対して設定すべき音量（即ち、γ値）を決定する（Ｓ４４０，Ｓ４５０）。

このように本実施例のカーナビゲーション装置１では、音声認識の前後でオーディオ機器５によって再生される音楽等の音量を変化させ、音声認識の開始を利用者に案内するので、利用者は、その音量の変化によって音声認識が開始されたことを確実に知ることができる。よって、本実施例のカーナビゲーション装置１によれば、音声認識開始時に出力されるビープ音が音楽等に打ち消されてしまうことによって、利用者が音声認識開始のタイミングを把握しづらくなるのを、解消することができる。

その他、本実施例では、履歴データファイルに基づき利用者の発声の大小を評価し（Ｓ４１０）、その評価値Ｐ０（ｚ）が評価基準許容上限値Ｐ_UPより高い場合には、予め定められた基準値（前回のγ値）よりもγ値を小さくし、評価値Ｐ０（ｚ）が評価基準許容下限値Ｐ_DOWNより低い場合には、予め定められた基準値（前回のγ値）よりもγ値を大きくするように（Ｓ４４０，Ｓ４５０）、制御部４０を構成した。

従って、本実施例のカーナビゲーション装置１によれば、ロンバート効果を期待でき、声の小さい利用者に対して音声認識対象の音声を大きい声で発せさせることができる。よって、本実施例のカーナビゲーション装置１によれば、ロンバート効果によって音声認識率を向上させることができる。

尚、本発明の制御手段は、制御部４０が実行するＳ３１０からＳ３６０の処理にて実現されている。また、履歴作成手段は、パワー算出部３１と、制御部４０が実行するＳ３８０，Ｓ３９０の処理とにより実現されている。その他、音量決定手段は、Ｓ４１０からＳ４５０の処理にて実現されている。

また、本発明は、上記実施例に限定されるものではなく、種々の態様を採ることができる。
例えば、上記実施例では、オーディオキャンセラ２０で用いる非線形関数としてｔａｎｈ関数、ｓｉｇｎ関数、式（４）に示す関数ｇ（ｘ）を挙げたが、その他の非線形関数を用いても構わない。

また、上記実施例では、Ｌチャンネル及びＲチャンネルの計２チャンネルで音響再生するオーディオ機器５に対応したオーディオキャンセラ２０について説明したが、例えば、スピーカを前方左、前方右、中央、後方左、後方右の５か所に配置して立体音響を生み出し、さらにウーファ（低音域用スピーカー）を１か所に配置して低音効果を補強する所謂５．１チャンネルサウンドシステムに対応するように、オーディオキャンセラ２０を構成しても構わない。

１…カーナビゲーション装置、３…マイクロフォン、５…オーディオ機器、６…オーディオ機器本体部、６ａ…音量調節部、７…モニタ、９…ＰＴＴスイッチ、１０…音声認識装置、１１，１３，１５…Ａ／Ｄ変換器、２０…オーディオキャンセラ、２１…加算部、２３Ｌ，２３Ｒ…適応フィルタ、２５Ｌ，２５Ｒ…フィルタ学習部、２７Ｌ，２７Ｒ…非線形変換部、３０…音声認識部、３１…パワー算出部、４０…制御部、４１…メモリ、５０…音声生成部、ＳＬ，ＳＲ…スピーカ

Claims

音響の多チャンネル再生を行うオーディオ機器から各チャンネルのオーディオ信号を取得し、該各チャンネルのオーディオ信号に基づき、マイクロフォンから入力される音声信号から、前記オーディオ機器の再生音に関する雑音成分を除去する雑音除去装置と、
該雑音除去装置より得られる雑音除去後の音声信号に基づき、前記マイクロフォンに入力された音声を認識する音声認識手段と、
外部から音声認識開始指令が入力されると前記音声認識手段を作動させる制御手段と、
前記音声認識手段の動作時において、前記雑音除去装置から得られた前記雑音除去後の音声信号に基づき、利用者の発声音量に関する履歴情報を作成する履歴作成手段と、
該履歴作成手段により作成された前記履歴情報に基づいて、次回の音声認識時に前記オーディオ機器に対して設定すべき音量を決定する音量決定手段と、
を備え、
前記制御手段は、前記オーディオ機器の動作時に、前記音声認識開始指令が入力されると、前記オーディオ機器によって再生される音響の音量を、前記音量決定手段により決定された前記音量に変更した後、前記音声認識手段を作動させ、
前記音量決定手段は、前記履歴情報に基づいて、利用者の声の大小を評価し、その評価値が予め定められた評価基準値より小さい場合には、次回の音声認識時に前記オーディオ機器に対して設定すべき音量を、予め定められた基準値よりも大きい音量に決定すること
を特徴とする音声認識装置。
音響の多チャンネル再生を行うオーディオ機器から各チャンネルのオーディオ信号を取得し、該各チャンネルのオーディオ信号に基づき、マイクロフォンから入力される音声信号から、前記オーディオ機器の再生音に関する雑音成分を除去する雑音除去装置と、
該雑音除去装置より得られる雑音除去後の音声信号に基づき、前記マイクロフォンに入力された音声を認識する音声認識手段と、
外部から音声認識開始指令が入力されると前記音声認識手段を作動させる制御手段と、
前記音声認識手段の動作時において、前記雑音除去装置から得られた前記雑音除去後の音声信号に基づき、利用者の発声音量に関する履歴情報を作成する履歴作成手段と、
該履歴作成手段により作成された前記履歴情報に基づいて、次回の音声認識時に前記オーディオ機器に対して設定すべき音量を決定する音量決定手段と、
を備え、
前記制御手段は、前記オーディオ機器の動作時に、前記音声認識開始指令が入力されると、前記オーディオ機器によって再生される音響の音量を、前記音量決定手段により決定された前記音量に変更した後、前記音声認識手段を作動させ、
前記音量決定手段は、前記履歴情報に基づいて、利用者の声の大小を評価し、その評価値が予め定められた評価基準値より大きい場合には、次回の音声認識時に前記オーディオ機器に対して設定すべき音量を、予め定められた基準値よりも小さい音量に決定すること
を特徴とする音声認識装置。
請求項１又は請求項２に記載の音声認識装置を備えることを特徴とするカーナビゲーション装置。