JP4924652B2 - 音声認識装置及びカーナビゲーション装置 - Google Patents

音声認識装置及びカーナビゲーション装置 Download PDF

Info

Publication number
JP4924652B2
JP4924652B2 JP2009112777A JP2009112777A JP4924652B2 JP 4924652 B2 JP4924652 B2 JP 4924652B2 JP 2009112777 A JP2009112777 A JP 2009112777A JP 2009112777 A JP2009112777 A JP 2009112777A JP 4924652 B2 JP4924652 B2 JP 4924652B2
Authority
JP
Japan
Prior art keywords
audio
voice recognition
volume
voice
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009112777A
Other languages
English (en)
Other versions
JP2009169445A (ja
Inventor
まなぶ 大塚
一郎 赤堀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso Corp
Original Assignee
Denso Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso Corp filed Critical Denso Corp
Priority to JP2009112777A priority Critical patent/JP4924652B2/ja
Publication of JP2009169445A publication Critical patent/JP2009169445A/ja
Application granted granted Critical
Publication of JP4924652B2 publication Critical patent/JP4924652B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Navigation (AREA)

Description

本発明は、音声認識装置、及び、音声認識装置を備えるカーナビゲーション装置に関する。
従来より、利用者が発した音声をマイクロフォンで集音し、これを予め認識語として記憶された音声のパターンと比較し、一致度の高い認識語を利用者が発声した語彙であると認識する音声認識装置が知られている。この種の音声認識装置は、例えばカーナビゲーション装置などに組み込まれる。
音声認識装置の音声認識率は、マイクロフォンから入力される音声信号に含まれる雑音成分の量によって左右されることが知られているが、自動車等の車両内においては、車両に搭載されたオーディオ機器の動作時に、そのオーディオ機器のスピーカにて再生中の音楽等が雑音として利用者の音声と共にマイクロフォンで集音されてしまう。このため、従来では、音声認識の際にオーディオ機器をミュートに設定し、音楽等がマイクロフォンに入力されないようにしていた(例えば、非特許文献1参照)。
しかしながら、このような構成の従来装置では、音声認識の際に一時的に音楽等の再生が中断されてしまうため、利用者に不満が及ぶ可能性が高かった。そこで、近年では、スピーカに入力されるオーディオ信号を取得し、これに基づき、マイクロフォンから得た音声信号に含まれる雑音成分を推定し、その雑音成分を音声信号から除去する雑音除去装置、を音声認識装置に設けることが考えられている。
雑音除去装置としては、雑音成分の推定方法に、LMS(Least Mean Squar)アルゴリズムを用いたものが知られている。この種の雑音除去装置では、オーディオ機器のスピーカに入力されるオーディオ信号を取得し、そのオーディオ信号を適応フィルタにてフィルタリングすることで、音声信号から雑音成分を除去するための雑音除去信号を生成し、この雑音除去信号に基づいて、マイクロフォンから取得した音声信号に含まれる雑音成分を除去する。
また、この雑音除去装置は、雑音除去後の音声信号に基づき、NLMS法(Normalized-LMS法、別名、学習同定法)などを用いて、適応フィルタの特性(フィルタ係数)を変更するフィルタ学習部を備えており、このフィルタ学習部の繰返し動作によって、音声信号に含まれる雑音成分が雑音除去信号により適切に除去されるようにする。
ところで、車両に搭載されるオーディオ機器としては、ステレオ再生機能を有するオーディオ機器(以下、ステレオ・オーディオ機器ともいう。)が広く普及しているため、車両用の雑音除去装置では、音楽等がステレオ再生されることを前提として、その音楽等がマイクロフォンにて集音されることにより発生する雑音成分を適切に除去できるようにすることが好ましい。しかしながら、上述した雑音除去装置を、単にステレオ・オーディオ機器用に設計変更しただけでは、音声信号から複数チャンネルの全雑音成分を適切に除去することができないといった問題があった。
ステレオ・オーディオ機器用の雑音除去装置の構成例としては、例えば、各チャンネル毎に、適応フィルタと上記フィルタ学習部とを設けることが考えられるが(例えば特許文献1図25参照)、このような構成では、個々のチャンネルに対応するフィルタ学習部が、他のチャンネルの雑音成分が残存する雑音除去後の音声信号に基づいて、フィルタ係数を更新するため、学習プロセスの相互干渉が起こり、各チャンネルのフィルタ学習部において、フィルタ係数の誤学習が生じる。このため、上記構成の雑音除去装置では、音声信号から複数のチャンネルの全雑音成分を適切に除去することができないのである。
そこで、特許文献1記載の音声認識装置では、オーディオ機器のスピーカに入力される各チャンネルのオーディオ信号を取得し、これらをモノラル信号に変換し、そのモノラル信号に基づいて雑音成分を推定し、音声信号から雑音成分を除去するようにしている。
また、特許文献2記載の音響エコーキャンセル方法では、オーディオ機器のスピーカに入力される各チャンネル毎のオーディオ信号を非線形変換することにより、マイクロフォンにて集音されるオーディオ機器の再生音について、チャンネル間の相関関係を低減し、各チャンネルに対応するフィルタ学習部において、フィルタ係数の誤学習が行われないようにしている。
特開2001−100785号公報 特開平10−190848号公報
"発表ニュースリリース「カーAV&ナビゲーションシステム’99夏モデル5機種発売"、[online]、平成11年5月18日、富士通テン株式会社、[平成15年10月16日検索]、インターネット<URL: http://www.fujitsu-ten.co.jp/release/1999/0518.html>
さて、雑音除去装置を用いることで、マイクロフォンから入力される音声信号からオーディオ機器の再生音に関する雑音成分を除去することができれば、音楽等を流しながら音声認識を行うことが可能となる訳であるが、音楽等を流しながら音声認識を行う場合には、いくつかの問題が生じる。
即ち、従来では、音声認識の開始時に、オーディオ機器をミュートに設定して、音楽等が流れないようにしたり、音声認識の開始を知らせるビープ音を出力して、利用者に音声認識開始の合図をしていたのであるが、音楽等を流しながら音声認識を開始すると、ビープ音を鳴らしても、それが音楽等に打ち消されて、利用者がビープ音に気づかない可能性がある。即ち、音楽等を流しながら音声認識を開始する場合には、利用者が何時音声認識が開始されたのか把握し辛くなる可能性がある。
本発明は、こうした問題に鑑みなされたものであり、音響の多チャンネル再生を行うオーディオ機器から各チャンネルのオーディオ信号を取得し、各チャンネルのオーディオ信号に基づき、マイクロフォンから入力される音声信号から、オーディオ機器の再生音に関する雑音成分を除去する雑音除去装置を備える音声認識装置に関して、利便性の高い音声認識装置を提供すると共に、当該音声認識装置を備えたカーナビゲーション装置を提供することを目的とする。
かかる目的を達成するためになされた本発明の音声認識装置は、音響の多チャンネル再生を行うオーディオ機器から各チャンネルのオーディオ信号を取得し、それら各チャンネルのオーディオ信号に基づき、マイクロフォンから入力される音声信号から、オーディオ機器の再生音に関する雑音成分を除去する雑音除去装置と、雑音除去装置より得られる雑音除去後の音声信号に基づき、マイクロフォンに入力された利用者の音声を認識する音声認識手段と、外部(操作部等)から音声認識開始指令が入力されると音声認識手段を作動させる制御手段と、を備える音声認識装置であって、制御手段が、オーディオ機器の動作時に、上記音声認識開始指令が入力されると、オーディオ機器によって再生される音響の音量を変更した後、音声認識手段を作動させることを特徴とする。
このように構成された音声認識装置では、音声認識の前後でオーディオ機器によって再生される音楽等の音量を変化させて、音声認識の開始を利用者に案内するので、利用者は、その音量の変化によって音声認識が開始されたことを確実に知ることができる。よって、本発明によれば、ビープ音が音楽等に打ち消されて、利用者がビープ音に気づかないなど、音楽等を流しながら音声認識を開始する場合に、利用者が何時音声認識が開始されたのか把握し辛くなる上記問題を解消することができる。
ところで、この音量調整の際には、ロンバート効果を利用して利用者に大きな声を発声させるようにすると好ましい。尚、ロンバート効果とは、大きな雑音環境下では、発声者の発声音量が上がる現象のことをいう。
即ち、音声認識装置は、音声認識手段の動作時において、雑音除去装置から得られた雑音除去後の音声信号に基づき、利用者の発声音量に関する履歴情報を作成する履歴作成手段と、その履歴作成手段により作成された履歴情報に基づいて、次回の音声認識時にオーディオ機器に対して設定すべき音量を決定する音量決定手段と、を備え、制御手段は、声認識開始指令が入力されると、オーディオ機器によって再生される音響の音量を、音量決定手段が決定した音量に変更した後、音声認識手段を作動させる構成にされると好ましい
この音声認識装置によれば、履歴情報に基づいて、ロンバート効果が発揮されるように音量を変更することができ、声の小さい利用者の発声音量を上げることができて、音声認識率を向上させることができる。
体的に、ロンバート効果を利用して音声認識率を向上させるためには、履歴情報に基づいて、利用者の発声音量の大小を評価し、その評価値が評価基準値より小さい場合には、音声認識時におけるオーディオ機器の再生音量を、予め定められた基準値よりも大きい音量に決定するように、音量決定手段を構成すればよい。このように構成された声認識装置によれば、音声認識率が向上する。この他、音量決定手段は、上記評価値が予め定められた評価基準値より大きい場合には、次回の音声認識時にオーディオ機器に対して設定すべき音量を、予め定められた基準値よりも小さい音量に決定する構成にされてもよい。
この他、本発明の音声認識装置を、カーナビゲーション装置に組み込めば、車両の運転者等がリモートコントローラを用いずにカーナビゲーション装置を正確に操作することができるようになる。従って、このーナビゲーション装置によれば、装置の操作性が向上する。
ところで、上述の音声認識装置に設ける雑音除去装置は、次のように構成することができる。即ち、雑音除去装置は、音響の多チャンネル再生を行うオーディオ機器から各チャンネルのオーディオ信号を取得し、各チャンネルのオーディオ信号に基づき、マイクロフォンから入力される音声信号から、オーディオ機器の再生音に関する雑音成分を除去する雑音除去装置であって、各チャンネル毎の雑音除去信号生成手段と、各雑音除去信号生成手段が生成した雑音除去信号を用いて、マイクロフォンから入力される音声信号に含まれる雑音成分を除去し、その雑音除去後の音声信号を出力する除去出力手段と、除去出力手段が出力する音声信号を、非線形変換する変換手段と、を備えた構成にすることができる。
また、各雑音除去信号生成手段は、自身に割り当てられたチャンネルのオーディオ信号を、オーディオ機器から取得するオーディオ信号取得手段と、オーディオ信号取得手段が取得したオーディオ信号を、予め設定されたフィルタ係数に従い濾波することで、雑音成分を除去するための雑音除去信号を生成する濾波手段と、変換手段による非線形変換後の音声信号と、オーディオ信号取得手段が取得したオーディオ信号と、に基づき、濾波手段に設定されたフィルタ係数を更新する係数更新手段と、を備えた構成にすることができる。
更に言えば、濾波手段は、予め設定されたフィルタ係数W[k]と、オーディオ信号取得手段が取得したオーディオ信号X(t)とを、次の関係式
Figure 0004924652
に従い畳み込み演算することにより、オーディオ信号X(t)を濾波して、雑音除去信号C(t)を生成し、変換手段は、除去出力手段が出力する音声信号U(t)を、非線形関数f(x)に代入して、非線形変換後の音声信号f(U(t))を生成し、係数更新手段は、変換手段が生成した非線形変換後の音声信号f(U(t))と、オーディオ信号取得手段が取得したオーディオ信号X(t)と、濾波手段に設定されているフィルタ係数W[k]と、に基づいて、予め設定された定数α,βを含む次の関係式
Figure 0004924652
に従い、フィルタ係数F[k]を算出し、このフィルタ係数F[k]を濾波手段に対して設定することにより、フィルタ係数W[k]を更新する構成にすることができる(但し、定数Kは、タップ数であり、2以上の整数値をとる。又、変数tは、時間を表す変数であり、整数値をとる。)。
このように構成された雑音除去装置では、除去出力手段から出力される雑音除去後の音声信号を、非線形変換し、その非線形変換後の音声信号を用いて各チャンネル毎に用意された濾波手段のフィルタ係数を、そのチャンネルに対応する係数更新手段にて更新するため、各係数更新手段間で相互干渉が起こりにくく、各係数更新手段においてフィルタ係数の誤学習が起こりにくい。
即ち、各チャンネルの係数更新手段におけるフィルタ係数の学習動作については、従来、自チャンネル以外の他のチャンネルの雑音成分によって大きく影響を受けていたが、この雑音除去装置によれば、非線形変換後の音声信号をフィルタ係数の学習に用いるので、その影響を小さくすることができ、他チャンネルの雑音成分や他チャンネルの係数更新手段の挙動により、各係数更新手段においてフィルタ係数の誤学習が生じるのを抑制することができる。
従って、この雑音除去装置によれば、オーディオ機器によって多チャンネル再生(ステレオ再生)された音楽等の雑音成分が重畳された上記音声信号から、音楽等の雑音成分を、適切に除去することができ、雑音除去装置の雑音除去性能が向上する。
尚、この雑音除去装置における変換手段は、非線形関数であるtanh関数を用いて上記非線形変換を行う構成にすることができる。その他、変換手段は、非線形関数であるsign関数を用いて非線形変換を行う構成にされてもよいし、非線形関数である関数g(x)を用いて非線形変換を行う構成にされてもよい。
Figure 0004924652
但し、変数mは、1より大きい正の実数である。
非線形関数の種類によって、当該装置の雑音除去性能及び当該装置の変換手段にかかる処理負荷は変化するが、tanh関数を用いる雑音除去装置によれば、変換手段にかかる処理負荷を抑えて、雑音除去性能を十分に高めることができる。
また、sign関数を用いると、tanh関数を用いる雑音除去装置と比較して、雑音除去性能が低下するが、反面、変換手段にかかる処理負荷を低減することができる。その他、関数g(x)を用いると、tanh関数を用いる雑音除去装置と同程度の雑音除去性能を得つつ、処理負荷を低減することができる。
但し、雑音除去装置においては、上述したもの以外の非線形関数を用いても良い。この非線形関数の選択は、周知の独立成分分析(ICA)の知見に基づいて行うことができる。独立成分分析については、例えば、『A.J.Bell,T.J.Sejnowski,"An information-maximisation approach to blind separation and blind deconvolution",Neural Computation,7(6),pp.1129-1159,1995』、『H.Mathis,S.Douglas,"On optimal and universal nonlinearities for blind signal separation",Proc.of Intnl.Conf.on Acoustics,Speech and Signal Processing(ICASSP),2001』等の文献を参考にされたい。
本発明が適用されたカーナビゲーション装置1の概略構成を表すブロック図である。 オーディオキャンセラ20の機能ブロック図である。 非線形変換部27L,27Rで用いられる非線形関数f(x)を示した図である。 オーディオキャンセラ20が実行する雑音除去処理を表すフローチャートである。 オーディオキャンセラ20が実行する第一フィルタ学習処理を表すフローチャート(a)、及び、オーディオキャンセラ20が実行する第二フィルタ学習処理を表すフローチャート(b)である。 制御部40が実行する音声認識関連処理を表すフローチャートである。 カーナビゲーション装置1の動作態様を示したタイムチャートである。
以下に本発明の実施例について、図面とともに説明する。図1は、本発明が適用されたカーナビゲーション装置1の概略構成を表すブロック図である。
本実施例のカーナビゲーション装置1は、マイクロフォン3及び車載オーディオ機器5に接続された音声認識装置10と、CPUやメモリ41等を備えモニタ7の表示制御やその他の当該装置各部を統括制御する制御部40と、オーディオ機器5のスピーカSR,SLに接続され、制御部40からの指令信号に従って音声信号を生成しスピーカSR,SLに出力する音声生成部50と、を備える。
このカーナビゲーション装置1は、操作スイッチ類(PTT(Push to Talk)スイッチ9等)から入力される指令信号に従い、制御部40にて各種処理を実行する。カーナビゲーション装置1の制御部40が実行する処理としては、目的地までの経路探索・案内や、周辺施設案内、モニタ7に表示する道路地図の地域・スケール変更など、周知のカーナビゲーション装置が実行する処理が挙げられる。その他、当該カーナビゲーション装置1の制御部40は、後述する音声認識関連処理(図6参照)を実行する。
オーディオ機器5は、音響の多チャンネル再生機能(ステレオ再生機能)を有し、オーディオ機器本体部6と、チャンネル毎のスピーカSR,SLと、を備える。
オーディオ機器本体部6は、スピーカSR,SLから出力される音響の音量を調節するための音量調節部6aを備えており、オーディオ機器本体部6組付の操作パネル(図示せず)や、カーナビゲーション装置1の制御部40から入力される指令信号に従って、音量調節部6aを制御し、スピーカSR,SLから出力される音響の音量を調節する。尚、オーディオ機器本体部6から出力される各チャンネルのオーディオ信号は、そのチャンネルに対応するスピーカSR,SLと、音声認識装置10に入力される。
音声認識装置10は、マイクロフォン3から入力される音声信号をアナログ−ディジタル変換するA/D変換器11と、オーディオ機器5から入力されるLチャンネルのオーディオ信号をアナログ−ディジタル変換するA/D変換器13と、オーディオ機器5から入力されるRチャンネルのオーディオ信号をアナログ−ディジタル変換するA/D変換器15と、オーディオキャンセラ20と、音声認識部30と、を備える。
また、オーディオキャンセラ20は、図2に示すように、加算部21と、上記各チャンネル毎の適応フィルタ23L,23R及びフィルタ学習部25L,25R並びに非線形変換部27L,27Rと、を備える。尚、図2は、オーディオキャンセラ20の概略構成を表した機能ブロック図である。
オーディオキャンセラ20が備える適応フィルタ23Lは、端子S1を介してA/D変換器13から入力されるディジタル変換後のLチャンネルのオーディオ信号XL(t)と、予め設定されたフィルタ係数WL[k]と、を式(5)に従い畳み込み演算することによって、オーディオ信号XL(t)をフィルタ係数WL[k]でフィルタリング(濾波)し、マイクロフォン3から入力された音声信号から、スピーカSLにて出力された音響に関する雑音成分を除去するための雑音除去信号UL(t)を生成する。尚、ここで用いる変数kは、1≦k≦Kを満足する整数値をとる。また、定数Kはタップ数を表すものであり、2以上の整数値をとる。その他、変数tは、サンプリング周期Tを単位とする時間変数であり、整数値をとる。
Figure 0004924652
一方、適応フィルタ23Rは、端子S3を介してA/D変換器15から入力されるディジタル変換後のRチャンネルのオーディオ信号XR(t)と、予め設定されたフィルタ係数WR[k]と、を式(6)に従い畳み込み演算することによって、オーディオ信号XR(t)をフィルタ係数WR[k]でフィルタリング(濾波)し、マイクロフォン3から入力された音声信号から、スピーカSRにて出力された音響に関する雑音成分を除去するための雑音除去信号UR(t)を生成する。
Figure 0004924652
また、加算部21は、端子S2を介してA/D変換器11から入力されるディジタル変換後の音声信号XM(t)と、適応フィルタ23Lから出力される雑音除去信号UL(t)と、適応フィルタ23Rから出力される雑音除去信号UR(t)と、を加算して、スピーカSL,SRにて出力された音響に関する雑音成分を、音声信号XM(t)から除去し、雑音除去後の音声信号U(t)を出力する。
U(t)=XM(t)+UL(t)+UR(t) …式(7)
尚、本実施例では、上記信号XM(t),XL(t),XR(t),UL(t),UR(t),U(t)の取り得る値が、−1以上1以下の実数であるとする。
非線形変換部27L,27Rは、加算部21が出力する上記雑音除去後の音声信号U(t)を取得し、これを非線形関数f(x)に代入して非線形変換し、その非線形変換後の音声信号f(U(t))を出力する。尚、図3は、この非線形変換部27L,27Rで用いられる非線形関数f(x)の例を示した図である。図3(a)は、y=f(x)=tanh(a・x)を示したグラフであり、図3(b)は、y=f(x)=sign(x)を示したグラフである。尚、sign(x)は、xが正の実数であるときに値1をとり、xが負の実数であるときに値−1をとり、xが0であるときに値0をとる関数である。また、図3(c)は、y=f(x)=g(x)を示したグラフである(式(4)参照)。
フィルタ学習部25Lは、この非線形変換部27Lから出力される非線形変換後の音声信号f(U(t))を取得し、この信号f(U(t))と、A/D変換器13から入力されるディジタル変換後のLチャンネルのオーディオ信号XL(t)と、既に適応フィルタ23Lに設定されているフィルタ係数WL[k]と、に基づいて、式(8)に従い、次に適応フィルタ23Lに対して設定すべきフィルタ係数FL[k]を算出する。
Figure 0004924652
この後、フィルタ学習部25Lは、算出したフィルタ係数FL[k]を、既に設定されているWL[k]に代えて、適応フィルタ23Lに設定し、フィルタ係数WL[k]を更新する。
同様に、フィルタ学習部25Rは、非線形変換部27Rから出力される非線形変換後の音声信号f(U(t))を取得し、この信号f(U(t))と、A/D変換器15から入力されるディジタル変換後のRチャンネルのオーディオ信号XR(t)と、既に適応フィルタ23Rに設定されているフィルタ係数WR[k]と、に基づいて、式(10)に従い、次に適応フィルタ23Rに対して設定すべきフィルタ係数FR[k]を算出する。
Figure 0004924652
この後、フィルタ学習部25Rは、算出したフィルタ係数FR[k]を、既に設定されているWR[k]に代えて、適応フィルタ23Rに設定し、フィルタ係数WR[k]を更新する。
以上に、オーディオキャンセラ20の基本構成について説明したが、次にオーディオキャンセラ20が実行する処理全体の流れを説明することにする。図4は、上述した構成のオーディオキャンセラ20が実行する雑音除去処理を表すフローチャートである。この雑音除去処理は、当該カーナビゲーション装置1の起動時若しくは、オーディオ機器5の起動時に実行される。
オーディオキャンセラ20は、まず最初に初期設定を行い、フィルタ係数WL[k],WR[k]を初期値に設定する(S110)。その後、オーディオキャンセラ20は、A/D変換器11から音声信号XM(t)を取得し、A/D変換器13からLチャンネルのオーディオ信号XL(t)を取得し、A/D変換器15からRチャンネルのオーディオ信号XR(t)を取得する(S120)。そして、式(5)に従い雑音除去信号UL(t)を生成し(S130)、式(6)に従い雑音除去信号UR(t)を生成する(S140)。
この後、オーディオキャンセラ20は、音声信号XM(t)に、雑音除去信号UL(t)と雑音除去信号UR(t)とを加算して、音声信号U(t)を生成する(S150)。また、Lチャンネルの過去K・T時間分のオーディオ信号の振幅の平均値normLを算出し(S160)、Rチャンネルの過去K・T時間分のオーディオ信号の振幅の平均値normRを算出する(S170)。
Figure 0004924652
そして、算出したLチャンネルのオーディオ信号の振幅の平均値normLが所定の閾値ALより大きいか否か判断し、normL>ALであると判断すると(S180でYes)、第一フィルタ学習処理(図5(a)参照。詳細後述)を実行し(S190)、その処理後、S200に移行する。一方、normL≦ALであると判断すると(S180でNo)、第一フィルタ学習処理を実行することなく、S200に移行する。
S200では、算出したRチャンネルのオーディオ信号の振幅の平均値normRが所定の閾値ARより大きいか否か判断し、normR>ARであると判断すると(S200でYes)、第二フィルタ学習処理(図5(b)参照。詳細後述)を実行し(S210)、その処理後、S220に移行する。一方、normR≦ARであると判断すると(S200でNo)、第二フィルタ学習処理を実行することなく、S220に移行する。
S220では、制御部40から終了指令信号が入力されているか否か判断し、終了指令信号が入力されていると判断すると、当該雑音除去処理を終了し、終了指令信号が入力されていないと判断すると、S120に処理を戻して、最新の信号XM(t),XL(t),XR(t)を取得し、上述したS120からS220までのステップを再度実行する。
図5(a)は、オーディオキャンセラ20が実行する第一フィルタ学習処理を表すフローチャートである。第一フィルタ学習処理において、オーディオキャンセラ20は、式(9)に従い学習レートαLを算出し(S191)、式(8)に従いフィルタ係数FL[k]を算出する(S193)。その後、フィルタ係数FL[k]を、次回のS130で用いるフィルタ係数WL[k]に設定して(S195)、当該第一フィルタ学習処理を終了する。
また、図5(b)は、オーディオキャンセラ20が実行する第二フィルタ学習処理を表すフローチャートである。第二フィルタ学習処理を実行すると、オーディオキャンセラ20は、式(11)に従い学習レートαRを算出し(S211)、式(10)に従いフィルタ係数FR[k]を算出する(S213)。そして、フィルタ係数FR[k]を、次回のS140で用いるフィルタ係数WR[k]に設定して(S215)、当該第二フィルタ学習処理を終了する。
このように構成されたオーディオキャンセラ20が生成した雑音除去後の音声信号U(t)は、端子S0を介して、音声認識部30に入力される。
音声認識部30は、制御部40から入力される動作開始指令信号に従い動作を開始し、オーディオキャンセラ20から所定期間音声信号U(t)を取得し、取得した所定期間分の音声信号U(t)を音響分析し、音声信号U(t)の特徴量(例えばケプストラム)を得る。尚、音声信号U(t)を取得する上記所定期間を、以下では、音声認識対象区間と表現する。
その後、音声認識部30は、上記特徴量を、周知の技法を用いて、自身が備える図示しない音声辞書に登録された音声パターンと比較し、一致度の高い音声パターンに対応する語彙を、音声認識対象区間に利用者が発声した語彙であると認識して、その認識結果を制御部40に入力する。
また、音声認識部30は、パワー算出部31を備えており、このパワー算出部31によって、音声認識対象区間において利用者が発した音声のパワー(音圧の二乗の時間平均)を算出する構成にされている。このパワー算出部31は、音声認識が行われる度に、音声信号U(t)に基づき算出した音声認識対象区間における音声のパワーP1(z)を、制御部40に入力する。
図6は、制御部40が実行する音声認識関連処理を表すフローチャートである。制御部40は、カーナビゲーション装置1が起動されると、当該カーナビゲーション装置1がオフされるまで、繰返し音声認識関連処理を実行する。
音声認識関連処理を実行すると、制御部40は、PTTスイッチ9から音声認識開始指令信号が入力されるまで待機し、PTTスイッチ9から音声認識開始指令信号が入力されたと判断すると(S310でYes)、ビープ音の生成指令信号を音声生成部50に入力して、スピーカSL,SRからビープ音を出力させる(S320)。その後、制御部40は、オーディオ機器本体部6に音響(音楽等)の再生音量を現在の音量からγ倍するように要求し、オーディオ機器本体部6に、スピーカSR,SLから出力される音響の音量を現在の値からγ倍に変更させる(S330)。
また、制御部40は、音声認識部30に対して動作開始指令信号を入力して、音声認識部30を作動させる(S340)。その後、音声認識部30による音声認識が終了するまで待機し、音声認識が終了したと判断すると(S350でYes)、オーディオ機器5の再生音量を、元の設定値に変更する(S360)。即ち、制御部40は、オーディオ機器5に対してS330での要求によりγ倍させた音量を1/γ倍させて、元の音量に変更させる。その後、制御部40は、音声認識部30から得た認識結果に基づいて、利用者から発せられマイクロフォン3に入力された音声に従う処理を実行する(S370)。
また、制御部40は、今回の音声認識対象区間内に、利用者が発した音声のパワーに関する上記算出値P1(z)を音声認識部30から取得する(S380)。そして、この値P1(z)を、メモリ41に記憶された履歴データファイルに追加書込する(S390)。尚、変数zは、音声認識回数を表す変数である。
この後、制御部40は、メモリ41に記憶された履歴データファイル内に少なくともS回分の算出値P1が書き込まれているか否か判断し(S400)、S回分の算出値P1が書き込まれていないと判断すると(S400でNo)当該音声認識関連処理を終了し、S回分の算出値P1が書き込まれていると判断すると(S400でYes)、S410に移行する。
そして、今回の算出値P1(z)を含む過去S回分の算出値P1(z),P1(z−1),P1(z−2),…P1(z−S+1)の平均値P0(z)を算出し(S410)、その算出値P0(z)をメモリ41に書き込む(S420)。
更に、制御部40は、メモリ41に書き込まれた算出値P0(z)と、予め設定された評価基準許容上限値PUPと、予め設定された評価基準許容下限値PDOWNと、に基づき、γ’を算出する(S440)。
γ’=h(γ,P0(z),PUP,PDOWN) …式(14)
尚、γ’算出の際には、上記γと、P0(z)と、PUP及びPDOWNと、を変数にもつ所定の関数hが用いられる。但し、関数hは、値PUPと比較して値P0(z)が大きい場合に、γより小さい値をとり、値PDOWNと比較して値P0(z)が小さい場合に、γより大きい値をとり、また、値P0(z)が値PDOWN以上でかつ値PUP以下の場合に、γと同一の値をとるものである。具体的に説明すると、γ’は、例えば、次式に従って算出される。尚、εは予め適切に設定された正の実係数である。
Figure 0004924652
この後、制御部40は、算出した値γ’を、変数γに設定し、変数γの値を更新する(S450)。即ち、制御部40は、S330における音量の調節倍率を、前回の値から、算出したγ’の値に変更する。このステップを終了すると、制御部40は、当該音声認識関連処理を終了する。
図7は、上述した構成のカーナビゲーション装置1の動作態様を示したタイムチャートである。当該カーナビゲーション装置1は、PTTスイッチ9から、音声認識開始指令信号としてのトリガ入力があると、ビープ音をスピーカSL,SRから出力し、音声認識を開始する旨を利用者に合図する。その後に、利用者から発せられた所定期間(音声認識対象区間)の音声についての音声信号U(t)を、音声認識部30に取得させ、音声認識させる。また、音声認識対象区間においては、スピーカSL,SRから出力される音響(音楽等)の音量をγ倍に設定する。
以上に、カーナビゲーション装置1の構成について説明したが、このカーナビゲーション装置1によれば、A/D変換器11,13,15と、オーディオキャンセラ20と、からなる雑音除去装置が、音響の多チャンネル再生を行うオーディオ機器5から各チャンネル(Lチャンネル、Rチャンネル)のオーディオ信号を取得し、それら各チャンネルのオーディオ信号に基づいて、マイクロフォン3から入力される音声信号XM(t)から、オーディオ機器5の再生音に関する雑音成分を除去する。
このオーディオキャンセラ20では、変換手段としての非線形変換部27L,27Rが除去出力手段としての加算部21から出力される雑音除去後の音声信号U(t)を非線形変換する。そして、係数更新手段としてのフィルタ学習部25Lが、その非線形変換後の信号f(U(t))と、自身に割り当てられたLチャンネルのオーディオ信号と、に基づいて、式(8)に従い、濾波手段としての適応フィルタ23Lに設定すべきフィルタ係数FL[k]を算出し、これを適応フィルタ23Lに設定して、フィルタ係数WL[k]を更新する。
同様に、係数更新手段としてのフィルタ学習部25Rは、非線形変換後の信号f(U(t))と、自身に割り当てられたRチャンネルのオーディオ信号と、に基づき、式(10)に従い、濾波手段としての適応フィルタ23Rに設定すべきフィルタ係数FR[k]を算出し、これを適応フィルタ23Rに設定して、フィルタ係数WR[k]を更新する。
このように本実施例のオーディオキャンセラ20では、フィルタ学習部25L(フィルタ学習部25R)が、Rチャンネル(Lチャンネル)の雑音成分やフィルタ学習部25R(フィルタ学習部25L)の挙動により影響を受けて、フィルタ係数の誤学習を行うのを抑制するために、加算部21から出力される音声信号U(t)を、非線形変換部27L,27Rにて非線形変換し、非線形変換後の音声信号f(U(t)を用いて、フィルタ学習部25L,25Rにフィルタ係数の学習・更新を行わせるようにした。
従って、本実施例のオーディオキャンセラ20によれば、マイクロフォン3から得た音声信号XM(t)に含まれるオーディオ機器5の再生音に関する雑音成分を、従来装置よりも適切に除去することができる。
よって、このカーナビゲーション装置1では、音声認識時にオーディオ機器5をミュートに設定し、オーディオ機器5にて再生中の音楽等の該再生を中断しなくとも、マイクロフォン3に入力された利用者の音声を、音声認識手段としての音声認識部30で正確に認識し、それに対応する処理を実行することができる。
つまり、このカーナビゲーション装置1によれば、オーディオ機器5から音楽等が流れている場合であっても、音声認識を正確に実行し、それに対応する処理を実行することができ、当該装置の操作性が向上する。更に言えば、音声認識時の音楽再生の中断を原因とする利用者の不満を解消することができる。
尚、非線形変換部27L,27Rにおいて、非線形関数であるtanh関数を用いて上記非線形変換を行うと、簡単な計算で精度よく雑音除去を行うことができ、オーディオキャンセラ20の雑音除去性能が向上すると共に、オーディオキャンセラ20の処理負荷を抑えることができて、安価にオーディオキャンセラ20を製造することができる。
また、非線形変換部27L,27Rにおいて、非線形関数であるsign関数を用いて非線形変換を行うと、tanh関数を用いる場合よりも、雑音除去性能が若干落ちるものの、オーディオキャンセラ20の処理負荷を抑えることができて、安価にオーディオキャンセラ20を製造することができる。
その他、非線形変換部27L,27Rにおいて、非線形関数である式(4)に示す関数g(x)を用いて非線形変換を行うと、tanh関数を用いた場合と、概ね同程度の雑音除去性能を得つつ、オーディオキャンセラ20の処理負荷を抑えることができて、安価にオーディオキャンセラ20を製造することができる。
また、本実施例のカーナビゲーション装置1では、オーディオ機器5の動作時に、PTTスイッチ9から音声認識開始指令信号が入力されると、制御部40が、オーディオ機器5のスピーカSL,SRから出力される音響の音量(オーディオ機器5の再生音量)をγ倍に設定した後(S330)、音声認識部30を作動させる(S340)。
また、音声認識部30が、オーディオキャンセラ20から得られた雑音除去後の音声信号U(t)に基づき、利用者の発声音量を評価し、その評価値P1(z)を制御部40に入力し、制御部40が、その評価値P1(z)を履歴データファイルに書き込んで、利用者の発声音量に関する履歴情報を作成する(S390)。更に、制御部40は、その履歴データファイルに記録された過去S回分の値P1(z)に基づいて、次回の音声認識時にオーディオ機器5に対して設定すべき音量(即ち、γ値)を決定する(S440,S450)。
このように本実施例のカーナビゲーション装置1では、音声認識の前後でオーディオ機器5によって再生される音楽等の音量を変化させ、音声認識の開始を利用者に案内するので、利用者は、その音量の変化によって音声認識が開始されたことを確実に知ることができる。よって、本実施例のカーナビゲーション装置1によれば、音声認識開始時に出力されるビープ音が音楽等に打ち消されてしまうことによって、利用者が音声認識開始のタイミングを把握しづらくなるのを、解消することができる。
その他、本実施例では、履歴データファイルに基づき利用者の発声の大小を評価し(S410)、その評価値P0(z)が評価基準許容上限値PUPより高い場合には、予め定められた基準値(前回のγ値)よりもγ値を小さくし、評価値P0(z)が評価基準許容下限値PDOWNより低い場合には、予め定められた基準値(前回のγ値)よりもγ値を大きくするように(S440,S450)、制御部40を構成した。
従って、本実施例のカーナビゲーション装置1によれば、ロンバート効果を期待でき、声の小さい利用者に対して音声認識対象の音声を大きい声で発せさせることができる。よって、本実施例のカーナビゲーション装置1によれば、ロンバート効果によって音声認識率を向上させることができる。
尚、本発明の制御手段は、制御部40が実行するS310からS360の処理にて実現されている。また、履歴作成手段は、パワー算出部31と、制御部40が実行するS380,S390の処理とにより実現されている。その他、音量決定手段は、S410からS450の処理にて実現されている。
また、本発明は、上記実施例に限定されるものではなく、種々の態様を採ることができる。
例えば、上記実施例では、オーディオキャンセラ20で用いる非線形関数としてtanh関数、sign関数、式(4)に示す関数g(x)を挙げたが、その他の非線形関数を用いても構わない。
また、上記実施例では、Lチャンネル及びRチャンネルの計2チャンネルで音響再生するオーディオ機器5に対応したオーディオキャンセラ20について説明したが、例えば、スピーカを前方左、前方右、中央、後方左、後方右の5か所に配置して立体音響を生み出し、さらにウーファ(低音域用スピーカー)を1か所に配置して低音効果を補強する所謂5.1チャンネルサウンドシステムに対応するように、オーディオキャンセラ20を構成しても構わない。
1…カーナビゲーション装置、3…マイクロフォン、5…オーディオ機器、6…オーディオ機器本体部、6a…音量調節部、7…モニタ、9…PTTスイッチ、10…音声認識装置、11,13,15…A/D変換器、20…オーディオキャンセラ、21…加算部、23L,23R…適応フィルタ、25L,25R…フィルタ学習部、27L,27R…非線形変換部、30…音声認識部、31…パワー算出部、40…制御部、41…メモリ、50…音声生成部、SL,SR…スピーカ

Claims (3)

  1. 音響の多チャンネル再生を行うオーディオ機器から各チャンネルのオーディオ信号を取得し、該各チャンネルのオーディオ信号に基づき、マイクロフォンから入力される音声信号から、前記オーディオ機器の再生音に関する雑音成分を除去する雑音除去装置と、
    該雑音除去装置より得られる雑音除去後の音声信号に基づき、前記マイクロフォンに入力された音声を認識する音声認識手段と、
    外部から音声認識開始指令が入力されると前記音声認識手段を作動させる制御手段と、
    前記音声認識手段の動作時において、前記雑音除去装置から得られた前記雑音除去後の音声信号に基づき、利用者の発声音量に関する履歴情報を作成する履歴作成手段と、
    該履歴作成手段により作成された前記履歴情報に基づいて、次回の音声認識時に前記オーディオ機器に対して設定すべき音量を決定する音量決定手段と、
    を備え
    記制御手段は、前記オーディオ機器の動作時に、前記音声認識開始指令が入力されると、前記オーディオ機器によって再生される音響の音量を、前記音量決定手段により決定された前記音量に変更した後、前記音声認識手段を作動させ
    前記音量決定手段は、前記履歴情報に基づいて、利用者の声の大小を評価し、その評価値が予め定められた評価基準値より小さい場合には、次回の音声認識時に前記オーディオ機器に対して設定すべき音量を、予め定められた基準値よりも大きい音量に決定すること
    特徴とする音声認識装置。
  2. 音響の多チャンネル再生を行うオーディオ機器から各チャンネルのオーディオ信号を取得し、該各チャンネルのオーディオ信号に基づき、マイクロフォンから入力される音声信号から、前記オーディオ機器の再生音に関する雑音成分を除去する雑音除去装置と、
    該雑音除去装置より得られる雑音除去後の音声信号に基づき、前記マイクロフォンに入力された音声を認識する音声認識手段と、
    外部から音声認識開始指令が入力されると前記音声認識手段を作動させる制御手段と、
    前記音声認識手段の動作時において、前記雑音除去装置から得られた前記雑音除去後の音声信号に基づき、利用者の発声音量に関する履歴情報を作成する履歴作成手段と、
    該履歴作成手段により作成された前記履歴情報に基づいて、次回の音声認識時に前記オーディオ機器に対して設定すべき音量を決定する音量決定手段と、
    を備え
    記制御手段は、前記オーディオ機器の動作時に、前記音声認識開始指令が入力されると、前記オーディオ機器によって再生される音響の音量を、前記音量決定手段により決定された前記音量に変更した後、前記音声認識手段を作動させ
    前記音量決定手段は、前記履歴情報に基づいて、利用者の声の大小を評価し、その評価値が予め定められた評価基準値より大きい場合には、次回の音声認識時に前記オーディオ機器に対して設定すべき音量を、予め定められた基準値よりも小さい音量に決定すること
    特徴とする音声認識装置。
  3. 請求項1又は請求項2に記載の音声認識装置を備えることを特徴とするカーナビゲーション装置。
JP2009112777A 2009-05-07 2009-05-07 音声認識装置及びカーナビゲーション装置 Expired - Fee Related JP4924652B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009112777A JP4924652B2 (ja) 2009-05-07 2009-05-07 音声認識装置及びカーナビゲーション装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009112777A JP4924652B2 (ja) 2009-05-07 2009-05-07 音声認識装置及びカーナビゲーション装置

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2004002387A Division JP4333369B2 (ja) 2004-01-07 2004-01-07 雑音除去装置、及び音声認識装置、並びにカーナビゲーション装置

Publications (2)

Publication Number Publication Date
JP2009169445A JP2009169445A (ja) 2009-07-30
JP4924652B2 true JP4924652B2 (ja) 2012-04-25

Family

ID=40970584

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009112777A Expired - Fee Related JP4924652B2 (ja) 2009-05-07 2009-05-07 音声認識装置及びカーナビゲーション装置

Country Status (1)

Country Link
JP (1) JP4924652B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2553681A2 (en) * 2010-03-30 2013-02-06 NVOQ Incorporated Dictation client feedback to facilitate audio quality

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0522779A (ja) * 1991-07-09 1993-01-29 Sony Corp 音声認識遠隔制御装置
JP3407392B2 (ja) * 1994-03-22 2003-05-19 松下電器産業株式会社 ステレオエコーキャンセラ
JP2000112499A (ja) * 1998-10-02 2000-04-21 Kenwood Corp 音響機器
JP2000181500A (ja) * 1998-12-15 2000-06-30 Equos Research Co Ltd 音声認識装置及びエ―ジェント装置
ES2269137T3 (es) * 1999-05-25 2007-04-01 British Telecommunications Public Limited Company Cancelacion del eco acustico.
JP2001236090A (ja) * 2000-02-22 2001-08-31 Alpine Electronics Inc 音声入力装置
JP2002297186A (ja) * 2001-03-30 2002-10-11 Kddi Corp 音声認識装置
JP2003249996A (ja) * 2002-02-25 2003-09-05 Kobe Steel Ltd 音声信号入出力装置
JP2004037823A (ja) * 2002-07-03 2004-02-05 Sanyo Electric Co Ltd 映像・音響機器の音量調整装置

Also Published As

Publication number Publication date
JP2009169445A (ja) 2009-07-30

Similar Documents

Publication Publication Date Title
JP4333369B2 (ja) 雑音除去装置、及び音声認識装置、並びにカーナビゲーション装置
JP4283212B2 (ja) 雑音除去装置、雑音除去プログラム、及び雑音除去方法
CN109389990B (zh) 加强语音的方法、***、车辆和介质
US20200045166A1 (en) Acoustic signal processing device, acoustic signal processing method, and hands-free communication device
CN111489750B (zh) 声音处理设备和声音处理方法
JP5649488B2 (ja) 音声判別装置、音声判別方法および音声判別プログラム
JP2005084253A (ja) 音響処理装置、方法、プログラム及び記憶媒体
JP2008299221A (ja) 発話検知装置
MX2007015446A (es) Mejora de lenguaje multi-sensorial utilizando un modelo de estado de lenguaje.
JP2005257817A (ja) 雑音除去装置、方法、及びプログラム
JP4924652B2 (ja) 音声認識装置及びカーナビゲーション装置
JP6878776B2 (ja) 雑音抑圧装置、雑音抑圧方法及び雑音抑圧用コンピュータプログラム
JP2000148200A (ja) 音声入力装置
JP2004198810A (ja) 音声認識装置
JP4464797B2 (ja) 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体
JP2007206603A (ja) 音響モデルの作成方法
JP2009031809A (ja) 音声認識装置
JP2007058237A (ja) 雑音除去方法
JP4608670B2 (ja) 音声認識装置および音声認識方法
JP4765394B2 (ja) 音声対話装置
JP4173978B2 (ja) 雑音除去装置、及び、音声認識装置、並びに音声通信装置
JP2010041188A (ja) 音声認識装置
JP2006084928A (ja) 音声入力装置
JP2008299341A (ja) 雑音除去方法
JP2023113171A (ja) 音声処理装置、音声処理方法、音声処理プログラム、および音声処理システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090507

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110825

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110906

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111102

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120110

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120123

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150217

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150217

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees