JP3933860B2 - 音声認識装置 - Google Patents
音声認識装置 Download PDFInfo
- Publication number
- JP3933860B2 JP3933860B2 JP2000315546A JP2000315546A JP3933860B2 JP 3933860 B2 JP3933860 B2 JP 3933860B2 JP 2000315546 A JP2000315546 A JP 2000315546A JP 2000315546 A JP2000315546 A JP 2000315546A JP 3933860 B2 JP3933860 B2 JP 3933860B2
- Authority
- JP
- Japan
- Prior art keywords
- noise
- spectrum
- speech
- power spectrum
- pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Description
【発明の属する技術分野】
この発明は音声認識装置に係り、特に周囲に雑音がある環境下でも入力された音声に重畳する背景雑音を除去したうえで、雑音が除去された音声の特徴量と予め用意された標準音声パターンの特徴量とを照合して入力された音声を認識する音声認識装置に関するものである。
【0002】
【従来の技術】
周囲に雑音または騒音がある環境下で発声した音声には背景雑音が重畳しているために音声認識率が低下する。図8は、雑音等がある環境下において音声を認識する従来の音声認識装置の構成を示すブロック図である。図において、tは時刻、Kは雑音源の数、x(t)はマイクロホンの観測信号、s(t)は話者が発声する音声信号、nk(t)は雑音源k(1≦k≦K)が出力する雑音信号、hs(t)は話者からマイクロホンへのインパルス応答、hk n(t)は雑音源kからマイクロホンへのインパルス応答、*は畳み込み演算を示すものである。また、マイクロホン以外の音声認識装置の構成要素を総括して認識処理部として示し、この認識処理部はこの分野において周知である音声認識技術を用いて構成されているものとする。図に示されるように、マイクロホンの観測信号は音声信号に雑音信号が重畳したものである。したがって、雑音無し音声パターンと標準音声パターンとを照合して認識処理を行う必要のある音声認識装置においては、重畳雑音を除去する必要が生じる。観測点における雑音信号は各雑音源から出力される各雑音信号が足し合わされたものである。以下では、複数の雑音源からそれぞれ出力される雑音の組み合せにより観測点において与えられる雑音に係る識別パターンを“雑音パターン”と定義して、当該雑音パターンを出力する仮想的な雑音源があるものとして説明を行なう。
【0003】
重畳雑音を除去するための簡単で有効な手法として、音声用マイクロホンと雑音用マイクロホンとを用いた2入力スペクトルサブトラクション法(以下、2入力SS法と称する)が広く用いられている。図9は、例えば「2入力による雑音除去手法を用いた自動車内の音声認識;信学技報SP89−81」に示された従来の2入力SS法を用いた音声認識装置の構成を示す図である。図において、101は背景雑音が重畳した音声を収集する音声用マイクロホン、102は主に背景雑音を収集する雑音用マイクロホン、103は音声用マイクロホン101が出力する雑音重畳音声信号を周波数変換して雑音重畳音声に係るパワースペクトルを時系列に出力する雑音重畳音声スペクトル演算手段、104は雑音用マイクロホン102が出力する雑音パターン信号を周波数変換して雑音パターンに係るパワースペクトルを時系列に出力する雑音スペクトル演算手段、105は音声用マイクロホン101と雑音用マイクロホン102との間においての雑音パターンに対する伝達特性に係る周波数特性についての差異を補正するためのフィルタを1つ記憶する補正フィルタメモリ、106は補正フィルタメモリ105が記憶する補正フィルタを用いて雑音スペクトル演算手段104から出力される雑音パターンに係るパワースペクトルを補正して補正雑音パターンに係るパワースペクトルを時系列に出力する雑音スペクトル補正手段、107は雑音重畳音声スペクトル演算手段103から出力される雑音重畳音声に係るパワースペクトルから補正雑音パターンに係るパワースペクトルを減算して雑音除去音声に係るパワースペクトルを時系列に出力する雑音除去音声スペクトル演算手段、108は雑音除去音声スペクトル演算手段107から出力される雑音除去音声に係るパワースペクトルから特徴ベクトルを生成して当該特徴ベクトルを時系列に出力する特徴ベクトル演算手段、109は照合用の雑音の無い複数の標準音声パターンに対する特徴ベクトルを予め記憶させる照合パターンメモリ、110は特徴ベクトル演算手段108から出力される特徴ベクトルと照合パターンメモリ109内に記憶された標準音声パターンに係る特徴ベクトルとを照合して最大尤度を与える認識候補を認識結果として出力する照合手段である。
【0004】
次に動作について説明する。
音声用マイクロホン101は、一般的に話者の近傍に設置されて、背景雑音が重畳した音声を収集する。雑音用マイクロホン102は、一般的に話者から離隔した位置に設置されて、主に背景雑音を収集する。なお、この従来の音声認識装置は、雑音用マイクロホン102への音声の洩れ込みが無視できるほど小さい場合を想定して構成されているものである。
【0005】
雑音重畳音声スペクトル演算手段103は、音声用マイクロホン101が出力する雑音重畳音声信号に対して、一定時間毎にシフトする分析フレーム毎にFFT(高速フーリエ変換)を用いて周波数変換を実施し、雑音重畳音声信号に対する分析フレーム毎のパワースペクトルを時系列に出力する。ここで、雑音重畳音声信号のz変換をX1(z)、音声信号のz変換をS(z)、雑音パターン信号のz変換をN(z)、話者から音声用マイクロホン101への伝達特性をG11(z)、雑音パターンについての仮想的な雑音源から音声用マイクロホン101への伝達特性をG21(z)とすると、以下の式(1)の関係が導かれる。
【0006】
また、複数の分析フレームにわたる信号の遅延は生じないと仮定すれば、式(1)は以下の式(2)のように表すことができる。
式(2)において、ωは角周波数、X1i(ω)は分析フレームiにおける音声用マイクロホンから出力される雑音重畳音声信号に係るパワースペクトル、Si(ω)は分析フレームiにおいて話者が発声する音声に係るパワースペクトル、Ni(ω)は分析フレームiにおいて仮想的な雑音源が出力する雑音パターンに係るパワースペクトル、G11(ω)は話者から音声用マイクロホンへの伝達特性についての周波数特性(フィルタ)、G21(ω)は仮想的な雑音源から音声用マイクロホンへの伝達特性についての周波数特性(フィルタ)である。音声認識では、位相情報は不必要であるために、以降では、特に明示しない限り位相情報を考慮しない周波数領域を対象として説明を行う。
【0007】
雑音スペクトル演算手段104は、雑音用マイクロホン102が出力する雑音パターン信号に対して、一定時間毎にシフトする分析フレーム毎にFFT(高速フーリエ変換)を用いて周波数変換を実施して、雑音パターン信号に対する分析フレーム毎のパワースペクトルを時系列に出力する。このとき、分析フレームiにおける雑音パターンに係るパワースペクトルX2i(ω)は、以下の式(3)で表される。式(3)において、G22(ω)は雑音パターンについての仮想的な雑音源から雑音用マイクロホン102への伝達特性についての周波数特性である。
X2i(ω)=G22(ω)・Ni(ω) (3)
【0008】
補正フィルタメモリ105は、音声用マイクロホン101と雑音用マイクロホン102との間における雑音パターンに対する伝達特性に係る周波数特性の差異を補正するためのフィルタH21(ω)=G21(ω)/G22(ω)を記憶する。上述の「2入力による雑音除去手法を用いた自動車内の音声認識」では、音声区間の直前の雑音区間において、以下に記される式(4)を用いて音声区間の直前の雑音区間から補正フィルタを算出してその値を記憶する。式(4)においてTsは音声区間の先頭の分析フレーム番号を示すものであり、式(4)により音声区間直前の20フレームにおける雑音パターンに係るパワースペクトルについての雑音用マイクロホンに対する音声用マイクロホンの周波数成分毎の比の平均値が算出される。
【数1】
【0009】
雑音スペクトル補正手段106は、補正フィルタメモリ105に記憶された補正フィルタを用いて雑音パターンに係るパワースペクトルを補正して、補正雑音パターンに係るパワースペクトルを時系列に出力する。このとき、分析フレームiにおける補正雑音パターンに係るパワースペクトルX2’i(ω)は以下の式(5)のように表される。
X2’i(ω)=H21(ω)・X2i(ω) (5)
【0010】
雑音除去音声スペクトル演算手段107は、雑音重畳音声スペクトル演算手段103から分析フレーム毎に時系列にそれぞれ出力される雑音重畳音声に係るパワースペクトルから、雑音スペクトル補正手段106から出力される補正雑音パターンに係るパワースペクトルを減算して、雑音除去音声に係るパワースペクトルを算出しこれを時系列に出力する。このとき、分析フレームiにおける雑音除去音声に係るパワースペクトルS’i(ω)は、以下の式(6)で表される。式(6)において、αは補正雑音パターンに係るパワースペクトルの減算量を調整するパラメータであり、βは補正雑音パターンに係るパワースペクトルの過剰な減算を防止するために雑音除去音声に係るパワースペクトルにおける各周波数成分の下限値を設定するパラメータである。また、max{}は括弧内の要素の中で最大の値の要素を返す関数として与えられるものである。
S’i(ω)
=max{X1i(ω)−αX2’i(ω),β} (6)
【0011】
ここで、H21(ω)=G21(ω)/G22(ω)であるから、式(3)および式(5)から、X2’i(ω)=G21(ω)Ni(ω)となる。この式および式(2)を式(6)に代入すると、α=1のときにSi’(ω)=G11(ω)Si(ω)となって、雑音が除去された音声に係るパワースペクトルを得ることができる。
【0012】
特徴ベクトル演算手段108は、雑音除去音声スペクトル演算手段107が時系列に出力する雑音除去音声に係るパワースペクトルをLPCケプストラム等の音声認識において音響的な特徴を表現する特徴ベクトルに変換して、当該特徴ベクトルを時系列に出力する。
【0013】
照合手段110は、特徴ベクトル演算手段108から出力される特徴ベクトルと、照合パターンメモリ109内に記憶された雑音無しの標準音声パターンに係る特徴ベクトルとの照合を実施して、最大尤度を与える音声認識候補を認識結果として出力する。
【0014】
【発明が解決しようとする課題】
従来の2入力SS法を用いた音声認識装置は上記のように構成されているので、雑音用マイクロホンへの音声の洩れ込みが無視できるほど小さく、かつ音声用マイクロホンと雑音用マイクロホンとの雑音パターンに対する伝達特性に係る周波数特性の変動が小さい場合すなわち雑音源が固定されている場合には比較的良好に動作する。しかし、雑音用マイクロホンへの音声の洩れ込みが無視できない場合や、雑音源が複数あり雑音源が時間とともに入れ替わる場合等で音声用マイクロホンと雑音用マイクロホンとの雑音パターンに対する伝達特性に係る周波数特性が時々刻々変化するような場合には、正確な雑音除去を実施することができなくて認識性能が低下するという課題があった。
【0015】
この発明は上記のような課題を解決するためになされたもので、雑音用マイクロホンに音声が洩れ込んだ場合においても、雑音環境下で音声を正確に認識することができる音声認識装置を得ることを目的とする。
【0016】
また、この発明は、音声用マイクロホンと雑音用マイクロホンとの雑音パターンに対する伝達特性に係る周波数特性が時々刻々変化するような場合においても、雑音環境下で音声を正確に認識することができる音声認識装置を得ることを目的とする。
【0017】
【課題を解決するための手段】
この発明に係る音声認識装置は、背景雑音が重畳した音声を収集する音声用マイクロホンと、主に背景雑音を収集する雑音用マイクロホンと、センサによって話者の存在する位置を検出して当該位置データを時系列に出力する話者位置検出手段と、音声用マイクロホンが出力する雑音重畳音声信号を周波数変換して雑音重畳音声に係るパワースペクトルを時系列に出力する雑音重畳音声スペクトル演算手段と、雑音用マイクロホンが出力する雑音パターン信号を周波数変換して音声が洩れ込んだ雑音パターンに係るパワースペクトルを時系列に出力する雑音スペクトル演算手段と、雑音重畳音声に係るパワースペクトルに含まれる音声成分と雑音パターンに係るパワースペクトルに含まれる音声成分の比から算出した複数の補正フィルタを予め記憶する音声補正用補正フィルタメモリと、話者位置検出手段から出力される話者の位置データに対応する補正フィルタを音声補正用補正フィルタメモリから選択して当該補正フィルタを時系列に出力する音声補正用補正フィルタ選択手段と、音声補正用補正フィルタ選択手段から時系列に出力されるフィルタを用いて、雑音重畳音声に係るパワースペクトルに含まれる音声成分を雑音パターンに係るパワースペクトルに含まれる音声成分に変換する雑音重畳音声スペクトル補正手段と、音声が洩れ込んだ雑音パターンに係るパワースペクトルから補正雑音重畳音声に係るパワースペクトルを減算して洩れ込み音声を除去した雑音パターンに係るパワースペクトルを時系列に出力する洩れ込み音声除去手段と、洩れ込み音声を除去した雑音パターンに係るパワースペクトルと雑音重畳音声に係るパワースペクトルに含まれる雑音成分の比から算出した複数の補正フィルタを予め記憶した雑音補正用補正フィルタメモリと、雑音補正用補正フィルタメモリに予め記憶された複数の補正フィルタにそれぞれ対応する洩れ込み音声を除去した雑音パターンに係るパワースペクトルを予め記憶する代表雑音スペクトルメモリと、洩れ込み音声を除去した雑音パターンに係るパワースペクトルと代表雑音スペクトルメモリに記憶される複数の洩れ込み音声を除去した雑音パターンに係るパワースペクトルとの間の距離値を演算して最短距離値を与える雑音パターンを代表雑音スペクトルメモリから選択して当該雑音パターンを識別する信号を時系列に出力する雑音スペクトル選択手段と、雑音スペクトル選択手段から出力される雑音パターン識別信号に対応する補正フィルタを雑音補正用補正フィルタメモリから選択して洩れ込み音声除去雑音スペクトル補正手段へ時系列に出力する雑音補正用補正フィルタ選択手段と、雑音補正用補正フィルタ選択手段から時系列に出力されるフィルタを用いて、洩れ込み音声を除去した雑音パターンに係るパワースペクトルを雑音重畳音声に係るパワースペクトルに含まれる雑音成分に変換する洩れ込み音声除去雑音スペクトル補正手段と、雑音重畳音声に係るパワースペクトルから補正雑音パターンに係るパワースペクトルを減算して雑音除去音声に係るパワースペクトルを時系列に出力する雑音除去音声スペクトル演算手段と、雑音除去音声に係るパワースペクトルを基にして音声認識処理を実行する認識処理部とを備えるようにしたものである。
【0021】
この発明に係る音声認識装置は、背景雑音が重畳した音声を収集する音声用マイクロホンと、主に背景雑音を収集する雑音用マイクロホンと、センサによって話者の存在する位置を検出して当該位置データを時系列に出力する話者位置検出手段と、音声用マイクロホンから出力される雑音重畳音声信号を周波数変換して雑音重畳音声に係るパワースペクトルを時系列に出力する雑音重畳音声スペクトル演算手段と、雑音用マイクロホンから出力される雑音パターン信号を周波数変換して音声が洩れ込んだ雑音パターンに係るパワースペクトルを時系列に出力する雑音スペクトル演算手段と、雑音重畳音声に係るパワースペクトルに含まれる音声成分と雑音パターンに係るパワースペクトルに含まれる音声成分の比から算出した複数の補正フィルタを予め記憶する音声補正用補正フィルタメモリと、話者位置検出手段から出力される話者の位置データに対応する補正フィルタを音声補正用補正フィルタメモリから選択して当該補正フィルタを時系列に出力する音声補正用補正フィルタ選択手段と、音声補正用補正フィルタ選択手段から時系列に出力されるフィルタを用いて、雑音重畳音声に係るパワースペクトルに含まれる音声成分を前記雑音パターンに係るパワースペクトルに含まれる音声成分に変換する雑音重畳音声スペクトル補正手段と雑音重畳音声スペクトル補正手段と、音声が洩れ込んだ雑音パターンに係るパワースペクトルから補正雑音重畳音声に係るパワースペクトルを減算して洩れ込み音声を除去した雑音パターンに係るパワースペクトルを時系列に出力する洩れ込み音声除去手段と、洩れ込み音声を除去した雑音パターンに係る複数のパワースペクトルを記憶する第1の代表雑音スペクトルメモリと、第1の代表雑音スペクトルメモリに記憶される複数の洩れ込み音声を除去した雑音パターンに係るパワースペクトルにそれぞれ対応する複数の重畳雑音パターンに係るパワースペクトルを記憶する第2の代表雑音スペクトルメモリと、収集された洩れ込み音声を除去した雑音パターンに係るパワースペクトルと、第1の代表雑音スペクトルメモリに記憶される複数の洩れ込み音声を除去した雑音パターンに係るパワースペクトルとの間の距離値を演算して最短距離値を与える雑音パターンに係るパワースペクトルを第1の代表雑音スペクトルメモリから選択して、当該雑音パターンを識別する信号を時系列に出力する第1の雑音スペクトル選択手段と、第1の雑音スペクトル選択手段から出力される雑音パターン識別信号に対応する重畳雑音パターンに係るパワースペクトルを第2の代表雑音スペクトルメモリから選択し時系列に出力する第2の雑音スペクトル選択手段と、雑音重畳音声に係るパワースペクトルから、第2の雑音スペクトル選択手段が選択した重畳雑音パターンに係るパワースペクトルを減算して雑音除去音声に係るパワースペクトルを時系列に出力する雑音除去音声スペクトル演算手段と、雑音除去音声に係るパワースペクトルを基にして音声認識処理を実行する認識処理部とを備えるようにしたものである。
【0022】
この発明に係る音声認識装置は、雑音用マイクロホンから出力される雑音パターン信号から雑音パワーレベルを算出し当該雑音パワーレベルを時系列に出力する雑音パワーレベル演算手段と、音声用マイクロホンから出力される雑音重畳音声信号と雑音用マイクロホンから出力される雑音パターン信号とに基づいて音声区間を判定し、音声区間であるか否かの識別信号を時系列に出力する音声区間検出手段と、雑音パワーレベル演算手段から出力される雑音パワーレベルが閾値以下でありかつ音声区間検出手段から出力される識別信号が音声区間である旨を示している場合に、補正フィルタの学習を実施することを示す識別信号を時系列に出力する補正フィルタ学習決定手段と、補正フィルタ学習決定手段から出力される識別信号が補正フィルタの学習を実施する旨を示している場合に、雑音重畳音声スペクトル演算手段から出力される雑音重畳音声に係るパワースペクトルと雑音スペクトル演算手段から出力される雑音パターンに係るパワースペクトルとに基づいて、話者位置検出手段から出力される話者の位置データに対応する補正フィルタを学習し当該補正フィルタを出力する補正フィルタ学習手段とを備えるようにしたものである。
【0023】
この発明に係る音声認識装置は、雑音用マイクロホンから出力される雑音パターン信号から雑音パワーレベルを算出し当該雑音パワーレベルを時系列に出力する雑音パワーレベル演算手段と、音声用マイクロホンから出力される雑音重畳音声信号と雑音用マイクロホンから出力される雑音パターン信号とに基づいて雑音区間を判定し、雑音区間であるか否かの識別信号を時系列に出力する雑音区間検出手段と、雑音パワーレベル演算手段から出力される雑音パワーレベルが閾値以上でありかつ雑音区間検出手段から出力される識別信号が雑音区間である旨を示している場合に、雑音スペクトルの学習を実施することを示す識別信号を時系列に出力する雑音スペクトル学習決定手段と、雑音スペクトル学習決定手段から出力される識別信号が雑音スペクトルの学習を実施する旨を示している場合に、洩れ込み音声除去手段から出力される洩れ込み音声を除去した雑音パターンに係るパワースペクトルから、代表的な洩れ込み音声を除去した雑音パターンに係るパワースペクトルを学習し当該パワースペクトルを出力する第1の雑音スペクトル学習手段と、雑音スペクトル学習決定手段から出力される識別信号が雑音スペクトルの学習を実施する旨を示している場合に、雑音重畳音声スペクトル演算手段から出力される雑音重畳音声に係るパワースペクトルから、第1の雑音スペクトル学習手段から出力される代表的な洩れ込み音声を除去した雑音パターンに係るパワースペクトルに対応する重畳雑音パターンに係るパワースペクトルを学習し当該パワースペクトルを出力する第2の雑音スペクトル学習手段とを備えるようにしたものである。
【0024】
この発明に係る音声認識装置は、第1の雑音スペクトル学習手段が、洩れ込み音声除去手段から出力される複数の洩れ込み音声を除去した雑音パターンに係るパワースペクトルを記憶する第1の雑音スペクトルメモリと、第1の雑音スペクトルメモリに記憶される複数の洩れ込み音声を除去した雑音パターンに係るパワースペクトルについて、それぞれのクラスのセントロイドとなるパワースペクトルと当該クラスに含まれる雑音パターンのパワースペクトルとの間の距離値の総和が最小となるようにクラスタリングを実施し、各クラスのセントロイドを代表的な洩れ込み音声を除去した雑音パターンに係るパワースペクトルとして出力する第1のクラスタリング手段とを備え、第2の雑音スペクトル学習手段が、第1の雑音スペクトルメモリに記憶される複数の洩れ込み音声を除去した雑音パターンに係るパワースペクトルとそれぞれ同一分析フレームに出力された複数の重畳雑音パターンに係るパワースペクトルを記憶する第2の雑音スペクトルメモリと、第2の雑音スペクトルメモリに記憶される複数の重畳雑音パターンに係るパワースペクトルに対して第1のクラスタリング手段におけるクラスタリング結果を反映するようにクラスタリングを実施し、各クラスのセントロイドを代表的な重畳雑音パターンに係るパワースペクトルとして出力する第2のクラスタリング手段とを備えるようにしたものである。
【0025】
この発明に係る音声認識装置は、第1の雑音スペクトル学習手段は、洩れ込み音声除去手段から出力される洩れ込み音声を除去した雑音パターンに係る複数のパワースペクトルを記憶する第1の雑音スペクトルメモリと、第1の雑音スペクトルメモリに記憶される洩れ込み音声を除去した雑音パターンに係るパワースペクトルからパワースペクトルの概形を表すパラメータを算出し当該パラメータを出力するスペクトル概形パラメータ演算手段と、第1の雑音スペクトルメモリに記憶される洩れ込み音声を除去した雑音パターンに係るパワースペクトルからパワースペクトルの強度を表すパラメータを算出し当該パラメータを出力するスペクトル強度パラメータ演算手段と、スペクトル概形パラメータ演算手段から出力されるパワースペクトルの概形を表すパラメータとスペクトル強度パラメータ演算手段から出力されるパワースペクトルの強度を表すパラメータに重みを掛けて算出する距離値を用いて、第1の雑音スペクトルメモリに記憶される複数の洩れ込み音声を除去した雑音パターンに係るパワースペクトルをクラスタリングし、代表的な洩れ込み音声を除去した雑音パターンに係るパワースペクトルを出力する重み付けクラスタリング手段とを備えるようにしたものである。
【0026】
【発明の実施の形態】
以下、この発明の実施の一形態を説明する。
実施の形態1.
図1は、この発明の実施の形態1による音声認識装置の構成を示す図である。図において、1は背景雑音が重畳した音声を収集する音声用マイクロホン、2は主に背景雑音を収集する雑音用マイクロホン、3は音声用マイクロホン1が出力する雑音重畳音声信号を周波数変換して雑音重畳音声に係るパワースペクトルを時系列に出力する雑音重畳音声スペクトル演算手段、4は雑音用マイクロホン2が出力する雑音パターン信号を周波数変換して音声が洩れ込んだ雑音パターンに係るパワースペクトルを時系列に出力する雑音スペクトル演算手段、5はセンサによって話者の存在する位置を検出して当該位置データを時系列に出力する話者位置検出手段、6は音声用マイクロホン1と雑音用マイクロホン2との間においての音声の伝達特性に係る周波数特性の差異を補正するためのフィルタを1または複数個記憶する音声補正用補正フィルタメモリ、7は話者位置検出手段5から出力される話者の位置データに対応する補正フィルタを音声補正用補正フィルタメモリ6から選択して当該補正フィルタを時系列に出力する音声補正用補正フィルタ選択手段、8は音声補正用補正フィルタ選択手段7から出力される補正フィルタを用いて対応する雑音重畳音声に係るパワースペクトルを補正して補正雑音重畳音声に係るパワースペクトルを時系列に出力する雑音重畳音声スペクトル補正手段、9は雑音スペクトル演算手段4から出力される音声が洩れ込んだ雑音パターンに係るパワースペクトルから補正雑音重畳音声に係るパワースペクトルを減算して洩れ込み音声を除去した雑音パターンに係るパワースペクトルを時系列に出力する洩れ込み音声除去手段、10は音声用マイクロホン1と雑音用マイクロホン2との間においての雑音パターンの伝達特性に係る周波数特性の差異を補正するためのフィルタを1または複数個記憶する雑音補正用補正フィルタメモリ、11は雑音補正用補正フィルタメモリ10に記憶されたそれぞれの補正フィルタに対応する代表的な洩れ込み音声を除去した雑音パターンに係るパワースペクトルを記憶する代表雑音スペクトルメモリ、12は洩れ込み音声除去手段9から出力される洩れ込み音声を除去した雑音パターンに係るパワースペクトルと代表雑音スペクトルメモリ11に記憶される複数の代表的な洩れ込み音声を除去した雑音パターンに係るパワースペクトルとの間の距離値を演算して最短距離値を与える雑音パターンを代表雑音スペクトルメモリ11から選択して当該雑音パターンを識別する信号を時系列に出力する雑音スペクトル選択手段、13は雑音スペクトル選択手段12から出力される雑音パターン識別信号に対応する補正フィルタを雑音補正用補正フィルタメモリ10から選択して時系列に出力する雑音補正用補正フィルタ選択手段、14は雑音補正用補正フィルタ選択手段13から出力される補正フィルタを用いて洩れ込み音声を除去した雑音パターンに係るパワースペクトルを補正して補正雑音パターンに係るパワースペクトルを時系列に出力する洩れ込み音声除去雑音スペクトル補正手段、15は雑音重畳音声に係るパワースペクトルから補正雑音パターンに係るパワースペクトルを減算して雑音除去音声に係るパワースペクトルを時系列に出力する雑音除去音声スペクトル演算手段、16は雑音除去音声に係るパワースペクトルから特徴ベクトルを生成して当該特徴ベクトルを時系列に出力する特徴ベクトル演算手段、17は照合用の複数の雑音の無い標準音声パターンに係る特徴ベクトルを予め記憶させる照合パターンメモリ、18は特徴ベクトル演算手段16から時系列に出力される特徴ベクトルと照合パターンメモリ17内に記憶された雑音無し標準音声パターンに係る特徴ベクトルとを照合して最大尤度を与える認識候補を認識結果として出力する照合手段である。なお、特徴ベクトル演算手段16、照合パターンメモリ17および照合手段18を総括して、雑音除去音声に係るパワースペクトルを基にして音声認識処理を実行する認識処理部が与えられるものとみなすこともできる。
【0027】
次に動作について説明する。
音声用マイクロホン1は、一般的に話者の近傍に設置されて、背景雑音が重畳した音声を収集する。雑音用マイクロホン2は、一般的に話者から離隔した位置に設置されて、主に背景雑音を収集する。なお、この発明の実施の形態1による音声認識装置は、雑音源が複数個あって時間とともに雑音源が入れ替わる環境を想定するとともに雑音用マイクロホン2への音声の洩れ込みが無視できるほど小さくはない場合を想定して構成されているものである。
【0028】
雑音重畳音声スペクトル演算手段3は、音声用マイクロホン1が出力する雑音重畳音声信号に対して、一定時間毎にシフトする分析フレーム毎にFFT(高速フーリエ変換)を用いて周波数変換を実施して、雑音重畳音声信号に対する分析フレーム毎のパワースペクトルを時系列に出力する。このとき、分析フレームiにおける雑音重畳音声に係るパワースペクトルX1i(ω)は以下の式(7)で表される。式(7)において、Si(ω)は分析フレームiにおける話者が発声する音声に係るパワースペクトル、Ni(ω)は分析フレームiにおいて仮想的な雑音源が出力する雑音パターンに係るパワースペクトル、G11 (x(i),y(i))(ω)は分析フレームiにおける話者位置(x(i),y(i))での話者から音声用マイクロホン1への伝達特性についての周波数特性(フィルタ)、G21,i(ω)は分析フレームiにおける仮想的な雑音源から音声用マイクロホン1への伝達特性についての周波数特性(フィルタ)である。
【0029】
雑音スペクトル演算手段4は、雑音用マイクロホン2が出力する雑音パターン信号に対して、同様に一定時間毎にシフトする分析フレーム毎にFFT(高速フーリエ変換)を用いて周波数変換を実施して、音声の洩れ込んだ雑音パターン信号に対する分析フレーム毎のパワースペクトルを時系列に出力する。このとき、分析フレームiにおける音声の洩れ込んだ雑音に係るパワースペクトルX2i(ω)は以下の式(8)で表される。式(8)において、G12 (x(i),y(i))(ω)は分析フレームiにおける話者位置(x(i),y(i))での話者から雑音用マイクロホン2への伝達特性についての周波数特性(フィルタ)、G22,i(ω)は分析フレームiにおける仮想的な雑音源から雑音用マイクロホン2への伝達特性についての周波数特性(フィルタ)である。
【0030】
話者位置検出手段5は、センサによって話者のいる位置を検出して、分析フレームi毎に話者位置データ(x(i),y(i))を時系列に出力する。
【0031】
音声補正用補正フィルタメモリ6は、予め話者位置(x,y)毎に学習される音声用マイクロホン1と雑音用マイクロホン2との間においての音声の伝達特性に係る周波数特性の差異を補正するフィルタW12 (x,y)(ω)=G12 (x,y)(ω)/G11 (x,y)(ω)を記憶する。ここで、補正フィルタの学習方法について述べる。各話者位置における補正フィルタは、雑音のない環境または雑音を無視できる環境下で発声された音声区間において事前学習される。このとき、分析フレームjにおける音声用マイクロホン1が出力する信号に係るパワースペクトルX1j(ω)voice、および雑音用マイクロホン2が出力する信号に係るパワースペクトルX2j(ω)voiceは以下の式(9)で表される。式(9)は、背景雑音が無視できるという仮定のもとに、式(7)および式(8)の第2項を削除することで導かれる。
【数2】
【0032】
したがって、話者位置(x(j),y(j))での音声用マイクロホン1と雑音用マイクロホン2との間においての音声の伝達特性に係る周波数特性の差異を補正するためのフィルタW12 (x(j)、y(j))(ω)は、以下の式(10)を用いて導かれる。
【数3】
【0033】
音声補正用補正フィルタ選択手段7は、話者位置検出手段5から時系列に出力される分析フレームiでの話者位置データ(x(i),y(i))に対応する補正フィルタW12 (x(i),y(i))(ω)=G12 (x(i),y(i))(ω)/G11 (x(i),y(i))(ω)を音声補正用補正フィルタメモリ6から選択して分析フレームi毎に当該補正フィルタを時系列に出力する。
【0034】
雑音重畳音声スペクトル補正手段8は、音声補正用補正フィルタ選択手段7から出力される補正フィルタを用いて雑音重畳音声に係るパワースペクトルを補正して、補正雑音重畳音声に係るパワースペクトルを時系列に出力する。各分析フレームiにおける補正雑音重畳音声に係るパワースペクトルX1’i(ω)は以下の式(11)で表される。
X1’i(ω)=
W12 (x(i),y(i))(ω)・X1i(ω) (11)
【0035】
洩れ込み音声除去手段9は、雑音スペクトル演算手段4から出力される音声が洩れ込んだ雑音パターンに係るパワースペクトルから、雑音重畳音声スペクトル補正手段8から出力される補正雑音重畳音声に係るパワースペクトルを減算して、洩れ込み音声を除去した雑音パターンに係るパワースペクトルを時系列に出力する。分析フレームiにおける洩れ込み音声を除去した雑音パターンに係るパワースペクトルY2i(ω)は、以下の式(12)で表される。
【数4】
【0036】
雑音補正用補正フィルタメモリ10は、雑音区間を用いた事前学習により、音声用マイクロホン1と雑音用マイクロホン2との間においての雑音パターンの伝達特性に係る周波数特性の差異を補正するフィルタを、想定される雑音パターンの種類に応じた適正な数であるN個だけ記憶する。また、代表雑音スペクトルメモリ11は、雑音補正用補正フィルタメモリ10が記憶するN個の補正フィルタのそれぞれに対応する雑音パターンに係るパワースペクトルを記憶する。
【0037】
以下では、雑音補正用補正フィルタメモリ10に記憶される補正フィルタおよび当該補正フィルタに対応する雑音パターンに係るパワースペクトルの学習方法および記憶方法について説明する。雑音区間では、分析フレームjにおいて音声用マイクロホンにより観測されるパワースペクトルX1j(ω)noiseは、以下の式(13)で表される。式(13)は音声のない雑音区間であることから、式(7)の第1項を削除することで導かれる。
X1j(ω)noise=G21,j(ω)・Nj(ω) (13)
【0038】
したがって、分析フレームjにおいてK個の雑音源が出力するK個の雑音の組み合わせΩ(j)={N1 j,N2 j,…,NK j}に係る雑音パターンの伝達特性についての音声用マイクロホン1と雑音用マイクロホン2との間においての周波数特性の差異を補正するフィルタWΩ(j) 21(ω)は、以下の式(14)で表される。
【数5】
【0039】
分析フレームjにおけるK個の雑音源からの雑音の組み合わせに係る雑音パターンは未知であるが、分析フレームj1,j2においてΩ(j1)=Ω(j2)であれば、WΩ(j1) 21(ω)=WΩ(j2) 21(ω)であると考えられる。そこで、時系列に出力されるX1j(ω)noise/Y2j(ω)の値を適切な数のN個のクラスにクラスタリングする。クラスタリングは以下の式(15)で表わされる評価関数が最小になるように実施される。式(15)において、Wn 21(ω)はクラスnのセントロイド、Θ(n)はクラスnの要素が有する時系列番号の集合、dis(X,Y)はパワースペクトルXとパワースペクトルYとの間の距離値を返す関数である。
【数6】
また各クラスのセントロイドWn 21(ω)は、以下の式(16)から導かれる。式(16)においてMnはクラスnの要素数である。
【数7】
クラスタリング終了後、N個のWn 21(ω)が代表的な補正フィルタとして出力され、雑音補正用補正フィルタメモリ10に記憶される。
【0040】
また、代表雑音スペクトルメモリ11は、同様に時系列に出力される洩れ込み音声を除去した雑音パターンに係るパワースペクトルY2j(ω)をX1j(ω)noise/Y2j(ω)のクラスタリング結果に基づいてN個のクラスに分類した後に、各クラスn(1≦n≦N)のセントロイドを代表的な洩れ込み音声を除去したパワースペクトルY2n(ω)として代表雑音スペクトルメモリ11に記憶する。各クラスのセントロイドY2n(ω)は以下の式(17)から導かれる。式(17)において、Mnはクラスnの要素数である。
【数8】
以上のように、N個の補正フィルタWn 21(ω)がN個にクラス分けされた雑音パターンに対応するようにそれぞれ記憶されるとともに、N組のY2n(ω)とWn 21(ω)との対応関係に基づいて任意のフレームjにおける雑音パターンY2j(ω)に対応する補正フィルタWΩ(j) 21(ω)を導くことができる。すなわち、K個の雑音源が出力するK個の雑音の組み合わせに係る雑音パターンの数はほぼ無限にあると考えられるが、任意の雑音パターンY2j(ω)に最も類似する雑音パターンを代表雑音スペクトルメモリ11に記憶された代表的なN個の雑音パターンから選択して、最も類似する雑音パターンY2n(ω)に対応する補正フィルタWn 21(ω)をフレームjにおける補正フィルタWΩ(j) 21(ω)として用いる。
【0041】
雑音スペクトル選択手段12は、洩れ込み音声除去手段9から時系列に出力される洩れ込み音声を除去した雑音パターンに係るパワースペクトルと代表雑音スペクトルメモリ11に記憶された代表的なN個の雑音パターンに係るパワースペクトルとの間の距離値をそれぞれ演算して、洩れ込み音声を除去した雑音パターンのパワースペクトルに対して最短距離値を与える代表雑音パターンを代表雑音スペクトルメモリ11から選択して当該代表雑音パターンを識別する信号を出力する。このとき、最短距離値を与える雑音パターンに係るパワースペクトルY2l(i)(ω)は式(18)のように表される。式(18)において、dis(X,Y)はパワースペクトルXとパワースペクトルYとの間の距離を返す関数、l(i)は分析フレームiにおいて最短距離値を与える雑音パターンの番号を示す。
【数9】
【0042】
雑音補正用補正フィルタ選択手段13は、雑音スペクトル選択手段12から時系列に出力される雑音パターン識別信号に対応する補正フィルタWl(i) 21(ω)を雑音補正用補正フィルタメモリ10から選択して時系列に出力する。洩れ込み音声除去雑音スペクトル補正手段14は、雑音補正用補正フィルタ選択手段13から出力される補正フィルタを用いて、洩れ込み音声除去手段9から出力される洩れ込み音声を除去した雑音パターンに係るパワースペクトルを補正して、補正雑音パターンに係るパワースペクトルを時系列に出力する。このとき、補正雑音パターンに係るパワースペクトルY2’i(ω)は以下の式(19)で表される。
Y2’i(ω)=Wl(i) 21(ω)Y2i(ω) (19)
【0043】
雑音除去音声スペクトル演算手段15は、雑音重畳音声に係るパワースペクトルから補正雑音パターンに係るパワースペクトルを減算して、雑音除去音声に係るパワースペクトルS’i(ω)を時系列に出力する。このとき、分析フレームiにおける雑音除去音声に係るパワースペクトルS’i(ω)は、以下の式(20)で表される。式(20)において、αは補正雑音パターンに係るパワースペクトルの減算量を調整するパラメータであり、βは補正雑音パターンに係るパワースペクトルの過剰な減算を防止するために雑音除去音声に係るパワースペクトルにおける各周波数成分の下限値を設定するパラメータである。また、max{}は括弧内の要素の中で最大の値の要素を返す関数として与えられるものである。
S’i(ω)=
max{X1i(ω)−αY2’i(ω),β} (20)
【0044】
ここで、分析フレームiにおけるK個の雑音源が出力するK個の雑音の組み合わせΩ(i)に係る雑音パターンに対する補正フィルタWΩ(i) 21(ω)が既に事前学習において適切に記憶されている場合には、Wl(i) 21(ω)=WΩ(i) 21(ω)となる。したがって、式(12)および式(19)から、Y2’i(ω)=G21,i(ω)・Ni(ω)となる。そして、この式および式(7)を式(17)に代入すると、α=1のときに、S’i(ω)=G11 (x(i),y(i))(ω)Si(ω)となって、雑音が除去された音声に係るパワースペクトルを得ることができる。
【0045】
特徴ベクトル演算手段16、照合パターンメモリ17および照合手段18に係る動作は、従来の技術の特徴ベクトル演算手段108、照合パターンメモリ109および照合手段110とそれぞれ同様であるのでその説明を省略する。
【0046】
以上のように、この実施の形態1によれば、音声が洩れ込んだ雑音パターンに係るパワースペクトルから補正雑音重畳音声に係るパワースペクトルを減算して、洩れ込み音声を除去した雑音パターンに係るパワースペクトルを時系列に出力する洩れ込み音声除去手段を備えるように構成したので、雑音用マイクロホンへの音声の洩れ込みがあっても雑音パターンから洩れ込み音声を除去して、雑音重畳音声に対して洩れ込み音声を除去した雑音パターンの除去を実施することができるから、音声認識の性能を向上することができるという効果を奏する。
【0047】
また、話者位置を検出して分析フレーム毎に話者位置データを時系列に出力する話者位置検出手段5と、話者位置毎に学習される音声用マイクロホン1と雑音用マイクロホン2との間において音声の伝達特性に係る周波数特性の差異を補正する複数のフィルタを記憶する音声補正用補正フィルタメモリ6と、話者位置に対応した補正フィルタを選択する音声補正用補正フィルタ選択手段7とを備えるように構成したので、話者位置に応じて適正な補正フィルタを選択して音声が洩れ込んだ雑音パターンに係るパワースペクトルから洩れ込み音声に係るパワースペクトルを正確に除去することができるから、雑音重畳音声からの雑音パターンの除去を正確に実施することができて、音声認識の性能をより向上することができるという効果を奏する。
【0048】
また、音声用マイクロホン1と雑音用マイクロホン2との間においての雑音の伝達特性に係る周波数特性の差異を補正するための複数のフィルタを記憶する雑音補正用補正フィルタメモリ10と、雑音補正用補正フィルタメモリ10に記憶されたそれぞれの補正フィルタに対応する雑音パターンに係るパワースペクトルを記憶する代表雑音スペクトルメモリ11と、洩れ込み音声を除去した雑音パターンに係るパワースペクトルと代表雑音スペクトルメモリ11に記憶される複数個の雑音パターンに係るパワースペクトルとの間の距離値を演算して最短距離値を与える雑音パターンを代表雑音スペクトルメモリ11から選択して当該雑音パターンを識別する信号を時系列に出力する雑音スペクトル選択手段12と、雑音スペクトル選択手段12から出力される雑音パターン識別信号に対応する補正フィルタを雑音補正用補正フィルタメモリ10から選択して時系列に出力する雑音補正用補正フィルタ選択手段13とを備えるように構成したので、洩れ込み音声が除去された雑音パターンに応じて適正な補正フィルタを選択して補正雑音パターンに係るパワースペクトルを生成し、雑音重畳音声に係るパワースペクトルから補正雑音パターンに係るパワースペクトルを正確に除去することができるから、音声認識の性能をより向上することができるという効果を奏する。
【0049】
実施の形態2.
図2は、この発明の実施の形態2による音声認識装置の構成を示す図である。図2において、図1と同一符号は同一または相当部分を示すのでその説明を省略する。21は代表的な洩れ込み音声を除去した雑音パターンに係るパワースペクトルを複数個記憶する第1の代表雑音スペクトルメモリ、22は雑音重畳音声についての代表的な重畳雑音パターンに係るパワースペクトルを複数個記憶する第2の代表雑音スペクトルメモリ、23は洩れ込み音声除去手段9から出力される洩れ込み音声を除去した雑音パターンに係るパワースペクトルと第1の代表雑音スペクトルメモリ21に記憶される複数の代表雑音パターンに係るパワースペクトルとの間の距離値を演算して最短距離値を与える代表雑音パターンを第1の代表雑音スペクトルメモリ21から選択して当該代表雑音パターンを識別する信号を時系列に出力する第1の雑音スペクトル選択手段、24は第1の雑音スペクトル選択手段23から出力される代表雑音パターン識別信号に対応した重畳雑音パターンに係るパワースペクトルを第2の代表雑音スペクトルメモリ22から選択して時系列に出力する第2の雑音スペクトル選択手段、25は雑音重畳音声スペクトル演算手段3から出力される雑音重畳音声に係るパワースペクトルから、第2の雑音スペクトル選択手段24から出力される重畳雑音パターンに係るパワースペクトルを減算して雑音除去音声に係るパワースペクトルを時系列に出力する雑音除去音声スペクトル演算手段である。
【0050】
次に動作について説明する。
音声用マイクロホン1から洩れ込み音声除去手段9に係る動作並びに特徴ベクトル演算手段16から照合手段18に係る動作は実施の形態1と同様であるので、その説明を省略する。
【0051】
第1の代表雑音スペクトルメモリ21は、雑音区間を用いた事前学習により、洩れ込み音声を除去した雑音パターンに係るパワースペクトルを、想定される雑音パターンの種類に応じた適正な数であるN個だけ記憶する。また、第2の代表雑音スペクトルメモリ22は、雑音区間を用いた事前学習により、第1の代表雑音スペクトルメモリ21が記憶するN個の洩れ込み音声を除去した雑音パターンに対応する重畳雑音パターンに係るパワースペクトルを記憶する。
【0052】
以下では、洩れ込み音声を除去した雑音パターンに係るパワースペクトルおよび重畳雑音パターンに係るパワースペクトルの学習方法および記憶方法について説明する。雑音区間では、分析フレームjにおいて音声用マイクロホン1が出力するのは雑音重畳音声に重畳している重畳雑音成分であり、そのパワースペクトルX1j(ω)noiseは以下の式(21)で表される。式(21)は音声のない雑音区間であるということから、式(7)の第1項を削除することで導かれる。
X1j(ω)noise=G21,j(ω)・Nj(ω) (21)
これは雑音重畳音声に重畳している重畳雑音パターンに対するパワースペクトルであり、これをY1j(ω)と定義する。
Y1j(ω)=G21,j(ω)・Nj(ω) (22)
【0053】
分析フレームjにおいて、雑音重畳音声に重畳している重畳雑音パターンに対するパワースペクトルY1j(ω)を推定することができれば、雑音重畳音声に係るパワースペクトルから推定されたY1j(ω)を減算することで、雑音除去を実施することができる。そこで、洩れ込み音声を除去した雑音パターンに係るパワースペクトルY2j(ω)からY1j(ω)を推定するために、洩れ込み音声を除去した雑音パターンに係るパワースペクトルY2j(ω)から重畳雑音パターンに対するパワースペクトルY1j(ω)への写像関係を以下の手順で学習する。
【0054】
分析フレームjにおいて、K個の雑音源が出力するK個の雑音の組み合せΩ(j)={N1 j,N2 j,・・・,NK j}に係る雑音パターンは未知であるが、分析フレームj1,j2においてΩ(j1)=Ω(j2)であれば、洩れ込み音声を除去した雑音パターンに係るパワースペクトルは等しく、すなわちY2j1(ω)=Y2j2(ω)であると考えられる。そこで、時系列に出力される洩れ込み音声を除去した雑音パターンに係る複数のパワースペクトルY2j(ω)を適切な数のN個のクラスにクラスタリングする。クラスタリングは以下の式(23)で表される評価関数Dが最小になるように実施される。式(23)において、Y2n(ω)はクラスnのセントロイド、Θ(n)はクラスnの要素が有する時系列番号の集合、dis(X,Y)はパワースペクトルXとパワースペクトルYとの間の距離値を返す関数である。
【数10】
また、各クラスのセントロイドY2n(ω)は式(17)を用いて導かれる。クラスタリング終了後、N個のY2n(ω)が代表的な洩れ込み音声を除去した雑音パターンに係るパワースペクトルとして出力され、第1の代表雑音スペクトルメモリ21に記憶される。
【0055】
また、同様に音声用マイクロホン1から時系列に出力される重畳雑音パターンに係るパワースペクトルY1j(ω)をY2j(ω)のクラスタリング結果に基づいてN個のクラスに分類した後に、各クラスn(1≦n≦N)のセントロイドを代表的な重畳雑音パターンに係るパワースペクトルY1n(ω)として第2の代表雑音スペクトルメモリ22に記憶する。各クラスのセントロイドY1n(ω)は、以下の式(24)から導かれる。式(24)において、Θ(n)は上記クラスタリング手段が実施した洩れ込み音声を除去した雑音パターンに係るパワースペクトルのクラスタリングの結果としてクラスnの要素が有する時系列番号の集合、Mnはクラスnの要素数である。
【数11】
【0056】
以上のように、N個のY1n(ω)、Y2n(ω)がN個にクラス分けされた雑音パターンに対応するようにそれぞれ記憶されるとともに、N組のY2n(ω)とY1n(ω)との対応関係に基づいて、任意のフレームjにおける洩れ込み音声を除去した雑音パターンに係るパワースペクトルに対応した雑音重畳音声に重畳している重畳雑音パターンに係るパワースペクトルを導くことができる。すなわち、K個の雑音源が出力するK個の雑音の組み合せで決まる洩れ込み音声を除去した雑音パターンの数はほぼ無限にあると考えられるが、任意の洩れ込み音声を除去した雑音パターンに最も類似する洩れ込み音声を除去した雑音パターンを第1の代表雑音スペクトルメモリ21に記憶されたN個の洩れ込み音声を除去した雑音パターンから選択して、最も類似する洩れ込み音声を除去した雑音パターンに対応した雑音重畳音声に重畳している重畳雑音パターンに係るパワースペクトルを第2の代表雑音スペクトルメモリ22から選択して、フレームjにおける重畳雑音パターンに係るパワースペクトルとして用いる。
【0057】
第1の雑音スペクトル選択手段23は、洩れ込み音声除去手段9から出力される洩れ込み音声を除去した雑音パターンに係るパワースペクトルと、第1の代表雑音スペクトルメモリ21に記憶されたN個の洩れ込み音声を除去した雑音パターンに係るパワースペクトルとの間の距離値をそれぞれ演算して、洩れ込み音声を除去した雑音パターンに係るパワースペクトルに対して最短距離値を与える代表的な洩れ込み音声を除去した雑音パターンを第1の代表雑音スペクトルメモリ21から選択して当該雑音パターンを識別する信号を出力する。分析フレームiにおいて最短距離値を与える洩れ込み音声を除去した雑音パターンに係るパワースペクトルの番号l(i)は式(25)を用いて導かれる。式(25)において、dis(X,Y)はパワースペクトルXとパワースペクトルYとの間の距離値を返す関数である。
【数12】
【0058】
第2の雑音スペクトル選択手段24は、第1の雑音スペクトル選択手段23から時系列に出力される雑音パターン識別信号に対応する重畳雑音パターンに係るパワースペクトルY1l(i)(ω)を第2の代表雑音スペクトルメモリ22から選択して時系列に出力する。
【0059】
雑音除去音声スペクトル演算手段25は、雑音重畳音声スペクトル演算手段3から出力される雑音重畳音声に係るパワースペクトルから、第2の雑音スペクトル選択手段24から出力される重畳雑音パターンに係るパワースペクトルを減算して、雑音除去音声に係るパワースペクトルS’i(ω)を時系列に出力する。このとき、分析フレームiにおける雑音除去音声に係るパワースペクトルS’i(ω)は、以下の式(26)を用いて導かれる。式(26)において、αは重畳雑音パターンに係るパワースペクトルの減算量を調整するパラメータであり、βは重畳雑音パターンに係るパワースペクトルの過剰な減算を防止するために雑音除去音声に係るパワースペクトルにおける各周波数成分の下限値を設定するパラメータである。また、max{}は括弧内の要素の中で最大の値の要素を返す関数として与えられるものである。
S’i(ω)
=max{X1i(ω)−αY1l(i)(ω),β} (26)
【0060】
ここで、分析フレームiにおいてK個の雑音源が出力するK個の雑音の組み合せΩ(i)に対する重畳雑音パターンに係るパワースペクトルが適切に学習されているならば、Y1l(i)(ω)=G21,i(ω)Ni(ω)となる。これと式(7)を式(23)に代入すると、α=1のとき、S’i(ω)=G11 (x(i),y(i))(ω)・Si(ω)となり、雑音が除去された音声に係るパワースペクトルを得ることができる。
【0061】
図3は、雑音除去音声に係るパワースペクトルを得る処理手順を示すブロック図である。既に述べたように、X1i(ω)は雑音重畳音声に係るパワースペクトル、X2i(ω)は音声が洩れ込んだ雑音パターンに係るパワースペクトル、Y2i(ω)は洩れ込み音声を除去した雑音パターンに係るパワースペクトル、Y1l(i)(ω)は推定された重畳雑音パターンに係るパワースペクトル、S’i(ω)は雑音除去音声に係るパワースペクトル、W12(ω)は補正フィルタである。図3に示されるように、音声が洩れ込んだ雑音パターンに係るパワースペクトルX2i(ω)から雑音重畳音声に係るパワースペクトルX1i(ω)に補正フィルタW12(ω)を適用したものを減算することで、洩れ込み音声を除去した雑音パターンに係るパワースペクトルY2i(ω)を得る。次に事前学習より求めたY2n(ω)とY1n(ω)との写像関係から、Y2i(ω)に対応する重畳雑音パターンに係るパワースペクトルY1l(i)(ω)を推定する。最後に、雑音重畳音声に係るパワースペクトルX1i(ω)から推定されたY1l(i)(ω)を減算することで、雑音除去音声に係るパワースペクトルS’i(ω)を得ることができる。
【0062】
以上のように、この実施の形態2によれば、洩れ込み音声除去手段9を備えること、並びに話者位置検出手段5、音声補正用補正フィルタメモリ6および音声補正用補正フィルタ選択手段7を備えることについては実施の形態1と同等の効果を奏する。さらに、洩れ込み音声を除去した雑音パターンに係るパワースペクトルを複数記憶する第1の代表雑音スペクトルメモリ21と、重畳雑音パターンに係るパワースペクトルを複数記憶する第2の代表雑音スペクトルメモリ22と、洩れ込み音声を除去した雑音パターンに係るパワースペクトルと第1の代表雑音スペクトルメモリ21に記憶される複数個の雑音パターンに係るパワースペクトルとの間の距離値を演算して最短距離値を与える雑音パターンを第1の代表雑音スペクトルメモリ21から選択して当該雑音パターンを識別する信号を時系列に出力する第1の雑音スペクトル選択手段23と、第1の雑音スペクトル選択手段23から出力される雑音パターン識別信号に対応する重畳雑音に係るパワースペクトルを第2の代表雑音スペクトルメモリ22から選択して時系列に出力する第2の雑音スペクトル選択手段24とを備えるように構成したので、洩れ込み音声が除去された雑音パターンに応じた適切な重畳雑音パターンに係るパワースペクトルを選択して、雑音重畳音声に係るパワースペクトルから重畳雑音パターンに係るパワースペクトルを正確に除去することができるために、音声用マイクロホン1と雑音用マイクロホン2との雑音パターンに対する伝達特性が時々刻々変化するような場合においても、音声認識の性能をより向上することができるという効果を奏する。
【0063】
実施の形態3.
実施の形態2による音声認識装置は、補正フィルタおよび雑音パターンのパワースペクトル等に係る学習を事前に実施する必要があるために、事前の学習データに含まれないような雑音パターン等が生ずる環境下においては、正確に雑音除去を実施することができないことが予想される。この実施の形態3は、実際に音声認識を行なっている環境下において補正フィルタおよび雑音パターンのパワースペクトル等に係る学習を実施する学習手段を備えることを特徴とする。
【0064】
図4は、この発明の実施の形態3による音声認識装置の構成を示す図である。図4において、図1および図2と同一符号は同一または相当部分を示すのでその説明を省略する。31は雑音用マイクロホン2から出力される雑音パターン信号から雑音パワーレベルを算出し当該雑音パワーレベルを時系列に出力する雑音パワーレベル演算手段、32は音声用マイクロホン1から出力される雑音重畳音声信号と雑音用マイクロホン2から出力される雑音パターン信号とに基づいて音声区間を判定し、音声区間であるか否かの識別信号を時系列に出力する音声区間検出手段、33は音声用マイクロホン1から出力される雑音重畳音声信号と雑音用マイクロホン2から出力される雑音パターン信号とに基づいて雑音区間を判定し、雑音区間であるか否かの識別信号を時系列に出力する雑音区間検出手段、34は雑音パワーレベル演算手段31から出力される雑音パワーレベルが閾値以下でありかつ音声区間検出手段32から出力される識別信号が音声区間である旨を示している場合に、補正フィルタの学習を実施することを示す識別信号を時系列に出力する補正フィルタ学習決定手段、35は雑音パワーレベル演算手段31から出力される雑音パワーレベルが閾値以上でありかつ雑音区間検出手段33から出力される識別信号が雑音区間である旨を示している場合に、雑音スペクトルの学習を実施することを示す識別信号を時系列に出力する雑音スペクトル学習決定手段、36は補正フィルタ学習決定手段34から出力される識別信号が補正フィルタの学習を実施する旨を示している場合に、雑音重畳音声スペクトル演算手段3から出力される雑音重畳音声に係るパワースペクトルと雑音スペクトル演算手段4から出力される雑音パターンに係るパワースペクトルとに基づいて、話者位置検出手段5から出力される話者の位置データに対応する補正フィルタを学習し当該補正フィルタを出力する補正フィルタ学習手段、37は雑音スペクトル学習決定手段35から出力される識別信号が雑音スペクトルの学習を実施する旨を示している場合に、洩れ込み音声除去手段9から出力される洩れ込み音声を除去した雑音パターンに係るパワースペクトルに基づいて、代表的な洩れ込み音声を除去した雑音パターンに係るパワースペクトルを学習し当該パワースペクトルを出力する第1の雑音スペクトル学習手段、38は雑音スペクトル学習決定手段35から出力される識別信号が雑音スペクトルの学習を実施する旨を示している場合に、雑音重畳音声スペクトル演算手段3から出力される雑音重畳音声に係るパワースペクトルに基づいて、第1の雑音スペクトル学習手段37から出力される代表的な洩れ込み音声を除去した雑音パターンに対応する重畳雑音パターンに係るパワースペクトルを学習し当該パワースペクトルを出力する第2の雑音スペクトル学習手段である。
【0065】
また、図5は、第1の雑音スペクトル学習手段の内部構成を示した図である。図5において、41は洩れ込み音声除去手段9から出力される洩れ込み音声を除去した雑音パターンに係るパワースペクトルを複数記憶する第1の雑音スペクトルメモリ、42は第1の雑音スペクトルメモリ41に記憶される複数の洩れ込み音声を除去した雑音パターンに係るパワースペクトルに対してクラスタリングを実施し、クラスタリング結果におけるセントロイドに対応するパワースペクトルを代表的な洩れ込み音声を除去した雑音パターンに係るパワースペクトルとして出力する第1のクラスタリング手段である。
【0066】
また、図6は、第2の雑音スペクトル学習手段の内部構成を示した図である。図6において、43は第1の雑音スペクトルメモリ41に記憶される複数の洩れ込み音声を除去した雑音パターンに係るパワースペクトルとそれぞれ同一分析フレームに雑音重畳音声スペクトル演算手段3から出力された複数の重畳雑音パターンに係るパワースペクトルを記憶する第2の雑音スペクトルメモリ、44は第2の雑音スペクトルメモリ43に記憶される複数の重畳雑音パターンに係るパワースペクトルに対して、第1のクラスタリング手段42のクラスタリング結果に基づいてクラスタリングを実施し、クラスタリング結果におけるセントロイドに対応するパワースペクトルを代表的な重畳雑音パターンに係るパワースペクトルとして出力する第2のクラスタリング手段である。
【0067】
次に動作について説明する。
音声用マイクロホン1から洩れ込み音声除去手段9に係る動作、特徴ベクトル演算手段16から照合手段18に係る動作、並びに第1の代表雑音スペクトルメモリ21から雑音除去音声スペクトル演算手段25に係る動作については実施の形態2と同様であるのでその説明を省略する。
【0068】
雑音パワーレベル演算手段31は、雑音用マイクロホン2から出力される雑音パターン信号について雑音パワーレベルを算出し当該雑音パワーレベルを時系列に出力する。時刻tにおける雑音用マイクロホン2が出力する雑音パターン信号をx2(t)とすると、分析フレームiにおける雑音パワーレベルLEViは以下の式(27)から導くことができる。式(27)において、x2(t)は時刻tにおける雑音用マイクロホン2が出力する雑音パターン信号、Mは分析フレームのシフト量、Lは1分析フレームのサンプル数である。
【数13】
【0069】
音声区間検出手段32は、音声用マイクロホン1から出力される雑音重畳音声信号と雑音用マイクロホン2から出力される雑音パターン信号から音声区間を判定し、音声区間であるか否かの識別信号を時系列に出力する。分析フレームiが音声区間であるか否かについては、以下の式(28)を満たすか否かにより判定する。式(28)において、P1iは分析フレームiにおける雑音重畳音声信号のパワー、P2iは分析フレームiにおける雑音パターン信号のパワー、THvは音声区間判定用の閾値である。
【数14】
【0070】
雑音区間検出手段33は、音声用マイクロホン1から出力される雑音重畳音声信号と雑音用マイクロホン2から出力される雑音パターン信号とに基づいて雑音区間を判定し、雑音区間であるか否かの識別信号を時系列に出力する。分析フレームiが雑音区間であるか否かについては、以下の式(29)を満たすか否かにより判定する。式(29)において、P1iは分析フレームiにおける雑音重畳音声信号のパワー、P2iは分析フレームiにおける雑音パターン信号のパワー、THnは雑音区間判定用の閾値である。
【数15】
【0071】
補正フィルタ学習決定手段34は、雑音パワーレベル演算手段31から出力される雑音パワーレベルが閾値以下でありかつ音声区間検出手段32から出力される識別信号が音声区間である旨を示している場合に、補正フィルタの学習を実施することを示す識別信号を時系列に出力する。すなわち、背景雑音の雑音パワーレベルが小さく背景雑音の影響が無視できるような環境で発声された音声区間において補正フィルタの学習を実施することを示す識別信号を時系列に出力する。
【0072】
雑音スペクトル学習決定手段35は、雑音パワーレベル演算手段31から出力される雑音パワーレベルが閾値以上でありかつ雑音区間検出手段33から出力される識別信号が雑音区間である旨を示している場合に、雑音スペクトルの学習を実施することを示す識別信号を時系列に出力する。すなわち、背景雑音の雑音パワーレベルが大きく音声が発声されていない雑音区間において雑音スペクトルの学習を実施することを示す識別信号を時系列に出力する。
【0073】
補正フィルタ学習手段36は、補正フィルタ学習決定手段34から出力される識別信号が補正フィルタの学習を実施する旨を示している場合に、雑音重畳音声スペクトル演算手段3から出力される雑音重畳音声に係るパワースペクトルと雑音スペクトル演算手段4から出力される雑音パターンに係るパワースペクトルとに基づいて、話者位置検出手段5から出力される話者の位置データ(x(i),y(i))に対応する補正フィルタW12 (x(i),y(i))(ω)を学習し当該補正フィルタを出力する。学習された補正フィルタは、音声補正用補正フィルタメモリ6に記憶される。背景雑音が無視できるような環境下で発声が行われた場合に、分析フレームjにおける雑音重畳音声スペクトル演算手段3から出力される雑音重畳音声に係るパワースペクトルX1j(ω)および雑音スペクトル演算手段4から出力される雑音パターンに係るパワースペクトルX2j(ω)は、以下の式(30)で表すことができる。式(30)は、背景雑音が無視できるという仮定のもとに、式(7)および式(8)の第2項を削除することで導かれる。
【数16】
したがって、話者位置(x(j),y(j))での音声用マイクロホン1と雑音用マイクロホン2との音声に対する伝達特性に係る周波数特性の差異を補正するためのフィルタW12 (x(j),y(j))(ω)は以下の式(31)を用いて導かれる。
【数17】
【0074】
第1の雑音スペクトル学習手段37は、雑音スペクトル学習決定手段35から出力される識別信号が雑音スペクトルの学習を実施する旨を示している場合に、洩れ込み音声除去手段9から出力される洩れ込み音声を除去した雑音パターンに係るパワースペクトルに基づいて、代表的な洩れ込み音声を除去した雑音パターンに係るパワースペクトルを学習し当該パワースペクトルを出力する。学習された代表的な洩れ込み音声を除去した雑音パターンに係るパワースペクトルは、第1の代表雑音スペクトルメモリ21に記憶される。この第1の雑音スペクトル学習手段37は、第1の雑音スペクトルメモリ41と第1のクラスタリング手段42とから構成される。
【0075】
第1の雑音スペクトルメモリ41は、洩れ込み音声除去手段9から出力される洩れ込み音声を除去した雑音パターンに係るパワースペクトルを複数個記憶する。
【0076】
第1のクラスタリング手段42は、第1の雑音スペクトルメモリ41に記憶される複数の洩れ込み音声を除去した雑音パターンに係るパワースペクトルに対してクラスタリングを実施し、クラスタリング結果におけるセントロイドに対応するパワースペクトルを代表的な洩れ込み音声を除去した雑音パターンに係るパワースペクトルとして出力する。クラスタリングは、式(32)で表される評価関数Dが最小になるように実施される。式(32)において、Nはクラス数、Y2n(ω)はクラスnのセントロイド、Θ(n)はクラスnの要素が有する時系列番号の集合、iは現在第1の雑音スペクトルメモリ41に記憶されている洩れ込み音声を除去した雑音パターンに係るパワースペクトルの時系列番号、dis(X,Y)はパワースペクトルXとパワースペクトルYとの間の距離値を返す関数である。
【数18】
また、各クラスのセントロイドY2n(ω)は式(17)を用いて導かれる。クラスタリング終了後、N個のY2n(ω)が代表的な洩れ込み音声を除去した雑音パターンに係るパワースペクトルとして出力され、第1の代表雑音スペクトルメモリ21に記憶される。
【0077】
第2の雑音スペクトル学習手段38は、雑音スペクトル学習決定手段35から出力される識別信号が雑音スペクトルの学習を実施する旨を示している場合に、雑音重畳音声スペクトル演算手段3が出力する雑音重畳音声に係るパワースペクトルに基づいて、第1の雑音スペクトル学習手段37が出力する代表的な洩れ込み音声を除去した雑音パターンに係るパワースペクトルに対応する重畳雑音パターンに係るパワースペクトルを学習し当該パワースペクトルを出力する。学習された代表的な重畳雑音パターンに係るパワースペクトルは、第2の代表雑音スペクトルメモリ22に記憶される。この第2の雑音スペクトル学習手段38は、第2の雑音スペクトルメモリ43と第2のクラスタリング手段44とから構成される。
【0078】
第2の雑音スペクトルメモリ43は、第1の雑音スペクトルメモリ41に記憶されている複数の洩れ込み音声を除去した雑音パターンに係るパワースペクトルと同一分析フレームにおいてそれぞれ出力された複数の重畳雑音パターンに係るパワースペクトルを記憶する。雑音区間においては、分析フレームjにおける音声用マイクロホン1が出力する雑音重畳音声に係るパワースペクトルは以下の式(33)で表される。式(33)は音声のない雑音区間であるということから、式(7)の第1項を削除することで導かれる。
X1j(ω)=G21,j(ω)・Nj(ω) (33)
これは雑音重畳音声において重畳している重畳雑音パターンに対するパワースペクトルであり、これを式(19)と同様にY1j(ω)と定義する。
Y1j(ω)=G21,j(ω)・Nj(ω) (34)
すなわち、第2の雑音スペクトルメモリ43は、第1の雑音スペクトルメモリ41に記憶されている複数の洩れ込み音声を除去した雑音パターンに係るパワースペクトルY2i(ω)が出力された分析フレームiとそれぞれ同じ分析フレームにおいて雑音重畳音声スペクトル演算手段3から出力された重畳雑音パターンに係るパワースペクトルY1i(ω)を記憶する。
【0079】
第2のクラスタリング手段44は、第2の雑音スペクトルメモリ43が記憶する複数の重畳雑音パターンに係るパワースペクトルに対して、第1のクラスタリング手段42のクラスタリング結果に基づいてクラスタリングを実施し、クラスタリング結果におけるセントロイドに対応するパワースペクトルを代表的な重畳雑音パターンに係るパワースペクトルとして出力する。各クラスのセントロイドY1n(ω)は式(21)を用いて導かれる。
クラスタリング終了後、N個のY1n(ω)が代表的な重畳雑音パターンに係るパワースペクトルとして出力され、第2の代表雑音スペクトルメモリ22に記憶される。
【0080】
以上のように、N個のY1n(ω)、Y2n(ω)がN個にクラス分けされた雑音パターンに対応するようにそれぞれ記憶されるとともに、N組のY2n(ω)とY1n(ω)との対応関係に基づいて任意のフレームjにおける洩れ込み音声を除去した雑音パターンに係るパワースペクトルに対応する雑音重畳音声に重畳している重畳雑音パターンに係るパワースペクトルを導くことができる。
【0081】
以上のように、この実施の形態3によれば、雑音用マイクロホン2から出力される雑音パターン信号から雑音パワーレベルを算出し当該雑音パワーレベルを時系列に出力する雑音パワーレベル演算手段31と、音声用マイクロホン1から出力される雑音重畳音声信号と雑音用マイクロホン2から出力される雑音パターン信号とに基づいて音声区間を検出し音声区間か否かを識別する信号を時系列に出力する音声区間検出手段32と、雑音パワーレベル演算手段31から出力される雑音パワーレベルが閾値以下でかつ音声区間検出手段32から出力される識別信号が音声区間である旨を示している場合に補正フィルタの学習を実施することを示す識別信号を時系列に出力する補正フィルタ学習決定手段34と、補正フィルタ学習決定手段34から出力される識別信号が補正フィルタの学習を実施する旨を示している場合に雑音重畳音声スペクトル演算手段3から出力される雑音重畳音声に係るパワースペクトルと雑音スペクトル演算手段4から出力される雑音パターンに係るパワースペクトルとに基づいて話者位置検出手段5から出力される話者の位置データに対応する補正フィルタを学習し当該補正フィルタを出力する補正フィルタ学習手段36とを備えるように構成したので、事前学習によって学習できなかった話者位置において発声が行われる場合においても、雑音重畳音声に係るパワースペクトルの補正を正確に行ない、音声が洩れ込んだ雑音パターンに係るパワースペクトルから洩れ込み音声の除去を正確に実施することができるから、音声認識の性能を向上することができるという効果を奏する。
【0082】
また、雑音用マイクロホン2から出力される雑音パターン信号から雑音パワーレベルを算出し当該雑音パワーレベルを時系列に出力する雑音パワーレベル演算手段31と、音声用マイクロホン1から出力される雑音重畳音声信号と雑音用マイクロホン2から出力される雑音パターン信号とに基づいて雑音区間を検出し雑音区間か否かを識別する信号を時系列に出力する雑音区間検出手段33と、雑音パワーレベル演算手段31から出力される雑音パワーレベルが閾値以上でありかつ雑音区間検出手段33から出力される識別信号が雑音区間である旨を示している場合に、雑音スペクトルの学習を実施することを示す識別信号を時系列に出力する雑音スペクトル学習決定手段35と、雑音スペクトル学習決定手段35から出力される識別信号が雑音スペクトルの学習を実施する旨を示している場合に、洩れ込み音声除去手段9から出力される洩れ込み音声を除去した雑音パターンに係るパワースペクトルに基づいて代表的な洩れ込み音声を除去した雑音パターンに係るパワースペクトルを学習し当該パワースペクトルを出力する第1の雑音スペクトル学習手段37と、雑音スペクトル学習決定手段35から出力される識別信号が雑音スペクトルの学習を実施する旨を示している場合に、雑音重畳音声スペクトル演算手段3から出力される雑音重畳音声に係るパワースペクトルに基づいて、第1の雑音スペクトル学習手段37から出力される代表的な洩れ込み音声を除去した雑音パターンに係るパワースペクトルに対応する重畳雑音パターンに係るパワースペクトルを学習し当該パワースペクトルを出力する第2の雑音スペクトル学習手段38とを備えるように構成したので、事前学習によって学習できなかった雑音パターンが音声に重畳した場合においても、洩れ込み音声が除去された雑音パターンに応じて適切な重畳雑音パターンに係るパワースペクトルを選択して、雑音重畳音声に係るパワースペクトルから当該重畳雑音パターンに係るパワースペクトルを正確に除去することができるから、音声認識の性能をより向上することができるという効果を奏する。
【0083】
さらに、第1の雑音スペクトル学習手段37が、洩れ込み音声除去手段9から出力される複数の洩れ込み音声を除去した雑音パターンに係るパワースペクトルを記憶する第1の雑音スペクトルメモリ41と、第1の雑音スペクトルメモリ41に記憶される複数の洩れ込み音声を除去した雑音パターンに係る複数のパワースペクトルについて、それぞれのクラスのセントロイドと当該クラスに含まれる雑音パターンのパワースペクトルとの間の距離値の総和が最小となるようにクラスタリングを実施し、各クラスのセントロイドを代表的な洩れ込み音声を除去した雑音パターンに係るパワースペクトルとして出力する第1のクラスタリング手段42とを備え、第2の雑音スペクトル学習手段38が、第1の雑音スペクトルメモリ41に記憶される複数の洩れ込み音声を除去した雑音パターンに係るパワースペクトルとそれぞれ同一分析フレームに出力された複数の重畳雑音パターンに係るパワースペクトルを記憶する第2の雑音スペクトルメモリ43と、第2の雑音スペクトルメモリ43に記憶される複数の重畳雑音パターンに係るパワースペクトルに対して第1のクラスタリング手段42におけるクラスタリング結果を反映するようにクラスタリングを実施し、各クラスのセントロイドを代表的な重畳雑音パターンに係るパワースペクトルとして出力する第2のクラスタリング手段44とを備えるように構成したので、洩れ込み音声を除去した雑音パターンについてそれぞれのクラスのセントロイドと当該クラスに含まれるパワースペクトルとの間の距離値の総和が最小となるようにすることで適切なクラスタリングを実施するとともに、洩れ込み音声を除去した雑音パターンおよび重畳雑音パターンについて各クラスのセントロイドを代表的なパワースペクトルとして記憶することで、洩れ込み音声を除去した雑音パターンに係るパワースペクトルと重畳雑音に係るパワースペクトルとの間の写像関係を精密に学習できるから、雑音重畳音声に係るパワースペクトルから重畳雑音パターンに係るパワースペクトルを正確に除去することができて、音声認識の性能をより向上することができるという効果を奏する。
【0084】
実施の形態4.
実施の形態2および実施の形態3による音声認識装置では、単純なクラスタリングによって、洩れ込み音声を除去した雑音パターンと重畳雑音パターンとの間の写像関係を学習しているために、雑音パワーレベルの変動が大きい場合等に過度に雑音の強さ方向にのみ分解能を有して雑音の種類方向に分解能を有しない写像関係を学習してしまい、結果的に正確に雑音除去することができないことが予想される。そこで、この実施の形態4による音声認識装置は、クラスタリングの精度を上げて洩れ込み音声を除去した雑音パターンと重畳雑音パターンとの間の写像関係をより精密に学習することを特徴とする。
【0085】
図7は、この発明の実施の形態4による音声認識装置における第1の雑音スペクトル学習手段の内部構成を示す図である。図7において、図5と同一符号は同一または相当部分を示すのでその説明を省略する。51は第1の雑音スペクトルメモリ41に記憶される洩れ込み音声を除去した雑音パターンに係るパワースペクトルからパワースペクトルの概形を表すパラメータを算出し当該パラメータを出力するスペクトル概形パラメータ演算手段、52は第1の雑音スペクトルメモリ41に記憶される洩れ込み音声を除去した雑音パターンに係るパワースペクトルからパワースペクトルの強度を表すパラメータを算出し当該パラメータを出力するスペクトル強度パラメータ演算手段、53はスペクトル概形パラメータ演算手段51から出力されるパワースペクトルの概形を表すパラメータとスペクトル強度パラメータ演算手段52から出力されるパワースペクトルの強度を表すパラメータとに重みを掛けて算出する距離値を用いて、第1の雑音スペクトルメモリ41に記憶される複数の洩れ込み音声を除去した雑音パターンに係るパワースペクトルをクラスタリングし、代表的な洩れ込み音声を除去した雑音パターンに係るパワースペクトルを出力する重み付けクラスタリング手段である。
【0086】
次に動作について説明する。
スペクトル概形パラメータ演算手段51は、洩れ込み音声除去手段9から出力される洩れ込み音声を除去した雑音パターンに係るパワースペクトルからパワースペクトルの概形を表すパラメータを算出し時系列に出力する。具体的には式(35)からY2i(ω)のケプストラムCi(p)を求め、Ci(p)(1≦p≦P)をパワースペクトルの概形を表すパラメータとする。Pはケプストラムの次数である。また、式(35)においてF−1は逆FFTを実施する関数である。
Ci(p)=F−1(ln(Y2i(ω))) (35)
【0087】
スペクトル強度パラメータ演算手段52は、洩れ込み音声除去手段9から出力される洩れ込み音声を除去した雑音パターンに係るパワースペクトルからパワースペクトルの強度を表すパラメータを算出し時系列に出力する。具体的には、式(35)からY2i(ω)のケプストラムCi(p)を求め、Ci(0)をパワースペクトルの強度を表すパラメータとする。
【0088】
重み付けクラスタリング手段53は、スペクトル概形パラメータ演算手段51から出力されるパワースペクトルの概形を表すパラメータとスペクトル強度パラメータ演算手段52から出力されるパワースペクトルの強度を表すパラメータとに重みを掛けて算出する距離値を用いて、第1の雑音スペクトルメモリ41に記憶される複数の洩れ込み音声を除去した雑音パターンに係るパワースペクトルをクラスタリングし、代表的な洩れ込み音声を除去した雑音パターンに係るパワースペクトルを出力する。クラスタリングは、以下の式(36)で表される評価関数Dが最小になるように実施される。式(36)において、Cn(p)はクラスnのセントロイド、Θ(n)はクラスnの要素が有する時系列番号の集合、dis(X,Y)は指定された次数の範囲におけるケプストラムXとケプストラムYとの間の距離値を返す関数である。Wは、パワースペクトルの概形を表すパラメータおよびパワースペクトルの強度を表すパラメータについての全体の距離値に対する寄与度の割合を決定する重み係数である。
【数19】
また、各クラスのセントロイドY2n(ω)は式(17)を用いて導かれる。クラスタリング終了後、N個のY2n(ω)が代表的な洩れ込み音声を除去した雑音パターンに係るパワースペクトルとして出力され、第1の代表雑音スペクトルメモリ21に記憶される。
【0089】
以上のように、この実施の形態4によれば、第1の雑音スペクトルメモリ41に記憶される洩れ込み音声を除去した雑音パターンに係るパワースペクトルからパワースペクトルの概形を表すパラメータを算出し当該パラメータを出力するスペクトル概形パラメータ演算手段51と、第1の雑音スペクトルメモリ41に記憶される洩れ込み音声を除去した雑音パターンに係るパワースペクトルからパワースペクトルの強度を表すパラメータを算出し当該パラメータを出力するスペクトル強度パラメータ演算手段52と、スペクトル概形パラメータ演算手段51から出力されるパワースペクトルの概形を表すパラメータとスペクトル強度パラメータ演算手段52から出力されるパワースペクトルの強度を表すパラメータとにそれぞれ重みを掛けて算出する距離値を用いて、第1の雑音スペクトルメモリ41に記憶される複数の洩れ込み音声を除去した雑音パターンに係るパワースペクトルをクラスタリングし、代表的な洩れ込み音声を除去した雑音パターンに係るパワースペクトルを出力する重み付けクラスタリング手段53とを備えるように構成したので、雑音パワーレベルの変動が激しい環境下等においても、雑音の強度を表すパラメータに対する重みを調整することによってより精密なクラスタリングが可能となり、洩れ込み音声を除去した雑音パターンに係るパワースペクトルと重畳雑音パターンに係るパワースペクトルとの間の写像関係をより精密に学習することができることで、雑音重畳音声に係るパワースペクトルから重畳雑音パターンに係るパワースペクトルを正確に除去することができるために、音声認識の性能をより向上することができるという効果を奏する。
【0090】
【発明の効果】
以上のように、この発明によれば、センサによって話者の存在する位置を検出して当該位置データを時系列に出力する話者位置検出手段と、雑音重畳音声に係るパワースペクトルに含まれる音声成分と雑音パターンに係るパワースペクトルに含まれる音声成分の比から算出した複数の補正フィルタを予め記憶する音声補正用補正フィルタメモリと、話者位置検出手段から出力される話者の位置データに対応する補正フィルタを音声補正用補正フィルタメモリから選択して当該補正フィルタを時系列に出力する音声補正用補正フィルタ選択手段と、音声補正用補正フィルタ選択手段から時系列に出力されるフィルタを用いて、雑音重畳音声に係るパワースペクトルに含まれる音声成分を雑音パターンに係るパワースペクトルに含まれる音声成分に変換する雑音重畳音声スペクトル補正手段と、音声が洩れ込んだ雑音パターンに係るパワースペクトルから補正雑音重畳音声に係るパワースペクトルを減算して洩れ込み音声を除去した雑音パターンに係るパワースペクトルを時系列に出力する洩れ込み音声除去手段と、洩れ込み音声を除去した雑音パターンに係るパワースペクトルと雑音重畳音声に係るパワースペクトルに含まれる雑音成分の比から算出した複数の補正フィルタを予め記憶する雑音補正用補正フィルタメモリと、雑音補正用補正フィルタメモリに予め記憶された複数の補正フィルタにそれぞれ対応する洩れ込み音声を除去した雑音パターンに係るパワースペクトルを予め記憶する代表雑音スペクトルメモリと、洩れ込み音声を除去した雑音パターンに係るパワースペクトルと代表雑音スペクトルメモリに記憶される複数の洩れ込み音声を除去した雑音パターンに係るパワースペクトルとの間の距離値を演算して最短距離値を与える雑音パターンを代表雑音スペクトルメモリから選択して当該雑音パターンを識別する信号を時系列に出力する雑音スペクトル選択手段と、雑音スペクトル選択手段から出力される雑音パターン識別信号に対応する補正フィルタを雑音補正用補正フィルタメモリから選択して洩れ込み音声除去雑音スペクトル補正手段へ時系列に出力する雑音補正用補正フィルタ選択手段とを備えるように構成したので、雑音用マイクロホンへの音声の洩れ込みがある場合においても、雑音パターンから洩れ込み音声を除去することができて、洩れ込み音声が除去された雑音パターンを雑音重畳音声から除去することができるから、音声認識の性能を向上することができるという効果を奏する。また、話者位置に応じて適正な補正フィルタを選択して音声が洩れ込んだ雑音パターンに係るパワースペクトルから洩れ込み音声に係るパワースペクトルを正確に除去することができるから、雑音重畳音声からの雑音除去を正確に実施することができて、音声認識の性能をより向上することができるという効果を奏する。また、洩れ込み音声が除去された雑音パターンに応じて適正な補正フィルタを選択して、雑音重畳音声に係るパワースペクトルから雑音パターンに係るパワースペクトルを正確に除去することができるから、音声認識の性能をより向上することができるという効果を奏する。
【0094】
この発明によれば、洩れ込み音声を除去した雑音パターンに係る複数のパワースペクトルを記憶する第1の代表雑音スペクトルメモリと、第1の代表雑音スペクトルメモリに記憶される複数の洩れ込み音声を除去した雑音パターンに係るパワースペクトルにそれぞれ対応する複数の重畳雑音パターンに係るパワースペクトルを記憶する第2の代表雑音スペクトルメモリと、洩れ込み音声を除去した雑音パターンに係るパワースペクトルと、第1の代表雑音スペクトルメモリに記憶される複数の洩れ込み音声を除去した雑音パターンに係るパワースペクトルとの間の距離値を演算して最短距離値を与える雑音パターンに係るパワースペクトルを第1の代表雑音スペクトルメモリから選択して、当該雑音パターンを識別する信号を時系列に出力する第1の雑音スペクトル選択手段と、第1の雑音スペクトル選択手段から出力される雑音パターン識別信号に対応する重畳雑音パターンに係るパワースペクトルを第2の代表雑音スペクトルメモリから選択し時系列に出力する第2の雑音スペクトル選択手段とを備えるように構成したので、洩れ込み音声が除去された雑音パターンに応じた適切な重畳雑音パターンに係るパワースペクトルを選択して、雑音重畳音声に係るパワースペクトルから重畳雑音パターンに係るパワースペクトルを正確に除去することができるために、音声用マイクロホンと雑音用マイクロホンとの雑音パターンに対する伝達特性に係る周波数特性が時々刻々変化するような場合においても、音声認識の性能をより向上することができるという効果を奏する。
【0095】
この発明によれば、雑音用マイクロホンから出力される雑音パターン信号から雑音パワーレベルを算出し当該雑音パワーレベルを時系列に出力する雑音パワーレベル演算手段と、音声用マイクロホンから出力される雑音重畳音声信号と雑音用マイクロホンから出力される雑音パターン信号とに基づいて音声区間を判定し、音声区間であるか否かの識別信号を時系列に出力する音声区間検出手段と、雑音パワーレベル演算手段から出力される雑音パワーレベルが閾値以下でありかつ音声区間検出手段から出力される識別信号が音声区間である旨を示している場合に、補正フィルタの学習を実施することを示す識別信号を時系列に出力する補正フィルタ学習決定手段と、補正フィルタ学習決定手段から出力される識別信号が補正フィルタの学習を実施する旨を示している場合に、雑音重畳音声スペクトル演算手段から出力される雑音重畳音声に係るパワースペクトルと雑音スペクトル演算手段から出力される雑音パターンに係るパワースペクトルとに基づいて、話者位置検出手段から出力される話者の位置データに対応する補正フィルタを学習し当該補正フィルタを出力する補正フィルタ学習手段とを備えるように構成したので、事前学習によって学習できなかった話者位置において発声が行われる場合においても、雑音重畳音声に係るパワースペクトルの補正を正確に行ない、音声が洩れ込んだ雑音パターンに対するパワースペクトルから洩れ込み音声の除去を正確に実施することができて、音声認識の性能を向上することができるという効果を奏する。
【0096】
この発明によれば、雑音用マイクロホンから出力される雑音パターン信号から雑音パワーレベルを算出し当該雑音パワーレベルを時系列に出力する雑音パワーレベル演算手段と、音声用マイクロホンから出力される雑音重畳音声信号と雑音用マイクロホンから出力される雑音パターン信号とに基づいて雑音区間を判定し、雑音区間であるか否かの識別信号を時系列に出力する雑音区間検出手段と、雑音パワーレベル演算手段から出力される雑音パワーレベルが閾値以上でありかつ雑音区間検出手段から出力される識別信号が雑音区間である旨を示している場合に、雑音スペクトルの学習を実施することを示す識別信号を時系列に出力する雑音スペクトル学習決定手段と、雑音スペクトル学習決定手段から出力される識別信号が雑音スペクトルの学習を実施する旨を示している場合に、洩れ込み音声除去手段から出力される洩れ込み音声を除去した雑音パターンに係るパワースペクトルに基づいて、代表的な洩れ込み音声を除去した雑音パターンに係るパワースペクトルを学習し当該パワースペクトルを出力する第1の雑音スペクトル学習手段と、雑音スペクトル学習決定手段から出力される識別信号が雑音スペクトルの学習を実施する旨を示している場合に、雑音重畳音声スペクトル演算手段から出力される雑音重畳音声に係るパワースペクトルに基づいて、第1の雑音スペクトル学習手段から出力される代表的な洩れ込み音声を除去した雑音パターンに係るパワースペクトルに対応する重畳雑音パターンに係るパワースペクトルを学習し当該パワースペクトルを出力する第2の雑音スペクトル学習手段とを備えるように構成したので、事前学習によって学習できなかった雑音パターンが音声に重畳した場合においても、洩れ込み音声が除去された雑音パターンに応じて適切な重畳雑音パターンに係るパワースペクトルを選択して、雑音重畳音声に係るパワースペクトルから当該重畳雑音パターンに係るパワースペクトルを正確に除去することができるので、音声認識の性能をより向上することができるという効果を奏する。
【0097】
この発明によれば、第1の雑音スペクトル学習手段が、洩れ込み音声除去手段から出力される複数の洩れ込み音声を除去した雑音パターンに係るパワースペクトルを記憶する第1の雑音スペクトルメモリと、第1の雑音スペクトルメモリに記憶される複数の洩れ込み音声を除去した雑音パターンに係るパワースペクトルについて、それぞれのクラスのセントロイドとなるパワースペクトルと当該クラスに含まれる雑音パターンのパワースペクトルとの間の距離値の総和が最小となるようにクラスタリングを実施し、各クラスのセントロイドを代表的な洩れ込み音声を除去した雑音パターンに係るパワースペクトルとして出力する第1のクラスタリング手段とを備え、第2の雑音スペクトル学習手段が、第1の雑音スペクトルメモリに記憶される複数の洩れ込み音声を除去した雑音パターンに係るパワースペクトルとそれぞれ同一分析フレームに出力された複数の重畳雑音パターンに係るパワースペクトルを記憶する第2の雑音スペクトルメモリと、第2の雑音スペクトルメモリに記憶される複数の重畳雑音パターンに係るパワースペクトルに対して第1のクラスタリング手段におけるクラスタリング結果を反映するようにクラスタリングを実施し、各クラスのセントロイドを代表的な重畳雑音パターンに係るパワースペクトルとして出力する第2のクラスタリング手段とを備えるように構成したので、洩れ込み音声を除去した雑音パターンについてそれぞれのクラスのセントロイドと当該クラスに含まれるパワースペクトルとの間の距離の総和が最小となるようにすることで適切なクラスタリングを実施するとともに、洩れ込み音声を除去した雑音パターンおよび重畳雑音パターンについて各クラスのセントロイドを代表的なパワースペクトルとして記憶することで、洩れ込み音声を除去した雑音パターンに係るパワースペクトルと重畳雑音パターンに係るパワースペクトルとの間の写像関係を精密に学習できるから、雑音重畳音声に係るパワースペクトルから重畳雑音パターンに係るパワースペクトルを正確に除去することができて、音声認識の性能をより向上することができるという効果を奏する。
【0098】
この発明によれば、第1の雑音スペクトル学習手段が、洩れ込み音声除去手段から出力される洩れ込み音声を除去した雑音パターンに係る複数のパワースペクトルを記憶する第1の雑音スペクトルメモリと、第1の雑音スペクトルメモリに記憶される洩れ込み音声を除去した雑音パターンに係るパワースペクトルからパワースペクトルの概形を表すパラメータを算出し当該パラメータを出力するスペクトル概形パラメータ演算手段と、第1の雑音スペクトルメモリに記憶される洩れ込み音声を除去した雑音パターンに係るパワースペクトルからパワースペクトルの強度を表すパラメータを算出し当該パラメータを出力するスペクトル強度パラメータ演算手段と、スペクトル概形パラメータ演算手段から出力されるパワースペクトルの概形を表すパラメータとスペクトル強度パラメータ演算手段から出力されるパワースペクトルの強度を表すパラメータとに重みを掛けて算出する距離値を用いて、第1の雑音スペクトルメモリに記憶される複数の洩れ込み音声を除去した雑音パターンに係るパワースペクトルをクラスタリングし、代表的な洩れ込み音声を除去した雑音パターンに係るパワースペクトルを出力する重み付けクラスタリング手段とを備えるように構成したので、雑音パワーレベルの変動が激しい環境下等においても、雑音の強度を表すパラメータに対する重みを調整することによってより精密なクラスタリングが可能となり、洩れ込み音声を除去した雑音パターンに係るパワースペクトルと重畳雑音に係るパワースペクトルとの間の写像関係をより精密に学習することができることで、雑音重畳音声に係るパワースペクトルから重畳雑音パターンに係るパワースペクトルを正確に除去することができるために、音声認識の性能をより向上することができるという効果を奏する。
【図面の簡単な説明】
【図1】 この発明の実施の形態1による音声認識装置の構成を示す図である。
【図2】 この発明の実施の形態2による音声認識装置の構成を示す図である。
【図3】 雑音除去音声に係るパワースペクトルを得る処理手順を示すブロック図である。
【図4】 この発明の実施の形態3による音声認識装置の構成を示す図である。
【図5】 第1の雑音スペクトル学習手段の内部構成を示す図である。
【図6】 第2の雑音スペクトル学習手段の内部構成を示す図である。
【図7】 この発明の実施の形態4による音声認識装置の第1の雑音スペクトル学習手段の内部構成を示す図である。
【図8】 雑音等がある環境下において音声を認識する従来の音声認識装置の構成を示すブロック図である。
【図9】 従来の2入力SS法を用いた音声認識装置の構成を示す図である。
【符号の説明】
1 音声用マイクロホン、2 雑音用マイクロホン、3 雑音重畳音声スペクトル演算手段、4 雑音スペクトル演算手段、5 話者位置検出手段、6 音声補正用補正フィルタメモリ、7 音声補正用補正フィルタ選択手段、8 雑音重畳音声スペクトル補正手段、9 洩れ込み音声除去手段、10 雑音補正用補正フィルタメモリ、11 代表雑音スペクトルメモリ、12 雑音スペクトル選択手段、13 雑音補正用補正フィルタ選択手段、14 洩れ込み音声除去雑音スペクトル補正手段(雑音スペクトル補正手段)、15,25 雑音除去音声スペクトル演算手段、16 特徴ベクトル演算手段、17 照合パターンメモリ、18 照合手段、21 第1の代表雑音スペクトルメモリ、22 第2の代表雑音スペクトルメモリ、23 第1の雑音スペクトル選択手段、24 第2の雑音スペクトル選択手段、31 雑音パワーレベル演算手段、32 音声区間検出手段、33 雑音区間検出手段、34 補正フィルタ学習決定手段、35 雑音スペクトル学習決定手段、36 補正フィルタ学習手段、37 第1の雑音スペクトル学習手段、38 第2の雑音スペクトル学習手段、41 第1の雑音スペクトルメモリ、42 第1のクラスタリング手段、43 第2の雑音スペクトルメモリ、44 第2のクラスタリング手段、51 スペクトル概形パラメータ演算手段、52 スペクトル強度パラメータ演算手段、53 重み付けクラスタリング手段。
Claims (7)
- 背景雑音が重畳した音声を収集する音声用マイクロホンと、主に背景雑音を収集する雑音用マイクロホンと、センサによって話者の存在する位置を検出して当該位置データを時系列に出力する話者位置検出手段と、前記音声用マイクロホンが出力する雑音重畳音声信号を周波数変換して雑音重畳音声に係るパワースペクトルを時系列に出力する雑音重畳音声スペクトル演算手段と、前記雑音用マイクロホンが出力する雑音パターン信号を周波数変換して音声が洩れ込んだ雑音パターンに係るパワースペクトルを時系列に出力する雑音スペクトル演算手段と、前記雑音重畳音声に係るパワースペクトルに含まれる音声成分と前記雑音パターンに係るパワースペクトルに含まれる音声成分の比から算出した複数の補正フィルタを予め記憶する音声補正用補正フィルタメモリと、前記話者位置検出手段から出力される話者の位置データに対応する補正フィルタを前記音声補正用補正フィルタメモリから選択して当該補正フィルタを時系列に出力する音声補正用補正フィルタ選択手段と、前記音声補正用補正フィルタ選択手段から時系列に出力されるフィルタを用いて、前記雑音重畳音声に係るパワースペクトルに含まれる音声成分を前記雑音パターンに係るパワースペクトルに含まれる音声成分に変換する雑音重畳音声スペクトル補正手段と、音声が洩れ込んだ雑音パターンに係るパワースペクトルから補正雑音重畳音声に係るパワースペクトルを減算して洩れ込み音声を除去した雑音パターンに係るパワースペクトルを時系列に出力する洩れ込み音声除去手段と、前記洩れ込み音声を除去した雑音パターンに係るパワースペクトルと前記雑音重畳音声に係るパワースペクトルに含まれる雑音成分の比から算出した複数の補正フィルタを予め記憶する雑音補正用補正フィルタメモリと、前記雑音補正用補正フィルタメモリに予め記憶された複数の補正フィルタにそれぞれ対応する洩れ込み音声を除去した雑音パターンに係るパワースペクトルを予め記憶する代表雑音スペクトルメモリと、洩れ込み音声を除去した雑音パターンに係るパワースペクトルと前記代表雑音スペクトルメモリに記憶される複数の洩れ込み音声を除去した雑音パターンに係るパワースペクトルとの間の距離値を演算して最短距離値を与える雑音パターンを前記代表雑音スペクトルメモリから選択して当該雑音パターンを識別する信号を時系列に出力する雑音スペクトル選択手段と、前記雑音スペクトル選択手段から出力される雑音パターン識別信号に対応する補正フィルタを前記雑音補正用補正フィルタメモリから選択して洩れ込み音声除去雑音スペクトル補正手段へ時系列に出力する雑音補正用補正フィルタ選択手段と、前記雑音補正用補正フィルタ選択手段から時系列に出力されるフィルタを用いて、前記洩れ込み音声を除去した雑音パターンに係るパワースペクトルを雑音重畳音声に係るパワースペクトルに含まれる雑音成分に変換する洩れ込み音声除去雑音スペクトル補正手段と、雑音重畳音声に係るパワースペクトルから補正雑音パターンに係るパワースペクトルを減算して雑音除去音声に係るパワースペクトルを時系列に出力する雑音除去音声スペクトル演算手段と、雑音除去音声に係るパワースペクトルを基にして音声認識処理を実行する認識処理部とを備えることを特徴とする音声認識装置。
- 背景雑音が重畳した音声を収集する音声用マイクロホンと、主に背景雑音を収集する雑音用マイクロホンと、センサによって話者の存在する位置を検出して当該位置データを時系列に出力する話者位置検出手段と、前記音声用マイクロホンから出力される雑音重畳音声信号を周波数変換して雑音重畳音声に係るパワースペクトルを時系列に出力する雑音重畳音声スペクトル演算手段と、前記雑音用マイクロホンから出力される雑音パターン信号を周波数変換して音声が洩れ込んだ雑音パターンに係るパワースペクトルを時系列に出力する雑音スペクトル演算手段と、前記雑音重畳音声に係るパワースペクトルに含まれる音声成分と前記雑音パターンに係るパワースペクトルに含まれる音声成分の比から算出した複数の補正フィルタを予め記憶する音声補正用補正フィルタメモリと、前記話者位置検出手段から出力される話者の位置データに対応する補正フィルタを前記音声補正用補正フィルタメモリから選択して当該補正フィルタを時系列に出力する音声補正用補正フィルタ選択手段と、前記音声補正用補正フィルタ選択手段から時系列に出力されるフィルタを用いて、前記雑音重畳音声に係るパワースペクトルに含まれる音声成分を前記雑音パターンに係るパワースペクトルに含まれる音声成分に変換する雑音重畳音声スペクトル補正手段と、音声が洩れ込んだ雑音パターンに係るパワースペクトルから補正雑音重畳音声に係るパワースペクトルを減算して洩れ込み音声を除去した雑音パターンに係るパワースペクトルを時系列に出力する洩れ込み音声除去手段と、洩れ込み音声を除去した雑音パターンに係る複数のパワースペクトルを記憶する第1の代表雑音スペクトルメモリと、前記第1の代表雑音スペクトルメモリに記憶される複数の洩れ込み音声を除去した雑音パターンに係るパワースペクトルにそれぞれ対応する複数の重畳雑音パターンに係るパワースペクトルを記憶する第2の代表雑音スペクトルメモリと、収集された洩れ込み音声を除去した雑音パターンに係るパワースペクトルと、前記第1の代表雑音スペクトルメモリに記憶される複数の洩れ込み音声を除去した雑音パターンに係るパワースペクトルとの間の距離値を演算して最短距離値を与える雑音パターンに係るパワースペクトルを前記第1の代表雑音スペクトルメモリから選択して、当該雑音パターンを識別する信号を時系列に出力する第1の雑音スペクトル選択手段と、前記第1の雑音スペクトル選択手段から出力される雑音パターン識別信号に対応する重畳雑音パターンに係るパワースペクトルを前記第2の代表雑音スペクトルメモリから選択し時系列に出力する第2の雑音スペクトル選択手段と、雑音重畳音声に係るパワースペクトルから、前記第2の雑音スペクトル選択手段が選択した重畳雑音パターンに係るパワースペクトルを減算して雑音除去音声に係るパワースペクトルを時系列に出力する雑音除去音声スペクトル演算手段と、雑音除去音声に係るパワースペクトルを基にして音声認識処理を実行する認識処理部とを備えることを特徴とする音声認識装置。
- センサによって話者の存在する位置を検出して当該位置データを時系列に出力する話者位置検出手段と、前記雑音重畳音声に係るパワースペクトルに含まれる音声成分と前記雑音パターンに係るパワースペクトルに含まれる音声成分の比から算出した複数の補正フィルタを予め記憶する音声補正用補正フィルタメモリと、前記話者位置検出手段から出力される話者の位置データに対応する補正フィルタを前記音声補正用補正フィルタメモリから選択して当該補正フィルタを雑音重畳音声スペクトル補正手段へ時系列に出力する音声補正用補正フィルタ選択手段とを備えることを特徴とする請求項2記載の音声認識装置。
- 雑音用マイクロホンから出力される雑音パターン信号から雑音パワーレベルを算出し当該雑音パワーレベルを時系列に出力する雑音パワーレベル演算手段と、音声用マイクロホンから出力される雑音重畳音声信号と前記雑音用マイクロホンから出力される雑音パターン信号とに基づいて音声区間を判定し、音声区間であるか否かの識別信号を時系列に出力する音声区間検出手段と、前記雑音パワーレベル演算手段から出力される雑音パワーレベルが閾値以下でありかつ前記音声区間検出手段から出力される識別信号が音声区間である旨を示している場合に、補正フィルタの学習を実施することを示す識別信号を時系列に出力する補正フィルタ学習決定手段と、前記補正フィルタ学習決定手段から出力される識別信号が補正フィルタの学習を実施する旨を示している場合に、前記雑音重畳音声スペクトル演算手段から出力される雑音重畳音声に係るパワースペクトルと前記雑音スペクトル演算手段から出力される雑音パターンに係るパワースペクトルとに基づいて、話者位置検出手段から出力される話者の位置データに対応する補正フィルタを学習し当該補正フィルタを出力する補正フィルタ学習手段とを備えることを特徴とする請求項2または請求項3記載の音声認識装置。
- 雑音用マイクロホンから出力される雑音パターン信号から雑音パワーレベルを算出し当該雑音パワーレベルを時系列に出力する雑音パワーレベル演算手段と、音声用マイクロホンから出力される雑音重畳音声信号と前記雑音用マイクロホンから出力される雑音パターン信号とに基づいて雑音区間を判定し、雑音区間であるか否かの識別信号を時系列に出力する雑音区間検出手段と、前記雑音パワーレベル演算手段から出力される雑音パワーレベルが閾値以上でありかつ前記雑音区間検出手段から出力される識別信号が雑音区間である旨を示している場合に、雑音スペクトルの学習を実施することを示す識別信号を時系列に出力する雑音スペクトル学習決定手段と、前記雑音スペクトル学習決定手段から出力される識別信号が雑音スペクトルの学習を実施する旨を示している場合に、洩れ込み音声除去手段から出力される洩れ込み音声を除去した雑音パターンに係るパワースペクトルから、代表的な洩れ込み音声を除去した雑音パターンに係るパワースペクトルを学習し当該パワースペクトルを出力する第1の雑音スペクトル学習手段と、前記雑音スペクトル学習決定手段から出力される識別信号が雑音スペクトルの学習を実施する旨を示している場合に、雑音重畳音声スペクトル演算手段から出力される雑音重畳音声に係るパワースペクトルから、前記第1の雑音スペクトル学習手段から出力される代表的な洩れ込み音声を除去した雑音パターンに係るパワースペクトルに対応する重畳雑音パターンに係るパワースペクトルを学習し当該パワースペクトルを出力する第2の雑音スペクトル学習手段とを備えることを特徴とする請求項2または請求項3記載の音声認識装置。
- 第1の雑音スペクトル学習手段が、洩れ込み音声除去手段から出力される複数の洩れ込み音声を除去した雑音パターンに係るパワースペクトルを記憶する第1の雑音スペクトルメモリと、前記第1の雑音スペクトルメモリに記憶される複数の洩れ込み音声を除去した雑音パターンに係るパワースペクトルについて、それぞれのクラスのセントロイドとなるパワースペクトルと当該クラスに含まれる雑音パターンのパワースペクトルとの間の距離値の総和が最小となるようにクラスタリングを実施し、各クラスのセントロイドを代表的な洩れ込み音声を除去した雑音パターンに係るパワースペクトルとして出力する第1のクラスタリング手段とを備え、
第2の雑音スペクトル学習手段が、前記第1の雑音スペクトルメモリに記憶される複数の洩れ込み音声を除去した雑音パターンに係るパワースペクトルとそれぞれ同一分析フレームに出力された複数の重畳雑音パターンに係るパワースペクトルを記憶する第2の雑音スペクトルメモリと、前記第2の雑音スペクトルメモリに記憶される複数の重畳雑音パターンに係るパワースペクトルに対して前記第1のクラスタリング手段におけるクラスタリング結果を反映するようにクラスタリングを実施し、各クラスのセントロイドを代表的な重畳雑音パターンに係るパワースペクトルとして出力する第2のクラスタリング手段とを備えることを特徴とする請求項5記載の音声認識装置。 - 第1の雑音スペクトル学習手段は、洩れ込み音声除去手段から出力される洩れ込み音声を除去した雑音パターンに係る複数のパワースペクトルを記憶する第1の雑音スペクトルメモリと、前記第1の雑音スペクトルメモリに記憶される洩れ込み音声を除去した雑音パターンに係るパワースペクトルからパワースペクトルの概形を表すパラメータを算出し当該パラメータを出力するスペクトル概形パラメータ演算手段と、前記第1の雑音スペクトルメモリに記憶される洩れ込み音声を除去した雑音パターンに係るパワースペクトルからパワースペクトルの強度を表すパラメータを算出し当該パラメータを出力するスペクトル強度パラメータ演算手段と、前記スペクトル概形パラメータ演算手段から出力されるパワースペクトルの概形を表すパラメータと前記スペクトル強度パラメータ演算手段から出力されるパワースペクトルの強度を表すパラメータに重みを掛けて算出する距離値を用いて、前記第1の雑音スペクトルメモリに記憶される複数の洩れ込み音声を除去した雑音パターンに係るパワースペクトルをクラスタリングし、代表的な洩れ込み音声を除去した雑音パターンに係るパワースペクトルを出力する重み付けクラスタリング手段とを備えることを特徴とした請求項5記載の音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000315546A JP3933860B2 (ja) | 2000-02-28 | 2000-10-16 | 音声認識装置 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000-51425 | 2000-02-28 | ||
JP2000051425 | 2000-02-28 | ||
JP2000315546A JP3933860B2 (ja) | 2000-02-28 | 2000-10-16 | 音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001318687A JP2001318687A (ja) | 2001-11-16 |
JP3933860B2 true JP3933860B2 (ja) | 2007-06-20 |
Family
ID=26586228
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000315546A Expired - Fee Related JP3933860B2 (ja) | 2000-02-28 | 2000-10-16 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3933860B2 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4639902B2 (ja) * | 2005-03-30 | 2011-02-23 | カシオ計算機株式会社 | 撮像装置、音声記録方法及びプログラム |
JP4896449B2 (ja) * | 2005-06-29 | 2012-03-14 | 株式会社東芝 | 音響信号処理方法、装置及びプログラム |
JP4818955B2 (ja) * | 2007-02-27 | 2011-11-16 | 三菱電機株式会社 | 雑音除去装置 |
JP5374845B2 (ja) * | 2007-07-25 | 2013-12-25 | 日本電気株式会社 | 雑音推定装置と方法およびプログラム |
JP6114518B2 (ja) * | 2012-08-27 | 2017-04-12 | 株式会社ザクティ | 雑音低減装置 |
CN109346067B (zh) * | 2018-11-05 | 2021-02-26 | 珠海格力电器股份有限公司 | 语音信息的处理方法及装置、存储介质 |
CN110931007B (zh) * | 2019-12-04 | 2022-07-12 | 思必驰科技股份有限公司 | 语音识别方法及*** |
CN111640428B (zh) * | 2020-05-29 | 2023-10-20 | 阿波罗智联(北京)科技有限公司 | 一种语音识别方法、装置、设备和介质 |
-
2000
- 2000-10-16 JP JP2000315546A patent/JP3933860B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2001318687A (ja) | 2001-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5924065A (en) | Environmently compensated speech processing | |
EP0686965B1 (en) | Speech recognition apparatus with speaker adaptation using acoustic category mean value calculus | |
US7447634B2 (en) | Speech recognizing apparatus having optimal phoneme series comparing unit and speech recognizing method | |
EP1688921B1 (en) | Speech enhancement apparatus and method | |
US7065487B2 (en) | Speech recognition method, program and apparatus using multiple acoustic models | |
US20080208578A1 (en) | Robust Speaker-Dependent Speech Recognition System | |
US20110238417A1 (en) | Speech detection apparatus | |
SE505156C2 (sv) | Förfarande för bullerundertryckning genom spektral subtraktion | |
JPH09258768A (ja) | 騒音下音声認識装置及び騒音下音声認識方法 | |
WO1998043237A1 (en) | Recognition system | |
JP3933860B2 (ja) | 音声認識装置 | |
JPH0667691A (ja) | 雑音除去装置 | |
JP4705414B2 (ja) | 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体 | |
KR102406512B1 (ko) | 음성인식 방법 및 그 장치 | |
Lee et al. | Dynamic noise embedding: Noise aware training and adaptation for speech enhancement | |
JP4058987B2 (ja) | 雑音除去装置及び雑音除去方法 | |
US7236930B2 (en) | Method to extend operating range of joint additive and convolutive compensating algorithms | |
JP4858663B2 (ja) | 音声認識方法及び音声認識装置 | |
CN113345469B (zh) | 语音信号的处理方法、装置、电子设备及存储介质 | |
Lee et al. | Bone-conduction sensor assisted noise estimation for improved speech enhancement | |
EP1673761B1 (en) | Adaptation of environment mismatch for speech recognition systems | |
JP5867199B2 (ja) | 雑音推定装置、雑音推定方法及び雑音推定用コンピュータプログラム | |
JP2000010593A (ja) | スペクトル雑音除去装置 | |
WO2020039598A1 (ja) | 信号処理装置、信号処理方法および信号処理プログラム | |
JP7461192B2 (ja) | 基本周波数推定装置、アクティブノイズコントロール装置、基本周波数の推定方法及び基本周波数の推定プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20041008 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20060829 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060912 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061109 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20061212 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070118 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070213 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070314 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 3933860 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100330 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110330 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110330 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120330 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130330 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130330 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140330 Year of fee payment: 7 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |