JP5344251B2 - 雑音除去システム、雑音除去方法および雑音除去プログラム - Google Patents

雑音除去システム、雑音除去方法および雑音除去プログラム Download PDF

Info

Publication number
JP5344251B2
JP5344251B2 JP2009533120A JP2009533120A JP5344251B2 JP 5344251 B2 JP5344251 B2 JP 5344251B2 JP 2009533120 A JP2009533120 A JP 2009533120A JP 2009533120 A JP2009533120 A JP 2009533120A JP 5344251 B2 JP5344251 B2 JP 5344251B2
Authority
JP
Japan
Prior art keywords
speech
estimated
estimated speech
weighting factor
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009533120A
Other languages
English (en)
Other versions
JPWO2009038013A1 (ja
Inventor
剛範 辻川
亮輔 磯谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2009533120A priority Critical patent/JP5344251B2/ja
Publication of JPWO2009038013A1 publication Critical patent/JPWO2009038013A1/ja
Application granted granted Critical
Publication of JP5344251B2 publication Critical patent/JP5344251B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Noise Elimination (AREA)

Description

本発明は、雑音除去システム、雑音除去方法および雑音除去プログラムに関し、特に雑音混じりの音声信号に含まれる雑音を除去できる雑音除去システム、雑音除去方法および雑音除去プログラムに関する。
例えば雑音と音声が混在する信号から雑音を除去するために用いられる雑音除去装置がある。このような雑音除去装置の一例が特許文献1、特許文献2に記載されている。これらの装置は、雑音混じり音声から信号中に含まれる雑音を除去できる装置である。
図5は、特許文献1に開示されている雑音除去装置の構成を示すブロック図であり、以下、その構成を概説する。雑音抑圧部108は、雑音抑圧制御部109、スペクトル減算部110、スペクトル振幅抑圧部111を有する。雑音抑圧制御部109は、帯域別音声・雑音判定部106からupdate[fB](ただしfBは周波数帯域のインデックス)を受け取り、帯域SN比計算部105からSNR[fB]を受け取る。update[fB]は、推定雑音スペクトル更新フラグである。雑音抑圧制御部109は、update[fB]およびSNR[fB]に応じて、スペクトル減算部110で使用する係数α[fB]およびスペクトル振幅抑圧部111で使用する係数β[fB]を算出する。特許文献1に記載の雑音除去装置は、これらの係数を使用して、スペクトル減算とスペクトル振幅抑圧のどちらを優先するかを制御する構成である。
図6は、特許文献2に開示されている雑音除去装置の構成を示すブロック図であり、以下、その構成を概説する。図6に示す雑音除去装置は、入力信号X取得部201、雑音平均スペクトルNの算出部202、仮推定音声S’の算出部203、標準パタン204、標準パタンを用いた仮推定音声S’補正部205を有する。雑音平均スペクトルNの算出部202は、入力信号X取得部201から入力信号を受け取り、雑音平均スペクトルNを算出する。仮推定音声S’の算出部203は、入力信号Xと雑音平均スペクトルNを受け取り、仮推定音声S’を算出する。そして、標準パタンを用いた仮推定音声S’補正部205が、標準パタン204を用いて仮推定音声S’を補正する。
特開2004−341339号公報(図1) 特開2007−33920号公報(図1)
上記で説明した雑音除去装置は、雑音混じり音声から信号中に含まれる雑音を除去することを意図したものであるが、下記の問題点を有している。
第1の問題点は、特許文献1に記載の方法では、低SNRの周波数帯域の雑音除去精度が低いことである。その理由は、低SNRの場合にスペクトル振幅抑圧が優先され、それにより音量は小さくなるが、入力信号のスペクトル形状は変化しないため、つまり雑音と音声の比率は変化しないためである。特許文献1に記載された装置のように聴感上好ましい雑音除去が目的であれば、特許文献1に記載の方法で問題とはならないが、例えば、音声認識システムのための雑音除去を目的とした場合には問題となる。
第2の問題点は、特許文献2に記載の方法では、標準パタン204を使用するため、低SNRの周波数帯域を含め大局的には雑音除去精度が高いが、局所的に雑音除去精度が低くなる周波数が存在することである。その理由は、標準パタン204として、あらゆる音声のパタンを高精度にモデル化するのは現実的に困難だからである。
そこで、本発明は、高精度に雑音を除去できる雑音除去方法、雑音除去システムおよび雑音除去プログラムを提供することを目的とする。
本発明の雑音除去システムは、入力信号に含まれる雑音を推定する雑音推定手段と、推定された雑音を前記入力信号から減ずるように前記入力信号を補正することにより第1の推定音声を求める第1の推定音声導出手段と、音声を表す音声モデルを記憶する音声モデル記憶手段と、前記音声モデルを用いて前記第1の推定音声を補正することにより第2の推定音声を求める第2の推定音声導出手段と、前記第1の推定音声に、第1の推定音声に対する重み係数を乗じ、前記第2の推定音声に、第2の推定音声に対する重み係数を乗じる重み乗算手段と、第1の推定音声に対する重み係数が乗じられた第1の推定音声と、第2の推定音声に対する重み係数が乗じられた第2の推定音声とを加算することにより第3の推定音声を求める第3の推定音声導出手段とを備えることを特徴とする。
また、本発明の雑音除去方法は、音声を表す音声モデルを記憶する音声モデル記憶手段を備えた雑音除去システムに適用される音声除去方法であって、入力信号に含まれる雑音を推定する雑音推定ステップと、推定した前記雑音を前記入力信号から減ずるように前記入力信号を修正することにより第1の推定音声を求める第1の推定音声導出ステップと、前記音声モデルを利用して前記第1の推定音声を補正することにより第2の推定音声を求める第2の推定音声導出ステップと、前記第1の推定音声に、第1の推定音声に対する重み係数を乗じ、前記第2の推定音声に、第2の推定音声に対する重み係数を乗じる重み乗算ステップと、第1の推定音声に対する重み係数が乗じられた第1の推定音声と、第2の推定音声に対する重み係数が乗じられた第2の推定音声とを加算することにより第3の推定音声を求める第3の推定音声導出ステップとを含むことを特徴とする。
本発明の雑音除去プログラムは、音声を表す音声モデルを記憶する音声モデル記憶手段を備えたコンピュータに搭載される雑音除去プログラムであって、コンピュータに、入力信号に含まれる雑音を推定する雑音推定処理、推定された雑音を前記入力信号から減ずるように前記入力信号を補正することにより第1の推定音声を求める第1の推定音声導出処理、前記音声モデルを用いて前記第1の推定音声を補正することにより第2の推定音声を求める第2の推定音声導出処理、前記第1の推定音声に、第1の推定音声に対する重み係数を乗じ、前記第2の推定音声に、第2の推定音声に対する重み係数を乗じる重み乗算処理、および、第1の推定音声に対する重み係数が乗じられた第1の推定音声と、第2の推定音声に対する重み係数が乗じられた第2の推定音声とを加算することにより第3の推定音声を求める第3の推定音声導出処理を実行させることを特徴とする。
本発明によれば、高い精度で雑音を除去することができる。
本発明の雑音除去システムの構成例を示すブロック図である。 本発明の雑音除去システムの動作の例を示す流れ図である。 第4の音声推定部を備えた場合の構成例を示すブロック図である。 本発明の雑音除去システムの概要を示すブロック図である。 特許文献1に開示されている雑音除去装置の構成を示すブロック図である。 特許文献2に開示されている雑音除去装置の構成を示すブロック図である。
符号の説明
1 雑音推定部
3 音声モデル記憶部
4 重み計算部
5 重み乗算部
21 第1の音声推定部
22 第2の音声推定部
23 第3の音声推定部
24 第4の音声推定部
41 雑音推定手段
43 音声モデル記憶手段
45 重み乗算手段
421 第1の音声推定手段
422 第2の音声推定手段
423 第3の音声推定手段
以下、添付図面を参照して本発明の実施形態について詳細に説明する。図1は、本発明の雑音除去システムの構成例を示すブロック図である。図1に例示する雑音除去システムは、入力信号を受けて入力信号に含まれる雑音を推定する雑音推定部1と、入力信号と推定雑音を受けて第1の推定音声を求める第1の音声推定部21と、音声モデルを記憶する音声モデル記憶部3と、第1の推定音声と音声モデル記憶部3から音声モデルを受けて第2の推定音声を求める第2の音声推定部22と、第1の推定音声と第2の推定音声のうちの少なくとも1つの推定音声と推定雑音を受けて第1および第2の推定音声に対する重みを計算する重み計算部4と、重みと第1および第2の推定音声を受けて重みを乗算する重み乗算部5と、重み付けられた第1および第2の推定音声を受けて第3の推定音声を求める第3の音声推定部23とを有する。
雑音推定部1には、雑音の混ざった音声信号が入力信号として入力される。雑音推定部1は、入力信号から雑音を推定し、推定した雑音(推定雑音)を第1の音声推定部21および重み計算部4に出力する。
第1の音声推定部21にも、入力信号が入力される。第1の音声推定部21は、その入力信号と、雑音推定部1から入力される推定雑音とから、第1の推定音声を求め、第1の推定音声を第2の音声推定部22、重み乗算部5に出力する。
音声モデル記憶部3は、音声を表す情報である音声モデルを記憶する記憶装置である。音声モデルは、例えば、スペクトル、対数スペクトル、メルスペクトル、メル対数スペクトル、ケプストラム、メルケプストラム等の情報である。このような情報が音声のパターン(音素)毎の平均、分散としてモデル化されている。
第2の音声推定部22は、音声モデル記憶部3から音声モデルを読み込み、第1の音声推定部21から入力される第1の推定音声と、その音声モデルとから、第2の推定音声を求め、重み乗算部5に出力する。
重み計算部4は、第1の推定音声に重み付けをするための重み(重み係数)および第2の推定音声に対して重み付けをするための重み(重み係数)を計算する。重み計算部4は、推定雑音と、第1の推定音声および第2の推定音声のうちの少なくとも1つの推定音声を用いて、各重みを計算する。従って、第1の音声推定部21と第2の音声推定部22のうちの少なくともいずれか一方は、重み計算部4に推定音声を出力する。重み計算部4が第1の推定音声を用いて重みを計算する構成とするならば、第1の音声推定部21が重み計算部4に対しても第1の推定音声を出力する構成とすればよい。重み計算部4が第2の推定音声を用いて重みを計算する構成とするならば、第2の音声推定部22が重み計算部4に対しても第2の推定音声を出力する構成とすればよい。重み計算部4が、重みの計算の際に、第1の推定音声と第2の推定音声の双方を用いる構成とするならば、第1の音声推定部21が重み計算部4に第1の推定音声を出力するとともに、第2の音声推定部22も重み計算部4に第2の推定音声を出力すればよい。重み計算部4は、計算した各重みを重み乗算部5に出力する。
重み乗算部5は、第1の推定音声に重み付けするための重みを、第1の推定音声に乗じる。この結果、重み付けられた第1の推定音声が得られる。同様に、重み乗算部5は、第2の推定音声に重み付けするための重みを、第2の推定音声に乗じる。この結果、重み付けられた第2の推定音声が得られる。重み乗算部5は、重みを乗算した第1の推定音声および第2の推定音声を第3の音声推定部23に出力する。
第3の音声推定部23は、重み乗算部5によって重み付けられた第1の推定音声と第2の推定音声との加算を行い、その加算によって得られる推定音声を、雑音が除去された音声として出力する。
なお、図1には、入力信号は一本の矢印で示されているが、入力信号は1つの時系列信号に限ったものではなく、複数の時系列信号であってもよいことは勿論である。
次に、動作について説明する。
図2は、本発明の雑音除去システムにおける処理手順の例を示す流れ図である。図1および図2を参照して、本実施形態の雑音除去システムの動作について説明する。
まず、雑音推定部1および第1の音声推定部21に、雑音混じりの入力信号が入力される。この雑音混じりの入力信号をX(t)=S(t)+N(t)とする。ただし、tは時間のインデックス、Sは音声、Nは雑音のスペクトルである。雑音推定部1は、入力信号Xから推定雑音N~(t)を求める(ステップS1)。例えば、以下に示す式(1)のように“0 ≦ t ≦ initLen-1”の間は入力信号が雑音のみから構成されると仮定できる。“initLen”は、ノイズの初期値を求めるための平均時間として予め定められた値である。雑音推定部1は、例えば、“0 ≦ t ≦ initLen-1”という時間の間、入力信号Xを平均化し、入力信号X の平均化の結果を推定雑音N~(t)とすればよい。
N~(t) = ave[X(t)] (0 ≦ t ≦ initLen-1) 式(1)
ただし、ave[]は平均演算子である。“initLen”の値は予め定めておけばよい。なお、“initLen-1”における“1”等の単位は、時間を表すtの単位と同じである。例えば、tの単位が「フレーム」であるとする。この場合、「フレーム」が単位となるように“initLen”は定められ、上記の“1”は「1フレーム」である。
雑音推定部1は、求めた推定雑音N~(t)を第1の音声推定部21および重み計算部4に出力する。
また、雑音推定部1は、Xのヒストグラムを作成し、最小値を推定雑音とするなど、ここで示した例と異なる方法を用いて雑音を推定してもよい。
雑音推定部1が推定雑音N~(t)を求めた後、第1の音声推定部21は、第1の推定音声S~1(t)を求める(ステップS2)。ステップS2の動作の例を以下に示す。第1の音声推定部21は、以下に示す式(2)の減算を行うことによって、第1の推定音声S~1(t)を求める。すなわち、入力信号X(t)から推定雑音N~(t)を減算することによって第1の推定音声を求めてもよい。
S~1(t) = X(t) - N~(t) 式(2)
ただし、式(2)はスペクトル減算法で第1の推定音声S~1(t)を求める動作の例を示しているが、第1の音声推定部21は他の方法で第1の推定音声S~1(t)を求めてもよい。例えば、ウィーナフィルタ法やMMSE STSA法、MMSE LSA法など他の方法を用いてもよいことは勿論である。
第1の音声推定部21は、第1の推定音声S~1(t)を求めると、その第1の推定音声S~1(t)を第2の音声推定部22および重み乗算部5に出力する。重み計算部4が第1の推定音声を用いて重みを計算する構成の場合には、第1の音声推定部21は、重み計算部4に対しても第1の推定音声S~1(t)を出力する。
ステップS2の後、第2の音声推定部22は、予め音声モデル記憶部3に記憶されている音声モデルを用いて、第1の推定音声S~1(t)を補正することにより第2の推定音声S~2(t)を求める(ステップS3)。ステップS3において、第2の音声推定部22は、第1の推定音声と、予め音声モデル記憶部3に記憶されている音声モデルとの平均二乗誤差が最小となるように、第1の推定音声S~1(t)を補正する。例を以下に示す。第2の音声推定部22は、例えば、式(3)に示す演算を行うことによって、第1の推定音声の補正結果である第2の推定音声を求める。
S~2(t) = Σ_{k=1}^{K}μs(k)P(k|S~1(t)) 式(3)
ただし、式(3)において、Σ_{k=1}^{K}は、後に続く式(式(3)の例では“μs(k)P(k|S~1(t))”)のk=1からk=Kまでの和を表す演算子である。Kは、音声モデルの数である。また、μs(k)はk番目の音声モデルを表す。P(k|S~1(t))はS~1(t)がk番目の音声モデルである確率(S~1(t)とk番目の音声モデルとの距離)を表す。なお、音声モデルを(多次元)確率分布とした場合には、μs(k)はk番目の分布における平均値、P(k|S~1(t))はS~1(t)が与えられたときのk番目の分布に対する事後確率を表す。
式(3)によって第1の推定音声を補正し、その補正結果を第2の推定音声とすることにより、推定音声と音声モデルとの平均二乗誤差を最小とすることができる。
第2の音声推定部22が式(3)におけるP(k|S~1(t))を求める処理の例を説明する。式(3)におけるP(k|S~1(t))は、以下のように求めればよい。例えば、第1の音声推定部21による第1の推定音声の計算処理と同様の処理で、事前に大量の推定音声データを抽出し、音素(“a”,“i”など)毎に推定音声データを平均化したデータを平均ベクトルとして求めておき、平均ベクトルを音声モデルとして音声モデル記憶部3に記憶させているとする。そして、音声モデル記憶部3は、k個の平均ベクトルを保持しているとする。この場合、第2の音声推定部22は、ステップS2で計算された第1の推定音声S~1(t)と、k個の平均ベクトルとのユークリッド距離を計算し、そのk個の距離を、それらの和で正規化する。第2の音声推定部22は、1からその値を減算することによって、P(k|S~1(t))を求める。この結果、第1の推定音声S~1(t)と音声モデルとの距離が短いほど、P(k|S~1(t))が高くなる。
また、(多次元)確率分布を音声モデルとしているとする。例えば、GMM(Gaussian Mixture Model)を音声モデルとしているとする。この場合、第2の音声推定部22は、k個のガウス分布に対して確率(上述の事後確率の分子に相当する値)を算出する。第2の音声推定部22は、そのk個の確率を、それらの和で正規化することにより、各ガウス分布毎の確率P(k|S~1(t))を算出する。
また、例えば、GMMの代わりにHMM(Hidden Markov Model)を用いる場合には、GMMを用いる場合の計算において確率に遷移確率を加えればよい。
第2の音声推定部22は、求めた第2の推定音声S~2(t)を重み乗算部5に出力する。重み計算部4が第2の推定音声を用いて重みを計算する構成の場合には、第2の音声推定部22は、重み計算部4に対しても第2の推定音声S~2(t)を出力する。
ステップS3の次に、重み計算部4は、第1の推定音声と第2の推定音声のうち少なくとも1つの推定音声と、推定雑音とを用いて第1および第2の推定音声に対する重みを計算する(ステップS4)。第1の推定音声に対する重みをα1(t)、第2の推定音声に対する重みをα2(t)とすると、重み計算部4は、例えば以下に示す式(4)によってα1(t)を計算し、以下に示す式(5)によってα2(t)を計算する。
α1(t) = 1 / (1 + exp(-a( SNR(t) - b) )) 式(4)
α2(t) = 1 -α1(t) 式(5)
SNR(t)の計算については後述する。ここで、aは任意の正の値である。また、bは任意の定数である。aおよびbは、例えば事前に設定しておく。例えば、予め定数として定めたaおよびbを、雑音除去システムに設けられるメモリ(図示せず。)に記憶させておく。重み計算部4は、そのaおよびbを参照して、式(4)および式(5)の計算を実行すればよい。
式(4)、(5)から、SNR(t)の値が大きいほどα1(t)の値は大きくなり、α2(t)の値が小さくなることがわかる。また上記の式(4)、(5)において、aの値を∞とすれば、SNR(t) ≧ bの場合にα1(t)=1、α2(t)=0となる。一方、SNR(t) < bの場合には、α1(t)=0、α2(t)=1となる。α1(t)、α2(t)は、それぞれ第1の推定音声、第2の推定音声に乗じられる重みであるので、この場合、第3の音声推定部23が出力する推定音声は、第1の推定音声または第2の推定音声となる。第1の推定音声、第2の推定音声のいずれが第3の音声推定部23から出力されるかは、SNR(t) が b以上か否かによって切り替わる。
式(4)の計算で用いるSNR(t)は、以下のように第1の推定音声と第2の推定音声のうち少なくとも1つの推定音声と雑音を用いれば算出できる。
SNR(t) = S~1(t) / N~(t) 式(6)
SNR(t) = S~2(t) / N~(t) 式(7)
重み計算部4は、第1の推定音声S~1(t)を用いて式(6)の計算を行ってSNR(t)を算出し、式(4)および式(5)の計算を行って各重みα1(t),α2(t)を算出してもよい。また、第2の推定音声S~2(t)を用いて式(7)の計算を行ってSNR(t)を算出し、式(4)および式(5)の計算を行って各重みα1(t),α2(t)を算出してもよい。どちらの方法でα1(t),α2(t)を算出しても、第1の推定音声と第2の推定音声のうちの少なくともいずれか一方と推定した雑音との比(式(6)または式(7)におけるSNR(t))に応じて、重みα1(t),α2(t)を求めることになる。そして、重み計算部4は、その比(SNR(t))が大きくなるほど、α1(t)を大きな値として算出してα2(t)を小さな値として算出している。
また、SNR(t)や重みα1(t)、α2(t)は周波数毎に求めることも可能であり、重み計算部4は、SNR(t)および重みα1(t)、α2(t)を周波数帯域毎に求めてもよい。
ここでは、第1の推定音声と第2の推定音声のいずれか一方を用いてSNR(t)を求め、各重みを計算する動作を説明したが、重み計算部4は、第1の推定音声と第2の推定音声の双方を用いて各重みを計算してもよい。
重み計算部4は、計算した重みα1(t),α2(t)を重み乗算部5に出力する。
ステップS4の次に、重み乗算部5は、第1および第2の推定音声に対して重みを乗算する(ステップS5)。重み乗算部5は、以下に示す式(8)のように、第1の推定音声に対する重みα1(t)を、第1の推定音声S~1(t)に乗じる。α1(t)を乗じることによって重み付けられた第1の推定音声をAS~1(t)と表す。
AS~1(t) = α1(t)×S~1(t) 式(8)
同様に、重み乗算部5は、以下に示す式(9)のように、第2の推定音声に対する重みα2(t)を、第2の推定音声S~2(t)に乗じる。α2(t)を乗じることによって重み付けられた第2の推定音声をAS~2(t)と表す。
AS~2(t) = α2(t)×S~2(t) 式(9)
ただし、重み計算部4がα1(t)、α2(t)を周波数帯域毎に求める場合、重み乗算部5は周波数帯域毎に式(8)、(9)の計算を行って、周波数帯域毎のAS~1(t)およびAS~2(t)を求める。
重み乗算部5は、重み付けられた第1の推定音声AS~1(t)、および重み付けられた第2の推定音声AS~2(t)を第3の音声推定部23に出力する。
第3の音声推定部23は、重み付けられた第1および第2の推定音声を受けて、第3の推定音声S~3(t)を算出する(ステップS6)。すなわち、第3の音声推定部23は、以下に示す式(10)のように、重み付けられた第1の推定音声AS~1(t)と、重み付けられた第2の推定音声AS~2(t)とを加算して、第3の推定音声S~3(t)を算出する。
S~3(t) = AS~1(t) + AS~2(t) 式(10)
なお、周波数帯域毎にAS~1(t)およびAS~2(t)が計算される場合、第3の音声推定部23は周波数帯域毎に式(10)の加算を行ってS~3(t)を計算する。
第3の音声推定部23は、算出した第3の推定音声S~3(t)を出力する。
本実施形態の効果について説明する。本実施形態では、予め準備した音声モデルを用いて第2の音声推定部22が第1の推定音声を補正することにより第2の推定音声を求める。この結果、低SNRの周波数を含め、大局的に雑音除去精度が向上する。
また、上記の例では、SNR(t)の値が大きいほど、α1(t)が増加し、α2(t)が減少する。この結果、第1の推定音声の雑音除去精度が第2の推定音声の雑音除去精度よりも高い場合(上記の例ではSNR(t)の値が大きい場合)には、重み乗算部5は、第1の推定音声に大きな重みを乗算し、第2の推定音声に小さな重みを乗算する。また、第1の推定音声の雑音除去精度が第2の推定音声の雑音除去精度よりも低い場合(上記の例ではSNR(t)の値が小さい場合)には、重み乗算部5は、第1の推定音声に小さな重みを乗算し、第2の推定音声に大きな重みを乗算する。そして、第3の音声推定部23が、重み付けられた第1および第2の推定音声を加算することにより第3の推定音声を求める。そのため、第1の推定音声と第2の推定音声の推定精度の高い部分が相互に補完し合うため、雑音除去精度の高い第3の推定音声を求めることが可能となる。すなわち、大局的には第2の推定音声を求めることで雑音除去精度が向上し、局所的に第1の推定音声の方が第2の推定音声よりも雑音除去精度が高い場合に、第1の推定音声に対する重みを大きくして、局所的な雑音除去精度の低下を防止している。この結果、第3の音声推定部23が出力する第3の推定音声では、精度よく雑音が除去されている。
以上、本発明の一実施形態について説明した。上記の例では重み計算部4がSNR(t)に応じて重みを計算する場合を説明したが、事前に重みを設定しておくことも可能である。例えば、S~1(t)とS~2(t)がケプストラムの量であると仮定すれば、低次のケプストラムの場合には、S~2(t)に対する重みα2(t)を大きくすることができ、高次のケプストラムの場合には、S~1(t)に対する重みα1(t)を大きくすることができる。これにより音声モデルとして高次のケプストラムのモデル化が困難であるという問題に対処できる。この場合、重みα1(t)、α2(t)を予め雑音除去システムに設けられるメモリ(図示せず。)に記憶させておき、例えば、重み乗算部5がそのメモリから重みを読み込んで、重みの乗算を行えばよい。また、メモリに記憶させるα1(t)、α2(t)は以下のように予め定めておけばよい。S~1(t)とS~2(t)がケプストラムの量であると仮定した場合、ケプストラムの次数に応じて、重みα1(t)、α2(t)を定めておく。例えば、ケプストラムの次数が所定の次数よりも高い場合に用いられる重みとして、α1(t)>α2(t)を満たす重みα1(t),α2(t)を定める。また、ケプストラムの次数が所定の次数よりも低い場合に用いられる重みとして、α1(t)<α2(t)を満たす重みα1(t),α2(t)を定める。重み乗算部5は、次数に応じたα1(t),α2(t)を読み込めばよい。
また第3の推定音声を用いて、入力信号から音声を再推定することも可能である。例えば、本発明の雑音除去システムは、ステップS6で算出された第3の推定音声S~3(t)に対して、以下に示す式(11)の計算を行い、第4の推定音声(S~4(t))を求める構成要素を備えていてもよい。図3は、第3の推定音声と入力信号から音声を再推定する第4の音声推定部24を備えた構成例を示すブロック図である。
S~4(t) = X(t) ×S~3(t) /(S~3(t) + N~(t)) 式(11)
図3に示す構成例において、雑音推定部1は、第4の音声推定部24にも推定雑音を出力し、第3の音声推定部23は、第3の推定音声を第4の音声推定部24に出力する。また、第4の音声推定部24には、入力信号X(t)が入力される。第4の音声推定部24は、式(11)の計算によって、第4の推定音声を算出し、出力する。すなわち、入力信号と第3の推定音声との乗算結果を、第3の推定音声と推定雑音との加算結果で除算して、第4の推定音声を算出する。その他の点については、図1に示す構成例と同様である。
また、図1に示す構成例において、第3の推定音声を入力信号として第1の音声推定部21および雑音推定部1に入力することによって、処理を繰り返してもよい。
上記の実施形態やその変形例において、雑音推定部1、第1の音声推定部21、第2の音声推定部22、重み計算部4、重み乗算部5、第3の音声推定部23、第4の音声推定部24は、それぞれ別個の回路であってもよい。また、雑音推定部1、第1の音声推定部21、第2の音声推定部22、重み計算部4、重み乗算部5、第3の音声推定部23は、プログラム(雑音除去プログラム)に従って動作するCPUによって実現されていてもよい。例えば、CPUが予め記憶装置に記憶された雑音除去プログラムを読み込み、その雑音除去プログラムに従って、雑音推定部1、第1の音声推定部21、第2の音声推定部22、重み計算部4、重み乗算部5、第3の音声推定部23として動作してもよい。また、そのCPUが、雑音除去プログラムに従って、第4の音声推定部24(図3参照)としての動作を行ってもよい。
次に、本発明の概要について説明する。図4は、本発明の雑音除去システムの概要を示すブロック図である。本発明の雑音除去システムは、雑音推定手段41と、第1の音声推定手段421と、第2の音声推定手段422と、音声モデル記憶手段43と、重み乗算手段45と、第3の音声推定手段423とを備える。音声モデル記憶手段43は、音声を表す音声モデルを記憶する。
雑音推定手段41は、入力信号に含まれる雑音を推定する。第1の推定音声導出手段421は、推定された雑音を入力信号から減ずるように入力信号を補正することによって、第1の推定音声を求める。また、第2の推定音声導出手段422は、音声モデル記憶手段43に記憶された音声モデルを用いて第1の推定音声を補正することにより第2の推定音声を求める。
また、重み乗算手段45は、第1の推定音声に、第1の推定音声に対する重み係数を乗じる。同様に、第2の推定音声に、第2の推定音声に対する重み係数を乗じる。第3の推定音声導出手段423は、第1の推定音声に対する重み係数が乗じられた第1の推定音声と、第2の推定音声に対する重み係数が乗じられた第2の推定音声とを加算することにより第3の推定音声を求める。
第2の推定音声では、大局的には雑音が除去されている。ただし、局所的に雑音が除去されていない場合もあり得る。本発明では、第2の推定音声を求めるだけでなく、重み乗算手段45が第1の推定音声および第2の推定音声にそれぞれ重み係数を乗じ、第3の推定音声導出手段423が重み付けがされた第1の推定音声および第2の推定音声を加算する。従って、大局的に雑音を除去するだけでなく、第1の推定音声および第2の推定音声に重み付けを行うことで、局所的に残る雑音についても高い精度で除去することができる。
また、上記の実施形態には、第1の推定音声と第2の推定音声のうちの少なくともいずれか一方と、推定された雑音とを用いて第1の推定音声に対する重み係数および第2の推定音声に対する重み係数を計算する重み計算手段を備える構成が示されている。
また、上記の実施形態には、重み計算手段が、第1の推定音声と第2の推定音声のうちの少なくともいずれか一方と推定された雑音との比が大きくなるほど、第1の推定音声に対する重み係数が増加して第2の推定音声に対する重み係数が減少するように、第1の推定音声に対する重み係数および第2の推定音声に対する重み係数を計算する構成が示されている。
また、上記の実施形態には、重み計算手段が、第1の推定音声に対する重み係数および第2の推定音声に対する重み係数を周波数帯域毎に計算し、重み乗算手段が、周波数帯域毎に、第1の推定音声に、第1の推定音声に対する重み係数を乗じ、第2の推定音声に、第2の推定音声に対する重み係数を乗じ、第3の推定音声導出手段が、周波数帯域毎に第3の推定音声を求める構成が示されている。
また、上記の実施形態には、第1の推定音声に対する重み係数および第2の推定音声に対する重み係数を予め記憶する係数記憶手段を備える構成が示されている。
また、上記の実施形態には、第2の推定音声導出手段が、第1の推定音声と音声モデルとの平均二乗誤差が最小になるように第1の推定音声を補正することにより第2の推定音声を求める構成が示されている。
また、上記の実施形態には、入力信号と第3の推定音声との乗算結果を、第3の推定音声と推定された雑音との加算結果で除算することによって、第4の推定音声を求める第4の推定音声導出手段を備える構成が示されている。
本願は、日本の特願2007−245817(2007年9月21日に出願)に基づいたものであり、又、特願2007−245817に基づくパリ条約の優先権を主張するものである。特願2007−245817の開示内容は、特願2007−245817を参照することにより本明細書に援用される。
本発明の代表的な実施形態が詳細に述べられたが、様々な変更(changes)、置き換え(substitutions)及び選択(alternatives)が請求項で定義された発明の精神と範囲から逸脱することなくなされることが理解されるべきである。また、仮にクレームが出願手続きにおいて補正されたとしても、クレームされた発明の均等の範囲は維持されるものと発明者は意図する。
本発明は、雑音混じり音声から信号中に含まれる雑音を除去する雑音除去システムに好適に適用できる。

Claims (21)

  1. 入力信号に含まれる雑音を推定する雑音推定手段と、
    推定された雑音を前記入力信号から減ずるように前記入力信号を補正することにより第1の推定音声を求める第1の推定音声導出手段と、
    音声を表す音声モデルを記憶する音声モデル記憶手段と、
    前記音声モデルを用いて前記第1の推定音声を補正することにより第2の推定音声を求める第2の推定音声導出手段と、
    前記第1の推定音声に、第1の推定音声に対する重み係数を乗じ、前記第2の推定音声に、第2の推定音声に対する重み係数を乗じる重み乗算手段と、
    第1の推定音声に対する重み係数が乗じられた第1の推定音声と、第2の推定音声に対する重み係数が乗じられた第2の推定音声とを加算することにより第3の推定音声を求める第3の推定音声導出手段とを備える
    ことを特徴とする雑音除去システム。
  2. 第1の推定音声と第2の推定音声のうちの少なくともいずれか一方と、推定された雑音とを用いて第1の推定音声に対する重み係数および第2の推定音声に対する重み係数を計算する重み計算手段を備える
    請求項1に記載の雑音除去システム。
  3. 重み計算手段は、第1の推定音声と第2の推定音声のうちの少なくともいずれか一方と推定された雑音との比が大きくなるほど、第1の推定音声に対する重み係数が増加して第2の推定音声に対する重み係数が減少するように、第1の推定音声に対する重み係数および第2の推定音声に対する重み係数を計算する
    請求項2に記載の雑音除去システム。
  4. 重み計算手段は、第1の推定音声に対する重み係数および第2の推定音声に対する重み係数を周波数帯域毎に計算し、
    重み乗算手段は、周波数帯域毎に、第1の推定音声に、第1の推定音声に対する重み係数を乗じ、第2の推定音声に、第2の推定音声に対する重み係数を乗じ、
    第3の推定音声導出手段は、周波数帯域毎に第3の推定音声を求める
    請求項2または請求項3に記載の雑音除去システム。
  5. 第1の推定音声に対する重み係数および第2の推定音声に対する重み係数を予め記憶する係数記憶手段を備える
    請求項1に記載の雑音除去システム。
  6. 第2の推定音声導出手段は、第1の推定音声と音声モデルとの平均二乗誤差が最小になるように第1の推定音声を補正することにより第2の推定音声を求める
    請求項1から請求項5のうちのいずれか1項に記載の雑音除去システム。
  7. 入力信号と第3の推定音声との乗算結果を、第3の推定音声と推定された雑音との加算結果で除算することによって、第4の推定音声を求める第4の推定音声導出手段を備える
    請求項1から請求項6のうちのいずれか1項に記載の雑音除去システム。
  8. 音声を表す音声モデルを記憶する音声モデル記憶手段を備えた雑音除去システムに適用される音声除去方法であって、
    入力信号に含まれる雑音を推定する雑音推定ステップと、
    推定した前記雑音を前記入力信号から減ずるように前記入力信号を修正することにより第1の推定音声を求める第1の推定音声導出ステップと、
    前記音声モデルを利用して前記第1の推定音声を補正することにより第2の推定音声を求める第2の推定音声導出ステップと、
    前記第1の推定音声に、第1の推定音声に対する重み係数を乗じ、前記第2の推定音声に、第2の推定音声に対する重み係数を乗じる重み乗算ステップと、
    第1の推定音声に対する重み係数が乗じられた第1の推定音声と、第2の推定音声に対する重み係数が乗じられた第2の推定音声とを加算することにより第3の推定音声を求める第3の推定音声導出ステップと
    を含むことを特徴とする雑音除去方法。
  9. 第1の推定音声と第2の推定音声のうちの少なくともいずれか一方と、推定された雑音とを用いて第1の推定音声に対する重み係数および第2の推定音声に対する重み係数を計算する重み計算ステップを含む
    請求項8に記載の雑音除去方法。
  10. 重み計算ステップで、第1の推定音声と第2の推定音声のうちの少なくともいずれか一方と推定された雑音との比が大きくなるほど、第1の推定音声に対する重み係数が増加して第2の推定音声に対する重み係数が減少するように、第1の推定音声に対する重み係数および第2の推定音声に対する重み係数を計算する
    請求項9に記載の雑音除去方法。
  11. 重み計算ステップで、第1の推定音声に対する重み係数および第2の推定音声に対する重み係数を周波数帯域毎に計算し、
    重み乗算ステップで、周波数帯域毎に、第1の推定音声に、第1の推定音声に対する重み係数を乗じ、第2の推定音声に、第2の推定音声に対する重み係数を乗じ、
    第3の推定音声導出ステップで、周波数帯域毎に第3の推定音声を求める
    請求項9または請求項10に記載の雑音除去方法。
  12. 第1の推定音声に対する重み係数および第2の推定音声に対する重み係数が予め定められている
    請求項8に記載の雑音除去方法。
  13. 第2の推定音声導出ステップで、第1の推定音声と音声モデルとの平均二乗誤差が最小になるように第1の推定音声を補正することにより第2の推定音声を求める
    請求項8から請求項12のうちのいずれか1項に記載の雑音除去方法。
  14. 入力信号と第3の推定音声との乗算結果を、第3の推定音声と推定された雑音との加算結果で除算することによって、第4の推定音声を求める第4の推定音声導出ステップを含む
    請求項8から請求項13のうちのいずれか1項に記載の雑音除去方法。
  15. 音声を表す音声モデルを記憶する音声モデル記憶手段を備えたコンピュータに搭載される雑音除去プログラムであって、
    コンピュータに、
    入力信号に含まれる雑音を推定する雑音推定処理、
    推定された雑音を前記入力信号から減ずるように前記入力信号を補正することにより第1の推定音声を求める第1の推定音声導出処理、
    前記音声モデルを用いて前記第1の推定音声を補正することにより第2の推定音声を求める第2の推定音声導出処理、
    前記第1の推定音声に、第1の推定音声に対する重み係数を乗じ、前記第2の推定音声に、第2の推定音声に対する重み係数を乗じる重み乗算処理、および、
    第1の推定音声に対する重み係数が乗じられた第1の推定音声と、第2の推定音声に対する重み係数が乗じられた第2の推定音声とを加算することにより第3の推定音声を求める第3の推定音声導出処理
    を実行させるための雑音除去プログラム。
  16. コンピュータに、
    第1の推定音声と第2の推定音声のうちの少なくともいずれか一方と、推定された雑音とを用いて第1の推定音声に対する重み係数および第2の推定音声に対する重み係数を計算する重み計算処理
    を実行させる請求項15に記載の雑音除去プログラム。
  17. コンピュータに、
    重み計算処理で、第1の推定音声と第2の推定音声のうちの少なくともいずれか一方と推定された雑音との比が大きくなるほど、第1の推定音声に対する重み係数が増加して第2の推定音声に対する重み係数が減少するように、第1の推定音声に対する重み係数および第2の推定音声に対する重み係数を計算させる
    請求項16に記載の雑音除去プログラム。
  18. コンピュータに、
    重み計算処理で、第1の推定音声に対する重み係数および第2の推定音声に対する重み係数を周波数帯域毎に計算させ、
    重み乗算処理で、周波数帯域毎に、第1の推定音声に、第1の推定音声に対する重み係数を乗じさせ、第2の推定音声に、第2の推定音声に対する重み係数を乗じさせ、
    第3の推定音声導出処理で、周波数帯域毎に第3の推定音声を求めさせる
    請求項16または請求項17に記載の雑音除去プログラム。
  19. 第1の推定音声に対する重み係数および第2の推定音声に対する重み係数が予め定められている
    請求項15に記載の雑音除去プログラム。
  20. コンピュータに、
    第2の推定音声導出処理で、第1の推定音声と音声モデルとの平均二乗誤差が最小になるように第1の推定音声を補正することにより第2の推定音声を求めさせる
    請求項15から請求項19のうちのいずれか1項に記載の雑音除去プログラム。
  21. コンピュータに、
    入力信号と第3の推定音声との乗算結果を、第3の推定音声と推定された雑音との加算結果で除算することによって、第4の推定音声を求める第4の推定音声導出処理
    を実行させる請求項15から請求項20のうちのいずれか1項に記載の雑音除去プログラム。
JP2009533120A 2007-09-21 2008-09-11 雑音除去システム、雑音除去方法および雑音除去プログラム Active JP5344251B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009533120A JP5344251B2 (ja) 2007-09-21 2008-09-11 雑音除去システム、雑音除去方法および雑音除去プログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2007245817 2007-09-21
JP2007245817 2007-09-21
PCT/JP2008/066402 WO2009038013A1 (ja) 2007-09-21 2008-09-11 雑音除去システム、雑音除去方法および雑音除去プログラム
JP2009533120A JP5344251B2 (ja) 2007-09-21 2008-09-11 雑音除去システム、雑音除去方法および雑音除去プログラム

Publications (2)

Publication Number Publication Date
JPWO2009038013A1 JPWO2009038013A1 (ja) 2011-01-06
JP5344251B2 true JP5344251B2 (ja) 2013-11-20

Family

ID=40467830

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009533120A Active JP5344251B2 (ja) 2007-09-21 2008-09-11 雑音除去システム、雑音除去方法および雑音除去プログラム

Country Status (2)

Country Link
JP (1) JP5344251B2 (ja)
WO (1) WO2009038013A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5768450B2 (ja) * 2011-03-31 2015-08-26 富士通株式会社 騒音推定装置及び騒音推定プログラム
JP5903631B2 (ja) * 2011-09-21 2016-04-13 パナソニックIpマネジメント株式会社 ノイズキャンセル装置
JP5875414B2 (ja) * 2012-03-07 2016-03-02 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 雑音抑制方法、プログラム及び装置
JP6203003B2 (ja) * 2012-12-20 2017-09-27 株式会社東芝 信号処理装置、信号処理方法およびプログラム
JP6230053B2 (ja) * 2013-10-25 2017-11-15 株式会社大入 音響に関わる2次元濃淡画像作成方法及び装置、音響に関わる2次元濃淡画像印刷物の製造方法、音響波形再現方法及び装置、並びに、音響波形のノイズ除去方法及び装置
WO2016207978A1 (ja) * 2015-06-23 2016-12-29 株式会社大入 音響に関わる本の製造方法及び装置、並びに、音響波形再現方法及び装置
CN114093379B (zh) * 2021-12-15 2022-06-21 北京荣耀终端有限公司 噪声消除方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09258768A (ja) * 1996-03-25 1997-10-03 Mitsubishi Electric Corp 騒音下音声認識装置及び騒音下音声認識方法
JP2002140096A (ja) * 2000-06-02 2002-05-17 Canon Inc 信号処理システム
JP2003140700A (ja) * 2001-11-05 2003-05-16 Nec Corp ノイズ除去方法及び装置
JP2006201287A (ja) * 2005-01-18 2006-08-03 Advanced Telecommunication Research Institute International 雑音抑圧装置及び音声認識システム
JP2007033920A (ja) * 2005-07-27 2007-02-08 Nec Corp 雑音抑圧システムと方法及びプログラム
JP2007156364A (ja) * 2005-12-08 2007-06-21 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置、音声認識方法、そのプログラムおよびその記録媒体

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09258768A (ja) * 1996-03-25 1997-10-03 Mitsubishi Electric Corp 騒音下音声認識装置及び騒音下音声認識方法
JP2002140096A (ja) * 2000-06-02 2002-05-17 Canon Inc 信号処理システム
JP2003140700A (ja) * 2001-11-05 2003-05-16 Nec Corp ノイズ除去方法及び装置
JP2006201287A (ja) * 2005-01-18 2006-08-03 Advanced Telecommunication Research Institute International 雑音抑圧装置及び音声認識システム
JP2007033920A (ja) * 2005-07-27 2007-02-08 Nec Corp 雑音抑圧システムと方法及びプログラム
JP2007156364A (ja) * 2005-12-08 2007-06-21 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置、音声認識方法、そのプログラムおよびその記録媒体

Also Published As

Publication number Publication date
JPWO2009038013A1 (ja) 2011-01-06
WO2009038013A1 (ja) 2009-03-26

Similar Documents

Publication Publication Date Title
JP5344251B2 (ja) 雑音除去システム、雑音除去方法および雑音除去プログラム
US8370139B2 (en) Feature-vector compensating apparatus, feature-vector compensating method, and computer program product
JP4245617B2 (ja) 特徴量補正装置、特徴量補正方法および特徴量補正プログラム
CN104685562B (zh) 用于从嘈杂输入信号中重构目标信号的方法和设备
US9754608B2 (en) Noise estimation apparatus, noise estimation method, noise estimation program, and recording medium
KR102236471B1 (ko) 재귀적 최소 제곱 기법을 이용한 온라인 cgmm에 기반한 방향 벡터 추정을 이용한 음원 방향 추정 방법
KR100919223B1 (ko) 부대역의 불확실성 정보를 이용한 잡음환경에서의 음성인식 방법 및 장치
KR20050000541A (ko) 잡음 감소와 관련된 불확실성을 결정하는 방법
JP2003303000A (ja) 特殊領域におけるチャンネル雑音および加法性雑音の合同補償に関する方法および装置
WO2007001821A2 (en) Multi-sensory speech enhancement using a speech-state model
CN107180644B (zh) 使用基于码本的方法的基于卡尔曼滤波的语音增强
US20100076759A1 (en) Apparatus and method for recognizing a speech
JP3907194B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
CN110797039B (zh) 语音处理方法、装置、终端及介质
US5953699A (en) Speech recognition using distance between feature vector of one sequence and line segment connecting feature-variation-end-point vectors in another sequence
TWI409802B (zh) 音頻特徵處理方法及其裝置
JP2005031258A (ja) 認識モデル学習装置及び方法
JP4242320B2 (ja) 音声認識方法、その装置およびプログラム、その記録媒体
JPH09258783A (ja) 音声認識装置
JP2000259198A (ja) パターン認識装置および方法、並びに提供媒体
JP2001067094A (ja) 音声認識装置及び方法
JP2006145694A (ja) 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体
WO2016092837A1 (ja) 音声処理装置、雑音抑圧装置、音声処理方法および記録媒体
JP3790155B2 (ja) 音声認識装置、音声認識方式及び音声認識プログラム
JP6553561B2 (ja) 信号解析装置、方法、及びプログラム

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20101013

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20101013

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110810

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130718

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130731

R150 Certificate of patent or registration of utility model

Ref document number: 5344251

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150