JP5344251B2

JP5344251B2 - 雑音除去システム、雑音除去方法および雑音除去プログラム

Info

Publication number: JP5344251B2
Application number: JP2009533120A
Authority: JP
Inventors: 剛範辻川; 亮輔磯谷
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2007-09-21
Filing date: 2008-09-11
Publication date: 2013-11-20
Anticipated expiration: 2028-09-11
Also published as: JPWO2009038013A1; WO2009038013A1

Description

本発明は、雑音除去システム、雑音除去方法および雑音除去プログラムに関し、特に雑音混じりの音声信号に含まれる雑音を除去できる雑音除去システム、雑音除去方法および雑音除去プログラムに関する。

例えば雑音と音声が混在する信号から雑音を除去するために用いられる雑音除去装置がある。このような雑音除去装置の一例が特許文献１、特許文献２に記載されている。これらの装置は、雑音混じり音声から信号中に含まれる雑音を除去できる装置である。

図５は、特許文献１に開示されている雑音除去装置の構成を示すブロック図であり、以下、その構成を概説する。雑音抑圧部１０８は、雑音抑圧制御部１０９、スペクトル減算部１１０、スペクトル振幅抑圧部１１１を有する。雑音抑圧制御部１０９は、帯域別音声・雑音判定部１０６からupdate[fB]（ただしfBは周波数帯域のインデックス）を受け取り、帯域SN比計算部１０５からSNR[fB]を受け取る。update[fB]は、推定雑音スペクトル更新フラグである。雑音抑圧制御部１０９は、update[fB]およびSNR[fB]に応じて、スペクトル減算部１１０で使用する係数α[fB]およびスペクトル振幅抑圧部１１１で使用する係数β[fB]を算出する。特許文献１に記載の雑音除去装置は、これらの係数を使用して、スペクトル減算とスペクトル振幅抑圧のどちらを優先するかを制御する構成である。

図６は、特許文献２に開示されている雑音除去装置の構成を示すブロック図であり、以下、その構成を概説する。図６に示す雑音除去装置は、入力信号Ｘ取得部２０１、雑音平均スペクトルＮの算出部２０２、仮推定音声Ｓ’の算出部２０３、標準パタン２０４、標準パタンを用いた仮推定音声Ｓ’補正部２０５を有する。雑音平均スペクトルＮの算出部２０２は、入力信号Ｘ取得部２０１から入力信号を受け取り、雑音平均スペクトルＮを算出する。仮推定音声Ｓ’の算出部２０３は、入力信号Ｘと雑音平均スペクトルＮを受け取り、仮推定音声Ｓ’を算出する。そして、標準パタンを用いた仮推定音声Ｓ’補正部２０５が、標準パタン２０４を用いて仮推定音声Ｓ’を補正する。

特開２００４−３４１３３９号公報（図１）特開２００７−３３９２０号公報（図１）

上記で説明した雑音除去装置は、雑音混じり音声から信号中に含まれる雑音を除去することを意図したものであるが、下記の問題点を有している。

第１の問題点は、特許文献１に記載の方法では、低ＳＮＲの周波数帯域の雑音除去精度が低いことである。その理由は、低ＳＮＲの場合にスペクトル振幅抑圧が優先され、それにより音量は小さくなるが、入力信号のスペクトル形状は変化しないため、つまり雑音と音声の比率は変化しないためである。特許文献１に記載された装置のように聴感上好ましい雑音除去が目的であれば、特許文献１に記載の方法で問題とはならないが、例えば、音声認識システムのための雑音除去を目的とした場合には問題となる。

第２の問題点は、特許文献２に記載の方法では、標準パタン２０４を使用するため、低ＳＮＲの周波数帯域を含め大局的には雑音除去精度が高いが、局所的に雑音除去精度が低くなる周波数が存在することである。その理由は、標準パタン２０４として、あらゆる音声のパタンを高精度にモデル化するのは現実的に困難だからである。

そこで、本発明は、高精度に雑音を除去できる雑音除去方法、雑音除去システムおよび雑音除去プログラムを提供することを目的とする。

本発明の雑音除去システムは、入力信号に含まれる雑音を推定する雑音推定手段と、推定された雑音を前記入力信号から減ずるように前記入力信号を補正することにより第１の推定音声を求める第１の推定音声導出手段と、音声を表す音声モデルを記憶する音声モデル記憶手段と、前記音声モデルを用いて前記第１の推定音声を補正することにより第２の推定音声を求める第２の推定音声導出手段と、前記第１の推定音声に、第１の推定音声に対する重み係数を乗じ、前記第２の推定音声に、第２の推定音声に対する重み係数を乗じる重み乗算手段と、第１の推定音声に対する重み係数が乗じられた第１の推定音声と、第２の推定音声に対する重み係数が乗じられた第２の推定音声とを加算することにより第３の推定音声を求める第３の推定音声導出手段とを備えることを特徴とする。

また、本発明の雑音除去方法は、音声を表す音声モデルを記憶する音声モデル記憶手段を備えた雑音除去システムに適用される音声除去方法であって、入力信号に含まれる雑音を推定する雑音推定ステップと、推定した前記雑音を前記入力信号から減ずるように前記入力信号を修正することにより第１の推定音声を求める第１の推定音声導出ステップと、前記音声モデルを利用して前記第１の推定音声を補正することにより第２の推定音声を求める第２の推定音声導出ステップと、前記第１の推定音声に、第１の推定音声に対する重み係数を乗じ、前記第２の推定音声に、第２の推定音声に対する重み係数を乗じる重み乗算ステップと、第１の推定音声に対する重み係数が乗じられた第１の推定音声と、第２の推定音声に対する重み係数が乗じられた第２の推定音声とを加算することにより第３の推定音声を求める第３の推定音声導出ステップとを含むことを特徴とする。

本発明の雑音除去プログラムは、音声を表す音声モデルを記憶する音声モデル記憶手段を備えたコンピュータに搭載される雑音除去プログラムであって、コンピュータに、入力信号に含まれる雑音を推定する雑音推定処理、推定された雑音を前記入力信号から減ずるように前記入力信号を補正することにより第１の推定音声を求める第１の推定音声導出処理、前記音声モデルを用いて前記第１の推定音声を補正することにより第２の推定音声を求める第２の推定音声導出処理、前記第１の推定音声に、第１の推定音声に対する重み係数を乗じ、前記第２の推定音声に、第２の推定音声に対する重み係数を乗じる重み乗算処理、および、第１の推定音声に対する重み係数が乗じられた第１の推定音声と、第２の推定音声に対する重み係数が乗じられた第２の推定音声とを加算することにより第３の推定音声を求める第３の推定音声導出処理を実行させることを特徴とする。

本発明によれば、高い精度で雑音を除去することができる。

本発明の雑音除去システムの構成例を示すブロック図である。本発明の雑音除去システムの動作の例を示す流れ図である。第４の音声推定部を備えた場合の構成例を示すブロック図である。本発明の雑音除去システムの概要を示すブロック図である。特許文献１に開示されている雑音除去装置の構成を示すブロック図である。特許文献２に開示されている雑音除去装置の構成を示すブロック図である。

符号の説明

１雑音推定部
３音声モデル記憶部
４重み計算部
５重み乗算部
２１第１の音声推定部
２２第２の音声推定部
２３第３の音声推定部
２４第４の音声推定部
４１雑音推定手段
４３音声モデル記憶手段
４５重み乗算手段
４２１第１の音声推定手段
４２２第２の音声推定手段
４２３第３の音声推定手段

以下、添付図面を参照して本発明の実施形態について詳細に説明する。図１は、本発明の雑音除去システムの構成例を示すブロック図である。図１に例示する雑音除去システムは、入力信号を受けて入力信号に含まれる雑音を推定する雑音推定部１と、入力信号と推定雑音を受けて第１の推定音声を求める第１の音声推定部２１と、音声モデルを記憶する音声モデル記憶部３と、第１の推定音声と音声モデル記憶部３から音声モデルを受けて第２の推定音声を求める第２の音声推定部２２と、第１の推定音声と第２の推定音声のうちの少なくとも１つの推定音声と推定雑音を受けて第１および第２の推定音声に対する重みを計算する重み計算部４と、重みと第１および第２の推定音声を受けて重みを乗算する重み乗算部５と、重み付けられた第１および第２の推定音声を受けて第３の推定音声を求める第３の音声推定部２３とを有する。

雑音推定部１には、雑音の混ざった音声信号が入力信号として入力される。雑音推定部１は、入力信号から雑音を推定し、推定した雑音（推定雑音）を第１の音声推定部２１および重み計算部４に出力する。

第１の音声推定部２１にも、入力信号が入力される。第１の音声推定部２１は、その入力信号と、雑音推定部１から入力される推定雑音とから、第１の推定音声を求め、第１の推定音声を第２の音声推定部２２、重み乗算部５に出力する。

音声モデル記憶部３は、音声を表す情報である音声モデルを記憶する記憶装置である。音声モデルは、例えば、スペクトル、対数スペクトル、メルスペクトル、メル対数スペクトル、ケプストラム、メルケプストラム等の情報である。このような情報が音声のパターン（音素）毎の平均、分散としてモデル化されている。

第２の音声推定部２２は、音声モデル記憶部３から音声モデルを読み込み、第１の音声推定部２１から入力される第１の推定音声と、その音声モデルとから、第２の推定音声を求め、重み乗算部５に出力する。

重み計算部４は、第１の推定音声に重み付けをするための重み（重み係数）および第２の推定音声に対して重み付けをするための重み（重み係数）を計算する。重み計算部４は、推定雑音と、第１の推定音声および第２の推定音声のうちの少なくとも１つの推定音声を用いて、各重みを計算する。従って、第１の音声推定部２１と第２の音声推定部２２のうちの少なくともいずれか一方は、重み計算部４に推定音声を出力する。重み計算部４が第１の推定音声を用いて重みを計算する構成とするならば、第１の音声推定部２１が重み計算部４に対しても第１の推定音声を出力する構成とすればよい。重み計算部４が第２の推定音声を用いて重みを計算する構成とするならば、第２の音声推定部２２が重み計算部４に対しても第２の推定音声を出力する構成とすればよい。重み計算部４が、重みの計算の際に、第１の推定音声と第２の推定音声の双方を用いる構成とするならば、第１の音声推定部２１が重み計算部４に第１の推定音声を出力するとともに、第２の音声推定部２２も重み計算部４に第２の推定音声を出力すればよい。重み計算部４は、計算した各重みを重み乗算部５に出力する。

重み乗算部５は、第１の推定音声に重み付けするための重みを、第１の推定音声に乗じる。この結果、重み付けられた第１の推定音声が得られる。同様に、重み乗算部５は、第２の推定音声に重み付けするための重みを、第２の推定音声に乗じる。この結果、重み付けられた第２の推定音声が得られる。重み乗算部５は、重みを乗算した第１の推定音声および第２の推定音声を第３の音声推定部２３に出力する。

第３の音声推定部２３は、重み乗算部５によって重み付けられた第１の推定音声と第２の推定音声との加算を行い、その加算によって得られる推定音声を、雑音が除去された音声として出力する。

なお、図１には、入力信号は一本の矢印で示されているが、入力信号は１つの時系列信号に限ったものではなく、複数の時系列信号であってもよいことは勿論である。

次に、動作について説明する。
図２は、本発明の雑音除去システムにおける処理手順の例を示す流れ図である。図１および図２を参照して、本実施形態の雑音除去システムの動作について説明する。

まず、雑音推定部１および第１の音声推定部２１に、雑音混じりの入力信号が入力される。この雑音混じりの入力信号をX(t)=S(t)+N(t)とする。ただし、tは時間のインデックス、Sは音声、Nは雑音のスペクトルである。雑音推定部１は、入力信号Xから推定雑音N~(t)を求める（ステップＳ１）。例えば、以下に示す式(1)のように“0 ≦ t ≦ initLen-1”の間は入力信号が雑音のみから構成されると仮定できる。“initLen”は、ノイズの初期値を求めるための平均時間として予め定められた値である。雑音推定部１は、例えば、“0 ≦ t ≦ initLen-1”という時間の間、入力信号Xを平均化し、入力信号X の平均化の結果を推定雑音N~(t)とすればよい。

N~(t) = ave[X(t)] (0 ≦ t ≦ initLen-1) 式(1)

ただし、ave[]は平均演算子である。“initLen”の値は予め定めておけばよい。なお、“initLen-1”における“1”等の単位は、時間を表すtの単位と同じである。例えば、tの単位が「フレーム」であるとする。この場合、「フレーム」が単位となるように“initLen”は定められ、上記の“1”は「１フレーム」である。

雑音推定部１は、求めた推定雑音N~(t)を第１の音声推定部２１および重み計算部４に出力する。

また、雑音推定部１は、Xのヒストグラムを作成し、最小値を推定雑音とするなど、ここで示した例と異なる方法を用いて雑音を推定してもよい。

雑音推定部１が推定雑音N~(t)を求めた後、第１の音声推定部２１は、第１の推定音声S~1(t)を求める（ステップＳ２）。ステップＳ２の動作の例を以下に示す。第１の音声推定部２１は、以下に示す式(2)の減算を行うことによって、第１の推定音声S~1(t)を求める。すなわち、入力信号X(t)から推定雑音N~(t)を減算することによって第１の推定音声を求めてもよい。

S~1(t) = X(t) - N~(t) 式(2)

ただし、式(2)はスペクトル減算法で第１の推定音声S~1(t)を求める動作の例を示しているが、第１の音声推定部２１は他の方法で第１の推定音声S~1(t)を求めてもよい。例えば、ウィーナフィルタ法やＭＭＳＥＳＴＳＡ法、ＭＭＳＥＬＳＡ法など他の方法を用いてもよいことは勿論である。

第１の音声推定部２１は、第１の推定音声S~1(t)を求めると、その第１の推定音声S~1(t)を第２の音声推定部２２および重み乗算部５に出力する。重み計算部４が第１の推定音声を用いて重みを計算する構成の場合には、第１の音声推定部２１は、重み計算部４に対しても第１の推定音声S~1(t)を出力する。

ステップＳ２の後、第２の音声推定部２２は、予め音声モデル記憶部３に記憶されている音声モデルを用いて、第１の推定音声S~1(t)を補正することにより第２の推定音声S~2(t)を求める（ステップＳ３）。ステップＳ３において、第２の音声推定部２２は、第１の推定音声と、予め音声モデル記憶部３に記憶されている音声モデルとの平均二乗誤差が最小となるように、第１の推定音声S~1(t)を補正する。例を以下に示す。第２の音声推定部２２は、例えば、式(3)に示す演算を行うことによって、第１の推定音声の補正結果である第２の推定音声を求める。

S~2(t) = Σ_{k=1}^{K}μs(k)P(k|S~1(t)) 式(3)

ただし、式(3)において、Σ_{k=1}^{K}は、後に続く式（式(3)の例では“μs(k)P(k|S~1(t))”）のk=1からk=Kまでの和を表す演算子である。Kは、音声モデルの数である。また、μs(k)はk番目の音声モデルを表す。P(k|S~1(t))はS~1(t)がk番目の音声モデルである確率（S~1(t)とk番目の音声モデルとの距離）を表す。なお、音声モデルを（多次元）確率分布とした場合には、μs(k)はk番目の分布における平均値、P(k|S~1(t))はS~1(t)が与えられたときのk番目の分布に対する事後確率を表す。

式(3)によって第１の推定音声を補正し、その補正結果を第２の推定音声とすることにより、推定音声と音声モデルとの平均二乗誤差を最小とすることができる。

第２の音声推定部２２が式(3)におけるP(k|S~1(t))を求める処理の例を説明する。式(3)におけるP(k|S~1(t))は、以下のように求めればよい。例えば、第１の音声推定部２１による第１の推定音声の計算処理と同様の処理で、事前に大量の推定音声データを抽出し、音素（“ａ”，“ｉ”など）毎に推定音声データを平均化したデータを平均ベクトルとして求めておき、平均ベクトルを音声モデルとして音声モデル記憶部３に記憶させているとする。そして、音声モデル記憶部３は、k個の平均ベクトルを保持しているとする。この場合、第２の音声推定部２２は、ステップＳ２で計算された第１の推定音声S~1(t)と、k個の平均ベクトルとのユークリッド距離を計算し、そのk個の距離を、それらの和で正規化する。第２の音声推定部２２は、１からその値を減算することによって、P(k|S~1(t))を求める。この結果、第１の推定音声S~1(t)と音声モデルとの距離が短いほど、P(k|S~1(t))が高くなる。

また、（多次元）確率分布を音声モデルとしているとする。例えば、ＧＭＭ（Gaussian Mixture Model）を音声モデルとしているとする。この場合、第２の音声推定部２２は、k個のガウス分布に対して確率（上述の事後確率の分子に相当する値）を算出する。第２の音声推定部２２は、そのk個の確率を、それらの和で正規化することにより、各ガウス分布毎の確率P(k|S~1(t))を算出する。

また、例えば、ＧＭＭの代わりにＨＭＭ（Hidden Markov Model）を用いる場合には、ＧＭＭを用いる場合の計算において確率に遷移確率を加えればよい。

第２の音声推定部２２は、求めた第２の推定音声S~2(t)を重み乗算部５に出力する。重み計算部４が第２の推定音声を用いて重みを計算する構成の場合には、第２の音声推定部２２は、重み計算部４に対しても第２の推定音声S~2(t)を出力する。

ステップＳ３の次に、重み計算部４は、第１の推定音声と第２の推定音声のうち少なくとも１つの推定音声と、推定雑音とを用いて第１および第２の推定音声に対する重みを計算する（ステップＳ４）。第１の推定音声に対する重みをα1(t)、第２の推定音声に対する重みをα2(t)とすると、重み計算部４は、例えば以下に示す式(4)によってα1(t)を計算し、以下に示す式(5)によってα2(t)を計算する。

α1(t) = 1 / (1 + exp(-a( SNR(t) - b) )) 式(4)

α2(t) = 1 -α1(t) 式(5)

SNR(t)の計算については後述する。ここで、aは任意の正の値である。また、bは任意の定数である。aおよびbは、例えば事前に設定しておく。例えば、予め定数として定めたaおよびbを、雑音除去システムに設けられるメモリ（図示せず。）に記憶させておく。重み計算部４は、そのaおよびbを参照して、式(4)および式(5)の計算を実行すればよい。

式(4)、(5)から、SNR(t)の値が大きいほどα1(t)の値は大きくなり、α2(t)の値が小さくなることがわかる。また上記の式(4)、(5)において、aの値を∞とすれば、SNR(t) ≧ bの場合にα1(t)=1、α2(t)=0となる。一方、SNR(t) < bの場合には、α1(t)=0、α2(t)=1となる。α1(t)、α2(t)は、それぞれ第１の推定音声、第２の推定音声に乗じられる重みであるので、この場合、第３の音声推定部２３が出力する推定音声は、第１の推定音声または第２の推定音声となる。第１の推定音声、第２の推定音声のいずれが第３の音声推定部２３から出力されるかは、SNR(t) が b以上か否かによって切り替わる。

式(4)の計算で用いるSNR(t)は、以下のように第１の推定音声と第２の推定音声のうち少なくとも１つの推定音声と雑音を用いれば算出できる。

SNR(t) = S~1(t) / N~(t) 式(6)

SNR(t) = S~2(t) / N~(t) 式(7)

重み計算部４は、第１の推定音声S~1(t)を用いて式(6)の計算を行ってSNR(t)を算出し、式(4)および式(5)の計算を行って各重みα1(t)，α2(t)を算出してもよい。また、第２の推定音声S~2(t)を用いて式(7)の計算を行ってSNR(t)を算出し、式(4)および式(5)の計算を行って各重みα1(t)，α2(t)を算出してもよい。どちらの方法でα1(t)，α2(t)を算出しても、第１の推定音声と第２の推定音声のうちの少なくともいずれか一方と推定した雑音との比（式(6)または式(7)におけるSNR(t)）に応じて、重みα1(t)，α2(t)を求めることになる。そして、重み計算部４は、その比（SNR(t)）が大きくなるほど、α1(t)を大きな値として算出してα2(t)を小さな値として算出している。

また、SNR(t)や重みα1(t)、α2(t)は周波数毎に求めることも可能であり、重み計算部４は、SNR(t)および重みα1(t)、α2(t)を周波数帯域毎に求めてもよい。

ここでは、第１の推定音声と第２の推定音声のいずれか一方を用いてSNR(t)を求め、各重みを計算する動作を説明したが、重み計算部４は、第１の推定音声と第２の推定音声の双方を用いて各重みを計算してもよい。

重み計算部４は、計算した重みα1(t)，α2(t)を重み乗算部５に出力する。

ステップＳ４の次に、重み乗算部５は、第１および第２の推定音声に対して重みを乗算する（ステップＳ５）。重み乗算部５は、以下に示す式(8)のように、第１の推定音声に対する重みα1(t)を、第１の推定音声S~1(t)に乗じる。α1(t)を乗じることによって重み付けられた第１の推定音声をAS~1(t)と表す。

AS~1(t) = α1(t)×S~1(t) 式(8)

同様に、重み乗算部５は、以下に示す式(9)のように、第２の推定音声に対する重みα2(t)を、第２の推定音声S~2(t)に乗じる。α2(t)を乗じることによって重み付けられた第２の推定音声をAS~2(t)と表す。

AS~2(t) = α2(t)×S~2(t) 式(9)

ただし、重み計算部４がα1(t)、α2(t)を周波数帯域毎に求める場合、重み乗算部５は周波数帯域毎に式(8)、(9)の計算を行って、周波数帯域毎のAS~1(t)およびAS~2(t)を求める。

重み乗算部５は、重み付けられた第１の推定音声AS~1(t)、および重み付けられた第２の推定音声AS~2(t)を第３の音声推定部２３に出力する。

第３の音声推定部２３は、重み付けられた第１および第２の推定音声を受けて、第３の推定音声S~3(t)を算出する（ステップＳ６）。すなわち、第３の音声推定部２３は、以下に示す式(10)のように、重み付けられた第１の推定音声AS~1(t)と、重み付けられた第２の推定音声AS~2(t)とを加算して、第３の推定音声S~3(t)を算出する。

S~3(t) = AS~1(t) + AS~2(t) 式(10)

なお、周波数帯域毎にAS~1(t)およびAS~2(t)が計算される場合、第３の音声推定部２３は周波数帯域毎に式(10)の加算を行ってS~3(t)を計算する。

第３の音声推定部２３は、算出した第３の推定音声S~3(t)を出力する。

本実施形態の効果について説明する。本実施形態では、予め準備した音声モデルを用いて第２の音声推定部２２が第１の推定音声を補正することにより第２の推定音声を求める。この結果、低ＳＮＲの周波数を含め、大局的に雑音除去精度が向上する。

また、上記の例では、SNR(t)の値が大きいほど、α1(t)が増加し、α2(t)が減少する。この結果、第１の推定音声の雑音除去精度が第２の推定音声の雑音除去精度よりも高い場合（上記の例ではSNR(t)の値が大きい場合）には、重み乗算部５は、第１の推定音声に大きな重みを乗算し、第２の推定音声に小さな重みを乗算する。また、第１の推定音声の雑音除去精度が第２の推定音声の雑音除去精度よりも低い場合（上記の例ではSNR(t)の値が小さい場合）には、重み乗算部５は、第１の推定音声に小さな重みを乗算し、第２の推定音声に大きな重みを乗算する。そして、第３の音声推定部２３が、重み付けられた第１および第２の推定音声を加算することにより第３の推定音声を求める。そのため、第１の推定音声と第２の推定音声の推定精度の高い部分が相互に補完し合うため、雑音除去精度の高い第３の推定音声を求めることが可能となる。すなわち、大局的には第２の推定音声を求めることで雑音除去精度が向上し、局所的に第１の推定音声の方が第２の推定音声よりも雑音除去精度が高い場合に、第１の推定音声に対する重みを大きくして、局所的な雑音除去精度の低下を防止している。この結果、第３の音声推定部２３が出力する第３の推定音声では、精度よく雑音が除去されている。

以上、本発明の一実施形態について説明した。上記の例では重み計算部４がSNR(t)に応じて重みを計算する場合を説明したが、事前に重みを設定しておくことも可能である。例えば、S~1(t)とS~2(t)がケプストラムの量であると仮定すれば、低次のケプストラムの場合には、S~2(t)に対する重みα2(t)を大きくすることができ、高次のケプストラムの場合には、S~1(t)に対する重みα1(t)を大きくすることができる。これにより音声モデルとして高次のケプストラムのモデル化が困難であるという問題に対処できる。この場合、重みα1(t)、α2(t)を予め雑音除去システムに設けられるメモリ（図示せず。）に記憶させておき、例えば、重み乗算部５がそのメモリから重みを読み込んで、重みの乗算を行えばよい。また、メモリに記憶させるα1(t)、α2(t)は以下のように予め定めておけばよい。S~1(t)とS~2(t)がケプストラムの量であると仮定した場合、ケプストラムの次数に応じて、重みα1(t)、α2(t)を定めておく。例えば、ケプストラムの次数が所定の次数よりも高い場合に用いられる重みとして、α1(t)＞α2(t)を満たす重みα1(t)，α2(t)を定める。また、ケプストラムの次数が所定の次数よりも低い場合に用いられる重みとして、α1(t)＜α2(t)を満たす重みα1(t)，α2(t)を定める。重み乗算部５は、次数に応じたα1(t)，α2(t)を読み込めばよい。

また第３の推定音声を用いて、入力信号から音声を再推定することも可能である。例えば、本発明の雑音除去システムは、ステップＳ６で算出された第３の推定音声S~3(t)に対して、以下に示す式(11)の計算を行い、第４の推定音声（S~4(t)）を求める構成要素を備えていてもよい。図３は、第３の推定音声と入力信号から音声を再推定する第４の音声推定部２４を備えた構成例を示すブロック図である。

S~4(t) = X(t) ×S~3(t) ／(S~3(t) + N~(t)) 式(11)

図３に示す構成例において、雑音推定部１は、第４の音声推定部２４にも推定雑音を出力し、第３の音声推定部２３は、第３の推定音声を第４の音声推定部２４に出力する。また、第４の音声推定部２４には、入力信号X(t)が入力される。第４の音声推定部２４は、式(11)の計算によって、第４の推定音声を算出し、出力する。すなわち、入力信号と第３の推定音声との乗算結果を、第３の推定音声と推定雑音との加算結果で除算して、第４の推定音声を算出する。その他の点については、図１に示す構成例と同様である。

また、図１に示す構成例において、第３の推定音声を入力信号として第１の音声推定部２１および雑音推定部１に入力することによって、処理を繰り返してもよい。

上記の実施形態やその変形例において、雑音推定部１、第１の音声推定部２１、第２の音声推定部２２、重み計算部４、重み乗算部５、第３の音声推定部２３、第４の音声推定部２４は、それぞれ別個の回路であってもよい。また、雑音推定部１、第１の音声推定部２１、第２の音声推定部２２、重み計算部４、重み乗算部５、第３の音声推定部２３は、プログラム（雑音除去プログラム）に従って動作するＣＰＵによって実現されていてもよい。例えば、ＣＰＵが予め記憶装置に記憶された雑音除去プログラムを読み込み、その雑音除去プログラムに従って、雑音推定部１、第１の音声推定部２１、第２の音声推定部２２、重み計算部４、重み乗算部５、第３の音声推定部２３として動作してもよい。また、そのＣＰＵが、雑音除去プログラムに従って、第４の音声推定部２４（図３参照）としての動作を行ってもよい。

次に、本発明の概要について説明する。図４は、本発明の雑音除去システムの概要を示すブロック図である。本発明の雑音除去システムは、雑音推定手段４１と、第１の音声推定手段４２１と、第２の音声推定手段４２２と、音声モデル記憶手段４３と、重み乗算手段４５と、第３の音声推定手段４２３とを備える。音声モデル記憶手段４３は、音声を表す音声モデルを記憶する。

雑音推定手段４１は、入力信号に含まれる雑音を推定する。第１の推定音声導出手段４２１は、推定された雑音を入力信号から減ずるように入力信号を補正することによって、第１の推定音声を求める。また、第２の推定音声導出手段４２２は、音声モデル記憶手段４３に記憶された音声モデルを用いて第１の推定音声を補正することにより第２の推定音声を求める。

また、重み乗算手段４５は、第１の推定音声に、第１の推定音声に対する重み係数を乗じる。同様に、第２の推定音声に、第２の推定音声に対する重み係数を乗じる。第３の推定音声導出手段４２３は、第１の推定音声に対する重み係数が乗じられた第１の推定音声と、第２の推定音声に対する重み係数が乗じられた第２の推定音声とを加算することにより第３の推定音声を求める。

第２の推定音声では、大局的には雑音が除去されている。ただし、局所的に雑音が除去されていない場合もあり得る。本発明では、第２の推定音声を求めるだけでなく、重み乗算手段４５が第１の推定音声および第２の推定音声にそれぞれ重み係数を乗じ、第３の推定音声導出手段４２３が重み付けがされた第１の推定音声および第２の推定音声を加算する。従って、大局的に雑音を除去するだけでなく、第１の推定音声および第２の推定音声に重み付けを行うことで、局所的に残る雑音についても高い精度で除去することができる。

また、上記の実施形態には、第１の推定音声と第２の推定音声のうちの少なくともいずれか一方と、推定された雑音とを用いて第１の推定音声に対する重み係数および第２の推定音声に対する重み係数を計算する重み計算手段を備える構成が示されている。

また、上記の実施形態には、重み計算手段が、第１の推定音声と第２の推定音声のうちの少なくともいずれか一方と推定された雑音との比が大きくなるほど、第１の推定音声に対する重み係数が増加して第２の推定音声に対する重み係数が減少するように、第１の推定音声に対する重み係数および第２の推定音声に対する重み係数を計算する構成が示されている。

また、上記の実施形態には、重み計算手段が、第１の推定音声に対する重み係数および第２の推定音声に対する重み係数を周波数帯域毎に計算し、重み乗算手段が、周波数帯域毎に、第１の推定音声に、第１の推定音声に対する重み係数を乗じ、第２の推定音声に、第２の推定音声に対する重み係数を乗じ、第３の推定音声導出手段が、周波数帯域毎に第３の推定音声を求める構成が示されている。

また、上記の実施形態には、第１の推定音声に対する重み係数および第２の推定音声に対する重み係数を予め記憶する係数記憶手段を備える構成が示されている。

また、上記の実施形態には、第２の推定音声導出手段が、第１の推定音声と音声モデルとの平均二乗誤差が最小になるように第１の推定音声を補正することにより第２の推定音声を求める構成が示されている。

また、上記の実施形態には、入力信号と第３の推定音声との乗算結果を、第３の推定音声と推定された雑音との加算結果で除算することによって、第４の推定音声を求める第４の推定音声導出手段を備える構成が示されている。

本願は、日本の特願２００７−２４５８１７（２００７年９月２１日に出願）に基づいたものであり、又、特願２００７−２４５８１７に基づくパリ条約の優先権を主張するものである。特願２００７−２４５８１７の開示内容は、特願２００７−２４５８１７を参照することにより本明細書に援用される。

本発明の代表的な実施形態が詳細に述べられたが、様々な変更(changes)、置き換え(substitutions)及び選択(alternatives)が請求項で定義された発明の精神と範囲から逸脱することなくなされることが理解されるべきである。また、仮にクレームが出願手続きにおいて補正されたとしても、クレームされた発明の均等の範囲は維持されるものと発明者は意図する。

本発明は、雑音混じり音声から信号中に含まれる雑音を除去する雑音除去システムに好適に適用できる。

Claims

入力信号に含まれる雑音を推定する雑音推定手段と、
推定された雑音を前記入力信号から減ずるように前記入力信号を補正することにより第１の推定音声を求める第１の推定音声導出手段と、
音声を表す音声モデルを記憶する音声モデル記憶手段と、
前記音声モデルを用いて前記第１の推定音声を補正することにより第２の推定音声を求める第２の推定音声導出手段と、
前記第１の推定音声に、第１の推定音声に対する重み係数を乗じ、前記第２の推定音声に、第２の推定音声に対する重み係数を乗じる重み乗算手段と、
第１の推定音声に対する重み係数が乗じられた第１の推定音声と、第２の推定音声に対する重み係数が乗じられた第２の推定音声とを加算することにより第３の推定音声を求める第３の推定音声導出手段とを備える
ことを特徴とする雑音除去システム。
第１の推定音声と第２の推定音声のうちの少なくともいずれか一方と、推定された雑音とを用いて第１の推定音声に対する重み係数および第２の推定音声に対する重み係数を計算する重み計算手段を備える
請求項１に記載の雑音除去システム。
重み計算手段は、第１の推定音声と第２の推定音声のうちの少なくともいずれか一方と推定された雑音との比が大きくなるほど、第１の推定音声に対する重み係数が増加して第２の推定音声に対する重み係数が減少するように、第１の推定音声に対する重み係数および第２の推定音声に対する重み係数を計算する
請求項２に記載の雑音除去システム。
重み計算手段は、第１の推定音声に対する重み係数および第２の推定音声に対する重み係数を周波数帯域毎に計算し、
重み乗算手段は、周波数帯域毎に、第１の推定音声に、第１の推定音声に対する重み係数を乗じ、第２の推定音声に、第２の推定音声に対する重み係数を乗じ、
第３の推定音声導出手段は、周波数帯域毎に第３の推定音声を求める
請求項２または請求項３に記載の雑音除去システム。
第１の推定音声に対する重み係数および第２の推定音声に対する重み係数を予め記憶する係数記憶手段を備える
請求項１に記載の雑音除去システム。
第２の推定音声導出手段は、第１の推定音声と音声モデルとの平均二乗誤差が最小になるように第１の推定音声を補正することにより第２の推定音声を求める
請求項１から請求項５のうちのいずれか１項に記載の雑音除去システム。
入力信号と第３の推定音声との乗算結果を、第３の推定音声と推定された雑音との加算結果で除算することによって、第４の推定音声を求める第４の推定音声導出手段を備える
請求項１から請求項６のうちのいずれか１項に記載の雑音除去システム。
音声を表す音声モデルを記憶する音声モデル記憶手段を備えた雑音除去システムに適用される音声除去方法であって、
入力信号に含まれる雑音を推定する雑音推定ステップと、
推定した前記雑音を前記入力信号から減ずるように前記入力信号を修正することにより第１の推定音声を求める第１の推定音声導出ステップと、
前記音声モデルを利用して前記第１の推定音声を補正することにより第２の推定音声を求める第２の推定音声導出ステップと、
前記第１の推定音声に、第１の推定音声に対する重み係数を乗じ、前記第２の推定音声に、第２の推定音声に対する重み係数を乗じる重み乗算ステップと、
第１の推定音声に対する重み係数が乗じられた第１の推定音声と、第２の推定音声に対する重み係数が乗じられた第２の推定音声とを加算することにより第３の推定音声を求める第３の推定音声導出ステップと
を含むことを特徴とする雑音除去方法。
第１の推定音声と第２の推定音声のうちの少なくともいずれか一方と、推定された雑音とを用いて第１の推定音声に対する重み係数および第２の推定音声に対する重み係数を計算する重み計算ステップを含む
請求項８に記載の雑音除去方法。
重み計算ステップで、第１の推定音声と第２の推定音声のうちの少なくともいずれか一方と推定された雑音との比が大きくなるほど、第１の推定音声に対する重み係数が増加して第２の推定音声に対する重み係数が減少するように、第１の推定音声に対する重み係数および第２の推定音声に対する重み係数を計算する
請求項９に記載の雑音除去方法。
重み計算ステップで、第１の推定音声に対する重み係数および第２の推定音声に対する重み係数を周波数帯域毎に計算し、
重み乗算ステップで、周波数帯域毎に、第１の推定音声に、第１の推定音声に対する重み係数を乗じ、第２の推定音声に、第２の推定音声に対する重み係数を乗じ、
第３の推定音声導出ステップで、周波数帯域毎に第３の推定音声を求める
請求項９または請求項１０に記載の雑音除去方法。
第１の推定音声に対する重み係数および第２の推定音声に対する重み係数が予め定められている
請求項８に記載の雑音除去方法。
第２の推定音声導出ステップで、第１の推定音声と音声モデルとの平均二乗誤差が最小になるように第１の推定音声を補正することにより第２の推定音声を求める
請求項８から請求項１２のうちのいずれか１項に記載の雑音除去方法。
入力信号と第３の推定音声との乗算結果を、第３の推定音声と推定された雑音との加算結果で除算することによって、第４の推定音声を求める第４の推定音声導出ステップを含む
請求項８から請求項１３のうちのいずれか１項に記載の雑音除去方法。
音声を表す音声モデルを記憶する音声モデル記憶手段を備えたコンピュータに搭載される雑音除去プログラムであって、
コンピュータに、
入力信号に含まれる雑音を推定する雑音推定処理、
推定された雑音を前記入力信号から減ずるように前記入力信号を補正することにより第１の推定音声を求める第１の推定音声導出処理、
前記音声モデルを用いて前記第１の推定音声を補正することにより第２の推定音声を求める第２の推定音声導出処理、
前記第１の推定音声に、第１の推定音声に対する重み係数を乗じ、前記第２の推定音声に、第２の推定音声に対する重み係数を乗じる重み乗算処理、および、
第１の推定音声に対する重み係数が乗じられた第１の推定音声と、第２の推定音声に対する重み係数が乗じられた第２の推定音声とを加算することにより第３の推定音声を求める第３の推定音声導出処理
を実行させるための雑音除去プログラム。
コンピュータに、
第１の推定音声と第２の推定音声のうちの少なくともいずれか一方と、推定された雑音とを用いて第１の推定音声に対する重み係数および第２の推定音声に対する重み係数を計算する重み計算処理
を実行させる請求項１５に記載の雑音除去プログラム。
コンピュータに、
重み計算処理で、第１の推定音声と第２の推定音声のうちの少なくともいずれか一方と推定された雑音との比が大きくなるほど、第１の推定音声に対する重み係数が増加して第２の推定音声に対する重み係数が減少するように、第１の推定音声に対する重み係数および第２の推定音声に対する重み係数を計算させる
請求項１６に記載の雑音除去プログラム。
コンピュータに、
重み計算処理で、第１の推定音声に対する重み係数および第２の推定音声に対する重み係数を周波数帯域毎に計算させ、
重み乗算処理で、周波数帯域毎に、第１の推定音声に、第１の推定音声に対する重み係数を乗じさせ、第２の推定音声に、第２の推定音声に対する重み係数を乗じさせ、
第３の推定音声導出処理で、周波数帯域毎に第３の推定音声を求めさせる
請求項１６または請求項１７に記載の雑音除去プログラム。
第１の推定音声に対する重み係数および第２の推定音声に対する重み係数が予め定められている
請求項１５に記載の雑音除去プログラム。
コンピュータに、
第２の推定音声導出処理で、第１の推定音声と音声モデルとの平均二乗誤差が最小になるように第１の推定音声を補正することにより第２の推定音声を求めさせる
請求項１５から請求項１９のうちのいずれか１項に記載の雑音除去プログラム。
コンピュータに、
入力信号と第３の推定音声との乗算結果を、第３の推定音声と推定された雑音との加算結果で除算することによって、第４の推定音声を求める第４の推定音声導出処理
を実行させる請求項１５から請求項２０のうちのいずれか１項に記載の雑音除去プログラム。