JP6174856B2

JP6174856B2 - 雑音抑制装置、その制御方法、及びプログラム

Info

Publication number: JP6174856B2
Application number: JP2012286163A
Authority: JP
Inventors: 恭平北澤
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2012-12-27
Filing date: 2012-12-27
Publication date: 2017-08-02
Anticipated expiration: 2032-12-27
Also published as: US9247347B2; US20140185827A1; JP2014126856A

Description

本発明は、音声信号に混入した雑音の抑圧を行う雑音抑圧装置及びその制御方法に関する。

ビデオカメラや最近ではデジタルカメラにおいても動画撮影ができるようになり、同時に音声が録音される機会が増えてきている。動画撮影では録音の際に混入する風雑音が大きな課題となっており、ビデオカメラの多くには風雑音を除去する機能が付けられている。

風雑音はマイクロホンに風が当たることにより発生する雑音で、低域の広い範囲にわたって強い成分を持っている。一方、人の声等の音声信号は基音と高調波（基音の整数倍の周波数を持つ成分）からなる調波構造を持っている。

従来の風雑音除去の方法としては、ハイパスフィルタ、スペクトルサブトラクション法、コムフィルタ法などがある。

ハイパスフィルタは風雑音が低域に強い成分を持っているためその成分を帯域制限によってカットしてしまう方法で、カットオフ周波数の決め方として、風雑音の量を推定してカットオフ周波数を切り替える方法が提案されている（例えば特許文献１参照）。

スペクトルサブトラクション法は音声中に含まれる風雑音を推定して、マイクロホンの信号のスペクトルから推定した雑音のスペクトルを減算することで雑音成分を除去する方法である（例えば特許文献２参照）。

コムフィルタ法は音声の調波構造に着目した手法で、基音検出を行い基音周波数と高調波を通過あるいは遮断する方法である。周波数特性でみると一定間隔で鋭いピークあるいはディップが現れるため櫛形フィルタとも呼ばれる。コムフィルタ法による雑音除去では、基音及び高調波を通過させることで雑音の帯域を抑制する方法と、基音及び高調波を遮断した信号を雑音信号として元の信号から減算する方法がある。

特開平０６−２６９０８４号公報特開２００６−４７６３９号公報

しかし、従来のハイパスフィルタを用いた風雑音除去方法では、風雑音を十分に除去しようとすると音声信号の基音や低次の高調波などの低域成分までもが抑圧されてしまい、音声の音色が変わってしまうという問題がある。

また、スペクトルサブトラクションを用いた方法では、雑音推定が必要であり、スペクトルサブトラクションの結果を良くするためには雑音の推定精度を良くする必要がある。しかし風雑音は非定常雑音であるため高精度な雑音推定が困難であり、雑音の推定精度が良くないために雑音成分の消し残りが発生するという問題がある。風雑音は特に低域成分が強いため低域において風雑音を十分に抑制できないという問題がある。

さらに、コムフィルタを用いた方法では、基音検出(ピッチ検出)が必要である。基音周波数に対してコムフィルタのくしの周波数は整数倍の関係になる。そのため、検出した基音に誤差があると高域において誤差が拡大してしまう。基音周波数と櫛の周波数の関係を以下に示す。ｆｎはｎ番目の櫛の周波数、ｆ０は基音周波数、δは誤差を表す。

ｆｎ＝（ｆ０＋δ）×ｎ

基音の誤差はｎが小さい時はさほど問題にならないが、ｎが大きくなる高域の高調波ではその誤差がｎに比例して拡大してしまう。そのため、本来の調波構造を除去してしまう可能性がある。基音の検出精度は雑音が大きいほど低下するため、正確なコムフィルタの設計はその実現性に問題がある。

本発明は、上述した問題を解決するためになされたものである。すなわち本発明は、基音検出の誤差にロバストで、音声信号を損なうことなく、低域の風雑音成分を抑圧することが可能な雑音抑圧装置及び方法を提供する。

本発明の一側面によれば、入力信号に含まれる雑音成分を抑制する雑音抑制装置であって、前記入力信号に含まれる音声成分の基音周波数を検出する基音検出手段と、前記入力信号に含まれる雑音成分を推定する雑音推定手段と、前記基音検出手段により検出された基音周波数に基づいて、雑音成分の抑制のための減算処理の強度に関わる減算係数を設定する係数設定手段と、前記係数設定手段により設定された減算係数と前記雑音推定手段により推定された雑音成分とを用いて前記入力信号に含まれる雑音成分を抑制する前記減算処理を実行する減算手段とを有し、前記係数設定手段は、前記基音周波数以下の周波数に境界周波数を設定し、前記境界周波数より低い周波数に対する前記減算処理の強度が前記境界周波数以上の周波数に対する減算処理の強度より大きくなるように前記減算係数を設定することを特徴とする雑音抑制装置が提供される。

本発明によれば、音声信号を損なうことなく、音声信号と関係の無い基音周波数以下の風雑音成分を効果的に抑圧することができる。

実施形態１に係る雑音除去装置の構成を示すブロック図。実施形態１に係るスペクトルサブトラクションを説明する図。実施形態１に係る雑音除去処理を示すフローチャート。基音が検出されなかったフレームでの基音検出部の出力例を示す図。実施形態２に係る雑音除去装置の構成を示すブロック図。実施形態２に係る雑音除去処理を示すフローチャート。実施形態３に係る雑音除去装置の構成を示すブロック図。実施形態３に係る雑音除去処理を示すフローチャート。実施形態４に係る雑音除去装置の構成を示すブロック図。ビームフォーマによって形成される指向性の例を示す図。実施形態４に係る雑音除去処理を示すフローチャート。８チャネルの基音周波数の例を示す図。基音が検出されなかったフレームでの基音検出部の別の出力例を示す図。

以下、添付の図面を参照して、本発明の実施形態を詳しく説明する。なお、以下の実施形態において示す構成は一例に過ぎず、本発明は図示された構成に限定されるものではない。

＜実施形態１＞
本実施形態では、録音時に混入する風雑音信号を、スペクトルサブトラクション法を用いて除去する。図１は、本発明の実施形態１に係る雑音除去装置の構成を示すブロック図である。本実施形態の雑音除去装置は、音声信号入力部１００、フレーム分割部２００、信号処理部３００、フレーム結合部４００を備える。

音声信号入力部１００は、マイクロホン、Ａ／Ｄ変換器を含み、収音して得た音声信号とそれに混合した雑音信号（以下「混合信号」という。）をＡ／Ｄ変換してフレーム分割部２００へ出力する。フレーム分割部２００は、音声信号入力部１００から入力された混合信号に対して所定時間長ずつ時間区間をずらしながら窓関数をかけ、特定の長さの時間ごとに切り出して出力する。

信号処理部３００は雑音除去処理を行い、その結果得られた信号をフレーム結合部４００へ出力する。信号処理部３００の詳細は後述する。フレーム結合部４００は、信号処理部３００から出力されてくるフレームごとの信号を重複させながら結合し出力する。

次に信号処理部３００について詳しく説明する。信号処理部３００は、図示の如く、ＦＦＴ部３０１、雑音推定部３０２、基音検出部３０３、係数設定部３０４、スペクトル減算部３０５、ＩＦＦＴ部３０６を含む。ＦＦＴ部３０１は、フレーム分割部２００から入力されるフレーム分割された混合信号にＦＦＴ（Fast Fourier Transform）を行い出力する。雑音推定部３０２は、ＦＦＴ部３０１の出力に対して混合信号に含まれる風雑音を推定し推定雑音信号として出力する。例えば雑音推定部３０２は、特開２００６−４７６３９号公報に示されるように、風雑音モデルを用いて雑音を推定すればよい。つまり音声信号入力部１００のマイクロホンに固有の風雑音モデルをデータベースとして持ち、フレームごとに風雑音モデルの中から類似するデータを選択して風雑音の周波数スペクトルを出力する。

基音検出部３０３は、ＦＦＴ部３０１の出力に対して基音検出を行う。例えば基音検出はケプストラム法を用いて行う。ケプストラム法は入力信号の対数振幅スペクトルの逆フーリエ変換として求められる。この方法はもともとの定義とは異なるが一般的に使われているものである。ケプストラムの次元はケフレンシと呼ばれる時間に相当する物理量で、調波構造を持つ音声に対して基音に対応する位置にピークが現れる。例えば音声のサンプリング周波数を４８ｋＨｚ、基音周波数を１００Ｈｚとすると、４８０番目のサンプルに大きなピークが現れる。

そこで、音声信号の基音のとりうる範囲、例えば５０Ｈｚから１ｋＨｚ、に対応する範囲でピークを検出することで基音を検出し、基音周波数を係数設定部３０４へ出力する。つまり信号のサンプリング周波数を４８ｋＨｚとすると４８番目から９６０番目のサンプルの中でピークを検出する。ここで音源が複数の場合には基音（ピーク）が複数検出されることがあるが、その場合、検出された基音のうち最も低い周波数のものを出力する。

係数設定部３０４は、基音検出部３０３から入力される基音周波数以下の周波数に境界周波数を設定する。そして、その境界周波数より低い周波数に対するスペクトルサブトラクションの減算係数を、それ以外の周波数に対する減算係数よりも大きい値に設定する。加えて、本実施形態では、境界周波数より低い周波数に対するスペクトルサブトラクションのフロアリング係数を、それ以外の周波数に対するフロアリング係数よりも小さい値に設定する。減算係数及びフロアリング係数については後述する。

スペクトル減算部３０５は、ＦＦＴ部３０１及び雑音推定部３０２から入力された混合信号及び推定雑音信号の周波数スペクトルを用いてスペクトルサブトラクションを行い、結果をＩＦＦＴ部３０６へ出力する。

混合信号の周波数スペクトルをＸ、推定雑音の周波数スペクトルをＮ、減算係数をβ、出力をＹとすると、スペクトルサブトラクションは次式で表せる。

ここで、ｆは周波数を表す。また、ｎには一般的に１（振幅）又は２（パワー）を用いるが、それ以外の数を用いてもかまわない。

スペクトルサブトラクション法では減算するノイズスペクトルに対して処理の強度を変更する減算係数βを乗算する。減算係数βは一般的に１以上に設定されることが多い。βが１以上に設定されるということは、式１のｎ乗根の中が負になってしまう可能性があるため、それを避けるためにフロアリングという処理が行われる。フロアリングは、次式で表される処理で、式１のｎ乗根の中が負になったとき、出力Ｙは混合信号Ｘをη倍した信号にするという処理である。このときηをフロアリング係数と呼ぶ。

ここで、減算係数β及びフロアリング係数ηは一般的に周波数に関係なく一定の値が用いられるが、本実施形態では係数設定部３０４において以下のように設定される。

このように設定することで境界周波数より低い周波数の雑音をより低減することができる。

図２は、本実施形態におけるスペクトルサブトラクションを模式的に表した図である。図２において、(a)は、あるフレームの混合信号のスペクトル示している。音声信号は調波構造（基音と高調波）を持ち、風雑音成分は低域に強い成分を持つ。（b）は、（a）の低域を拡大したものである。本実施形態では（b）に示すように基音周波数以下の周波数に境界周波数を設定する。そして、境界周波数より低い周波数においては、減算係数βを大きく設定する。更に、境界周波数より低い周波数においては、フロアリング係数ηを小さく設定するとよい。こうすることで、（c）に示すように基音周波数以下の風雑音成分を大きく低減させることができる。

ＩＦＦＴ部３０６は、スペクトル減算部３０５の出力にＩＦＦＴ（Inverse Fast Fourier Transform）を行い、フレーム結合部４００へ出力する。

本実施形態における雑音除去処理のフローを図３を用いて説明する。

録音が開始されると、音声信号入力部１００で混合信号が収音される（Ｓ１０１）。収音された混合信号はフレーム分割部２００へ随時出力される。次に、フレーム分割部２００においてフレーム分割処理が行われる（Ｓ１０２）。このステップでは、入力される混合信号に対して所定時間長ずつずらしながら窓関数を乗算し特定の時間幅ごとに切り出された信号がＦＦＴ部３０１に出力される。続いて、ＦＦＴ部３０１においてフレーム分割部２００からの出力に対しＦＦＴ処理が行われる（Ｓ１０３）。ＦＦＴ処理された信号は雑音推定部３０２、基音検出部３０３、スペクトル減算部３０５へそれぞれ出力される。

次に、雑音推定部３０２において雑音推定が行われる（Ｓ１０４）。ここでは、入力されたスペクトルと風雑音モデルの類似性の比較を行い、推定雑音スペクトルを決定する。推定雑音スペクトルはスペクトル減算部３０５へ出力される。続いて、基音検出部３０３において基音検出が行われる（Ｓ１０５）。このステップでは、ＦＦＴ部３０１の出力をもとに、ケプストラム法によって該当フレーム内に含まれる音声信号の基音を検出し、基音の周波数を係数設定部３０４へ出力する。基音が検出されなかった場合、基音検出部３０３は基音周波数として０Ｈｚを出力する。

次に、係数設定部３０４においてスペクトルサブトラクションの係数の設定が行われる（Ｓ１０６）。このステップではまず、基音検出部３０３で検出された基音周波数以下に境界周波数を設定する。ここで基音周波数を境界周波数として設定してもよいが、雑音による基音検出の誤差を考慮して基音周波数より低く設定してもよい。次にスペクトルサブトラクションのパラメータの設定を行う。境界周波数より低い周波数においてスペクトルサブトラクションの減算係数を大きく設定し、フロアリング係数を小さく設定する。その後、スペクトル減算部３０５においてスペクトルサブトラクションが行われる（Ｓ１０７）。このステップでは、ＦＦＴ部３０１から出力された周波数スペクトルと、雑音推定部３０２から出力された周波数スペクトルと、係数設定部３０４で設定された減算係数及びフロアリング係数を用いてスペクトルサブトラクションを行う。スペクトルサブトラクションの結果はＩＦＦＴ部３０６へ出力される。

ＩＦＦＴ部３０６においては、スペクトル減算部３０５の出力にＩＦＦＴ処理が行われる（Ｓ１０８）。ＩＦＦＴ処理された信号はフレーム結合部４００へ出力される。フレーム結合部４００において、フレーム処理された信号を結合する処理が行われる（Ｓ１０９）。このステップではフレーム分割部２００でフレームごとに分割されて処理を行われたフレームごとの信号を分割時と同様に所定時間長ずつずらしながら重ね合わせて結合する。そして、録音終了か否かが判断され（Ｓ１１０）、ここで録音終了と判断されるまで、Ｓ１０１〜Ｓ１０９の処理を繰り返す。

以上のように本実施形態によれば、音声信号の基音をもとに境界周波数を制御する。具体的には、境界周波数より低い周波数で減算係数を大きく、フロアリング係数を小さく設定する。これにより、音声信号の低域を不必要に抑制することなく雑音を除去できる。

本実施形態において、雑音推定部３０２では風雑音モデルを用いたが、他の手法を用いてもよい。例えば、非音声区間を風雑音のみの信号として抽出してもよく、音声区間か非音声区間かを判別する手段を別途設け、非音声区間の雑音のスペクトルを平均した信号を推定雑音としてもよい。

また、データベースが音声信号のモデルであってもよく、その場合、音声モデルを用いて音声のみを抽出し、残った信号を推定雑音とする。

また、雑音推定部３０２の入力は周波数スペクトルであったが、信号の時間波形を用いて風雑音の推定を行う場合にはフレーム分割部２００から直接時間波形を入力できるようになっていてもよい。その場合、雑音推定部３０２の出力が時間波形の場合には雑音推定部３０２とスペクトル減算部３０５の間でＦＦＴ処理を行う。

また、基音検出部３０３ではケプストラム法を用いるとしたが、基音検出（ピッチ検出）には他の方法を用いてもよい。例えば自己相関関数を用いた方法を用いてもよい。（例えば、"対数スペクトルの自己相関関数を利用したピッチ抽出法"，電子情報通信学会論文誌Ａ，Ｖｏｌ.Ｊ８０−Ａ，Ｎｏ．３，ｐｐ.４３５−４４３を参照。）また、その他上記論文に紹介されている時間波形に対するゼロ交差数やピークを利用する方法や、フィルタバンクを用いる方法などの手法を用いることもできる。

また、基音検出部３０３において基音が検出されなかった場合０Ｈｚを出力するとした。しかし、基音周波数は急激に変化することが少ないと考えられるため、現フレームで基音が検出されなかった場合は、前フレームと同じ値を出力するようにしてもよい。図４に基音が検出されなかった場合の例を示す。例えばフレーム２では基音が検出されなかったが、基音検出部３０３はフレーム１で出力した１５０Ｈｚを出力する。またフレーム５から８のように連続して基音が検出されなかった場合にも順番に前フレームで出力された基音周波数を出力する。

また、基音検出されなかった区間は音声区間でないと判断し、全帯域において雑音抑制を強くする。つまり基音検出部３０３において設定できる最大周波数を出力するようにしてもよい。ここで最大周波数はフレーム分割部２００に入力される信号のサンプリング周波数の半分の周波数（ナイキスト周波数）を指す。例えばサンプリング周波数が４８ｋＨｚの場合、最大周波数は２４ｋＨｚとなる。

また、境界周波数が急激に変わると聴感上目立つため、前のフレームで出力した周波数から時定数を用いて徐々に０Ｈｚへ近づくようにしてもよい。

係数設定部３０４は減算係数及びフロアリング係数の双方を設定するのが好ましいが、減算係数及びフロアリング係数の一方だけを設定するようにしてもよい。

また、信号処理部３００はスペクトルサブトラクションを用いて雑音除去を行ったが、別の雑音除去手段を用いてもよい。例えば雑音推定部３０２で推定した雑音を抑制する逆フィルタを設計し適応するようにしてもよい。その際に境界周波数以上と境界周波数より低い周波数でフィルタリングパラメータ(フィルタの重み係数など)を変えるようにしてもよい。

＜実施形態２＞
実施形態２では、録音時に混入する風雑音信号をハイパスフィルタ（以下「ＨＰＦ」という。）とスペクトルサブトラクションを用いて除去する。図５は、本実施形態に係る雑音除去装置の構成を示すブロック図である。本実施形態の雑音除去装置は、音声信号入力部１００、フレーム分割部２００、信号処理部３００、フレーム結合部４００を備える。音声信号入力部１００、フレーム分割部２００、フレーム結合部４００はそれぞれ、実施形態１と同じ構成であるため、それらの詳細な説明は省略する。

信号処理部３００は、ＦＦＴ部３０１、雑音推定部３０２、基音検出部３０３、スペクトル減算部３０５、ＩＦＦＴ部３０６、ＨＰＦ３０７、ＦＦＴ部３０８を含む。ＦＦＴ部３０１、雑音推定部３０２、基音検出部３０３、スペクトル減算部３０５、ＩＦＦＴ部３０６は実施形態１とほぼ同様のため説明は省略する。

ＨＰＦ３０７は、スペクトル減算部３０５よりも前段に設けられる。ＨＰＦ３０７は、カットオフ周波数可変のＨＰＦである。ＨＰＦ３０７は、基音検出部３０３からの出力である基音の周波数から境界周波数を決定し、カットオフ周波数をその境界周波数に変更する。そして、フレーム分割部２００からの出力に対してハイパスフィルタ処理を施す。このとき境界周波数は基音周波数と同じに設定してもよいし、ＨＰＦの振幅特性を考慮して基音周波数より高めに設定してもよい。さらに境界周波数を基音周波数より高く設定した場合は、ＨＰＦの振幅特性を考慮してスペクトル減算部３０５において基音周波数の成分を引きすぎないように減算係数を調整するようにしてもよい。ここで、基音検出部３０３が基音を検出できなかった場合０Ｈｚが出力されるため、０Ｈｚが入力された場合にはＨＰＦ処理を行わないように処理を切り替えるようにしてもよい。ＦＦＴ部３０８は、ＨＰＦ３０７からの出力に対しＦＦＴを行い、スペクトル減算部３０５及び雑音推定部３０２へ出力する。

本実施形態における雑音除去処理のフローを図６を用いて説明する。

Ｓ２０１〜Ｓ２０３は、実施形態１のＳ１０１〜Ｓ１０３と同様である。すなわち、録音が開始されると、音声信号入力部１００で混合信号が収音される（Ｓ２０１）。収音された混合信号はフレーム分割部２００へ随時出力される。次に、フレーム分割部２００においてフレーム分割処理が行われる（Ｓ２０２）。続いて、ＦＦＴ部３０１においてフレーム分割部２００からの出力に対しＦＦＴ処理が行われる（Ｓ２０３）。ＦＦＴ処理された信号は基音検出部３０３へ出力される。

次に、基音検出部３０３において基音検出が行われる（Ｓ２０４）。このステップでは、ＦＦＴ部３０１の出力をもとに、ケプストラム法によって該当フレーム内に含まれる音声信号の基音を検出し、基音の周波数をＨＰＦ３０７へ出力する。基音検出がされなかった場合、基音検出部３０３は基音周波数として０Ｈｚを出力する。次に、ＨＰＦ３０７においてフレーム分割部２００の出力に対してＨＰＦ処理が行われる（Ｓ２０５）。このステップではまず、基音検出部３０３の出力である基音周波数から境界周波数を設定する。次にＨＰＦのカットオフ周波数を境界周波数に設定し、フレーム分割部２００の出力に対してＨＰＦをかけ、ＦＦＴ部３０８へ出力する。

続いて、ＦＦＴ部３０８においてＨＰＦ３０７の出力にＦＦＴ処理が行われる（Ｓ２０６）。ＦＦＴ処理された信号はスペクトル減算部３０５及び雑音推定部３０２へ出力される。

次に、雑音推定部３０２において雑音推定が行われる（Ｓ２０７）。これは実施形態１におけるＳ１０４と同様の処理である。すなわち、入力されたスペクトルと風雑音モデルの類似性の比較を行い、推定雑音スペクトルを決定する。推定雑音スペクトルはスペクトル減算部３０５へ出力される。

その後、スペクトル減算部３０５においてスペクトルサブトラクションが行われる（Ｓ２０８）。このステップでは、ＦＦＴ部３０８から出力された周波数スペクトルと、雑音推定部３０２から出力された周波数スペクトルと、所定の減算係数及びフロアリング係数を用いてスペクトルサブトラクションを行う。スペクトルサブトラクションの結果はＩＦＦＴ部３０６へ出力される。

ＩＦＦＴ部３０６においては、スペクトル減算部３０５の出力にＩＦＦＴ処理が行われる（Ｓ２０９）。ＩＦＦＴ処理された信号はフレーム結合部４００へ出力される。フレーム結合部４００において、フレーム処理された信号を結合する処理が行われる（Ｓ２１０）。そして、録音終了か否かが判断され（Ｓ２１１）、ここで録音終了と判断されるまで、Ｓ２０１〜Ｓ２１０の処理を繰り返す。

以上のように本実施形態によれば、音声信号の基音をもとに境界周波数を設定し、その境界周波数をカットオフ周波数とするＨＰＦで低域成分を除去する。音声成分には雑音成分が重畳されているため、更にスペクトルサブトラクションを行うことで、雑音を除去できる。

本実施形態ではＨＰＦを用いたが、低域成分をカットするのではなく、例えばハイシェルフフィルタを用いて風雑音を抑制するようにしてもよい。また、ハイシェルフフィルタのかわりに、境界周波数をカットオフ周波数とするＨＰＦとローパスフィルタを用いて信号を帯域分割し、ローパスフィルタの出力に対してレベルを下げる処理を施してもよい。

＜実施形態３＞
次に、音声区間検出処理を含む実施形態を説明する。図７は本実施形態に係る雑音除去装置の構成を示すブロック図である。本実施形態の雑音除去装置は、音声信号入力部１００、フレーム分割部２００、信号処理部３００、フレーム結合部４００を備える。音声信号入力部１００、フレーム分割部２００、フレーム結合部４００はそれぞれ、実施形態１と同じ構成であるため、それらの詳細な説明は省略する。

図７の信号処理部３００は、図１の構成に対して、ＦＦＴ部３０１と基音検出部３０３の間に音声区間検出部３０９を追加した構成である。ＦＦＴ部３０１、雑音推定部３０２、基音検出部３０３、係数設定部３０４、スペクトル減算部３０５、ＩＦＦＴ部３０６は実施形態１とほぼ同様のため説明は省略する。

音声区間検出部３０９は、ＦＦＴ部３０１の出力が音声区間を含むか否かを検出し、検出結果を出力する。音声区間の検出法としては例えば、ガウス混合分布モデルを用いる方法がある。（例えば、“Speech Non-Speech Separation with Gmms.”，日本音響学会研究発表会講演論文集２００１（２）、ｐｐ１４１−１４２参照。）これは、音声と非音声のガウス混合分布モデルを定義して、フレームごとにガウス混合分布モデルの尤度計算を行い音声区間か否かを判断する方法である。

本実施形態における雑音除去処理のフローを図８を用いて説明する。

Ｓ３０１〜Ｓ３０４は、実施形態１のＳ１０１〜Ｓ１０４と同様である。すなわち、録音が開始されると、音声信号入力部１００で音声が収音される（Ｓ３０１）。収音された混合信号はフレーム分割部２００へ随時出力される。次に、フレーム分割部２００においてフレーム分割処理が行われる（Ｓ３０２）。続いて、ＦＦＴ部３０１においてフレーム分割部２００からの出力にＦＦＴ処理が行われる（Ｓ３０３）。ＦＦＴ処理された信号は雑音推定部３０２、スペクトル減算部３０５、基音検出部３０３へ出力される。次に、雑音推定部３０２において雑音推定が行われる（Ｓ３０４）。ここでは、入力されたスペクトルと風雑音モデルの類似性の比較を行い、推定雑音スペクトルを決定する。推定雑音スペクトルはスペクトル減算部３０５へ出力される。

次に、音声区間検出部３０９において音声区間の検出が行われる（Ｓ３０５）。このステップではＦＦＴ部３０１から出力された信号内の音声区間を検出する。音声区間が検出された場合は、基音検出部３０３において基音検出が行われる（Ｓ３０６）。一方、音声区間が検出されなかった場合には係数設定部３０４へ非音声区間であることを示す信号を出力する。

係数設定部３０４において、スペクトル減算部３０５で使用する係数の設定が行われる（Ｓ３０７）。このステップでは係数設定部３０４に基音検出部３０３から基音周波数が入力された場合、その基音周波数以下に境界周波数を設定する。次に、スペクトルサブトラクションのパラメータの設定が行われる。具体的には、境界周波数より低い周波数においてスペクトルサブトラクションの減算係数を大きく設定し、フロアリング係数を小さく設定する。一方、音声区間検出部３０９から非音声区間であることを示す信号が入力された場合は、境界周波数は、音声信号に対して想定される所定の最大周波数に設定される。つまり全帯域においてスペクトルサブトラクションの減算係数は大きく設定され、フロアリング係数は小さく設定される。スペクトルサブトラクションの結果はＩＦＦＴ部３０６へ出力される。

ＩＦＦＴ部３０６においては、スペクトル減算部３０５の出力にＩＦＦＴ処理が行われる（Ｓ３０９）。ＩＦＦＴ処理された信号はフレーム結合部４００へ出力される。フレーム結合部４００において、フレーム処理された信号を結合する処理が行われる（Ｓ３１０）。そして、録音終了か否かが判断され（Ｓ３１１）、ここで録音終了と判断されるまで、Ｓ３０１〜Ｓ３１０の処理を繰り返す。

音声区間と判定されたものの基音が検出されなかった区間は調波構造の無い子音である可能性がある。そこで本実施形態では、このような区間に対しては、境界周波数が０Ｈｚに設定され、全帯域に通常の処理が行われる。一方、非音声区間では、音声区間ではあるが基音が検出されなかった区間と区別して、境界周波数が最大周波数に設定され、全帯域において雑音除去が行われる。

本実施形態において、音声区間検出部３０９はフレーム分割部２００より後段において音声区間検出を行った。しかし、フレーム分割される前の信号に対して音声区間検出を行い、各フレームが音声区間か否かを出力するようにしてもよい。

また、音声区間検出部３０９では他の方法で音声区間検出を行ってもよい。例えば、振幅とゼロ交差数に基づく方法を用いてもよい。（“複数特徴の重み付き統合による雑音に頑健な発話区間検出”，情報処理学会研究報告. SLP, 音声言語情報処理 2005(69), pp49-54を参照。）振幅とゼロ交差数に基づく方法では、一定のレベルを超える振幅（パワー）の区間において零交差数が一定数を超えた信号を音声と判断する。例えば、振幅とゼロ交差数に基づく方法を用いる場合、フレーム分割部２００の出力をＦＦＴ部３０１を介さずに音声区間検出部３０９へ入力する。そこでフレームの半分以上が音声区間であるとされた場合に、そのフレームを音声区間である判定とする。

上述の実施形態では、係数設定部３０４は、音声区間検出部３０９において音声区間でないと判断された場合に境界周波数を最大周波数に設定した。しかし、基音検出ができなかったときと同様に境界周波数を０Ｈｚと設定してもよいし、以前のフレームの基音周波数をそのまま用いてもよい。

また、フレーム単位での処理が急激に変わると聴感上目立ってしまうため、係数設定部３０４では非音声区間と音声区間の境目において急激に減算係数あるいはフロアリング係数が変化しないように時定数を設けて係数を変化させるようにしてもよい。

＜実施形態４＞
次に、入力が複数チャネル、例えば２チャネルの場合の実施形態を説明する。図９は、本実施形態に係る雑音除去装置の構成を示すブロック図である。本実施形態の雑音除去装置は、音声信号入力部１１００、フレーム分割部１２００、信号処理部１３００、フレーム結合部１４００を有する。フレーム分割部１２００、信号処理部１３００、フレーム結合部１４００はそれぞれ、実施形態１における音声信号入力部１００、フレーム分割部２００、フレーム結合部４００を２チャネルに拡張したものである。すなわちこれらの各部は各チャネルの音声信号に対してそれぞれ動作する。音声信号入力部１１００は、所定の間隔を空けて設置された２つのマイクロホンを有する。

信号処理部１３００は、ＦＦＴ部１３０１、雑音推定部１３０２、基音検出部１３０３、係数設定部１３０４、スペクトル減算部１３０５、ＩＦＦＴ部１３０６、基音周波数調整部１３１０を含む。ＦＦＴ部１３０１、基音検出部１３０３、スペクトル減算部１３０５、ＩＦＦＴ部１３０６はそれぞれ、実施形態１のＦＦＴ部３０１、基音検出部３０３、スペクトル減算部３０５、ＩＦＦＴ部３０６を２チャネルに拡張したものである。雑音推定部１３０２は、ＦＦＴ部１３０１から入力される信号を用いて風雑音を分離抽出する音源分離処理を行う。音源分離処理には例えばビームフォーマを用いる。音声はマイクロホンに対して音源方向が明確に決まるが、風雑音は無指向性の音源である。そのため、指向性を音声方向にヌルが向くようにすると風雑音のみを抽出することができる。例えば最小ノルム法を用いると、音声のエネルギーが高い場合、図１０に示すように、音声方向に自動的にヌルを向くように指向性を形成することができ、音声を除いた風雑音のみを抽出できる。抽出された風雑音の周波数スペクトルはスペクトル減算部１３０５へ出力される。

雑音推定部１３０２においてビームフォーマを用いると出力は１つしか得られない。しかし、音声信号入力部１１００の２つのマイクロホンが十分に近接している場合には、チャネルごとの風雑音の相関度が高いため、１つの出力を推定雑音として２チャネルから個別に減算しても問題はない。

基音周波数調整部１３１０には基音検出部１３０３で検出された２チャネルの基音の周波数が入力される。２つのマイクロホンが近接して設置されている場合には、２チャネルで検出される基音は同じになる。しかし、２チャネルに重畳される風雑音はそれぞれ異なるため、基音検出に誤差が生じ、２チャネルで異なる値が入力されることがある。そこで、基音周波数調整部１３１０では基音を抑制しないために入力された２つの基音周波数のうち、より低い周波数を基音周波数として係数設定部１３０４へ出力する。

本実施形態における雑音除去処理のフローを図１１を用いて説明する。

録音が開始されると、音声信号入力部１００で２ｃｈの音声が収音される（Ｓ１００１）。収音された混合信号はフレーム分割部２００へ随時出力される。次に、フレーム分割部２００においてフレーム分割処理が行われる（Ｓ１００２）。続いて、ＦＦＴ部３０１においてフレーム分割部２００からの出力に対しＦＦＴ処理が行われる（Ｓ１００３）。ＦＦＴ処理された信号は基音検出部３０３へ出力される。

次に、雑音推定部１３０２において音源分離による雑音推定が行われる（Ｓ１００４）。このステップではＦＦＴ部１３０１に対して最小ノルム法によるビームフォーマが行われる。この結果、音声方向にヌルが形成され、音声以外の音つまり風雑音のみが抽出される。抽出された風雑音はスペクトル減算部１３０５へ出力される。次に、基音検出部１３０３において検出された２チャネルの基音周波数は基音周波数調整部１３１０に入力され、係数設定部１３０４に出力する基音周波数の調整が行われる（Ｓ１００６）。このステップでは音声信号に対する抑制を避けるため、各チャネルで検出された基音周波数のうち最低の周波数を選択し、係数設定部１３０４へ出力する。

それ以降のＳ１００７〜Ｓ１０１１は、実施形態１のＳ１０６〜Ｓ１１０と同様である。すなわち、係数設定部１３０４においてスペクトルサブトラクションの係数の設定が行われる（Ｓ１００７）。このステップではまず、基音検出部１３０３で検出された基音周波数以下に境界周波数を設定する。ここで基音周波数を境界周波数として設定してもよいが、雑音による基音検出の誤差を考慮して基音周波数より低く設定してもよい。次にスペクトルサブトラクションのパラメータの設定を行う。境界周波数より低い周波数においてスペクトルサブトラクションの減算係数を大きく設定し、フロアリング係数を小さく設定する。その後、スペクトル減算部１３０５においてスペクトルサブトラクションが行われる（Ｓ１００８）。このステップでは、ＦＦＴ部１３０１から出力された周波数スペクトルと、雑音推定部１３０２から出力された周波数スペクトルと、係数設定部１３０４で設定された減算係数及びフロアリング係数を用いてスペクトルサブトラクションを行う。スペクトルサブトラクションの結果はＩＦＦＴ部１３０６へ出力される。

ＩＦＦＴ部１３０６においては、スペクトル減算部１３０５の出力に対してＩＦＦＴ処理が行われる（Ｓ１００９）。ＩＦＦＴ処理された信号はフレーム結合部１４００へ出力される。フレーム結合部４００において、フレーム処理された信号を結合する処理が行われる（Ｓ１０１０）。このステップではフレーム分割部１２００でフレームごとに分割されて処理を行われたフレームごとの信号を分割時と同様に所定時間長ずつずらしながら重ね合わせて結合する。そして、録音終了か否かが判断され（Ｓ１０１１）、ここで録音終了と判断されるまで、Ｓ１００１〜Ｓ１０１０の処理を繰り返す。

以上のように、２チャネルの場合では、音源分離技術を用いて雑音を推定することができる。さらに基音周波数の調整によって基音検出の誤差によって基音を低減してしまう可能性を低減できる。このため、音声信号の低域を不要に抑制することなく風雑音を除去することができる。

本実施形態において、雑音推定部１３０２はビームフォーマを用いて雑音推定を行ったが、別の手法を用いてもよい。例えば、特開２００６−１５４３１４号公報に開示されているような独立成分分析と逆射影を用いた方法やＳＩＭＯ−ＩＣＡを用いてもよい。また、例えば特開２０１２−２２１２０号公報で開示されているような非負値行列因子分解を用いた方法でもよい。これらの方法を用いることで、ビームフォーマでは１つしか得られなかった推定雑音をチャネルごとに得ることができる。

また、雑音推定部１３０２のビームフォーマは最小ノルム法を用いて音源方向にヌルが向くようにしたが、これに限定されない。例えば、音源方向推定などによって、音声方向が分かるような場合には、その方向にヌルを向けるようにしてもよい。

基音周波数調整部１３１０では、２つの基音周波数のうち、より低い周波数を基音周波数として係数設定部１３０４へ出力したが、２つのチャネルの平均値を基音周波数として出力してもよい。また、基音周波数調整部１３１０は入力される２つのチャネルの基音が大きく異なる場合、各チャネルの基音の信頼性をもとに出力する基音を選択するようにしてもよい。例えば過去のフレームの基音を保持するようにして、過去の基音からの連続性を考慮して２つの基音のうち変化量の少ないものを信頼性の高い基音周波数として出力するようにしてもよい。あるいは、基音検出部１３０３は基音検出時の信頼性を合わせて出力するようにしてもよく、ケプストラムによる基音検出を行う場合、ケプストラムのピークの高さやピークの幅などの特徴量を出力するようにしてもよい。基音周波数調整部１３１０では基音検出時のケプストラムのピークが高く、幅の狭いものを信頼性が高い基音として選択する。また、信頼性に応じて重み付き平均を行ってもよい。

本実施形態では２チャネルの混合信号を扱ったが、本発明は３チャネル以上の混合信号にも適用可能である。音声信号入力部１１００が３チャネル以上の場合、基音周波数調整部１３１０では入力される各チャネルの基音周波数を比較し、外れ値か否かを判定するようにしてもよい。外れ値が見つかった場合には外れ値以外のチャネルの平均値を出力する。例えば、外れ値か否かは以下のような式を用いて行う。

ｎ・σ＝ｆ_m−μ

ただし、ｍはチャネル、ｆ_mは第ｍチャネルの基音周波数、μは全チャネルの基音周波数の平均値、σは標準偏差を表す。ここで２σ以上を外れ値とすると、第ｍチャネルの基音周波数ｆ_mが外れ値かどうかを判定できる。例えば８チャネルの入力があった場合に、それぞれの基音周波数が、図１２のようであった場合、平均値は１４４．６Ｈｚ、標準偏差は１８．６Ｈｚとなる。したがって、２σ以上を外れ値とすると、外れ値の上限は１８１．８Ｈｚ、下限は１０７．４Ｈｚとなり、第６チャネルが外れ値となる。外れ値を除く平均は１５１Ｈｚであるので、１５１Ｈｚが出力される。

また、音声信号入力部１１００の入力数が複数の場合には、混入する風雑音の程度が異なる場合が考えられる。そこで、雑音推定部１３０２においてチャネルごとに雑音を推定し、推定雑音量の一番小さいチャネルの基音周波数を出力するようにしてもよい。

また、上述の実施形態では、音声信号入力部はマイクロホンあるいはマイクロホンアレイとしたが、例えばあらかじめ録音された混合信号のファイルを読み込む手段であってもよい。その場合、基音検出や雑音推定はあらかじめ全信号区間でそれぞれの処理を行ってから各フレームに対応する信号を出力するようにしてもよい。

さらにファイルを読み込む場合、基音検出をまず全フレームに対して行う。その後、基音が検出されなかった１つ以上の一連のフレームについては、その前のフレーム又は後のフレームあるいはその両方のフレームにおいて検出された基音周波数を用いて外挿又は内挿するようにしてもよい。図１３に、基音検出ができなかった場合に基音周波数を前のフレーム又は後のフレームあるいはその両方のフレームにおいて検出された基音周波数を用いて補間した例を示す。特に先頭フレームで基音が検出されなかった場合と連続する複数のフレームで基音が検出されなかった場合、そして最終フレームで基音が検出されなかった場合について説明する。基音が検出されなかったフレーム１はフレーム２とフレーム３の値と同じ１５０Ｈｚを出力する。フレーム５から８のように連続して基音が検出されなかった場合はフレーム４とフレーム９の値を用いて線形補間を行い出力する。補間方法は線形補間に限らずスプライン補間などを用いてもよい。フレーム１１はフレーム１０の値と同じ１００Ｈｚを出力する。

また、フレームの基音検出できなかった区間の長さを検出する手段を設け、その区間が所定より長ければ音声が無い区間として境界周波数を最大周波数として、区間所定より短かった場合、境界周波数を０Ｈｚとしてもよい。

＜他の実施形態＞
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア（プログラム）を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（またはＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。この場合、そのプログラム、及び該プログラムを記憶した記憶媒体は本発明を構成することになる。

Claims

入力信号に含まれる雑音成分を抑制する雑音抑制装置であって、
前記入力信号に含まれる音声成分の基音周波数を検出する基音検出手段と、
前記入力信号に含まれる雑音成分を推定する雑音推定手段と、
前記基音検出手段により検出された基音周波数に基づいて、雑音成分の抑制のための減算処理の強度に関わる減算係数を設定する係数設定手段と、
前記係数設定手段により設定された減算係数と前記雑音推定手段により推定された雑音成分とを用いて前記入力信号に含まれる雑音成分を抑制する前記減算処理を実行する減算手段と、
を有し、
前記係数設定手段は、前記基音周波数以下の周波数に境界周波数を設定し、前記境界周波数より低い周波数に対する前記減算処理の強度が前記境界周波数以上の周波数に対する減算処理の強度より大きくなるように前記減算係数を設定する
ことを特徴とする雑音抑制装置。
前記減算手段により実行される前記減算処理は、スペクトルサブトラクションであることを特徴とする請求項１に記載の雑音抑制装置。
スペクトルサブトラクションによって入力信号に含まれる雑音を抑制する雑音抑制装置であって、
前記入力信号に含まれる音声成分の基音周波数を検出する基音検出手段と、
前記入力信号に含まれる雑音成分を推定する雑音推定手段と、
前記基音検出手段により検出された基音周波数に基づいて前記スペクトルサブトラクションにおけるフロアリング係数を設定する係数設定手段と、
前記係数設定手段により設定されたフロアリング係数と前記雑音推定手段により推定された雑音成分とを用いて前記入力信号に対し前記スペクトルサブトラクションを実行する減算手段と、
を有し、
前記係数設定手段は、前記基音周波数以下の周波数に境界周波数を設定し、前記境界周波数より低い周波数に対するフロアリング係数を前記境界周波数以上の周波数に対するフロアリング係数よりも小さい値に設定する
ことを特徴とする雑音抑制装置。
スペクトルサブトラクションによって入力信号に含まれる雑音を抑制する雑音抑制装置であって、
前記入力信号に含まれる音声成分の基音周波数を検出する基音検出手段と、
前記入力信号に含まれる雑音成分を推定する雑音推定手段と、
前記基音検出手段により検出された基音周波数に基づいて前記スペクトルサブトラクションにおける減算係数及びフロアリング係数を設定する係数設定手段と、
前記係数設定手段により設定された減算係数及びフロアリング係数と前記雑音推定手段により推定された雑音成分とを用いて前記入力信号に対し前記スペクトルサブトラクションを実行する減算手段と、
を有し、
前記係数設定手段は、前記基音周波数以下の周波数に境界周波数を設定し、前記境界周波数より低い周波数に対する減算係数を前記境界周波数以上の周波数に対する減算係数よりも大きい値に設定するとともに、前記境界周波数より低い周波数に対するフロアリング係数を前記境界周波数以上の周波数に対するフロアリング係数よりも小さい値に設定する
ことを特徴とする雑音抑制装置。
前記減算手段より前段において、前記入力信号に対してハイパスフィルタ処理を行う、カットオフ周波数可変のハイパスフィルタを更に有し、
前記ハイパスフィルタは、カットオフ周波数を前記境界周波数に設定する
ことを特徴とする請求項２乃至４のいずれか１項に記載の雑音抑制装置。
音声区間を検出する音声区間検出手段を更に有し、
前記基音検出手段は、前記音声区間検出手段により音声区間が検出された場合に基音周波数の検出を実行する
ことを特徴とする請求項２乃至５のいずれか１項に記載の雑音抑制装置。
前記音声区間検出手段により音声区間が検出されなかった場合、前記係数設定手段は、前記境界周波数を、前記入力信号に対して想定される所定の最大周波数に設定することを特徴とする請求項６に記載の雑音抑制装置。
前記音声区間検出手段により音声区間が検出されなかった場合、前記係数設定手段は、前記境界周波数を０Ｈｚに設定することを特徴とする請求項６に記載の雑音抑制装置。
前記音声区間検出手段により音声区間が検出されなかった場合、前記係数設定手段は、前記境界周波数を、前のフレームの基音周波数に基づいて設定することを特徴とする請求項６に記載の雑音抑制装置。
前記入力信号は複数チャネルの入力信号であり、
各手段は、各チャネルの入力信号に対してそれぞれ動作し、
前記基音検出手段により検出された各チャネルの基音周波数のうち最低の周波数を選択して前記係数設定手段に出力する基音周波数調整手段を更に有する
ことを特徴とする請求項２乃至９のいずれか１項に記載の雑音抑制装置。
前記雑音推定手段は、ビームフォーマ、独立成分分析、非負値行列因子分解のうちのいずれか１つによる音源分離技術を用いることを特徴とする請求項２乃至１０のいずれか１項に記載の雑音抑制装置。
前記基音検出手段は、現フレームにおいて基音が検出されなかった場合は、前のフレームで出力された基音周波数を出力することを特徴とする請求項２乃至１１のいずれか１項に記載の雑音抑制装置。
前記基音検出手段は、基音が検出されなかった１つ以上の一連のフレームについては、該一連のフレームの前のフレーム又は後のフレームあるいはその両方のフレームにおいて検出された基音周波数を用いて補間することを特徴とする請求項２乃至１１のいずれか１項に記載の雑音抑制装置。
前記基音検出手段は、基音が検出されなかった場合、基音周波数を０Ｈｚとして出力することを特徴とする請求項２乃至１１のいずれか１項に記載の雑音抑制装置。
前記基音検出手段は、基音が検出されなかった場合、基音周波数を前記入力信号に対して想定される所定の最大周波数として出力することを特徴とする請求項２乃至１１のいずれか１項に記載の雑音抑制装置。
入力信号に含まれる雑音を抑制する雑音抑制装置の制御方法であって、
前記入力信号に含まれる音声成分の基音周波数を検出する基音検出ステップと、
前記入力信号に含まれる雑音成分を推定する雑音推定ステップと、
前記検出された基音周波数に基づいて、雑音成分の抑制のための減算処理の強度に関わる減算係数を設定する係数設定ステップと、
前記設定された減算係数と前記推定された雑音成分とを用いて前記入力信号に含まれる雑音成分を抑制する前記減算処理を実行する減算ステップと、
を有し、
前記係数設定ステップでは、前記基音周波数以下の周波数に境界周波数を設定し、前記境界周波数より低い周波数に対する前記減算処理の強度が前記境界周波数以上の周波数に対する減算処理の強度より大きくなるように前記減算係数を設定する
ことを特徴とする雑音抑制装置の制御方法。
前記減算処理はスペクトルサブトラクションであることを特徴とする請求項１６に記載の雑音抑制装置の制御方法。
スペクトルサブトラクションによって入力信号に含まれる雑音を抑制する雑音抑制装置の制御方法であって、
前記入力信号に含まれる音声成分の基音周波数を検出する基音検出ステップと、
前記入力信号に含まれる雑音成分を推定する雑音推定ステップと、
前記検出された基音周波数に基づいて前記スペクトルサブトラクションにおけるフロアリング係数を設定する係数設定ステップと、
前記設定されたフロアリング係数と前記推定された雑音成分とを用いて前記入力信号に対し前記スペクトルサブトラクションを実行する減算ステップと、
を有し、
前記係数設定ステップでは、前記基音周波数以下の周波数に境界周波数を設定し、前記境界周波数より低い周波数に対するフロアリング係数を前記境界周波数以上の周波数に対するフロアリング係数よりも小さい値に設定する
ことを特徴とする雑音抑制装置の制御方法。
スペクトルサブトラクションによって入力信号に含まれる雑音を抑制する雑音抑制装置の制御方法であって、
前記入力信号に含まれる音声成分の基音周波数を検出する基音検出ステップと、
前記入力信号に含まれる雑音成分を推定する雑音推定ステップと、
前記検出された基音周波数に基づいて前記スペクトルサブトラクションにおける減算係数及びフロアリング係数を設定する係数設定ステップと、
前記設定された減算係数及びフロアリング係数と前記推定された雑音成分とを用いて前記入力信号に対し前記スペクトルサブトラクションを実行する減算ステップと、
を有し、
前記係数設定ステップでは、前記基音周波数以下の周波数に境界周波数を設定し、前記境界周波数より低い周波数に対する減算係数を前記境界周波数以上の周波数に対する減算係数よりも大きい値に設定するとともに、前記境界周波数より低い周波数に対するフロアリング係数を前記境界周波数以上の周波数に対するフロアリング係数よりも小さい値に設定する
ことを特徴とする雑音抑制装置の制御方法。
コンピュータを、請求項１乃至１５のいずれか１項に記載の雑音抑制装置が有する各手段として機能させるためのプログラム。