JP2004507141A

JP2004507141A - 音声強調システム

Info

Publication number: JP2004507141A
Application number: JP2002520408A
Authority: JP
Inventors: リヒト・ツヴィ
Original assignee: クリアー　オーディオ　リミテッド
Priority date: 2000-08-14
Filing date: 2001-08-14
Publication date: 2004-03-04
Also published as: EP1526639A3; EP1312162A1; CN1620751A; EP1526639A2; US20040057586A1; DE60108401D1; AU2001282454A1; WO2002015395A1; CN100397781C; KR100860805B1; ATE287141T1; KR20030040399A; EP1312162B1; DE60108401T2; IL154397A0

Abstract

音声信号にとって無関係な背景ノイズを克服するために音声信号を処理する方法である。本方法は、前記音声信号の周波数成分における前記音声信号の評価基準と、前記背景ノイズの周波数成分におけるノイズの評価基準とを比較し、前記比較に応じてゲインを決定し、前記音声信号の前記周波数成分内には含まれていない少なくとも一つの周波数部分を含む、前記音声信号の少なくとも一部を、決定された前記ゲインによって増幅すること、を含む。

Description

【０００１】
［関連出願］
本出願は、その開示が参照によって本明細書に組み込まれる、２０００年８月１４日に出願された米国仮出願６０／２２４，５１３、および２０００年１０月２日に出願された米国仮出願６０／２３６，７２１の、３５ＵＳＣ§１１９（ｅ）の下での利益を主張する。また、本出願は、その開示が参照によって本明細書に組み込まれる、２０００年７月２７日に出願されたＰＣＴ出願ＰＣＴ／ＵＳ００／２０３９５の一部継続出願（ＣＩＰ）である。
【０００２】
［発明の技術分野］
本発明は、音声強調システムに関する。
【０００３】
［発明の背景］
電話セットは、電話セットを介して受信される音声信号の理解を背景ノイズが妨げるであろうような、ノイズのある場所で使われることがよくある。
【０００４】
その開示が参照によって本明細書に組み込まれるＧｏｌｄｂｅｒｇの米国特許４，８２９，５６５号は、ユーザに音を発する遠隔の信号の音量を背景ノイズに応じて調節する、自動式の音量コントロールシステムを備える電話について記載している。しかしながら、このシステムは、間違った変化のみならず音量についてあまりにも多い変化を生じさせるので、このことが人間の耳に不快感を与える。
【０００５】
その開示が参照によって本明細書に組み込まれる、Ｍｉｌｌｅｒの米国特許５，６１５，２７０号は、車両用の雑音補正システムについて記載している。このシステムは、車両内で感知された信号から所望の音楽の信号を除去することによって発生する雑音信号に基づいて必要な増幅を決定する。
【０００６】
その開示が参照によって本明細書に組み込まれる、Ａｌｌｅｎの米国特許５，５２４，１４８号および５，５２６，４１９号は、ノイズ補正システムについて記載している。このシステムは、ノイズレベルおよび遠端信号の平均スピーチパワーに応じて決定されるゲインによって、電話セットに提供される遠端信号を増幅する。一つの実施形態において、背景ノイズレベルと平均スピーチパワーは、遠端信号の全ての周波数帯について計算され、同じゲインが、遠端信号の全ての周波数帯にかけられる。ゲインの決定で用いられる方法のために、ゲインは十分でないこともあり、または過度であることもある。
【０００７】
Ａｌｌｅｎ特許の別の実施形態では、遠端信号は複数の周波数成分に分けられ、それぞれの周波数成分は、それぞれのゲインで増幅される。それぞれの周波数成分のゲインは、その周波数成分における背景ノイズ、および、その平均周波数成分における平均スピーチパワーまたは全体的な平均スピーチパワーに応じて決定される。この実施形態では、音を発する信号は、その信号の異なる周波数成分についての、異なった関連のない増幅のために歪むであろう。その上、多くの増幅調節が不必要に実行され、このことは、特にバッテリ電源供給システムについては動作電力消費の無駄となるであろう。
【０００８】
その開示が参照によって本明細書に組み込まれる、１９９９年１月１４日に公開されたＰＣＴ公開ＷＯ９９／０１８６３は、ノイズのある環境のためのスピーチ強調システムについて記載している。ＷＯ９９／０１８６３のシステムは、スピーチの１以上の周波数が背景ノイズでマスクされるかどうかを決定するために、スピーチと背景ノイズのスペクトル分析を比較する。このようなマスキングが起きた場合、スピーチの１以上の線スペクトルペア（ＬＳＰ）が、そのＬＳＰについてのスピーチのマスキングを除去するために変更される。ＬＳＰの変更は、その周波数のシフト、そのバンド幅の増加、またはその増幅の増加を含んでいることがある。ＬＳＰの周波数のシフトは、スピーチ信号を歪ませるであろう。
【０００９】
その開示が参照によって本明細書に組み込まれる、Ｒａｓｍｕｓｓｏｎの米国特許５，６３６，２７２は、背景ノイズの関数ではない補正方法を用いて、スピーチをいっそう漠然としたものにするためのシステムについて記載している。
【００１０】
［発明の要約］
本発明のいくつかの実施形態の側面は、背景ノイズを克服できるよう所望の音声信号を調整するためのノイズ補正システムに関連する。このシステムは、音声およびノイズ信号の周波数成分における音声およびノイズ信号の解析に基づいて、増幅をするかどうかを決定し、および／または音声信号の増幅ゲインを決定する。しかしながら、決定された増幅ゲインは、音声信号全体に、または複数の周波数成分を含む音声信号の一部に適用される。周波数成分に基づく増幅ゲインの決定は、必要なゲインのより正確な決定を提供し、一方、そのゲインの信号全体への適用は、信号へ歪みが入るのを防ぐ。
【００１１】
本発明のいくつかの実施形態において、ゲインの決定は、１以上の周波数成分において音声信号のパワーとノイズ信号のパワーとを比較すること、およびその比較に応じてゲインを決定することからなる。本発明のいくつかの実施形態において、音声およびノイズ信号は、実質的に信号のスピーチ周波数帯全ての範囲にわたっていても良い複数の周波数成分に分けられ、また、比較は、実質的に全ての周波数成分において実行される。代替としてまたは追加として、比較は、その周波数成分全てよりも少ない範囲で実行される。例えば、ボイス信号のフォルマント、すなわち、その周波数帯における包絡線のピークを含む周波数成分においてのみ実行される。本発明のいくつかの実施形態において、比較は、ボイス信号のフォルマントを含む、その周波数成分全てよりも少ない範囲で実行される。本発明の模範的な実施形態において、所定数の異なるフォルマント、例えば３つのフォルマントまで、音声信号内で探索される。比較は、その探索で見つかったフォルマントを含む周波数成分に対して実行される。
【００１２】
本発明のいくつかの実施形態において、増幅ゲインは、その比較に関わる、最も低いＳＮＲを持っている周波数成分における信号対ノイズ比（ＳＮＲ）に基づいて選択される。さらに、ゲインは、音声信号全体に適用されても良い。代替として、ゲインは、スピーチ信号を含むことが知られている音声信号の実質的に全ての周波数帯に適用される。本発明のいくつかの実施形態において、信号が増幅ゲインで増幅された後、その信号は、増幅された信号がその許容されるダイナミックレンジを超える場合に備えて、歪みを避ける為に圧縮される。
【００１３】
本発明のいくつかの実施形態の側面は、ボイス信号が第１の周波数成分と異なる１以上の第２の周波数成分での増幅を必要とすることの決定に応じて、ボイス信号の１以上の第１の周波数成分を増幅するノイズ補正システムに関連する。システムは、ボイス信号を複数の周波数成分に分け、そして少なくとも一つの周波数成分について、その周波数成分の振幅が適切であるかどうかを決定する。第１の周波数成分の振幅が不適切であるとの決定に応じて、少なくとも一つの第２の周波数成分の振幅が調節される。本発明のいくつかの実施形態では、決定に応じて、恐らくは同じ調節係数によって、殆どのまたは全ての周波数成分の振幅が調節される。
【００１４】
本発明のいくつかの実施形態の側面は、背景ノイズを克服できるよう所望の音声信号を調節するためのノイズ補正システムに関連する。音声信号は、複数の周波数成分に分割され、それぞれの周波数成分は、ノイズに依存するゲインによって、およびノイズに依存しないゲインによって増幅される。同一の分割で生成された周波数成分にノイズに依存するゲインおよびノイズに依存しないゲインを適用することによって、信号の分割に必要な２倍のコストおよび遅延が発生することなしに、両方のゲインの利点が得られる。本発明のいくつかの実施形態において、ノイズに依存するゲインの少なくとも一部は、信号に依存しないゲイン、例えば所定の固定ゲインでもあるゲインからなっている。本発明のいくつかの実施形態において、ノイズに依存するゲインは、実質的に全ての周波数成分について同じである。
【００１５】
本発明のいくつかの実施形態において、ノイズに依存するゲインおよびノイズに依存しないゲインは、単一の増幅部によって音声信号に適用される。代替として、ゲインのそれぞれの部分を音声信号に適用する複数の増幅部が用いられる。さらに、第１の増幅部がノイズに依存するゲインのみを適用し、また第２の増幅部がノイズに依存するゲインおよびノイズに依存しないゲインの両方を適用するものであっても良い。代替としてまたは追加として、第１の増幅部が信号に依存しないゲインのみを提供し、第２の増幅部が信号に依存するゲインのみを提供する。
なお、本明細書で用いられるゲインという用語は、減衰、つまり１よりも小さいゲイン係数を含んでいても良い。
【００１６】
本発明のいくつかの実施形態の側面は、背景ノイズを克服できるよう所望の音声信号を調節するためのノイズ補正システムに関連する。このノイズ補正システムは、背景ノイズに基づいて、修正された音声信号を計算する。システムの出力は、元の音声信号と、補正された信号との重み付け合計に等しい。補正された信号だけという代わりに重み付けされた合計の音を鳴らすことによって、（元の信号であることの利点を持つ）元の信号と（増強されているという利点を持つ）増強された信号とを兼ね備えたものが提供される。
【００１７】
本発明のいくつかの実施形態において、重み付けされた合計は、元の信号におよび補正された信号に所定の重みを与える。均一の重みが、元の信号におよび補正された信号に与えられても良い。代替としてまたは追加として、重み付けされた合計の重みは、修正された音声信号に適用されたゲインの程度に応じて、および／または背景ノイズの程度に応じて調節される。
【００１８】
本発明のいくつかの実施形態の側面は、音声信号のフォルマントを識別する方法に関連する。この方法は、音声信号の複数の周波数成分についてパワー値を決定すること、それぞれの周波数成分をそれに（周波数で）隣接する周波数成分で平均化するために、周波数成分のパワー値にローパスフィルタをかけること、およびフィルタがかけられたパワー値のパワーのピークを見つけ出すことからなる。
【００１９】
さらに、周波数成分は、複数のフィルタを用いて生成されても良い。代替として、複数の周波数成分はフーリエ変換を用いて生成される。本発明のいくつかの実施形態において、複数の周波数成分は、１０から２４の周波数成分からなる。さらに、これは１２から１５の周波数成分であっても良い。代替として、複数の周波数成分の数は、用いられるＦＦＴのＦＦＴビン（ＦＦＴｂｉｎ）の数からなる。本発明の模範的な実施形態において、複数の周波数成分の値は、ＦＦＴを実行し、複数の隣接するビン（ｂｉｎ）の値を一つの周波数成分の値に合成することによって計算される。
【００２０】
本発明のいくつかの実施形態の側面は、近端部のユーザが話していないとの決定に応じて、遠端部から受信される信号のノイズ補正を実行する双方向の通信ハンドセット、例えば電話のためのノイズ補正システムに関連する。したがって、このノイズ補正システムの電力消費は減じられる。一般に、近端部のユーザが話すとき、遠端部のユーザは黙っているか、近端部のユーザは遠端部から受信した信号を聞いていないか、または、ノイズ補正が有効になっていない。
【００２１】
本発明のいくつかの実施形態の側面は、背景ノイズを克服するできるよう所望の音声信号を増強するためのゲインを決定する方法に関連する。この方法は、異なる期間内で、音声信号の振幅の少なくとも２つの、程度の高い値を決定することを含む。程度の高い値は平均され、ノイズ指標と比較される。さらに、ゲインは、その比較に応じて決定されても良い。本発明のいくつかの実施形態において、ノイズ指標は、音声信号の程度の高い値の平均の計算に類似するやり方で、背景ノイズ信号から計算される。
【００２２】
本発明のいくつかの実施形態において、程度の高い値の平均は、幾何平均または算術平均からなる。代替としてまたは追加として、あらゆる他の平均化の方法が用いられても良い。
【００２３】
さらに、程度の高い値は、それぞれの周期内での最大値であっても良い。代替としてまたは追加として、１以上の程度の高い値は、減衰する最大値であっても良い。すなわち、最大値は格納され、格納された値は所定の関数にしたがって時間と共に減衰する。代替としてまたは追加として、程度の高い値は、より新しい値に高い重みが与えられた、重み付けされた音声信号の最大値からなる。
【００２４】
本発明のいくつかの実施形態の側面は、エコーキャンセルを実行する方法に関連する。この方法は、エコーを発生する信号とエコーキャンセルを受ける信号との相関を見つけ出すこと、およびエコーを発生する信号のみを取り除くことからなる。この方法は、性能は低いけれども、当技術分野で知られた方法と比較して非常にシンプルである。この方法は、エコーが音響の状態が原因となった直接のエコーであるときに特に有利である。
【００２５】
したがって本発明の実施形態によって提供されるのは、音声信号にとって無関係な背景ノイズを克服するために音声信号を処理する方法であって、音声信号の周波数成分における前記音声信号の評価基準と、前記背景ノイズの周波数成分におけるノイズの評価基準とを比較し、前記比較に応じてゲインを決定し、前記音声信号の前記周波数成分内には含まれていない少なくとも一つの周波数部分を含む、前記音声信号の少なくとも一部を、決定された前記ゲインによって増幅すること、を含む。
【００２６】
さらに、前記音声信号の評価基準は、前記音声信号のパワーからなっていても良い。さらに、前記背景ノイズの周波数成分における前記ノイズの評価基準は、前記ノイズのマスキング型のパワーからなっていても良い。恐らく、前記信号の少なくとも一部を増幅することは、前記音声信号の比較された周波数成分を含む部分を増幅することからなるであろう。
【００２７】
さらに、前記信号の少なくとも一部を増幅することは、前記決定されたゲインによって前記音声信号の全体を増幅することからなっていても良い。本発明のいくつかの実施形態において、適用されるべき前記ゲインを決定することは、前記音声信号の周波数成分の周波数帯における信号対ノイズ比を閾値より高くするであろうゲインを決定することからなる。
【００２８】
さらに、前記閾値は、前記信号評価基準および／またはノイズ評価基準の時間変化にしてがって動的に調整されても良い。代替として、前記閾値は所定の値である。さらに、前記音声信号の周波数成分における前記音声信号の評価基準を比較することは、前記音声信号のフォルマントを含む周波数成分において比較することからなっていても良い。さらに、前記音声信号のフォルマントを含む周波数成分において比較することは、前記音声信号の複数の周波数成分の中で最も低い信号対ノイズ比（ＳＮＲ）を持つ周波数帯の周波数成分において比較を行うことからなっていても良い。
【００２９】
さらに、本方法は、前記音声信号を複数の周波数成分に分割し、全周波数成分より少ないものを選択することを含んでいても良い。恐らく、全周波数成分より少ないものを選択することは、前記音声信号のフォルマントを含む周波数成分を選択することからなる。さらに、前記音声信号のフォルマントを含む周波数成分を選択することは、フォルマントを含む周波数成分を所定数まで選択することからなっていても良い。
【００３０】
さらに、本方法は、前記選択された周波数成分から前記音声信号の周波数成分を選択することを含んでいても良い。恐らく、前記音声信号の少なくとも一部を増幅することは、前記比較に応じて決定されたゲインを含む複数のゲインから合成されたゲインで増幅することからなるであろう。さらに、本方法は、前記背景ノイズが存在する状態で前記増幅された信号の音を鳴らすことを含んでいても良い。
【００３１】
恐らく、前記音声信号の周波数成分と前記ノイズの周波数成分とは、実質的に同じ周波数帯にわたっているであろう。さらに、前記周波数成分は周波数帯からなっていても良い。
【００３２】
さらに、本発明の実施形態によって提供されるのは、音声信号にとって無関係な背景ノイズを克服するために音声信号を処理する方法であって、前記音声信号を複数の周波数成分に分割し、前記周波数成分のそれぞれについてのノイズに依存しないゲインによって、それぞれの前記周波数成分を強調し、それぞれの周波数成分を、前記周波数成分のノイズ依存のゲインで乗算すること、を含む。
【００３３】
恐らく、本方法は、前記複数の周波数成分を強調された音声信号に再結合することを含むであろう。
【００３４】
さらに、前記音声信号を複数の周波数成分に分割することは、１０から２４の周波数成分、または１００より多い周波数成分に分割することからなっていても良い。さらに、前記音声信号を複数の周波数成分に分割することは、実質的に重なり合っていない複数の周波数成分に分割することからなっていても良い。恐らく、それぞれのノイズに依存しないゲインによってそれぞれの前記周波数成分を強調することは、信号に依存しない所定のゲインによって強調することからなるであろう。
【００３５】
恐らく、それぞれの周波数成分を前記周波数成分のノイズ依存のゲインで乗算することは、実質的に全ての周波数成分を、同一のノイズ依存のゲインで乗算することからなるであろう。恐らく、前記強調および増幅は、一つの機能要素で実行されるであろう。さらに、前記強調および増幅は、別々の機能要素で実行されても良い。
【００３６】
さらに、前記ノイズに依存しないゲインは、前記音声信号がボイススピーチ（ｖｏｉｃｅｄｓｐｅｅｃｈ）を含む場合、ボイススピーチ強調係数からなっていても良い。恐らく、前記音声信号を複数の周波数成分に分割することは、前記音声信号にフーリエ変換を適用することからなるであろう。代替としてまたは追加として、前記音声信号を複数の周波数成分に分割することは、前記音声信号を、バンドパスフィルタのアレイを通過させることからなる。
【００３７】
さらに、本発明の実施形態によって提供されるのは、音声信号にとって無関係な背景ノイズを克服するために音声信号を処理する方法であって、音声信号を受信し、前記音声信号を前記背景ノイズの評価基準に応じて強調し、前記強調された音声信号と前記受信した音声信号との重み付けされた合計である出力を提供すること、を含む。
【００３８】
さらに、前記音声信号を強調することは、前記音声信号の複数の周波数成分をそれぞれのゲインで乗算することからなっていても良い。さらに、重み付けされた合計を提供することは、動的に調整される重みにより生成される重み付けされた合計を提供することからなっていても良い。さらに、前記動的に調整される重みは、前記音声信号が強調される程度に応じて決定されても良い。本発明のいくつかの実施形態において、前記音声信号を強調することは、複数の異なるゲイン係数を計算し、前記音声信号を前記複数のゲイン係数で乗算することからなり、前記動的に調整される重みは、前記ゲイン係数の一つに応じて決定される。
【００３９】
さらに、前記異なるゲイン係数の少なくとも一つは、過去に依存するゲイン係数からなっていても良い。さらに、重み付けされた合計を提供することは、所定の重みにより生成された、重み付けされた合計を提供することからなっていても良い。さらに、前記重み付けされた合計を提供することは、前記提供された重み付けされた合計の聞き手が話しているという決定に応じて、前記受信された音声信号が支配的となる重み付けされた合計を提供することからなっていても良い。さらに、前記重み付けられた合計を提供することは、前記音声信号がスピーチ信号を含まないという決定に応じて、前記受信された音声信号が支配的となる重み付けされた合計を提供することからなっていても良い。
【００４０】
さらに、本発明の実施形態によって提供されるのは、ノイズ補正システムであって、音声信号を受信するように構成された入力インタフェースと、強調された音声信号を鳴らすように構成されたスピーカと、前記強調された信号を聞く聞き手を妨害するであろう背景ノイズを集めるように構成されたマイクロフォンと、前記強調された音声信号を提供するために、前記音声信号の周波数成分における前記音声信号の評価基準と、同一の周波数成分における背景ノイズの評価基準とを比較し、前記比較に基づいてゲインを決定し、および、前記周波数成分内にはない少なくとも一つの部分を含む、前記音声信号の少なくとも一部を増幅するように構成されたコントローラと、を備える。
【００４１】
さらに、前記スピーカおよび前記マイクロフォンは、電話ハンドセットの部分であっても良い。さらに、本システムは、前記背景ノイズから前記強調された音声信号の少なくとも一つのエコーを取り除くエコーキャンセラを備えていても良い。さらに、前記エコーキャンセラは、前記背景ノイズから前記強調された音声信号の一つのエコーのみを取り除くものであっても良い。
【００４２】
さらに、本発明の実施形態によって提供されるのは、音声信号にとって無関係な背景ノイズを克服するために音声信号を強調するためのゲインを決定する方法であって、前記音声信号の評価基準についてある時間にわたり複数の程度の高い値を決定し、前記程度の高い値を平均し、前記平均と前記ノイズの評価基準を比較し、前記比較に応じて前記音声信号を強調するためのゲインを決定すること、を含む。
【００４３】
さらに、前記複数の程度の高い値を決定することは、前記音声信号の異なる時間部分について程度の高い値を決定することからなっていても良い。さらに、前記複数の程度の高い値を決定することは、前記音声信号の異なる長さの時間部分について程度の高い値を決定することからなっていても良い。さらに、前記複数の程度の高い値を決定することは、最大値を決定することからなっていても良い。代替としてまたは追加として、前記複数の程度の高い値を決定することは、より最近の値に高い重みが付けられる、前記音声信号の重み付けがなされたものについての最大値を決定することからなる。さらに、前記程度の高い値を平均することは、幾何平均を計算することからなっていても良い。
【００４４】
［実施形態の詳細］
図１は、本発明の実施形態によるノイズ補正システム３０の模式図である。システム３０は、スピーカ３２によって音を鳴らされる入力ボイズ信号Ｓｉｎｐｕｔ（ｔ）を受信する。例えば、Ｓｉｎｐｕｔ（ｔ）は、電話の会話における遠くの仲間から受信される。コントローラ４０は、スピーカ３２の近くで、入力ボイス信号Ｓｉｎｐｕｔ（ｔ）とノイズの推定値Ｎ（ｔ）を受信し、入力ボイス信号のノイズ補正されたものである、ノイズ補正入力信号Ｓ’（ｔ）を提供する。
【００４５】
本発明のいくつかの実施形態において、入力ボイス信号は、入力ボイス信号Ｓｉｎｐｕｔ（ｔ）についてのノイズが除去されたものであるＳ（ｔ）を提供するノイズクリーナ９５を通される。ノイズクリーナ９５は、スピーカ３２の近辺のノイズとは関係無しに動作する。ノイズクリーナ９５は、さらに、スピーチの信号がないときにノイズを測定し、ノイズの周波数帯の形式を決定しても良い。さらに、ノイズクリーナ９５は、スピーチを含む信号部分のスペクトル表現からノイズのスペクトル表現を取り除いても良い。代替としてまたは追加として、その開示が参照によって本明細書に組み込まれる、Ｈｅｌｆらの米国特許５，５５０，９２４号、および／または、Ｙｏｏによる、“ＵｔｉｌｉｚｉｎｇＩｎｔｅｒｂａｎｄＡｃｏｕｓｔｉｃａｌＩｎｆｏｒｍａｔｉｏｎＦｏｒＭｏｄｅｌｉｎｇＳｔａｔｉｏｎａｒｙＴｉｍｅ−ＦｒｅｑｕｅｎｃｙＲｅｇｉｏｎｓｏｆＮｏｉｓｙＳｐｅｅｃｈ”、音響、スピーチ、および信号処理、１９９９、ＩＥＥＥ会報ｖｏｌ．２、８０９−８１２ページに記載されているような、当技術分野で知られた他のあらゆるノイズクリーナが用いられても良い。代替としてまたは追加として、ノイズクリーナは、周波数成分が決定された後の位置で、コントローラ４０と一緒になっていても良い。
【００４６】
本発明のいくつかの実施形態において、ノイズ推定値Ｎ（ｔ）は、スピーカ３２の近くのマイクロフォン３２によって集められた入力ノイズ信号ｎ（ｔ）に応じて生成される。さらに、入力ノイズ信号ｎ（ｔ）は、ノイズ推定値Ｎ（ｔ）を提供するために、アンプ３６で増幅され、エコーキャンセラ（ＥＣ）９６を通されても良い。エコーキャンセラ９６は、入力ノイズ信号ｎ（ｔ）から、マイクロフォン３４に集められたおよび／または音響結合によりｎ（ｔ）に入り込んだ、出力された信号Ｓ’（ｔ）のエコーを除去する。
【００４７】
本発明のいくつかの実施形態において、エコーキャンセラ９６は、出力信号Ｓ’（ｔ）についての最近の所定のサイズのセグメント（例えば２、３ｍｓｅｃ）に関して、ノイズ信号ｎ（ｔ）における最大相関セグメントを見つけ出す。さらに、エコーキャンセラ９６は、セグメントの相関値、およびそれらの時間差を決定しても良い。本発明のいくつかの実施形態において、エコーキャンセラ９６は、セグメント間の時間差だけボイス信号Ｓ’（ｔ）を遅延させ、遅延されたボイス信号を、決定された自動相関値倍する。さらに、ノイズ推定値Ｎ（ｔ）は、乗算され遅延されたボイス信号が引かれた、検知されたノイス信号ｎ（ｔ）として計算されても良い。この場合、エコーキャンセラ９６は、あまり正確ではないという代償を払うけれども、当技術分野で知られた他のエコーキャンセラよりもシンプルである。代替としてまたは追加として、例えば適応フィルタリングを利用するエコーキャンセラを含む他のエコーキャンセラが用いられても良い。
【００４８】
さらに代替としてまたは追加として、ノイズｎ（ｔ）は、エコーキャンセラを通されない。本発明の模範的な実施形態において、マイクロフォン３４がスピーカ３２に近くないとき、例えばマイクロフォン３４がスピーカ３２の近くというよりむしろノイズの発生源に近い時には、エコーキャンセラは用いられない。例えば、主要なノイズ発生源、例えば車のモータが知られているとき、マイクロフォン３４はモータの近くに配置されても良い。本発明の模範的な実施形態において、スピーカ３２およびマイクロフォン３４は、例えば、垂直にまたは反対の方向を向いて、電話の中で互いに少なくとも約９０度の角度で配置される。
【００４９】
本発明のいくつかの実施形態において、ノイズ補正システム３０は、有線のまたは携帯電話セットの近くにあるノイズを補正する。さらにシステム３０は、電話セット内に配置されても良い。代替としてまたは追加として、システム３０またはその一部は、電話セットのサービスを行う電話ネットワーク内に配置される。さらに、マイクロフォン３４は、普通の使用に加えて、入力ノイス信号ｎ（ｔ）を集める為に用いられる通常の電話セットのマイクロフォンであっても良い。代替としてまたは追加として、マイクロフォン３４は、電話セットに取り付けらるフリーハンドのマイクロフォンである。さらに代替としてまたは追加として、マイクロフォン３４は、電話セットの通常のマイクロフォンとは独立している。
【００５０】
本発明のいくつかの実施形態において、システム３０は、アナウンスシステム、音楽システム、ビデオ会議システム、ラジオ、および／またはテレビのような他のボイズサウンディングシステムおよび／またはオーディオシステムと共に用いられる。本発明のいくつかの実施形態において、複数のマイクロフォンが、ノイズＮ（ｔ）の推定で用いられるノイズ信号を集めるために用いられる。１以上のマイクロフォン３４が、ノイズの発生源の近くに、聞き手の近くに、および／または補正されるべきノイズレベルの決定に適したあらゆる他の位置に配置されても良い。本発明のいくつかの実施形態において、一つの入力信号Ｓｉｎｐｕｔ（ｔ）が、複数のスピーカ３２で音を鳴らされる。したがって、システム３０は、それぞれのノイズ推定値Ｎ（ｔ）に応じてそれぞれのスピーカ３２に対して、それぞれに入力信号を修正する。
【００５１】
図２Ａは、本発明の好ましい実施形態によるコントローラ４０のブロック図である。さらに、コントローラ４０は、所定の周期、例えば１０または１２．５ｍｓｅｃごとに１サンプル値のような周期で提供されるデジタルのサンプル値のストリームとして、入力信号Ｓ（ｔ）およびノイズ推定信号Ｎ（ｔ）を受信しても良い。代替としてまたは追加として、入力信号Ｓ（ｔ）および／またはノイズ推定信号Ｎ（ｔ）は、好適なアナログ−デジタルコンバータ（不図示）を用いてデジタルストリームに変換されるアナログ信号として提供されても良い。本発明のいくつかの実施形態において、ボイス信号Ｓ（ｔ）およびノイズ信号Ｎ（ｔ）の所定数のサンプル値が、バッファ１１０および１１６にそれぞれ蓄積される。蓄積されたサンプル値は、さらに、入力信号Ｓ（ｔ）の複数の周波数成分について値Ｓ_１，Ｓ_２，・・・，Ｓ_ｎ、およびノイズ信号Ｎ（ｔ）についての複数のそれぞれの周波数成分値Ｎ_１，Ｎ_２，・・・，Ｎ_ｍを提供するために、高速フーリエ変換ユニット１１１および１１５をそれぞれ通されても良い。代替としてまたは追加として、必ずしもＦＦＴではなく、他のフーリエ変換方法が用いられても良い。
【００５２】
本発明のいくつかの実施形態において、ＦＦＴのそれぞれのビン（ｂｉｎ）は、それぞれの周波数成分に対応する。代替として、それぞれの周波数成分は、それぞれのビン（ｂｉｎ）のグループからなる。本発明のいくつかの実施形態において、極端なものを除く実質的に全ての周波数成分は、同じビン（ｂｉｎ）数から構成される。代替としてまたは追加として、例えば図２Ｂを参照して以下で記載されるように、周波数成分の帯域が決定され、それぞれの周波数帯域に含まれるビン（ｂｉｎ）の値は、周波数成分の値の決定で用いられる。
【００５３】
さらに、周波数成分値Ｓ_１，Ｓ_２，・・・，Ｓ_ｎは、ボイス信号Ｓ（ｔ）の理解度を上げるために、所定の強調方式によって特定の周波数成分を強調する強調フィルタ１１２によってフィルタ処理されても良い。強調フィルタ１１２は、さらに、スピーチ信号を強調するために、主要なスピーチ周波数を含む周波数成分の振幅を強調しても良い。強調フィルタ１１２の模範的な実施形態は、図６を参照して以下で述べる。その後、以下で述べるように、強調された周波数成分値は、乗算部１１７において、論理部７７でノイズ信号Ｎ（ｔ）およびボイス信号Ｓ（ｔ）に応じて決定されたそれぞれのゲイン係数（信号線１２１上のｇ_ｉ）倍される。このように、それぞれの周波数成分は、強調フィルタ１１２によってノイズに依存しない値倍され、乗算部１１７によってノイズに依存する値倍される。
【００５４】
ノイズ依存の修正を行う前に強調フィルタ１１２によってスピーチ信号を強調することで、ノイズ依存の修正は、ボイス信号Ｓ（ｔ）のスピーチ成分の処理に焦点を合わせられる。なお、以下で記載するように、ボイス信号に歪みを生じさせないように、ノイズ依存の修正は一般に全ての周波数成分に対して同じである。一方、ノイズに依存しない修正は、異なる周波数に対して異なるゲインを持っていても良い。異なるゲインを異なる周波数成分に適用することはボイス信号を歪ませることになるかも知れないが、このような歪みは既知の影響を持ち、調整される信号の外部の値、すなわちノイズには左右されない。本発明のいくつかの実施形態において、以下で記載するように、乗算部１１７のゲイン｛ｇ_ｉ｝は、ノイズに依存するおよびノイズに依存しない修正の組み合わせである。
【００５５】
強調フィルタ１１２を乗算部１１７の前に配置することに対する代替としてまたは追加として、強調フィルタ１１２（または第２の強調フィルタ）は、乗算部１１７の出力上で動作することもできる。周波数成分のうちの一つの抽出物に基づいてノイズに依存するおよびノイズに依存しない修正の両方を実行することにより、ノイズ補正システム３０の複雑さが減少する。
【００５６】
調節されたボイズ信号Ｓ’’（ｔ）を提供する為に、乗算された周波数成分は、さらに、逆ＦＦＴ（ＩＦＦＴ）部１１８によって再び時間領域に変換されても良い。本発明のいくつかの実施形態において、以下で述べるように、重み付け平均部１３３は、論理部７７で生成されたそれぞれの重みｂ１およびｂ２（ｂ１＋ｂ２＝１）に基づいて、調節されたボイズ信号Ｓ’’（ｔ）および入力ボイス信号Ｓ（ｔ）の重み付け合計Ｓ^Ｗ（ｔ）を生成する。さらに、重み付け合計は、必要であれば、重み付け合計がスピーカ３２の動作範囲を超えないように重み付け合計を調節するソフトリミッタ１００に提供されても良い。リミッタ１００からの信号は、さらに、デジタル−アナログ（Ｄ／Ａ）変換器３１によってアナログ信号に変換され、パワーアンプ５２で増幅され、およびスピーカ３２で音を鳴らされても良い。代替として、Ｄ／Ａ変換器３１は、重み付け平均部１３３の加算器の前、またはリミッタ１００の前に配置されても良い。
【００５７】
本発明のいくつかの実施形態において、リミッタ１００は、重み付け合計Ｓ^Ｗ（ｔ）をアンプ５２の所定の動作制限の範囲に制限する。代替としてまたは追加として、リミッタ１００によって重み付け合計Ｓ^Ｗ（ｔ）が制限される範囲は、アンプ５２の現在のダイナッミックレンジに基づいて周期的に決定される。さらに、リミッタ１００は、対称的な制限、すなわち、−ｌｉｍｉｔ＜Ｓ^Ｗ（ｔ）＜＋ｌｉｍｉｔの間に制限されても良い。本発明の模範的な実施形態において、リミッタ１００は、以下の関数を実行する。
【００５８】
【数１】

ここで、Ａは、０から１の間の任意の値であり、ｘは、制限すべき信号であり、Ｆ（ｘ）は、制限された信号である。
【００５９】
リミッタ１００を用いることに対する代替としてまたは追加として、コントローラ４０が実質的にパワーアンプ５２のダイナミックレンジを超える信号を発生することができないように、パワーアンプ５２のダイナミックレンジは、コントローラ４０に入る信号のダイナミックレンジよりも大きい。さらに、代替としてまたは追加として、以下で記載するように、論理部７７で生成されるゲインは、リミッタ１００の必要を実質的になくす圧縮係数である。しかしながら、本発明のいくつかの実施形態では、あらゆる歪みを防ぐ為に、たとえ論理部１００で生成されるゲインが圧縮係数であるときであっても、リミッタ１００は用いられる。
【００６０】
本発明のいくつかの実施形態において、論理部７７は、ボイス信号Ｓ（ｔ）のそれぞれの周波数成分についてパワーレベルＥＳ_ｉを、ノイズ信号Ｎ（ｔ）のそれぞれの周波数成分についてパワーレベルＥＮ_ｉを受信する。さらに、信号の絶対値の二乗（ＡＢＳ^２）を生成するパワー決定部１１３は、強調フィルタ１１２からＳ（ｔ）の周波数成分の強調された値を受信し、それらの値から、各周波数成分についてパワーＥＳ_ｉを決定する。本発明のいくつかの実施形態において、ＦＦＴ部１１５で生成されたノイズ信号Ｎ（ｔ）の周波数成分は、各周波数成分におけるノイズ信号Ｎ（ｔ）のパワーＥＮ_ｉを計算するパワー決定部１１４（ＡＢＳ^２）を通される。さらに、ノイズパワー信号ＥＮ_ｉは、図７を参照して以下で述べるように、ヒトの音響上の考慮事項にしたがってノイズパワー信号ＥＮ_ｉを調節するマスキング部１１９を通される。
【００６１】
本発明のいくつかの実施形態では、ボイス信号Ｓ（ｔ）およびノイズ信号Ｎ（ｔ）は、同じ周波数成分の区分を用い、同じ数の周波数成分（つまりｎ＝ｍ）に分けられいる。代替として、ボイス信号Ｓ（ｔ）およびノイズ信号Ｎ（ｔ）は、異なる数の周波数成分に分けられても良い。本発明のいくつかの実施形態において、ノイズ信号Ｎ（ｔ）は、より広い帯域幅の周波数帯に変換される。さらに、これらの実施形態において、ノイズ信号Ｎ（ｔ）は、ボイス信号Ｓ（ｔ）よりも多い周波数成分に分けらる。この場合、１または２の周波数成分だけ多くても良い。本発明のいくつかの実施形態において、ノイズ信号Ｎ（ｔ）の追加の周波数成分は、低い周波数に影響を与える高い帯域のノイズ周波数を考慮に入れるために、マスキング部１１９によって用いられる。さらに、論理部７７に提供されるノイズおよびボイス信号は、同じ数の周波数成分を持っていても良い。
【００６２】
本発明のいくつかの実施形態において、ボイス信号Ｓ（ｔ）およびノイズ信号ｎ（ｔ）の両方は、ノイズ信号のいっそう多い数の周波数成分の生成を可能にする共通の十分に高速なサンンプリング速度でサンプリングされる。代替として、ノイズ信号ｎ（ｔ）は、サンプリングされた信号ｎ（ｔ）からいっそう多い数の周波数成分が生成されるように、ボイス信号Ｓ（ｔ）よりも高い周波数でサンプリングされる。さらに、ノイズ信号ｎ（ｔ）は、信号の容易な比較が可能となるように、その後、ボイス信号Ｓ（ｔ）のサンプリング速度に落としてサンプリングされても良い。代替として、ボイス信号Ｓ（ｔ）は、高い周波数成分に０値が埋められる。
【００６３】
本発明のいくつかの実施形態において、ボイス動作検出（ＶＡＤ）部２５０は、Ｓ（ｔ）がスピーチ信号を含んでいないとき（例えば語と語の間の無音の期間）を決定し、Ｓ（ｔ）がスピーチ信号を含んでいないときに論理部７７を実質的にディスエーブルにする。このように、背景ノイズｎ（ｔ）を“克服”するために、語と語の間でボイス信号Ｓ（ｔ）に含まれるノイズは増幅されない。さらに、ＶＡＤ部２５０が入力はスピーチ信号を含んでいないと決定したときに、論理部７７は、ボイス信号Ｓ（ｔ）がスピーチを実際に含んでいたときの前の時間からの出力ゲイン｛ｇ_ｉ｝を提供しても良い。代替としてまたは追加として、論理部７７の１以上の要素が、電力消費を減じる為に出力を行わない。さらに、ボイス信号Ｓ（ｔ）がスピーチを含まないと決定されたときに、ボイス信号Ｓ（ｔ）は、変更されることなしにスピーカ３２に提供されても良い。代替として、ボイス信号がスピーチ信号を含んでいないときに、ボイス信号Ｓ（ｔ）はカットされ、信号は音を鳴らされない。
【００６４】
本発明のいくつかの実施形態において、ＶＡＤ部２５０は、ボイス信号Ｓ（ｔ）がスピーチ信号を含むかどうかを、信号の振幅とボイス閾値との比較に基づいて決定する。さらに、ボイス閾値は、セッションの開始のノイズレベル、例えば電話の会話の開始時に測定されたノイズレベルに応じて設定されても良い。代替として、ボイス閾値は、工場調整され、またはさもなければ予め決定されても良い。さらにそれに代わるものとして、ボイス閾値は、連続的におよび／または周期的に取得されるノイズ測定値に応じて適応的に調整されても良い。本発明のいくつかの実施形態において、閾値は、測定されたノイズの所定値倍、例えばノイズの３から５倍に設定される。代替としてまたは追加として、当技術分野で知られた、あらゆる他のＶＡＤが用いられても良い。
【００６５】
本発明のいくつかの実施形態において、コントローラ４０の処理の繰返しが、所定数のサンプル値、例えば１００から１０００のサンプル値に適用される。さらに、この所定数は、サンプリング速度に依存していても良い。さらに、コントローラ４０の処理の繰り返しは、高速フーリエ変換（ＦＦＴ）を用いてフーリエ変換を実行することを可能にする為に、２の累乗、例えば１２８，２５６または５１２である多数のサンプル値に適用されても良い。本発明のいくつかの実施形態において、それぞれの繰り返しで用いられるサンプル値の数は、多数のサンプル値を要求する、必要な精度と、少数のサンプル値を要求する遅延の短縮との間の妥協点である。さらに、ユーザは、繰り返しの処理で用いられるサンプル値の数を特定の時間に調節しても良い。本発明のいくつかの実施形態において、遅延は、信号の発生元からスピーカ３２に至るまでの信号のトータルの遅延にしたがって設定されても良い。例えば、システム３０が電話で用いられているとき、往復遅延（ＲＴＤ）が比較的小さい場合には、比較的大きな遅延（例えば２０ｍｓ）を招く、多数のサンプル値を用いるＦＦＴが用いられても良い。しかしながら、信号のＲＴＤが比較的大きい場合には、システム３０の遅延は、ＦＦＴを実行するサンプル値の数を減じることによって、５または１０ｍｓに制限されても良い。
【００６６】
さらに、それぞれの処理の繰り返しは、重なり合いのないサンプル値のグループに対して実行されても良い。代替として、それぞれの処理の繰り返しは、１以上の以前の処理の繰り返しで用いられたサンプル値に部分的に重なり合うサンプル値のクループに対して実行される。本発明の模範的な実施形態において、処理の繰り返しは、１２８個のサンプル値が集められる毎に、最も新しい２５６のサンプル値に対して実行される。本発明のいくつかの実施形態において、重なり合うサンプル値の量は、スピーチ品質対電力消費の関数として調節される。電力消費を最小にすることが必要となるとき、いっそう少ない数の処理の繰り返しが、少ない重なり合いまたは重なり合いのない状態で実行される。高いスピーチ品質が必要となるとき、頻繁な処理の繰り返しが、高い重なり合いの割合で実行される。さらに、ユーザは、所望の処理の繰り返しの速度を選択しても良い。
【００６７】
フーリエ変換を用いて周波数成分値を生成することに対する代替として、図２Ｂを参照してここで述べるように、バンドパスフィルタのアレイが、ボイス信号およびノイズ信号の周波数成分信号を生成するために用いられても良い。フィルタアレイを使用することにより、システム３０は、実質的に遅延を伴うことなく動作することが可能になる。
【００６８】
図２Ｂは、本発明の実施形態による、コントローラ４０’のブロック図である。コントローラ４０’は、コントローラ４０に類似しており、コントローラ４０の代わりにシステム３０において用いることができる。以下の記載では、コントローラ４０’の中でコントローラ４０と異なる要素についてのみ記載する。コントローラ４０’において、ボイス信号Ｓ（ｔ）およびノイズ信号Ｎ（ｔ）は、複数の周波数成分ボイズ信号Ｓ_１（ｔ），Ｓ_２（ｔ），・・・，Ｓ_ｎ（ｔ）および複数の周波数成分ノイズ信号Ｎ_１（ｔ），Ｎ_２（ｔ），・・・，Ｎ_ｍ（ｔ）を生成する、各バンドパスフィルタ（ＢＰＦ）アレイ６２および６４を通される。
【００６９】
ボイスおよびノイズ周波数成分の数は、コントローラ４０を参照して上記したあらゆる代替手段にしたがっていても良い。本発明のいくつかの実施形態において、フィルタアレイ６２におけるフィルタの数は、必要な質、およびコントローラ４０が対応する周波数範囲に依存して、約１０から６０の間である。さらに、コントローラ４０の周波数範囲は、音声周波数範囲、例えば２０Ｈｚから２０ＫＨｚの範囲であっても良い。代替として、コントローラ４０の周波数範囲は、ヒトの音声の周波数範囲、例えば４から７ＫＨｚまであっても良い。さらに代替としてまたは追加として、周波数範囲は、例えば、システム３０がペットに用いられた場合には、いっそう小さなまたはいっそう大きな周波数範囲である。
【００７０】
本発明のいくつかの実施形態において、１ｋＨｚまでの周波数成分は、約１００Ｈｚの帯域幅を持ち、いっそう高い範囲の周波数成分は、周波数に対数的に関係する帯域幅を持つ。さらに、周波数成分の周波数は、ヒトの耳の音響のおよび／または他の特性にしたがって選択されても良い。例えば、ヒトの耳で実質的に異なって知覚される周波数は、異なる周波数成分に含められても良い。
【００７１】
本発明のいくつかの模範的な実施形態において、周波数成分への分割は、当技術分野で知られた重要なボイスバンドにしたがって決定される。これらの模範的な実施形態において用いられる周波数成分の数は、重要であるとみなされる周波数範囲に依存する。０−２０ｋＨｚの範囲については、これらの模範的な実施形態は、さらに、約２４の周波数成分を用いても良い。３００−４０００Ｈｚの範囲については、これらの実施形態は、さらに、以下の周波数、すなわち約４５０，５７０，６３０，７００，８４０，１００，１１７０，１３７０，１６００，１８５０，２１５０，２５００および２９００Ｈｚに中心を置く周波数成分を用いるものであっても良い。
【００７２】
本発明の別の模範的な実施形態において、周波数成分は、以下の周波数範囲、４００−５１０，５１０−６３０，６３０−７７０，７７０−９２０，９２０−１０８０，１０８０−１２７０，１２７０−１４８０，１４８０−１７２０，１７２０−２０００，２０００−２３２０，２３２０−２７００および２７００−３１５０Ｈｚからなっていても良い。なお、周波数成分の周波数範囲の範囲内の周波数よりは重要性は低いけれども、４００Ｈｚよりも低い周波数および３１５０Ｈｚよりも高い周波数は、最初のおよび最終の周波数成分で対応されていても良い。
【００７３】
なお、上記の例は限定をするものではなく、周波数成分の他の組が用いられても良い。特に、いっそう多い数の周波数成分、例えば３２、４８、またはさらに６５が用いられても良い。代替としてまたは追加として、周波数成分の範囲は、部分的に重なり合い、またはボイス信号の全周波数範囲よりも小さい範囲に対応するものであっても良い。
【００７４】
本発明のいくつかの実施形態において、アレイ６２および６４内のフィルタは、バタワース（Ｂｕｔｔｅｒｗｏｒｔｈ）フィルタからなる。これは、さらに、少なくとも２、３、４、５、またはさらに６の段階を持つものであっても良い。本発明の模範的な実施形態において、システム３０に低い電力消費が要求されるとき、２または３の段階が用いられる。高い精度が要求されるときには、少なくとも５または６の段階がさらに用いられても良い。本発明のいくつかの実施形態において、フィルターがヒトの耳の内部でのスピーチに対するノイズのマスキング効果を真似ることができるように、段階の数は選択される。
【００７５】
さらに、周波数成分の制限は、フィルタの−３ｄＢの位置であっても良い。本発明のいくつかの実施形態において、フィルタの最大の増幅は約１である。代替といしてまたは追加として、アレイ６２および／またはアレイ６４のいくつか、または全てのフィルタは、チェビシェフ（Ｃｈｅｂｙｓｈｅｖ）、ベッセル（Ｂｅｓｓｅｌ）、または楕円（ｅｌｌｉｐｔｉｃ）フィルタのような、他のタイプのものである。さらに、対応する周波数成分のノイズおよびボイスフィルタは、同じ特性を持つ。代替としてまたは追加として、対応する周波数成分のノイズおよびボイスフィルタの少なくともいくつかは、異なる特性である。例えば、本発明のいくつかの実施形態において、フィルタアレイ６２のフィルタは、強調フィルタ１１２のいくつかのまたは全ての強調を実行する（さらに、強調フィルタ１１２はこれらの実施形態において除かれても良い）。これらの実施形態において、強調を実行するフィルタアレイ６２は、フィルタアレイ６４とは異なっていても良い。
【００７６】
本発明のいくつかの実施形態において、コントローラ４０’は、パワー信号ＥＳ_ｉ（ｔ）を得る為に、それぞれのボイス周波数成分信号Ｓ_ｉ（ｔ）を二乗する乗算器アレイ７０を備える。パワー信号ＥＳ_ｉ（ｔ）は、さらに、各ローパスフィルタ（ＬＰＦ）７６でフィルタ処理され、次に、周波数成分パワー値ＥＳ_ｉを生成するために、サンプラー（不図示）によってサンンプリングされても良い。サンプラーを用いることに対する代替として、論理部７７が、その入力端から値が入力されたときにサンプリングを実行する。さらに、ローパスフィルタ７６が、サンプリングによって、代表値でない変動した値が取り込まれることがないように、サンンプリングの前にパワー信号ＥＳ_ｉ（ｔ）を平滑化しても良い。同様に、ノイズ周波数成分信号Ｎ_ｉ（ｔ）が、それぞれの信号を二乗する、乗算器アレイ６８内の各乗算器を通される。二乗された信号は、さらに、ローパスフィルタアレイ（ＬＰＦ）７３によってフィルタ処理され、周波数成分パワー値Ｎ_ｉを生成する為にサンプリングされても良い。
【００７７】
本発明のいくつかの実施形態において、ＬＰＦ７３および／または７６は、１次または２次のフィルタからなる。さらに、ローパスフィルタは、各周波数成分についての低周波数境界Ｆｍｉｎに依存する−３ｄＢポイントを持っていても良い。本発明の模範的な実施形態において、パワー信号のＤＣ成分を捕らえるために、−３ｄＢポイントは、およそＦｍｉｎ／ｋの位置にある。ここでｋは、約１．５から２の間である。代替としてまたは追加として、１以上のローパスフィルタが、各周波数成分の高周波数境界に依存する−３ｄＢポイントを持つ。さらに代替としてまたは追加として、あらゆる他のローパスフィルタが用いられても良い。さらに代替としてまたは追加として、パワー信号のＤＣ成分を動的に取り出すための、あらゆる他の好適な方法および／またはフィルタが用いられる。
【００７８】
乗算部１１７の後、周波数成分信号Ｓ_１（ｔ），Ｓ_２（ｔ），・・・，Ｓ_ｎ（ｔ）は、さらに、例えば信号加算器６５によって合成される。
【００７９】
図３は、本発明の実施形態による、論理部７７の図である。論理部７７は、パワーベクトル｛ＥＳ_ｉ｝で表されているように、ボイス信号Ｓ（ｔ）の様々な評価に応じて、ボイス信号Ｓ（ｔ）の周波数成分を乗算することになるゲイン係数を決定する複数のゲイン決定部を備える。図３の実施形態において、複数のゲイン決定部は、ボイススピーチ強調部９１、オートゲイン部９２、フォルマント部９３、および圧縮部９４を備える。しかしながら、論理部７７は、本発明の様々な実施形態にしたがって、いっそう少ない処理部、および／またはいっそう多い処理部から構成されていても良い。乗算器９９は、さらに、ゲイン決定部で決定されたゲイン係数を受信し、乗算部１１７（図２Ａおよび２Ｂ）に提供されることになるゲイン係数｛ｇ_ｉ｝を提供しても良い。代替として、９１、９２、９３および９４のそれぞれの処理部は、先行の処理部からのゲインを受信し、蓄積された計算されたゲインを提供する。
【００８０】
論理部７７は、さらに、パワーベクトル｛ＥＳ_ｉ｝で表されているボイス信号Ｓ（ｔ）が現在、ボイススピーチ（ｖｏｉｃｅｄｓｐｅｅｃｈ）からなるか、アンボイススピーチ（ｕｎｖｏｉｃｅｄｓｐｅｅｃｈ）からなるかを決定するボイススピーチ識別部８９を備えていても良い。当技術分野で知られているように、声門のパルスからなる周波数帯域でつくられた音声はボイススピーチ信号と呼ばれ、一方、声帯の力をかりずに発音された音声はアンボイススピーチ信号と呼ばれる。
【００８１】
本発明のいくつかの実施形態において、識別部８９は、ボイス信号Ｓ（ｔ）のフォルマントを識別し、したがって、ボイス信号がボイススピーチからなるかどうかを決定する。さらに、ボイス信号Ｓ（ｔ）が、支配的な音程、例えば他のすべての音程よりも実質的に大きい振幅を持つ音程を含むならば、その信号はボイススピーチからなるとみなされる。代替としてまたは追加として、識別部８９は、ボイス信号Ｓ（ｔ）の低周波数におけるエネルギーと、高周波数におけるエネルギーとを比較する。さらに、低周波数におけるエネルギーが、高周波数におけるエネルギーよりも所定の閾値だけ大きい場合には、ボイス信号Ｓ（ｔ）は音を発しているとみなされる。本発明の模範的な実施形態において、ボイス信号Ｓ（ｔ）の周波数帯は、低周波数と高周波数の間で実質的に均一に分割される。代替として、低周波数と高周波数の間での分割は、音響上の考慮にしたがって、他のあらゆる位置にあっても良い。
【００８２】
本発明のいくつかの実施形態において、識別部８９は、信号が明確なボイス信号の特性を有しているときにのみ信号がボイス信号を含むことを決定する。その理由は、ボイススピーチ強調部９１が、信号がボイズスピーチを含むと決定された場合にのみ信号を変化させるゲインを生成するからである。
【００８３】
代替としてまたは追加として、例えば、Ｙｏｏによる上述の論文に記載された方法、および／または、その開示が参照によって本明細書に組み込まれる、Ｋａｔｅｓらの米国特許４，４６８，８０４号に記載された方法のような、ボイススピーチを識別する為の他のあらゆる方法が用いられても良い。
【００８４】
ボイススピーチ強調部９１は、さらに、識別部８９から、ボイス信号Ｓ（ｔ）がボイススピーチを含むかどうかの指示を受け取っても良い。本発明のいくつかの実施形態において、ボイス信号Ｓ（ｔ）がボイススピーチを含む場合には、強調部９１は、ボイススピーチを運ぶボイス信号Ｓ（ｔ）の周波数成分を強調するのに好適なボイススピーチ強調ベクトル（ｐ_１，ｐ_２，・・・，ｐ_ｎ）を選択する。ボイススピーチ強調ベクトル（ｐ_１，ｐ_２，・・・，ｐ_ｎ）は、実質的にすべてのボイススピーチ信号に用いられる所定のベクトルからなっていても良い。それに代わるものとして、ボイススピーチ強調ベクトル（ｐ_１，ｐ_２，・・・，ｐ_ｎ）は、パワーベクトル｛ＥＳ_ｉ｝の関数である。
【００８５】
本発明のいくつかの実施形態において、スピーチ強調ベクトル（ｐ_１，ｐ_２，・・・，ｐ_ｎ）は、低周波数のパワーを強調し、および／または高周波数のパワーを低下させる。例えばボイススピーチ強調ベクトル（ｐ_１，ｐ_２，・・・，ｐ_ｎ）は、非増加の単調関数であっても良い。本発明のいくつかの実施形態において、識別部８９がアンボイススピーチの指示を行うとき、スピーチ強調ベクトル（ｐ_１，ｐ_２，・・・，ｐ_ｎ）は、ボイス信号Ｓ（ｔ）の振幅を変化させない単位ベクトルに等しい。
【００８６】
本発明のいくつかの実施形態において、強調部９１は、パワーベクトル｛ＥＳ_ｉ｝をスピーチ強調ベクトル（ｐ_１，ｐ_２，・・・，ｐ_ｎ）で乗算したものに等しい、変更されたパワーベクトル｛ＥＳＭ_ｉ｝をも提供する。変更されたパワーベクトル｛ＥＳＭ_ｉ｝は、ボイス信号Ｓ（ｔ）のパワーを表すために、オートゲイン部９２によって使用されても良い。
【００８７】
本発明のいくつかの実施形態において、オートゲイン部９２は、ボイス信号Ｓ（ｔ）の通常のパワーとノイズ信号Ｎ（ｔ）の通常のパワーとの比較に基づいて、信号Ｓ（ｔ）のための第１ゲイン係数（Ｇａｉｎ１）を決定する。通常のパワーは、最近の期間での信号の履歴に基づいて決定されても良い。第１ゲイン係数は、ボイス信号Ｓ（ｔ）を全体的にノイズ信号Ｎ（ｔ）の上に持っていく為に設計され、一方、フォルマント部９３は、現時点でのボイスおよびノイズ信号の特定の比較を行っても良い。本発明の模範的な実施形態において、オートゲイン部９２は、図４を参照して以下で記載されるようなものである。オートゲイン部９２は、また、信号Ｓ（ｔ）を表す為にフォルマント部９３で用いられる、増幅されたパワーベクトル｛Ｇａｉｎ１×ＥＳＭ_ｉ｝をさらに提供しても良い。
【００８８】
本発明のいくつかの実施形態において、フォルマント部９３は、ボイス信号Ｓ（ｔ）の１以上のフォルマントを識別し、それに応じて、第２ゲイン係数（Ｇａｉｎ２）を生成する。さらに、第２ゲイン係数（Ｇａｉｎ２）は、ボイス信号Ｓ（ｔ）の所定のフォルマントのグループに対応する周波数成分のパワーが、ノイズ信号Ｎ（ｔ）の対応の周波数成分のパワーよりも、少なくとも所定のマージンだけ上の値を持つことを確実にするのに必要な最小のゲインとして選択されても良い。さらに、所定のマージンは、すべての周波数成分について同じであっても良い。代替として、異なるマージンが異なる周波数成分に対して適用されても良い。本発明のいくつかの実施形態において、所定のマージンは約３から１０ｄＢの間であり、さらには６ｄＢであっても良い。本発明の模範的な実施形態において、フォルマント部９３は、図５Ａおよび５Ｂを参照して以下で述べるようなものである。さらに、フォルマント部９３は、信号Ｓ（ｔ）を表す為に圧縮部９４で用いられる、増幅されたパワーベクトル｛Ｇａｉｎ２×Ｇａｉｎ１×ＥＳＭ_ｉ｝をも提供しても良い。
【００８９】
本発明のいくつかの実施形態において、オートゲイン部９２からの増幅されたパワーベクトル｛Ｇａｉｎ１×ＥＳＭ_ｉ｝は、増幅されたパワーベクトル｛Ｇａｉｎ１×ＥＳＭ_ｉ｝を平滑化するプリフォルマントスムーザー９７を通される。フォルマントの探索は、ボイス信号Ｓ（ｔ）の周波数帯域の包絡線に対して実行され、ボイス信号自体には実行されないので、平滑化がさらに実行されても良い。
【００９０】
平滑化されたベクトルにおけるそれぞれの周波数成分値（ＥＳＭ_ｉ）は、さらに、その隣接の周波数成分を用いた重み付け平均に等しくても良い。本発明の模範的な実施形態において、プリフォルマントスムーザー９７は、以下の数式にしたがって動作する。
【００９１】
【数２】

【００９２】
代替として、例えばさらに多い隣接の周波数成分を考慮に入れる関数、および／または他の重み付け係数を用いる関数のような、他のあらゆる平滑化関数が用いられる。
【００９３】
本発明のいくつかの実施形態において、フォルマント部９３は、ここで｛ＥＮ_ｉ’｝と呼ばれる、ノイズパワーベクトル｛ＥＮ_ｉ｝の平滑化されたものを受信する。さらに、平滑化されたノイズパワーベクトル｛ＥＮ_ｉ｝は、プリフォルマントスムーザー９７と同じ機能を実行するノイズスムーザー９８によって生成されても良い。代替として、ノイズスムーザー９８は、プリフォルマントスムーザー９７とは異なる機能を実行し、さらにはあまり平滑化されていない信号を生成しても良い。さらに、ノイズパワーベクトル｛ＥＮ_ｉ｝は、｛Ｇａｉｎ１×ＥＳＭ_ｉ｝の平滑化されたものと調和するように平滑化されても良い。
【００９４】
本発明のいくつかの実施形態において、圧縮部９４は、調節されたボイス信号Ｓ（ｔ）のパワーを減少させるのに好適な圧縮ベクトル（ｃ_１，ｃ_２，・・・，ｃ_ｎ）を生成する。さらに、圧縮ベクトル（ｃ_１，ｃ_２，・・・，ｃ_ｎ）は、調節されたボイス信号Ｓ（ｔ）のパワーを、パワーアンプ５２および／またはスピーカ３２の動作限界内に減じるのに好適であっても良い。代替としてまたは追加として、圧縮ベクトル（ｃ_１，ｃ_２，・・・，ｃ_ｎ）は、調節されたボイス信号Ｓ（ｔ）のパワーを、元のボイス信号Ｓ（ｔ）に、または他のあらゆる所望のレベル実質的に等しいレベルにまで減じるのに好適であっても良い。
【００９５】
さらに、圧縮部９４は、各周波数成分について、その周波数成分における信号対ノイズ比（ＳＮＲ）を決定しても良い。さらに、周波数成分のＳＮＲが約６ｄＢよりも大きい場合には、ベクトルｃ_ｉの圧縮ゲインは、そのバンド内のボイス信号を、そのＳＮＲの関数である減衰値（負のゲイン）だけ減衰させるように設定されても良い。本発明のいくつかの実施形態において、負のゲインの大きさは、ＳＮＲ６ｄＢで値０ｄＢを持ち、ＳＮＲ約２４ｄＢで値５ｄＢを持つ単調関数にしたがっている。さらに、負のゲインの最大の大きさは、５ｄＢであっても良い。本発明の模範的な実施形態において、負のゲイン（Ｙ）の大きさは、以下の関数による。
【００９６】
【数３】

ここで、ｘは、ＳＮＲを指している。
【００９７】
代替としてまたは追加として、圧縮部９４は、｛ＥＳ_ｉ｝で表されるボイス信号Ｓ（ｔ）がその隣接の周波数成分または他の全ての周波数成分よりも実質的に大きい（例えば８−１０ｄＢだけ）振幅を持つピーク周波数成分を探索する。さらに、圧縮ベクトル（ｃ_１，ｃ_２，・・・，ｃ_ｎ）は、そのピーク周波数成分の振幅を、約５ｄＢだけ、またはピーク周波数成分の振幅が他の周波数成分よりも大きくなっている程度の割合だけ減少させても良い。
【００９８】
さらに代替としてまたは追加として、圧縮ベクトル（ｃ_１，ｃ_２，・・・，ｃ_ｎ）はまた、ノイズによってマスクされる周波数成分を減衰させても良い。さらに、ボイス信号Ｓ（ｔ）が実質的にノイズよりも低い（例えば少なくとも６ｄＢだけ）振幅を有する周波数成分は、それらが実質的に除かれるように、０倍されても良い。
【００９９】
さらに、代替としてまたは追加として、実質的に出力信号を歪ませない他のあらゆる圧縮機能が用いられる。さらに代替としてまたは追加として、圧縮部９４は用いられず、圧縮を実行することがリミッタ１００に依頼される。さらに代替としてまたは追加として、リミッタ１００は用いられずに、圧縮部９４に圧縮を行うことが依頼される。さらに代替として、リミッタ１００と圧縮部９４の両方が用いられず、圧縮は実行されない。さらに、この代替手段において、スピーカ３２で音を鳴らすことのできる入力信号の振幅が可能となるように、パワーアンプ５２は、入力ボイス信号の信号範囲よりも大きな動作範囲を持っていても良い。
【０１００】
本発明のいくつかの実施形態において、フォルマント部９３によって提供される増幅されたパワーベクトル｛Ｇａｉｎ２×Ｇａｉｎ１×ＥＳＭ_ｉ｝は、圧縮部９４に入力される前にプリ圧縮スムーザー１０７によって平滑化される。プリ圧縮スムーザー１０７は、プリフォルマントスムーザー９７と同一のまたは類似の平滑化機能を実行しても良い。スムーザー１０７を用いることに対する代替として、圧縮部９４は、ボイス信号Ｓ（ｔ）を表す、プリフォルマントスムーザー９７の平滑化された出力を受信する。この出力は、さらに、Ｇａｉｎ２倍されていても良い。本発明のいくつかの実施形態において、圧縮部９４は、ノイズ信号Ｎ（ｔ）を表す為に平滑化されたノイズ信号｛ＥＮ_ｉ’｝を用いる。代替としてまたは追加として、圧縮部９４は、ノイズパワーベクトル｛ＥＮ_ｉ｝の異なる平滑化されたものを用いる。さらに代替としてまたは追加として、圧縮部９４は、平滑化されていないノイズパワーベクトル｛ＥＮ_ｉ｝を用いる。
【０１０１】
本発明のいくつかの実施形態において、乗算器９９は、出力係数、例えば強調ベクトル｛ｐ_ｉ｝，Ｇｉａｎ１，Ｇａｉｎ２，および圧縮ベクトル｛ｃ_ｉ｝を受信し、ゲインベクトル｛ｇ_１，ｇ_２，・・・，ｇ_ｎ｝を、受信した積、例えばｇ_ｉ＝ｐ_ｉ＊Ｇａｉｎ１＊Ｇａｉｎ２＊ｃ_ｉとして生成する。乗算器９９を備える論理部７７に対する代替としてまたは追加として、オートゲイン部９２、ファルマント部９３、および圧縮部９４のうちの１以上が、１以上の先行する処理部の出力を受信する。本発明の模範的な実施形態において、フォルマント部９３は、Ｇａｉｎ１を受信しＧａｉｎ１およびＧａｉｎ２の積を提供し、また、圧縮部９４は、強調ベクトル、Ｇａｉｎ１およびＧａｉｎ２を受信し、圧縮ベクトル（ｃ_１，ｃ_２，・・・，ｃ_ｎ）を生成し、したがってゲインベクトル｛ｇ_１，ｇ_２，・・・，ｇ_ｎ｝を生成する。
【０１０２】
パワーベクトル｛ＥＳ_ｉ｝の修正されたものに関して動作する処理部９２、９３および９４に対する代替としてまたは追加として、処理部の１以上が、元のパワーベクトル｛ＥＳ_ｉ｝に関して、または部分的に修正されたパワーベクトルに関して動作する。
【０１０３】
本発明のいくつかの実施形態において、論理部７７は、重み付け平均部１３３によって用いられる重みｂ_１およびｂ_２を動的に決定する重み付け部１３８を備える。背景に比較的ノイズが多く、例えばＧａｉｎ１が比較的大きい場合には、変更されたボイス信号Ｓ’’（ｔ）に与えられる重みｂ_１は、比較的大きく例えば０．５である。さらに、変更されたボイス信号Ｓ’’（ｔ）に与えられる重みｂ_１は、Ｇａｉｎ１についての非減少の関数であっても良い。すなわち、Ｇａｉｎ１が増加すれば、変更されたボイス信号Ｓ’’（ｔ）に与えられる重みはいっそう大きくなる。本発明の模範的な実施形態において、重みｂ_１＝Ｇａｉｎ１／ｍａｘである。ここでｍａｘは、Ｇａｉｎ１の可能な最大値である。代替としてまたは追加として、Ｇａｉｎ１が所定値、例えば０．３よりも小さいとき、重みｂ_１は０に設定される。さらに代替としてまたは追加として、Ｇａｉｎ１が所定値、例えば３よりも大きいとき、重みｂ_１は１に設定される。
【０１０４】
代替として、重みｂ_１およびｂ_２は、ノイズ｛ＥＮ_ｉ｝の関数であり、または所定値、例えば０．５である。代替としてまたは追加として、ユーザコントロールにより、ユーザーがその好みによってｂ_１およびｂ_２の値を調整することが可能とされる。
【０１０５】
本発明のいくつかの実施形態において、ｂ_１およびｂ_２は、重みにおける周波数変動を防止するローパスフィルタを通過した後に重み付け平均部１３３に提供される。代替としてまたは追加として、重み決定部１３８で実行される関数は、時間平滑化効果を有する。
【０１０６】
図４は、本発明の好ましい実施形態による、オートゲイン部９２のブロック図である。オートゲイン部９２は、さらに、変更されたパワーベクトル｛ＥＳＭ_ｉ｝で表されるボイス信号Ｓ（ｔ）の代表的なパワーＨ_Ｓを決定する信号履歴部４０６を備えていても良い。また、オートゲイン部９２は、ノイズパワーベクトル｛ＥＮ_ｉ｝で表されるノイズ信号Ｎ（ｔ）の代表的なパワーＨ_ｎを決定するノイズ履歴部４１１を備える。代表の通常値は、異なる期間での複数の最大値の平均として計算されても良い。本発明のいくつかの実施形態において、信号履歴部４０６およびノイズ履歴部４１１は実質的に同一である。代替として、履歴部４０６および履歴部４１１は、互いに異なっている。例えば、ボイス通常パワーＨ_Ｓは、ノイズ通常パワーＨ_ｎが与えるよりも大きな待ち時間を以前の信号に対して与えても良い。
【０１０７】
本発明のいくつかの実施形態において、それぞれの履歴部４０６は、受信した全ての周波数成分のパワーの合計を生成する加算器４０８を備える。代替として、加算器４０８は、フィルタ６２からの周波数成分信号の合計を生成して、合計のパワーを計算し、および／または元の信号Ｓ（ｔ）のパワーを計算する。合計は、短期間最大値レジスタ４１０に、および長期間最大値レジスタ４１２にさらに提供されても良い。本発明のいくつかの実施形態において、レジスタ４１０および４１２のそれぞれは、その新しい値を次のように決定する。受信した値が内部に格納されている値よりも大きい場合には、新しい値は、格納された値に等しい。さもなければ、新しい値は、内部に格納された値の減衰したものである。この場合において、短期間レジスタ４１０内の値は、長期間レジスタ４１２内の値よりも速く減衰する。本発明のいくつかの実施形態において、レジスタ４１０内の値が単一の語内での最大パワーに関連するように、短期間レジスタ４１０内の値は、約１語の時間の範囲内で減衰する。本発明のいくつかの実施形態において、長期間レジスタ４１２内の値は、レジスタ４１２内の値が比較的長い期間での最大パワーに関連するように、１つのセンテンスまたは数センテンスの時間内で減衰する。
【０１０８】
本発明のいくつかの実施形態において、履歴部４０６のレジスタ４１０および４１２は、履歴部４１１びレジスタ４１０および４１２のそれぞれと同じ減衰値を持つ。代替として、履歴部４０６のレジスタ４１０および４１２は、履歴部４１１のレジスタ４１０および４１２の減衰値とは異なる減衰値を持つ。本発明の模範的な実施形態において、信号履歴部４０６の長期間レジスタ４１２内の値は、約２５６ｍｓの期間でその値の１０から３０％の間にまで減衰し、一方、信号履歴部４０６の短期間レジスタ４１０内の値は、約６４ｍｓの期間で減衰する。さらに、信号履歴部４１１の長期間レジスタ４１２内の値は、約１秒の期間でその値の約１０から３０％の間にまで減衰し、一方、信号履歴部４１１の短期間レジスタ４１０内の値は、約２５から１００ｍｓの期間で減衰する。
【０１０９】
本発明のいくつかの実施形態において、ＶＡＤ部２５０がボイス信号がスピーチを含まないという指示を行うとき、信号履歴部４０６のレジスタ４１０および４１２内の値は減衰しない。さらに、ボイス信号がスピーチを含まない場合に、入力値がレジスタの内容よりも高いパワーを有するときには、レジスタ４１０は更新されなくても良い。代替としてまたは追加として、短期間レジスタ４１０内の値は、ボイス信号がスピーチを含まないという決定に応じてゼロにされる。本発明のいくつかの実施形態において、信号履歴部４１１において同様の動作が行われる。
【０１１０】
本発明のいくつかの実施形態において、受信した値がレジスタの内容よりも大きい場合にレジスタ４１０および４１２の１以上のにおける値を即座に更新することに代えて、更新があまりに急峻になることがないように、更新は段階的に行われても良い。さらに、更新は、減衰勾配よりも急勾配の所定の勾配に制限されても良い。
【０１１１】
オートゲイン部９２がパワー信号｛ＥＳＭ_ｉ｝および／または｛ＥＮ_ｉ｝に基づいて動作することに対する代替として、オートゲイン部９２は、周波数成分のサンプル値に基づいて動作する。さらに、周波数成分の値は加算され、それらの二乗が求められ、そしてこの二乗がオートゲイン部９２で用いられても良い。
【０１１２】
本発明のいくつかの実施形態において、通常パワーＨ_ＳまたはＨ_ｎを生成する為に、平均化部４１４が、短期間レジスタ４１０および長期間レジスタ４１２内の値の平均値を計算する。本発明のいくつかの実施形態において、平均化部４１４は、幾何平均をとる。代替として、平均化部４１４は、算術平均または中心値のような他のあらゆる平均値を計算する。さらに、オートゲイン部９２は、パワーの比からゲイン値を提供する為に履歴値の比の平方根、すなわち、√（Ｈ_ｎ／Ｈ_Ｓ）を計算する、デバイダ１０８および平方根部１０９を備えていても良い。
【０１１３】
レジスタ４１０および４１２のみであることに対する代替として、履歴部４０６および／または４１１は、異なる減衰時間を持つさらなるレジスタを備えていても良い。さらに代替としてまたは追加として、あらゆる他の方法が、１以上の代表的な通常パワー値を決定するために用いられても良い。
【０１１４】
本発明のいくつかの実施形態において、オートゲイン部９２は、ノイズＮ（ｔ）の周波数の広がりに関しての平坦度（または密度）指示値（ＦＬＡＴ）を提供するノイズ平坦度部４０７を備える。ノイズが広い周波数帯域を持つときに増幅が大きくなるように、増幅係数Ｇａｉｎ１は、平坦度指示値にしたがって直線的に増加するものであっても良い。ノイズＮ（ｔ）が白色ノイズと同様であるときには、Ｇａｉｎ１は、１に近い値であり、ノイズが特定の周波数を持つ正弦波と同様であるときには、Ｇａｉｎ１は低い値、例えば０．２であっても良い。
【０１１５】
本発明のいくつかの実施形態において、ノイズ平坦度部４０７は、周波数成分ノイズパワー値｛ＥＮ_ｉ｝の正規化された平均値ＮＡを計算する。さらに、平均は、最大パワー値、すなわち、ｍａｘ｛ＥＮ_ｉ｝で割ることによって正規化されても良い。本発明の模範的な実施形態において、平坦度指示値ＦＬＡＴは、正規化された平均値ＮＡから、以下の数式にしたがって計算される。
【０１１６】
【数４】

【０１１７】
本発明のいくつかの実施形態において、平坦度指示値ＦＬＡＴは、その値の強い変動を防ぐ為に、ＦＬＡＴの以前の値を用いて時間平均される。さらに、平坦度指示値は、１次のまたは２次のローパスフィルタを用いて以前の時間の値によりフィルタ処理されても良い。代替としてまたは追加として、強い変動を防ぐ為に他のあらゆる好適な時間依存のフィルタが用いられても良い。
【０１１８】
さらに、乗算器４０５が、平坦度指示値ＦＬＡＴ、履歴値の比の平方根√（Ｈ_ｎ／Ｈ_Ｓ）、および所定の一定の増幅（ｍｉｎ＿ｇａｉｎ）の積として、Ｇａｉｎ１を生成しても良い。本発明のいくつかの実施形態において、所定の一定の増幅（ｍｉｎ＿ｇａｉｎ）は約１である。代替として、所定の一定の増幅（ｍｉｎ＿ｇａｉｎ）は約２から２．５の間であっても良い。
【０１１９】
図５Ａおよび５Ｂは、本発明の好ましい実施形態による、フォルマント部９３により生成されたゲインによって修正される前と後の模範的なボイス信号２０９のグラフである。さらに、フォルマント部９３は、ボイス信号Ｓ（ｔ）についての所定数の（例えば、３つ）フォルマント、すなわち包絡線のピークを識別しても良い。所定数までのフォルマントを選択することは、さらに、低い方の周波数から開始し、フォルマントが見つからなくなるまで、または所定数のフォルマントが見つかるまで選択を行うことから構成されていても良い。本発明の模範的な実施形態において、フォルマント部９３は、パワー信号｛ＥＳＭ_ｉ｝に基づいてフォルマントが位置している周波数成分を識別する。例えば、信号２０９において、３つの第１のフォルマントが含まれるので、フォルマント部９３は、周波数成分３（Ｓ３）、周波数成分８（Ｓ８）、および周波数成分１２（Ｓ１２）を識別する。
【０１２０】
所定数のフォルマントが位置しているそれぞれの周波数成分について、フォルマント部９３は、さらに、周波数成分におけるＳＮＲ、すなわち、その周波数成分におけるノイズ信号ＥＮ_ｉ２０８のパワーと、その周波数成分におけるボイス信号ＥＳＭ_ｉ２０９のパワーとの相違を決定しても良い。さらに、フォルマント部９３は、ＳＮＲが最も小さい（最も負の値であるものを含む）周波数成分を選択しても良い。信号２０９については、周波数成分８のＳＮＲが最も小さい。本発明のいくつかの実施形態において、フォルマント部９３の出力ゲイン（Ｇａｉｎ２）は、最も小さいＳＮＲを所定値、例えば約３から６ｄＢの間にするために必要なゲインに等しい。代替としてまたは追加として、フォルマント部９３の出力ゲイン（Ｇａｉｎ２）は、ＳＮＲを、動的に調節された値にする。さらに、動的に調節されたレベルは、ノイズレベル、ボイス信号Ｓ（ｔ）のレベル、および／またはＧａｉｎ１の値に応じて調節されても良い。さらに、出力ゲイン（Ｇａｉｎ２）は、ノイズと信号のパワー比の平方根をとることによって、および約２から４（３から６ｄＢに等しい）の間の一定のマージンを掛け算することによって計算されても良い。
【０１２１】
信号２０９をＧａｉｎ２倍した後に、信号２０９の周波数帯域は図５Ｂに示すようなものになる。さらに、最も低いＳＮＲが所定の閾値、例えば３から６ｄＢよりも大きい場合には、Ｇａｉｎ２は１に設定されても良い。本発明の模範的な実施形態において、所定の閾値は、増幅が必要な場合にＧａｉｎ２が最も低いＳＮＲをそのレベルに持っていくレベルに等しい。代替として、所定の閾値は、増幅が必要な場合にＧａｉｎ２が最も低いＳＮＲをそのレベルに持っていくレベルとは異なっており、例えばそれより低いものであっても良い。いっそう低い所定の閾値を用いることは、実行された振幅変化の場合を、変化が実際に必要な場合に限定する。
【０１２２】
本発明のいくつかの実施形態において、フォルマントの所定数は、ボイス信号Ｓ（ｔ）内のフォルマントの数よりも少なくても良い。さらに、フォルマントの所定数は、２から４の間であっても良く、おそらくは３つであろう。なお、ボイス信号Ｓ（ｔ）のフォルマント数は、フォルマントの所定数よりも少なくても良い。このような場合には、みつかるのは所定数のフォルマントよりも少ないであろうが、最も低いＳＮＲの決定は、みつかったフォルマントの中から実行されても良い。
【０１２３】
なお、たとえシステム３０が音楽信号のようにスピーチを含まない音声信号を用いて動作する場合であっても、いくつかの実施形態では、フォルマント部９３が用いられても良い。
【０１２４】
図６は、本発明の実施形態による、強調フィルタ１１２のゲインのグラフである。図に示すように、さらに、低周波および高周波が強調フィルタ１１２により減衰され、中心周波数が増幅されても良い。本発明のいくつかの実施形態において、ボイス信号Ｓ（ｔ）のトータルのパワーは、強調フィルタ１１２により変化させられない。さらに、強調フィルタ１１２は、それぞれの周波数成分Ｓ_ｉ（ｔ）について各ゲインを持つ乗算器からなっていても良い。代替として、複数の周波数成分の少なくとも一つのグループは、強調フィルタ１１２の一つのゲイン係数を乗算される。
【０１２５】
図６に示されたゲインを有する強調フィルタに対する代替として、強調フィルタ１１２のゲインは、スピーチ信号を強調しおよび／またはノイズを減少させる他のあらゆる機能にしたがうものであっても良い。本発明のいくつかの実施形態において、強調フィルタのゲインは、シミュレーションに基づいて決定される。代替としてまたは追加として、強調フィルタのゲインは、工場での較正によって調整される。さらに、代替としてまたは追加として、強調フィルタ１１２のゲインは、フィールドテストに応じて周期的に更新される。さらに代替としてまたは追加として、強調フィルタ１１２のゲインは、ユーザにより調整される。この代替手段は、特に難聴に対して役に立つ。
【０１２６】
図７は、本発明の実施形態による、模範的なノイズパワー信号スペクトラム１２２およびマスクされたノイズパワー信号スペクトラム１２３のグラフである。マスキング部１１９は、さらに、信号スペクトラム１２２のスペクトルピーク２５１を見つけ出し、それぞれのピーク２５１について、互いに反対方向に所定の勾配で減少する一組のライン３０１および３０２を計算しても良い。さらに、所定の勾配は、約４０〜６０ｄＢ／１０であっても良い。代替としてまたは追加として、異なるピーク２５１からのライン３０１および３０２は、音響上の考慮にしたがって異なる勾配を持っていても良い。さらに代替としてまたは追加として、ライン３０１および３０２は、例えば音響上の考慮にしたがって、同一のピークについて異なる勾配を持つ。マスクされたノイズパワー信号スペクトラム１２３は、さらに、それぞれの点で、ライン３０１および３０２のそれぞれの点での最大値に等しくても良い。代替として、マスクされたノイズパワー信号スペクトラム１２３は、さらに、それぞれの点で、ライン３０１および３０２およびスペクトラム１２２のそれぞれの点での最大値に等しくても良い。さらに、マスキング部１１９は、リアルタイムで動作し、それぞれの周波数成分に対して、元のノイズパワー値の代わりにマスクされた値を提供する。
【０１２７】
代替として、ヒトの耳への周波数の内部影響を考慮するあらゆる他のマスキング部が用いられる。さらに代替として、例えば周波数成分の数が比較的少ない場合には、および／または図２Ｂに示されるフィルタ６４が周波数成分値を生成するのに用いられる場合には、マスキング部１１９は用いられない。フィルタ６４が周波数成分値の生成に用いられるとき、フィルタの構造は、一般的には、マスキングの機能を実行するように設計することができる。
【０１２８】
例えばマイクロフォン３４とスピーカ３２が電話の一部となっている本発明のいくつかの実施形態において、システム３０は、電話のユーザがいつ話しているかを決定するスピーチ検出器を備える。さらに、ユーザが話をしているとき、システム３０は、遠方のボイス信号Ｓ（ｔ）の修正をディスエーブルにしても良い。したがって、システム３０は、ユーザの会話をノイズと関係付けせず、よって、遠くから受信されるボイス信号の振幅をユーザの話す音よりも大きくさせることはしない。
【０１２９】
図８は、本発明の好ましい実施形態による、スピーチ検出器８１のブロック図である。スピーチ検出器８１は、さらに、マイクロフォン３４からの信号を受信し、受信した信号がいつスピーチを含んでいるかを決定する。本発明のいくつかの実施形態において、スピーチ検出器８１は、受信した信号がいつスピーチを含んでいるかを決定する、ピーク検出器８２および／または勾配検出器８４を備える。ピーク検出器８２は、受信した信号と閾値とを比較し、受信した信号が閾値より大きいときにスピーチ指示を提供する。勾配検出器８４は、さらに、受信した信号の振幅の勾配をたどっても良い。本発明のいくつかの実施形態において、勾配検出器８４は、勾配が所定の増加の勾配を超えたときにスピーチ開始の指示を行い、勾配が所定の減少の勾配を超えたときにスピーチ開始の指示を行う。
【０１３０】
さらに、スピーチ論理部８６がその指示を受信しても良い。本発明のいくつかの実施形態において、スピーチ開始指示とスピーチ指示の両方が受信されるとき、論理部８６はシステム３０の信号修正をディセーブルにする。さらに、スピーチ終了信号が受信され且つスピーチ指示が受信されないとき、論理部８６は、約０．５〜１．２秒のカウント期間を開始する。さらにこのカウント期間は１秒であっても良い。このカウント期間の後、システム３０の信号の修正がイネーブルにされる。システム３０の信号修正は、さらに、カウント期間の間にスピーチ開始指示がスピーチ指示と一緒に受信されないときにイネーブルにされても良い。したがって、ユーザが話しているとき、遠方の仲間からのボイス信号Ｓ（ｔ）は、ユーザの話に打ち勝つようには強調されない。
【０１３１】
本発明のいくつかの実施形態において、システム３０の信号修正をディスエーブルにすることは、遠隔のボイス信号Ｓ（ｔ）が実際にスピーチ信号を含むか否かにかかわりなく、遠隔のボイス信号Ｓ（ｔ）のＶＡＤ信号をスピーチがないことに設定することからなる。代替としてまたは追加として、システム３０の信号修正をディスエーブルにすることは、ｂ_１をゼロに設定することからなる。
【０１３２】
本発明のいくつかの実施形態において、ピーク検出器８２で用いられる閾値は、スピーチが存在しないときの受信信号の測定値に応じて適応的に調整されても良い。さらに、ノイズ平均化部８７が、論理部８６がマイクロフォン３４からの受信信号がスピーチを含まないと決定した最近の期間で、受信信号を平均化しても良い。本発明のいくつかの実施形態において、平均化は、積分器で実行される。ピーク検出器８２で用いられる閾値は、さらに、ノイズ平均化部８７からの平均ノイズレベルより上の所定のギャップであっても良い。適応的な閾値の使用は、周囲ノイズが高い時にユーザが大きな声で話し、ノイズが低いときにユーザが小さな声で話す場合に有利である。
【０１３３】
本発明のいくつかの実施形態において、受信信号中の一時的な変化が論理部８６の出力に影響することがないように、ピーク検出器８２に入る信号はローパスフィルタ８８を通される。代替としてまたは追加として、受信信号中の一時的な変化が出力に影響することがないように、ピーク検出器８２および／または勾配検出器８４に入る信号はヒステリシス機能を通される。
【０１３４】
本発明のいくつかの実施形態において、所定の増加勾配および減少勾配は、同じ大きさ、例えば約０．５＊Ｍａｘ＿ａｍｐｌｉｔｕｄｅ／２００ｍｓｅｃである。ここで、Ｍａｘ＿ａｍｐｌｉｔｕｄｅは、マイクロフォン３４が受信したスピーチ信号の所定の最大値、または現在のスピーカについての最大振幅である。代替としてまたは追加として、所定の増加勾配および減少勾配は、異なる大きさである。
【０１３５】
スピーチ検出器８１を用いることに対する代替としてまたは追加として、ＶＡＤ検出器２５０に類似した検出器および／または上述の米国特許５，５２４，１４８に記載のような、あらゆる他のスピーチ検出器またはＶＡＤが用いられても良い。さらに代替としてまたは追加として、スピーチ検出器８１は用いられなくても良い。スピーカ３２がマイクロフォン３４の近くに配置されるとき、この代替手段は、たとえユーザが話しているときであっても受信信号が強調されるように、システム３０がユーザの会話を補正するようにすることができる。
【０１３６】
上述の実施形態において、システム３０は、７つの処理部、とりわけ、ボイス信号Ｓ（ｔ）のゲインを計算することによりにボイス信号Ｓ（ｔ）に直接的にまたは間接的に影響をおよぼす、強調部９１、オートゲイン部９２、フォルマント部９３、圧縮部９４、リミッタ１００、強調フィルタ１１２、および重み決定部１３８を有するものとして記載された。本発明のいくつかの実施形態では、強調部９１、強調フィルタ１１２、およびリミッタ１００は、ノイズに関係なく動作し、オートゲイン部９２、重み決定部１３８、フォルマント部９３、および圧縮部９４は、ノイズに依存するゲイン値を提供することが注目される。
【０１３７】
したがって、本発明のこれらの実施形態において、入力ノイズに応じてボイス信号Ｓ（ｔ）を変化させる処理部は、同じゲイン（例えば処理部９２および９３）を用いてボイス信号（ｔ）全体を変化させ、またはボイス信号のピークの相対的な位置を変化させることはない（処理部９４）。したがって、ノイズ依存の修正は、信号の歪を生じさせない。本発明のいくつかの実施形態において、圧縮部９は用いられず、したがって、全てのノイズ依存の修正が、同一のゲインを用いて実質的に信号全体を増幅する。
【０１３８】
一般的に、処理部９２および９３は、ゲイン計数を決定し、強調部９１および強調フィルタ１１２は、入力ノイズに依存しない先行の変形（ｐｒｅｄｉｓｔｏｒｔｉｏｎ）を実行し、圧縮部９４、リミッタ１０および重み決定部１３８はエネルギーを減じる。
【０１３９】
ノイズ依存のおよびノイズに依存しない係数を含む乗算部１１７のゲイン｛ｇ_ｉ｝に対する代替として、本発明のいくつかの実施形態において、乗算部１１７のゲインは、ノイズ依存の係数のみからなる。強調部９１で生成されるようなノイズに依存しない係数は、さらに、強調フィルタ１１２によっておよび／または分かれた乗算器によって適用されても良い。代替としてまたは追加として、強調部９１は、用いられない。例えば圧縮部９４が用いられない本発明のいくつかの実施形態において、乗算部１１７のゲインは、実質的にすべての周波数成分で同一である。
【０１４０】
本発明のいくつかの実施形態において、本発明のノイズ補正は、動的なノイズ抑制方法と組み合わされる。さらに、本発明の実施形態によりボイス信号Ｓ（ｔ）の修正に用いられるノイズ推定値は、動的に抑制されたノイズに基づいていても良い。代替として、ノイズ推定値は、修正前の元のノイズに基づいている。
【０１４１】
上述の実施形態は、ハードウェア、ソフトウェア、またはそれらの組み合わせを用いることによって実施することができる。処理は、デジタル処理、アナログ処理、またはそれらの組み合わせからなっていても良い。特に、上述のフィルタは、アナログまたはデジタルであって良い。
【０１４２】
上述の方法は、複数の手順を同時に実行すること、手順の順番を変えること、および用いられた正確な実施を変えることなど、様々なやり方で変形することができることが理解されるであろう。例えば、周波数成分値を生成するためにＦＦＴが用いられるとき、数個の隣接のＦＦＴ値は、いっそう少ない数の周波数成分の周波数成分値を生成するために加算されても良い。上述の方法および装置は、方法を実行するための装置、およびその装置を使用する方法を含むものとして解釈されることになる。
【０１４３】
本発明は、例証として提供され、発明の範囲を限定することを意図するものでない、本発明の実施形態の非限定の詳細な記載を用いて記述されてきた。一つの実施形態を基準にして記載された特徴および／または方法は、他の実施形態とともに用いられても良く、本発明の全ての実施形態が、特定の図に示された、または実施形態の一つに関して記載された全ての特徴および／またはステップを有しているわけではないことが理解される。当業者であれば、記載された実施形態の変形例に気付くであろう。
【０１４４】
なお、上述の実施形態のいくつかは、発明者によって考慮されたベストモードについて記載しているであろう。したがって、それらの実施形態は、構成、動作、構成の詳細、および発明に本質的ではない動作を含んでおり、また、例として記載されている。本明細書に記載された構成および動作は、当技術分野で知られているように、たとえその構成または動作が異なっていても、同じ機能を実行する同等物で置き換えることができる。したがって、本発明の範囲は、特許請求の範囲で用いられる要素および限定によってのみ制限される。“からなる”、“備える”、“有する”およびそれらの同一語源の語は、特許請求の範囲で用いられるとき、“非限定的に含んでいる”ということを意味する。
【図面の簡単な説明】
【図１】
図１は、本発明の実施形態による、ノイズ補正システムンの図である。
【図２Ａ】
図２Ａは、本発明の実施形態による、ノイズ補正システムのコントローラのブロック図である。
【図２Ｂ】
図２Ｂは、本発明の別の実施形態による、ノイズ補正システムのコントローラのブロック図である。
【図３】
図３は、本発明の実施形態による、図２Ａまたは図２Ｂのコントローラの論理部の図である。
【図４】
図４は、本発明の実施形態による、図３の論理部のゲイン決定部の図である。
【図５Ａ】
図５Ａおよび図５Ｂは、本発明の実施形態による、フォルマント部で生成されるゲインによる補正の前と後の模範的なボイス信号のグラフである。
【図５Ｂ】
図５Ａおよび図５Ｂは、本発明の実施形態による、フォルマント部で生成されるゲインによる補正の前と後の模範的なボイス信号のグラフである。
【図６】
図６は、本発明の実施形態による、強調フィルタのゲインのグラフである。
【図７】
図７は、本発明の実施形態による、模範的なノイズパワースペクトルおよびそのマスクされたものを表すグラフである。
【図８】
図８は、本発明の実施形態による、スピーチ検出器のブロック図である。
【符号の説明】
３０　ノイズ補正システム
３２　スピーカ
３４　マイクロフォン
３６　アンプ
４０　コントローラ
９５　ノイズクリーナ
９６　エコーキャンセラ

Claims

音声信号にとって無関係な背景ノイズを克服するために音声信号を処理する方法であって、
前記音声信号の周波数成分における前記音声信号の評価基準と、前記背景ノイズの周波数成分におけるノイズの評価基準とを比較し、
前記比較に応じてゲインを決定し、
前記音声信号の前記周波数成分内には含まれていない少なくとも一つの周波数部分を含む、前記音声信号の少なくとも一部を、決定された前記ゲインによって増幅すること、
を含む方法。
前記音声信号の評価基準は、前記音声信号のパワーからなる、請求項１に記載の方法。
前記背景ノイズの周波数成分における前記ノイズの評価基準は、前記ノイズのマスキング型のパワーからなる、請求項１または請求項２に記載の方法。
前記信号の少なくとも一部を増幅することは、前記音声信号の比較された周波数成分を含む部分を増幅することからなる、請求項１から請求項３のいずれかに記載の方法。
前記信号の少なくとも一部を増幅することは、前記決定されたゲインによって前記音声信号の全体を増幅することからなる、請求項４に記載の方法。
適用されるべき前記ゲインを決定することは、前記音声信号の周波数成分の周波数帯における信号対ノイズ比を閾値より高くするであろうゲインを決定することからなる、請求項１から請求項５のいずれかに記載の方法。
前記閾値は、前記信号評価基準および／またはノイズ評価基準の時間変化にしてがって動的に調整される、請求項６に記載の方法。
前記閾値は所定の値である、請求項６に記載の方法。
前記音声信号の周波数成分における前記音声信号の評価基準を比較することは、前記音声信号のフォルマントを含む周波数成分において比較することからなる、請求項１から請求項８のいずれかに記載の方法。
前記音声信号のフォルマントを含む周波数成分において比較することは、前記音声信号の複数の周波数成分の中で最も低い信号対ノイズ比（ＳＮＲ）を持つ周波数帯の周波数成分において比較を行うことからなる、請求項９に記載の方法。
前記音声信号を複数の周波数成分に分割し、全周波数成分より少ないものを選択すること、を含む請求項１から請求項１０のいずれかに記載の方法。
全周波数成分より少ないものを選択することは、前記音声信号のフォルマントを含む周波数成分を選択することからなる、請求項１１に記載の方法。
前記音声信号のフォルマントを含む周波数成分を選択することは、フォルマントを含む周波数成分を所定数まで選択することからなる、請求項１２に記載の方法。
前記選択された周波数成分から前記音声信号の周波数成分を選択することを含む、請求項１１から請求項１３のいずれかに記載の方法。
前記音声信号の少なくとも一部を増幅することは、前記比較に応じて決定されたゲインを含む複数のゲインから合成されたゲインで増幅することからなる、請求項１から請求項１４のいずれかに記載の方法。
前記背景ノイズが存在する状態で前記増幅された信号の音を鳴らすことを含む、請求項１から請求項１５のいずれかに記載の方法。
前記音声信号の周波数成分と前記ノイズの周波数成分とは、実質的に同じ周波数帯にわたっている、請求項１から請求項１６のいずれかに記載の方法。
前記周波数成分は周波数帯からなる、請求項１から請求項１７のいずれかに記載の方法。
音声信号にとって無関係な背景ノイズを克服するために音声信号を処理する方法であって、
前記音声信号を複数の周波数成分に分割し、
前記周波数成分のそれぞれについてのノイズに依存しないゲインによって、それぞれの前記周波数成分を強調し、
それぞれの周波数成分を、前記周波数成分のノイズ依存のゲインで乗算すること、
を含む方法。
前記複数の周波数成分を強調された音声信号に再結合することを含む、請求項１９に記載の方法。
前記音声信号を複数の周波数成分に分割することは、１０から２４の周波数成分に分割することからなる、請求項１９または請求項２０に記載の方法。
前記音声信号を複数の周波数成分に分割することは、１００より多い周波数成分に分割することからなる、請求項１９または請求項２０に記載の方法。
前記音声信号を複数の周波数成分に分割することは、実質的に重なり合っていない複数の周波数成分に分割することからなる、請求項１９から請求項２２のいずれかに記載の方法。
それぞれのノイズに依存しないゲインによってそれぞれの前記周波数成分を強調することは、信号に依存しない所定のゲインによって強調することからなる、請求項１９から請求項２３のいずれかに記載の方法。
それぞれの周波数成分を前記周波数成分のノイズ依存のゲインで乗算することは、実質的に全ての周波数成分を、同一のノイズ依存のゲインで乗算することからなる、請求項１９から請求項２４のいずれかに記載の方法。
前記強調および増幅は、一つの機能要素で実行される、請求項１９から請求項２５のいずれかに記載の方法。
前記強調および増幅は、別々の機能要素で実行される、請求項１９から請求項２５のいずれかに記載の方法。
前記ノイズに依存しないゲインは、前記音声信号がボイススピーチ（ｖｏｉｃｅｄｓｐｅｅｃｈ）を含む場合、ボイススピーチ強調係数からなる、請求項１９から請求項２７のいずれかに記載の方法。
前記音声信号を複数の周波数成分に分割することは、前記音声信号にフーリエ変換を適用することからなる、請求項１９から請求項２８のいずれかに記載の方法。
前記音声信号を複数の周波数成分に分割することは、前記音声信号を、バンドパスフィルタのアレイを通過させることからなる、請求項１９から請求項２８のいずれかに記載の方法。
音声信号にとって無関係な背景ノイズを克服するために音声信号を処理する方法であって、
音声信号を受信し、
前記音声信号を前記背景ノイズの評価基準に応じて強調し、
前記強調された音声信号と前記受信した音声信号との重み付けされた合計である出力を提供すること、
を含む方法。
前記音声信号を強調することは、前記音声信号の複数の周波数成分をそれぞれのゲインで乗算することからなる、請求項３１に記載の方法。
重み付けされた合計を提供することは、動的に調整される重みにより生成される重み付けされた合計を提供することからなる、請求項３１または請求項３２に記載の方法。
前記動的に調整される重みは、前記音声信号が強調される程度に応じて決定される、請求項３３に記載の方法。
前記音声信号を強調することは、複数の異なるゲイン係数を計算し、前記音声信号を前記複数のゲイン係数で乗算することからなり、前記動的に調整される重みは、前記ゲイン係数の一つに応じて決定される、請求項３３または請求項３４に記載の方法。
前記異なるゲイン係数の少なくとも一つは、過去に依存するゲイン係数からなる、請求項３５に記載の方法。
重み付けされた合計を提供することは、所定の重みにより生成された、重み付けされた合計を提供することからなる、請求項３１から請求項３６のいずれかに記載の方法。
前記重み付けされた合計を提供することは、前記提供された重み付けされた合計の聞き手が話しているという決定に応じて、前記受信された音声信号が支配的となる重み付けされた合計を提供することからなる、請求項３１から請求項３７のいずれかに記載の方法。
前記重み付けられた合計を提供することは、前記音声信号がスピーチ信号を含まないという決定に応じて、前記受信された音声信号が支配的となる重み付けされた合計を提供することからなる、請求項３１から請求項３７のいずれかに記載の方法。
音声信号を受信するように構成された入力インタフェースと、
強調された音声信号を鳴らすように構成されたスピーカと、
前記強調された信号を聞く聞き手を妨害するであろう背景ノイズを集めるように構成されたマイクロフォンと、
前記強調された音声信号を提供するために、前記音声信号の周波数成分における前記音声信号の評価基準と、同一の周波数成分における背景ノイズの評価基準とを比較し、前記比較に基づいてゲインを決定し、および、前記周波数成分内にはない少なくとも一つの部分を含む、前記音声信号の少なくとも一部を増幅するように構成されたコントローラと、
を備えることを特徴とするノイズ補正システム。
前記スピーカおよび前記マイクロフォンは、電話ハンドセットの部分である、請求項４０に記載のシステム。
前記背景ノイズから前記強調された音声信号の少なくとも一つのエコーを取り除くエコーキャンセラを備える、請求項４０または請求項４１に記載のシステム。
前記エコーキャンセラは、前記背景ノイズから前記強調された音声信号の一つのエコーのみを取り除く、請求項４２に記載のシステム。
音声信号にとって無関係な背景ノイズを克服するために音声信号を強調するためのゲインを決定する方法であって、
前記音声信号の評価基準についてある時間にわたり複数の程度の高い値を決定し、
前記程度の高い値を平均し、
前記平均と前記ノイズの評価基準を比較し、
前記比較に応じて前記音声信号を強調するためのゲインを決定すること、
を含む方法。
前記複数の程度の高い値を決定することは、前記音声信号の異なる時間部分について程度の高い値を決定することからなる、請求項４４に記載の方法。
前記複数の程度の高い値を決定することは、前記音声信号の異なる長さの時間部分について程度の高い値を決定することからなる、請求項４５に記載の方法。
前記複数の程度の高い値を決定することは、最大値を決定することからなる、請求項４４から請求項４６のいずれかに記載の方法。
前記複数の程度の高い値を決定することは、より最近の値に高い重みが付けられる、前記音声信号の重み付けがなされたものについての最大値を決定することからなる、請求項４４から請求項４６のいずれかに記載の方法。
前記程度の高い値を平均することは、幾何平均を計算することからなる、請求項４４から請求項４８のいずれかに記載の方法。