JP2004507141A - 音声強調システム - Google Patents
音声強調システム Download PDFInfo
- Publication number
- JP2004507141A JP2004507141A JP2002520408A JP2002520408A JP2004507141A JP 2004507141 A JP2004507141 A JP 2004507141A JP 2002520408 A JP2002520408 A JP 2002520408A JP 2002520408 A JP2002520408 A JP 2002520408A JP 2004507141 A JP2004507141 A JP 2004507141A
- Authority
- JP
- Japan
- Prior art keywords
- audio signal
- signal
- noise
- gain
- frequency components
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000005236 sound signal Effects 0.000 claims abstract description 149
- 238000000034 method Methods 0.000 claims abstract description 94
- 238000012545 processing Methods 0.000 claims abstract description 31
- 238000012937 correction Methods 0.000 claims description 32
- 230000001419 dependent effect Effects 0.000 claims description 25
- 230000003321 amplification Effects 0.000 claims description 22
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 22
- 238000011156 evaluation Methods 0.000 claims description 16
- 230000004044 response Effects 0.000 claims description 15
- 238000012935 Averaging Methods 0.000 claims description 14
- 230000000873 masking effect Effects 0.000 claims description 12
- 230000002708 enhancing effect Effects 0.000 claims description 10
- 230000008859 change Effects 0.000 claims description 5
- 239000013598 vector Substances 0.000 description 41
- 230000006835 compression Effects 0.000 description 27
- 238000007906 compression Methods 0.000 description 27
- 230000006870 function Effects 0.000 description 21
- 238000010586 diagram Methods 0.000 description 12
- 238000012986 modification Methods 0.000 description 8
- 230000004048 modification Effects 0.000 description 8
- 238000001228 spectrum Methods 0.000 description 8
- 230000001965 increasing effect Effects 0.000 description 7
- 230000007774 longterm Effects 0.000 description 6
- 238000005070 sampling Methods 0.000 description 6
- 238000009499 grossing Methods 0.000 description 5
- 230000002238 attenuated effect Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 230000000875 corresponding effect Effects 0.000 description 4
- 230000003247 decreasing effect Effects 0.000 description 4
- 230000002829 reductive effect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000001052 transient effect Effects 0.000 description 2
- 206010011878 Deafness Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 239000000872 buffer Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013016 damping Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000002592 echocardiography Methods 0.000 description 1
- 239000003623 enhancer Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000010370 hearing loss Effects 0.000 description 1
- 231100000888 hearing loss Toxicity 0.000 description 1
- 208000016354 hearing loss disease Diseases 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G3/00—Gain control in amplifiers or frequency changers
- H03G3/20—Automatic control
- H03G3/30—Automatic control in amplifiers having semiconductor devices
- H03G3/32—Automatic control in amplifiers having semiconductor devices the control being dependent upon ambient noise level or sound level
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G9/00—Combinations of two or more types of control, e.g. gain control and tone control
- H03G9/005—Combinations of two or more types of control, e.g. gain control and tone control of digital or coded signals
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G9/00—Combinations of two or more types of control, e.g. gain control and tone control
- H03G9/02—Combinations of two or more types of control, e.g. gain control and tone control in untuned amplifiers
- H03G9/025—Combinations of two or more types of control, e.g. gain control and tone control in untuned amplifiers frequency-dependent volume compression or expansion, e.g. multiple-band systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Quality & Reliability (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
- Selective Calling Equipment (AREA)
- Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
- Telephone Function (AREA)
- Traffic Control Systems (AREA)
- Control Of Amplification And Gain Control (AREA)
Abstract
音声信号にとって無関係な背景ノイズを克服するために音声信号を処理する方法である。本方法は、前記音声信号の周波数成分における前記音声信号の評価基準と、前記背景ノイズの周波数成分におけるノイズの評価基準とを比較し、前記比較に応じてゲインを決定し、前記音声信号の前記周波数成分内には含まれていない少なくとも一つの周波数部分を含む、前記音声信号の少なくとも一部を、決定された前記ゲインによって増幅すること、を含む。
Description
【0001】
[関連出願]
本出願は、その開示が参照によって本明細書に組み込まれる、2000年8月14日に出願された米国仮出願60/224,513、および2000年10月2日に出願された米国仮出願60/236,721の、35USC§119(e)の下での利益を主張する。また、本出願は、その開示が参照によって本明細書に組み込まれる、2000年7月27日に出願されたPCT出願PCT/US00/20395の一部継続出願(CIP)である。
【0002】
[発明の技術分野]
本発明は、音声強調システムに関する。
【0003】
[発明の背景]
電話セットは、電話セットを介して受信される音声信号の理解を背景ノイズが妨げるであろうような、ノイズのある場所で使われることがよくある。
【0004】
その開示が参照によって本明細書に組み込まれるGoldbergの米国特許4,829,565号は、ユーザに音を発する遠隔の信号の音量を背景ノイズに応じて調節する、自動式の音量コントロールシステムを備える電話について記載している。しかしながら、このシステムは、間違った変化のみならず音量についてあまりにも多い変化を生じさせるので、このことが人間の耳に不快感を与える。
【0005】
その開示が参照によって本明細書に組み込まれる、Millerの米国特許5,615,270号は、車両用の雑音補正システムについて記載している。このシステムは、車両内で感知された信号から所望の音楽の信号を除去することによって発生する雑音信号に基づいて必要な増幅を決定する。
【0006】
その開示が参照によって本明細書に組み込まれる、Allenの米国特許5,524,148号および5,526,419号は、ノイズ補正システムについて記載している。このシステムは、ノイズレベルおよび遠端信号の平均スピーチパワーに応じて決定されるゲインによって、電話セットに提供される遠端信号を増幅する。一つの実施形態において、背景ノイズレベルと平均スピーチパワーは、遠端信号の全ての周波数帯について計算され、同じゲインが、遠端信号の全ての周波数帯にかけられる。ゲインの決定で用いられる方法のために、ゲインは十分でないこともあり、または過度であることもある。
【0007】
Allen特許の別の実施形態では、遠端信号は複数の周波数成分に分けられ、それぞれの周波数成分は、それぞれのゲインで増幅される。それぞれの周波数成分のゲインは、その周波数成分における背景ノイズ、および、その平均周波数成分における平均スピーチパワーまたは全体的な平均スピーチパワーに応じて決定される。この実施形態では、音を発する信号は、その信号の異なる周波数成分についての、異なった関連のない増幅のために歪むであろう。その上、多くの増幅調節が不必要に実行され、このことは、特にバッテリ電源供給システムについては動作電力消費の無駄となるであろう。
【0008】
その開示が参照によって本明細書に組み込まれる、1999年1月14日に公開されたPCT公開WO 99/01863は、ノイズのある環境のためのスピーチ強調システムについて記載している。WO 99/01863のシステムは、スピーチの1以上の周波数が背景ノイズでマスクされるかどうかを決定するために、スピーチと背景ノイズのスペクトル分析を比較する。このようなマスキングが起きた場合、スピーチの1以上の線スペクトルペア(LSP)が、そのLSPについてのスピーチのマスキングを除去するために変更される。LSPの変更は、その周波数のシフト、そのバンド幅の増加、またはその増幅の増加を含んでいることがある。LSPの周波数のシフトは、スピーチ信号を歪ませるであろう。
【0009】
その開示が参照によって本明細書に組み込まれる、Rasmussonの米国特許5,636,272は、背景ノイズの関数ではない補正方法を用いて、スピーチをいっそう漠然としたものにするためのシステムについて記載している。
【0010】
[発明の要約]
本発明のいくつかの実施形態の側面は、背景ノイズを克服できるよう所望の音声信号を調整するためのノイズ補正システムに関連する。このシステムは、音声およびノイズ信号の周波数成分における音声およびノイズ信号の解析に基づいて、増幅をするかどうかを決定し、および/または音声信号の増幅ゲインを決定する。しかしながら、決定された増幅ゲインは、音声信号全体に、または複数の周波数成分を含む音声信号の一部に適用される。周波数成分に基づく増幅ゲインの決定は、必要なゲインのより正確な決定を提供し、一方、そのゲインの信号全体への適用は、信号へ歪みが入るのを防ぐ。
【0011】
本発明のいくつかの実施形態において、ゲインの決定は、1以上の周波数成分において音声信号のパワーとノイズ信号のパワーとを比較すること、およびその比較に応じてゲインを決定することからなる。本発明のいくつかの実施形態において、音声およびノイズ信号は、実質的に信号のスピーチ周波数帯全ての範囲にわたっていても良い複数の周波数成分に分けられ、また、比較は、実質的に全ての周波数成分において実行される。代替としてまたは追加として、比較は、その周波数成分全てよりも少ない範囲で実行される。例えば、ボイス信号のフォルマント、すなわち、その周波数帯における包絡線のピークを含む周波数成分においてのみ実行される。本発明のいくつかの実施形態において、比較は、ボイス信号のフォルマントを含む、その周波数成分全てよりも少ない範囲で実行される。本発明の模範的な実施形態において、所定数の異なるフォルマント、例えば3つのフォルマントまで、音声信号内で探索される。比較は、その探索で見つかったフォルマントを含む周波数成分に対して実行される。
【0012】
本発明のいくつかの実施形態において、増幅ゲインは、その比較に関わる、最も低いSNRを持っている周波数成分における信号対ノイズ比(SNR)に基づいて選択される。さらに、ゲインは、音声信号全体に適用されても良い。代替として、ゲインは、スピーチ信号を含むことが知られている音声信号の実質的に全ての周波数帯に適用される。本発明のいくつかの実施形態において、信号が増幅ゲインで増幅された後、その信号は、増幅された信号がその許容されるダイナミックレンジを超える場合に備えて、歪みを避ける為に圧縮される。
【0013】
本発明のいくつかの実施形態の側面は、ボイス信号が第1の周波数成分と異なる1以上の第2の周波数成分での増幅を必要とすることの決定に応じて、ボイス信号の1以上の第1の周波数成分を増幅するノイズ補正システムに関連する。システムは、ボイス信号を複数の周波数成分に分け、そして少なくとも一つの周波数成分について、その周波数成分の振幅が適切であるかどうかを決定する。第1の周波数成分の振幅が不適切であるとの決定に応じて、少なくとも一つの第2の周波数成分の振幅が調節される。本発明のいくつかの実施形態では、決定に応じて、恐らくは同じ調節係数によって、殆どのまたは全ての周波数成分の振幅が調節される。
【0014】
本発明のいくつかの実施形態の側面は、背景ノイズを克服できるよう所望の音声信号を調節するためのノイズ補正システムに関連する。音声信号は、複数の周波数成分に分割され、それぞれの周波数成分は、ノイズに依存するゲインによって、およびノイズに依存しないゲインによって増幅される。同一の分割で生成された周波数成分にノイズに依存するゲインおよびノイズに依存しないゲインを適用することによって、信号の分割に必要な2倍のコストおよび遅延が発生することなしに、両方のゲインの利点が得られる。本発明のいくつかの実施形態において、ノイズに依存するゲインの少なくとも一部は、信号に依存しないゲイン、例えば所定の固定ゲインでもあるゲインからなっている。本発明のいくつかの実施形態において、ノイズに依存するゲインは、実質的に全ての周波数成分について同じである。
【0015】
本発明のいくつかの実施形態において、ノイズに依存するゲインおよびノイズに依存しないゲインは、単一の増幅部によって音声信号に適用される。代替として、ゲインのそれぞれの部分を音声信号に適用する複数の増幅部が用いられる。さらに、第1の増幅部がノイズに依存するゲインのみを適用し、また第2の増幅部がノイズに依存するゲインおよびノイズに依存しないゲインの両方を適用するものであっても良い。代替としてまたは追加として、第1の増幅部が信号に依存しないゲインのみを提供し、第2の増幅部が信号に依存するゲインのみを提供する。
なお、本明細書で用いられるゲインという用語は、減衰、つまり1よりも小さいゲイン係数を含んでいても良い。
【0016】
本発明のいくつかの実施形態の側面は、背景ノイズを克服できるよう所望の音声信号を調節するためのノイズ補正システムに関連する。このノイズ補正システムは、背景ノイズに基づいて、修正された音声信号を計算する。システムの出力は、元の音声信号と、補正された信号との重み付け合計に等しい。補正された信号だけという代わりに重み付けされた合計の音を鳴らすことによって、(元の信号であることの利点を持つ)元の信号と(増強されているという利点を持つ)増強された信号とを兼ね備えたものが提供される。
【0017】
本発明のいくつかの実施形態において、重み付けされた合計は、元の信号におよび補正された信号に所定の重みを与える。均一の重みが、元の信号におよび補正された信号に与えられても良い。代替としてまたは追加として、重み付けされた合計の重みは、修正された音声信号に適用されたゲインの程度に応じて、および/または背景ノイズの程度に応じて調節される。
【0018】
本発明のいくつかの実施形態の側面は、音声信号のフォルマントを識別する方法に関連する。この方法は、音声信号の複数の周波数成分についてパワー値を決定すること、それぞれの周波数成分をそれに(周波数で)隣接する周波数成分で平均化するために、周波数成分のパワー値にローパスフィルタをかけること、およびフィルタがかけられたパワー値のパワーのピークを見つけ出すことからなる。
【0019】
さらに、周波数成分は、複数のフィルタを用いて生成されても良い。代替として、複数の周波数成分はフーリエ変換を用いて生成される。本発明のいくつかの実施形態において、複数の周波数成分は、10から24の周波数成分からなる。さらに、これは12から15の周波数成分であっても良い。代替として、複数の周波数成分の数は、用いられるFFTのFFTビン(FFT bin)の数からなる。本発明の模範的な実施形態において、複数の周波数成分の値は、FFTを実行し、複数の隣接するビン(bin)の値を一つの周波数成分の値に合成することによって計算される。
【0020】
本発明のいくつかの実施形態の側面は、近端部のユーザが話していないとの決定に応じて、遠端部から受信される信号のノイズ補正を実行する双方向の通信ハンドセット、例えば電話のためのノイズ補正システムに関連する。したがって、このノイズ補正システムの電力消費は減じられる。一般に、近端部のユーザが話すとき、遠端部のユーザは黙っているか、近端部のユーザは遠端部から受信した信号を聞いていないか、または、ノイズ補正が有効になっていない。
【0021】
本発明のいくつかの実施形態の側面は、背景ノイズを克服するできるよう所望の音声信号を増強するためのゲインを決定する方法に関連する。この方法は、異なる期間内で、音声信号の振幅の少なくとも2つの、程度の高い値を決定することを含む。程度の高い値は平均され、ノイズ指標と比較される。さらに、ゲインは、その比較に応じて決定されても良い。本発明のいくつかの実施形態において、ノイズ指標は、音声信号の程度の高い値の平均の計算に類似するやり方で、背景ノイズ信号から計算される。
【0022】
本発明のいくつかの実施形態において、程度の高い値の平均は、幾何平均または算術平均からなる。代替としてまたは追加として、あらゆる他の平均化の方法が用いられても良い。
【0023】
さらに、程度の高い値は、それぞれの周期内での最大値であっても良い。代替としてまたは追加として、1以上の程度の高い値は、減衰する最大値であっても良い。すなわち、最大値は格納され、格納された値は所定の関数にしたがって時間と共に減衰する。代替としてまたは追加として、程度の高い値は、より新しい値に高い重みが与えられた、重み付けされた音声信号の最大値からなる。
【0024】
本発明のいくつかの実施形態の側面は、エコーキャンセルを実行する方法に関連する。この方法は、エコーを発生する信号とエコーキャンセルを受ける信号との相関を見つけ出すこと、およびエコーを発生する信号のみを取り除くことからなる。この方法は、性能は低いけれども、当技術分野で知られた方法と比較して非常にシンプルである。この方法は、エコーが音響の状態が原因となった直接のエコーであるときに特に有利である。
【0025】
したがって本発明の実施形態によって提供されるのは、音声信号にとって無関係な背景ノイズを克服するために音声信号を処理する方法であって、音声信号の周波数成分における前記音声信号の評価基準と、前記背景ノイズの周波数成分におけるノイズの評価基準とを比較し、前記比較に応じてゲインを決定し、前記音声信号の前記周波数成分内には含まれていない少なくとも一つの周波数部分を含む、前記音声信号の少なくとも一部を、決定された前記ゲインによって増幅すること、を含む。
【0026】
さらに、前記音声信号の評価基準は、前記音声信号のパワーからなっていても良い。さらに、前記背景ノイズの周波数成分における前記ノイズの評価基準は、前記ノイズのマスキング型のパワーからなっていても良い。恐らく、前記信号の少なくとも一部を増幅することは、前記音声信号の比較された周波数成分を含む部分を増幅することからなるであろう。
【0027】
さらに、前記信号の少なくとも一部を増幅することは、前記決定されたゲインによって前記音声信号の全体を増幅することからなっていても良い。本発明のいくつかの実施形態において、適用されるべき前記ゲインを決定することは、前記音声信号の周波数成分の周波数帯における信号対ノイズ比を閾値より高くするであろうゲインを決定することからなる。
【0028】
さらに、前記閾値は、前記信号評価基準および/またはノイズ評価基準の時間変化にしてがって動的に調整されても良い。代替として、前記閾値は所定の値である。さらに、前記音声信号の周波数成分における前記音声信号の評価基準を比較することは、前記音声信号のフォルマントを含む周波数成分において比較することからなっていても良い。さらに、前記音声信号のフォルマントを含む周波数成分において比較することは、前記音声信号の複数の周波数成分の中で最も低い信号対ノイズ比(SNR)を持つ周波数帯の周波数成分において比較を行うことからなっていても良い。
【0029】
さらに、本方法は、前記音声信号を複数の周波数成分に分割し、全周波数成分より少ないものを選択することを含んでいても良い。恐らく、全周波数成分より少ないものを選択することは、前記音声信号のフォルマントを含む周波数成分を選択することからなる。さらに、前記音声信号のフォルマントを含む周波数成分を選択することは、フォルマントを含む周波数成分を所定数まで選択することからなっていても良い。
【0030】
さらに、本方法は、前記選択された周波数成分から前記音声信号の周波数成分を選択することを含んでいても良い。恐らく、前記音声信号の少なくとも一部を増幅することは、前記比較に応じて決定されたゲインを含む複数のゲインから合成されたゲインで増幅することからなるであろう。さらに、本方法は、前記背景ノイズが存在する状態で前記増幅された信号の音を鳴らすことを含んでいても良い。
【0031】
恐らく、前記音声信号の周波数成分と前記ノイズの周波数成分とは、実質的に同じ周波数帯にわたっているであろう。さらに、前記周波数成分は周波数帯からなっていても良い。
【0032】
さらに、本発明の実施形態によって提供されるのは、音声信号にとって無関係な背景ノイズを克服するために音声信号を処理する方法であって、前記音声信号を複数の周波数成分に分割し、前記周波数成分のそれぞれについてのノイズに依存しないゲインによって、それぞれの前記周波数成分を強調し、それぞれの周波数成分を、前記周波数成分のノイズ依存のゲインで乗算すること、を含む。
【0033】
恐らく、本方法は、前記複数の周波数成分を強調された音声信号に再結合することを含むであろう。
【0034】
さらに、前記音声信号を複数の周波数成分に分割することは、10から24の周波数成分、または100より多い周波数成分に分割することからなっていても良い。さらに、前記音声信号を複数の周波数成分に分割することは、実質的に重なり合っていない複数の周波数成分に分割することからなっていても良い。恐らく、それぞれのノイズに依存しないゲインによってそれぞれの前記周波数成分を強調することは、信号に依存しない所定のゲインによって強調することからなるであろう。
【0035】
恐らく、それぞれの周波数成分を前記周波数成分のノイズ依存のゲインで乗算することは、実質的に全ての周波数成分を、同一のノイズ依存のゲインで乗算することからなるであろう。恐らく、前記強調および増幅は、一つの機能要素で実行されるであろう。さらに、前記強調および増幅は、別々の機能要素で実行されても良い。
【0036】
さらに、前記ノイズに依存しないゲインは、前記音声信号がボイススピーチ(voiced speech)を含む場合、ボイススピーチ強調係数からなっていても良い。恐らく、前記音声信号を複数の周波数成分に分割することは、前記音声信号にフーリエ変換を適用することからなるであろう。代替としてまたは追加として、前記音声信号を複数の周波数成分に分割することは、前記音声信号を、バンドパスフィルタのアレイを通過させることからなる。
【0037】
さらに、本発明の実施形態によって提供されるのは、音声信号にとって無関係な背景ノイズを克服するために音声信号を処理する方法であって、音声信号を受信し、前記音声信号を前記背景ノイズの評価基準に応じて強調し、前記強調された音声信号と前記受信した音声信号との重み付けされた合計である出力を提供すること、を含む。
【0038】
さらに、前記音声信号を強調することは、前記音声信号の複数の周波数成分をそれぞれのゲインで乗算することからなっていても良い。さらに、重み付けされた合計を提供することは、動的に調整される重みにより生成される重み付けされた合計を提供することからなっていても良い。さらに、前記動的に調整される重みは、前記音声信号が強調される程度に応じて決定されても良い。本発明のいくつかの実施形態において、前記音声信号を強調することは、複数の異なるゲイン係数を計算し、前記音声信号を前記複数のゲイン係数で乗算することからなり、前記動的に調整される重みは、前記ゲイン係数の一つに応じて決定される。
【0039】
さらに、前記異なるゲイン係数の少なくとも一つは、過去に依存するゲイン係数からなっていても良い。さらに、重み付けされた合計を提供することは、所定の重みにより生成された、重み付けされた合計を提供することからなっていても良い。さらに、前記重み付けされた合計を提供することは、前記提供された重み付けされた合計の聞き手が話しているという決定に応じて、前記受信された音声信号が支配的となる重み付けされた合計を提供することからなっていても良い。さらに、前記重み付けられた合計を提供することは、前記音声信号がスピーチ信号を含まないという決定に応じて、前記受信された音声信号が支配的となる重み付けされた合計を提供することからなっていても良い。
【0040】
さらに、本発明の実施形態によって提供されるのは、ノイズ補正システムであって、音声信号を受信するように構成された入力インタフェースと、強調された音声信号を鳴らすように構成されたスピーカと、前記強調された信号を聞く聞き手を妨害するであろう背景ノイズを集めるように構成されたマイクロフォンと、前記強調された音声信号を提供するために、前記音声信号の周波数成分における前記音声信号の評価基準と、同一の周波数成分における背景ノイズの評価基準とを比較し、前記比較に基づいてゲインを決定し、および、前記周波数成分内にはない少なくとも一つの部分を含む、前記音声信号の少なくとも一部を増幅するように構成されたコントローラと、を備える。
【0041】
さらに、前記スピーカおよび前記マイクロフォンは、電話ハンドセットの部分であっても良い。さらに、本システムは、前記背景ノイズから前記強調された音声信号の少なくとも一つのエコーを取り除くエコーキャンセラを備えていても良い。さらに、前記エコーキャンセラは、前記背景ノイズから前記強調された音声信号の一つのエコーのみを取り除くものであっても良い。
【0042】
さらに、本発明の実施形態によって提供されるのは、音声信号にとって無関係な背景ノイズを克服するために音声信号を強調するためのゲインを決定する方法であって、前記音声信号の評価基準についてある時間にわたり複数の程度の高い値を決定し、前記程度の高い値を平均し、前記平均と前記ノイズの評価基準を比較し、前記比較に応じて前記音声信号を強調するためのゲインを決定すること、を含む。
【0043】
さらに、前記複数の程度の高い値を決定することは、前記音声信号の異なる時間部分について程度の高い値を決定することからなっていても良い。さらに、前記複数の程度の高い値を決定することは、前記音声信号の異なる長さの時間部分について程度の高い値を決定することからなっていても良い。さらに、前記複数の程度の高い値を決定することは、最大値を決定することからなっていても良い。代替としてまたは追加として、前記複数の程度の高い値を決定することは、より最近の値に高い重みが付けられる、前記音声信号の重み付けがなされたものについての最大値を決定することからなる。さらに、前記程度の高い値を平均することは、幾何平均を計算することからなっていても良い。
【0044】
[実施形態の詳細]
図1は、本発明の実施形態によるノイズ補正システム30の模式図である。システム30は、スピーカ32によって音を鳴らされる入力ボイズ信号Sinput(t)を受信する。例えば、Sinput(t)は、電話の会話における遠くの仲間から受信される。コントローラ40は、スピーカ32の近くで、入力ボイス信号Sinput(t)とノイズの推定値N(t)を受信し、入力ボイス信号のノイズ補正されたものである、ノイズ補正入力信号S’(t)を提供する。
【0045】
本発明のいくつかの実施形態において、入力ボイス信号は、入力ボイス信号Sinput(t)についてのノイズが除去されたものであるS(t)を提供するノイズクリーナ95を通される。ノイズクリーナ95は、スピーカ32の近辺のノイズとは関係無しに動作する。ノイズクリーナ95は、さらに、スピーチの信号がないときにノイズを測定し、ノイズの周波数帯の形式を決定しても良い。さらに、ノイズクリーナ95は、スピーチを含む信号部分のスペクトル表現からノイズのスペクトル表現を取り除いても良い。代替としてまたは追加として、その開示が参照によって本明細書に組み込まれる、Helfらの米国特許5,550,924号、および/または、Yooによる、“Utilizing Interband Acoustical Information For Modeling Stationary Time−Frequency Regions of Noisy Speech”、音響、スピーチ、および信号処理、1999、IEEE会報 vol.2 、809−812ページに記載されているような、当技術分野で知られた他のあらゆるノイズクリーナが用いられても良い。代替としてまたは追加として、ノイズクリーナは、周波数成分が決定された後の位置で、コントローラ40と一緒になっていても良い。
【0046】
本発明のいくつかの実施形態において、ノイズ推定値N(t)は、スピーカ32の近くのマイクロフォン32によって集められた入力ノイズ信号n(t)に応じて生成される。さらに、入力ノイズ信号n(t)は、ノイズ推定値N(t)を提供するために、アンプ36で増幅され、エコーキャンセラ(EC)96を通されても良い。エコーキャンセラ96は、入力ノイズ信号n(t)から、マイクロフォン34に集められたおよび/または音響結合によりn(t)に入り込んだ、出力された信号S’(t)のエコーを除去する。
【0047】
本発明のいくつかの実施形態において、エコーキャンセラ96は、出力信号S’(t)についての最近の所定のサイズのセグメント(例えば2、3msec)に関して、ノイズ信号n(t)における最大相関セグメントを見つけ出す。さらに、エコーキャンセラ96は、セグメントの相関値、およびそれらの時間差を決定しても良い。本発明のいくつかの実施形態において、エコーキャンセラ96は、セグメント間の時間差だけボイス信号S’(t)を遅延させ、遅延されたボイス信号を、決定された自動相関値倍する。さらに、ノイズ推定値N(t)は、乗算され遅延されたボイス信号が引かれた、検知されたノイス信号n(t)として計算されても良い。この場合、エコーキャンセラ96は、あまり正確ではないという代償を払うけれども、当技術分野で知られた他のエコーキャンセラよりもシンプルである。代替としてまたは追加として、例えば適応フィルタリングを利用するエコーキャンセラを含む他のエコーキャンセラが用いられても良い。
【0048】
さらに代替としてまたは追加として、ノイズn(t)は、エコーキャンセラを通されない。本発明の模範的な実施形態において、マイクロフォン34がスピーカ32に近くないとき、例えばマイクロフォン34がスピーカ32の近くというよりむしろノイズの発生源に近い時には、エコーキャンセラは用いられない。例えば、主要なノイズ発生源、例えば車のモータが知られているとき、マイクロフォン34はモータの近くに配置されても良い。本発明の模範的な実施形態において、スピーカ32およびマイクロフォン34は、例えば、垂直にまたは反対の方向を向いて、電話の中で互いに少なくとも約90度の角度で配置される。
【0049】
本発明のいくつかの実施形態において、ノイズ補正システム30は、有線のまたは携帯電話セットの近くにあるノイズを補正する。さらにシステム30は、電話セット内に配置されても良い。代替としてまたは追加として、システム30またはその一部は、電話セットのサービスを行う電話ネットワーク内に配置される。さらに、マイクロフォン34は、普通の使用に加えて、入力ノイス信号n(t)を集める為に用いられる通常の電話セットのマイクロフォンであっても良い。代替としてまたは追加として、マイクロフォン34は、電話セットに取り付けらるフリーハンドのマイクロフォンである。さらに代替としてまたは追加として、マイクロフォン34は、電話セットの通常のマイクロフォンとは独立している。
【0050】
本発明のいくつかの実施形態において、システム30は、アナウンスシステム、音楽システム、ビデオ会議システム、ラジオ、および/またはテレビのような他のボイズサウンディングシステムおよび/またはオーディオシステムと共に用いられる。本発明のいくつかの実施形態において、複数のマイクロフォンが、ノイズN(t)の推定で用いられるノイズ信号を集めるために用いられる。1以上のマイクロフォン34が、ノイズの発生源の近くに、聞き手の近くに、および/または補正されるべきノイズレベルの決定に適したあらゆる他の位置に配置されても良い。本発明のいくつかの実施形態において、一つの入力信号Sinput(t)が、複数のスピーカ32で音を鳴らされる。したがって、システム30は、それぞれのノイズ推定値N(t)に応じてそれぞれのスピーカ32に対して、それぞれに入力信号を修正する。
【0051】
図2Aは、本発明の好ましい実施形態によるコントローラ40のブロック図である。さらに、コントローラ40は、所定の周期、例えば10または12.5msecごとに1サンプル値のような周期で提供されるデジタルのサンプル値のストリームとして、入力信号S(t)およびノイズ推定信号N(t)を受信しても良い。代替としてまたは追加として、入力信号S(t)および/またはノイズ推定信号N(t)は、好適なアナログ−デジタルコンバータ(不図示)を用いてデジタルストリームに変換されるアナログ信号として提供されても良い。本発明のいくつかの実施形態において、ボイス信号S(t)およびノイズ信号N(t)の所定数のサンプル値が、バッファ110および116にそれぞれ蓄積される。蓄積されたサンプル値は、さらに、入力信号S(t)の複数の周波数成分について値S1,S2,・・・,Sn、およびノイズ信号N(t)についての複数のそれぞれの周波数成分値N1,N2,・・・,Nmを提供するために、高速フーリエ変換ユニット111および115をそれぞれ通されても良い。代替としてまたは追加として、必ずしもFFTではなく、他のフーリエ変換方法が用いられても良い。
【0052】
本発明のいくつかの実施形態において、FFTのそれぞれのビン(bin)は、それぞれの周波数成分に対応する。代替として、それぞれの周波数成分は、それぞれのビン(bin)のグループからなる。本発明のいくつかの実施形態において、極端なものを除く実質的に全ての周波数成分は、同じビン(bin)数から構成される。代替としてまたは追加として、例えば図2Bを参照して以下で記載されるように、周波数成分の帯域が決定され、それぞれの周波数帯域に含まれるビン(bin)の値は、周波数成分の値の決定で用いられる。
【0053】
さらに、周波数成分値S1,S2,・・・,Snは、ボイス信号S(t)の理解度を上げるために、所定の強調方式によって特定の周波数成分を強調する強調フィルタ112によってフィルタ処理されても良い。強調フィルタ112は、さらに、スピーチ信号を強調するために、主要なスピーチ周波数を含む周波数成分の振幅を強調しても良い。強調フィルタ112の模範的な実施形態は、図6を参照して以下で述べる。その後、以下で述べるように、強調された周波数成分値は、乗算部117において、論理部77でノイズ信号N(t)およびボイス信号S(t)に応じて決定されたそれぞれのゲイン係数(信号線121上のgi)倍される。このように、それぞれの周波数成分は、強調フィルタ112によってノイズに依存しない値倍され、乗算部117によってノイズに依存する値倍される。
【0054】
ノイズ依存の修正を行う前に強調フィルタ112によってスピーチ信号を強調することで、ノイズ依存の修正は、ボイス信号S(t)のスピーチ成分の処理に焦点を合わせられる。なお、以下で記載するように、ボイス信号に歪みを生じさせないように、ノイズ依存の修正は一般に全ての周波数成分に対して同じである。一方、ノイズに依存しない修正は、異なる周波数に対して異なるゲインを持っていても良い。異なるゲインを異なる周波数成分に適用することはボイス信号を歪ませることになるかも知れないが、このような歪みは既知の影響を持ち、調整される信号の外部の値、すなわちノイズには左右されない。本発明のいくつかの実施形態において、以下で記載するように、乗算部117のゲイン{gi}は、ノイズに依存するおよびノイズに依存しない修正の組み合わせである。
【0055】
強調フィルタ112を乗算部117の前に配置することに対する代替としてまたは追加として、強調フィルタ112(または第2の強調フィルタ)は、乗算部117の出力上で動作することもできる。周波数成分のうちの一つの抽出物に基づいてノイズに依存するおよびノイズに依存しない修正の両方を実行することにより、ノイズ補正システム30の複雑さが減少する。
【0056】
調節されたボイズ信号S’’(t)を提供する為に、乗算された周波数成分は、さらに、逆FFT(IFFT)部118によって再び時間領域に変換されても良い。本発明のいくつかの実施形態において、以下で述べるように、重み付け平均部133は、論理部77で生成されたそれぞれの重みb1およびb2(b1+b2=1)に基づいて、調節されたボイズ信号S’’(t)および入力ボイス信号S(t)の重み付け合計SW(t)を生成する。さらに、重み付け合計は、必要であれば、重み付け合計がスピーカ32の動作範囲を超えないように重み付け合計を調節するソフトリミッタ100に提供されても良い。リミッタ100からの信号は、さらに、デジタル−アナログ(D/A)変換器31によってアナログ信号に変換され、パワーアンプ52で増幅され、およびスピーカ32で音を鳴らされても良い。代替として、D/A変換器31は、重み付け平均部133の加算器の前、またはリミッタ100の前に配置されても良い。
【0057】
本発明のいくつかの実施形態において、リミッタ100は、重み付け合計SW(t)をアンプ52の所定の動作制限の範囲に制限する。代替としてまたは追加として、リミッタ100によって重み付け合計SW(t)が制限される範囲は、アンプ52の現在のダイナッミックレンジに基づいて周期的に決定される。さらに、リミッタ100は、対称的な制限、すなわち、−limit<SW(t)<+limitの間に制限されても良い。本発明の模範的な実施形態において、リミッタ100は、以下の関数を実行する。
【0058】
【数1】
ここで、Aは、0から1の間の任意の値であり、xは、制限すべき信号であり、F(x)は、制限された信号である。
【0059】
リミッタ100を用いることに対する代替としてまたは追加として、コントローラ40が実質的にパワーアンプ52のダイナミックレンジを超える信号を発生することができないように、パワーアンプ52のダイナミックレンジは、コントローラ40に入る信号のダイナミックレンジよりも大きい。さらに、代替としてまたは追加として、以下で記載するように、論理部77で生成されるゲインは、リミッタ100の必要を実質的になくす圧縮係数である。しかしながら、本発明のいくつかの実施形態では、あらゆる歪みを防ぐ為に、たとえ論理部100で生成されるゲインが圧縮係数であるときであっても、リミッタ100は用いられる。
【0060】
本発明のいくつかの実施形態において、論理部77は、ボイス信号S(t)のそれぞれの周波数成分についてパワーレベルESiを、ノイズ信号N(t)のそれぞれの周波数成分についてパワーレベルENiを受信する。さらに、信号の絶対値の二乗(ABS2)を生成するパワー決定部113は、強調フィルタ112からS(t)の周波数成分の強調された値を受信し、それらの値から、各周波数成分についてパワーESiを決定する。本発明のいくつかの実施形態において、FFT部115で生成されたノイズ信号N(t)の周波数成分は、各周波数成分におけるノイズ信号N(t)のパワーENiを計算するパワー決定部114(ABS2)を通される。さらに、ノイズパワー信号ENiは、図7を参照して以下で述べるように、ヒトの音響上の考慮事項にしたがってノイズパワー信号ENiを調節するマスキング部119を通される。
【0061】
本発明のいくつかの実施形態では、ボイス信号S(t)およびノイズ信号N(t)は、同じ周波数成分の区分を用い、同じ数の周波数成分(つまりn=m)に分けられいる。代替として、ボイス信号S(t)およびノイズ信号N(t)は、異なる数の周波数成分に分けられても良い。本発明のいくつかの実施形態において、ノイズ信号N(t)は、より広い帯域幅の周波数帯に変換される。さらに、これらの実施形態において、ノイズ信号N(t)は、ボイス信号S(t)よりも多い周波数成分に分けらる。この場合、1または2の周波数成分だけ多くても良い。本発明のいくつかの実施形態において、ノイズ信号N(t)の追加の周波数成分は、低い周波数に影響を与える高い帯域のノイズ周波数を考慮に入れるために、マスキング部119によって用いられる。さらに、論理部77に提供されるノイズおよびボイス信号は、同じ数の周波数成分を持っていても良い。
【0062】
本発明のいくつかの実施形態において、ボイス信号S(t)およびノイズ信号n(t)の両方は、ノイズ信号のいっそう多い数の周波数成分の生成を可能にする共通の十分に高速なサンンプリング速度でサンプリングされる。代替として、ノイズ信号n(t)は、サンプリングされた信号n(t)からいっそう多い数の周波数成分が生成されるように、ボイス信号S(t)よりも高い周波数でサンプリングされる。さらに、ノイズ信号n(t)は、信号の容易な比較が可能となるように、その後、ボイス信号S(t)のサンプリング速度に落としてサンプリングされても良い。代替として、ボイス信号S(t)は、高い周波数成分に0値が埋められる。
【0063】
本発明のいくつかの実施形態において、ボイス動作検出(VAD)部250は、S(t)がスピーチ信号を含んでいないとき(例えば語と語の間の無音の期間)を決定し、S(t)がスピーチ信号を含んでいないときに論理部77を実質的にディスエーブルにする。このように、背景ノイズn(t)を“克服”するために、語と語の間でボイス信号S(t)に含まれるノイズは増幅されない。さらに、VAD部250が入力はスピーチ信号を含んでいないと決定したときに、論理部77は、ボイス信号S(t)がスピーチを実際に含んでいたときの前の時間からの出力ゲイン{gi}を提供しても良い。代替としてまたは追加として、論理部77の1以上の要素が、電力消費を減じる為に出力を行わない。さらに、ボイス信号S(t)がスピーチを含まないと決定されたときに、ボイス信号S(t)は、変更されることなしにスピーカ32に提供されても良い。代替として、ボイス信号がスピーチ信号を含んでいないときに、ボイス信号S(t)はカットされ、信号は音を鳴らされない。
【0064】
本発明のいくつかの実施形態において、VAD部250は、ボイス信号S(t)がスピーチ信号を含むかどうかを、信号の振幅とボイス閾値との比較に基づいて決定する。さらに、ボイス閾値は、セッションの開始のノイズレベル、例えば電話の会話の開始時に測定されたノイズレベルに応じて設定されても良い。代替として、ボイス閾値は、工場調整され、またはさもなければ予め決定されても良い。さらにそれに代わるものとして、ボイス閾値は、連続的におよび/または周期的に取得されるノイズ測定値に応じて適応的に調整されても良い。本発明のいくつかの実施形態において、閾値は、測定されたノイズの所定値倍、例えばノイズの3から5倍に設定される。代替としてまたは追加として、当技術分野で知られた、あらゆる他のVADが用いられても良い。
【0065】
本発明のいくつかの実施形態において、コントローラ40の処理の繰返しが、所定数のサンプル値、例えば100から1000のサンプル値に適用される。さらに、この所定数は、サンプリング速度に依存していても良い。さらに、コントローラ40の処理の繰り返しは、高速フーリエ変換(FFT)を用いてフーリエ変換を実行することを可能にする為に、2の累乗、例えば128,256または512である多数のサンプル値に適用されても良い。本発明のいくつかの実施形態において、それぞれの繰り返しで用いられるサンプル値の数は、多数のサンプル値を要求する、必要な精度と、少数のサンプル値を要求する遅延の短縮との間の妥協点である。さらに、ユーザは、繰り返しの処理で用いられるサンプル値の数を特定の時間に調節しても良い。本発明のいくつかの実施形態において、遅延は、信号の発生元からスピーカ32に至るまでの信号のトータルの遅延にしたがって設定されても良い。例えば、システム30が電話で用いられているとき、往復遅延(RTD)が比較的小さい場合には、比較的大きな遅延(例えば20ms)を招く、多数のサンプル値を用いるFFTが用いられても良い。しかしながら、信号のRTDが比較的大きい場合には、システム30の遅延は、FFTを実行するサンプル値の数を減じることによって、5または10msに制限されても良い。
【0066】
さらに、それぞれの処理の繰り返しは、重なり合いのないサンプル値のグループに対して実行されても良い。代替として、それぞれの処理の繰り返しは、1以上の以前の処理の繰り返しで用いられたサンプル値に部分的に重なり合うサンプル値のクループに対して実行される。本発明の模範的な実施形態において、処理の繰り返しは、128個のサンプル値が集められる毎に、最も新しい256のサンプル値に対して実行される。本発明のいくつかの実施形態において、重なり合うサンプル値の量は、スピーチ品質対電力消費の関数として調節される。電力消費を最小にすることが必要となるとき、いっそう少ない数の処理の繰り返しが、少ない重なり合いまたは重なり合いのない状態で実行される。高いスピーチ品質が必要となるとき、頻繁な処理の繰り返しが、高い重なり合いの割合で実行される。さらに、ユーザは、所望の処理の繰り返しの速度を選択しても良い。
【0067】
フーリエ変換を用いて周波数成分値を生成することに対する代替として、図2Bを参照してここで述べるように、バンドパスフィルタのアレイが、ボイス信号およびノイズ信号の周波数成分信号を生成するために用いられても良い。フィルタアレイを使用することにより、システム30は、実質的に遅延を伴うことなく動作することが可能になる。
【0068】
図2Bは、本発明の実施形態による、コントローラ40’のブロック図である。コントローラ40’は、コントローラ40に類似しており、コントローラ40の代わりにシステム30において用いることができる。以下の記載では、コントローラ40’の中でコントローラ40と異なる要素についてのみ記載する。コントローラ40’において、ボイス信号S(t)およびノイズ信号N(t)は、複数の周波数成分ボイズ信号S1(t),S2(t),・・・,Sn(t)および複数の周波数成分ノイズ信号N1(t),N2(t),・・・,Nm(t)を生成する、各バンドパスフィルタ(BPF)アレイ62および64を通される。
【0069】
ボイスおよびノイズ周波数成分の数は、コントローラ40を参照して上記したあらゆる代替手段にしたがっていても良い。本発明のいくつかの実施形態において、フィルタアレイ62におけるフィルタの数は、必要な質、およびコントローラ40が対応する周波数範囲に依存して、約10から60の間である。さらに、コントローラ40の周波数範囲は、音声周波数範囲、例えば20Hzから20KHzの範囲であっても良い。代替として、コントローラ40の周波数範囲は、ヒトの音声の周波数範囲、例えば4から7KHzまであっても良い。さらに代替としてまたは追加として、周波数範囲は、例えば、システム30がペットに用いられた場合には、いっそう小さなまたはいっそう大きな周波数範囲である。
【0070】
本発明のいくつかの実施形態において、1kHzまでの周波数成分は、約100Hzの帯域幅を持ち、いっそう高い範囲の周波数成分は、周波数に対数的に関係する帯域幅を持つ。さらに、周波数成分の周波数は、ヒトの耳の音響のおよび/または他の特性にしたがって選択されても良い。例えば、ヒトの耳で実質的に異なって知覚される周波数は、異なる周波数成分に含められても良い。
【0071】
本発明のいくつかの模範的な実施形態において、周波数成分への分割は、当技術分野で知られた重要なボイスバンドにしたがって決定される。これらの模範的な実施形態において用いられる周波数成分の数は、重要であるとみなされる周波数範囲に依存する。0−20kHzの範囲については、これらの模範的な実施形態は、さらに、約24の周波数成分を用いても良い。300−4000Hzの範囲については、これらの実施形態は、さらに、以下の周波数、すなわち約450,570,630,700,840,100,1170,1370,1600,1850,2150,2500および2900Hzに中心を置く周波数成分を用いるものであっても良い。
【0072】
本発明の別の模範的な実施形態において、周波数成分は、以下の周波数範囲、400−510,510−630,630−770,770−920,920−1080,1080−1270,1270−1480,1480−1720,1720−2000,2000−2320,2320−2700および2700−3150Hzからなっていても良い。なお、周波数成分の周波数範囲の範囲内の周波数よりは重要性は低いけれども、400Hzよりも低い周波数および3150Hzよりも高い周波数は、最初のおよび最終の周波数成分で対応されていても良い。
【0073】
なお、上記の例は限定をするものではなく、周波数成分の他の組が用いられても良い。特に、いっそう多い数の周波数成分、例えば32、48、またはさらに65が用いられても良い。代替としてまたは追加として、周波数成分の範囲は、部分的に重なり合い、またはボイス信号の全周波数範囲よりも小さい範囲に対応するものであっても良い。
【0074】
本発明のいくつかの実施形態において、アレイ62および64内のフィルタは、バタワース(Butterworth)フィルタからなる。これは、さらに、少なくとも2、3、4、5、またはさらに6の段階を持つものであっても良い。本発明の模範的な実施形態において、システム30に低い電力消費が要求されるとき、2または3の段階が用いられる。高い精度が要求されるときには、少なくとも5または6の段階がさらに用いられても良い。本発明のいくつかの実施形態において、フィルターがヒトの耳の内部でのスピーチに対するノイズのマスキング効果を真似ることができるように、段階の数は選択される。
【0075】
さらに、周波数成分の制限は、フィルタの−3dBの位置であっても良い。本発明のいくつかの実施形態において、フィルタの最大の増幅は約1である。代替といしてまたは追加として、アレイ62および/またはアレイ64のいくつか、または全てのフィルタは、チェビシェフ(Chebyshev)、ベッセル(Bessel)、または楕円(elliptic)フィルタのような、他のタイプのものである。さらに、対応する周波数成分のノイズおよびボイスフィルタは、同じ特性を持つ。代替としてまたは追加として、対応する周波数成分のノイズおよびボイスフィルタの少なくともいくつかは、異なる特性である。例えば、本発明のいくつかの実施形態において、フィルタアレイ62のフィルタは、強調フィルタ112のいくつかのまたは全ての強調を実行する(さらに、強調フィルタ112はこれらの実施形態において除かれても良い)。これらの実施形態において、強調を実行するフィルタアレイ62は、フィルタアレイ64とは異なっていても良い。
【0076】
本発明のいくつかの実施形態において、コントローラ40’は、パワー信号ESi(t)を得る為に、それぞれのボイス周波数成分信号Si(t)を二乗する乗算器アレイ70を備える。パワー信号ESi(t)は、さらに、各ローパスフィルタ(LPF)76でフィルタ処理され、次に、周波数成分パワー値ESiを生成するために、サンプラー(不図示)によってサンンプリングされても良い。サンプラーを用いることに対する代替として、論理部77が、その入力端から値が入力されたときにサンプリングを実行する。さらに、ローパスフィルタ76が、サンプリングによって、代表値でない変動した値が取り込まれることがないように、サンンプリングの前にパワー信号ESi(t)を平滑化しても良い。同様に、ノイズ周波数成分信号Ni(t)が、それぞれの信号を二乗する、乗算器アレイ68内の各乗算器を通される。二乗された信号は、さらに、ローパスフィルタアレイ(LPF)73によってフィルタ処理され、周波数成分パワー値Niを生成する為にサンプリングされても良い。
【0077】
本発明のいくつかの実施形態において、LPF73および/または76は、1次または2次のフィルタからなる。さらに、ローパスフィルタは、各周波数成分についての低周波数境界Fminに依存する−3dBポイントを持っていても良い。本発明の模範的な実施形態において、パワー信号のDC成分を捕らえるために、−3dBポイントは、およそFmin/kの位置にある。ここでkは、約1.5から2の間である。代替としてまたは追加として、1以上のローパスフィルタが、各周波数成分の高周波数境界に依存する−3dBポイントを持つ。さらに代替としてまたは追加として、あらゆる他のローパスフィルタが用いられても良い。さらに代替としてまたは追加として、パワー信号のDC成分を動的に取り出すための、あらゆる他の好適な方法および/またはフィルタが用いられる。
【0078】
乗算部117の後、周波数成分信号S1(t),S2(t),・・・,Sn(t)は、さらに、例えば信号加算器65によって合成される。
【0079】
図3は、本発明の実施形態による、論理部77の図である。論理部77は、パワーベクトル{ESi}で表されているように、ボイス信号S(t)の様々な評価に応じて、ボイス信号S(t)の周波数成分を乗算することになるゲイン係数を決定する複数のゲイン決定部を備える。図3の実施形態において、複数のゲイン決定部は、ボイススピーチ強調部91、オートゲイン部92、フォルマント部93、および圧縮部94を備える。しかしながら、論理部77は、本発明の様々な実施形態にしたがって、いっそう少ない処理部、および/またはいっそう多い処理部から構成されていても良い。乗算器99は、さらに、ゲイン決定部で決定されたゲイン係数を受信し、乗算部117(図2Aおよび2B)に提供されることになるゲイン係数{gi}を提供しても良い。代替として、91、92、93および94のそれぞれの処理部は、先行の処理部からのゲインを受信し、蓄積された計算されたゲインを提供する。
【0080】
論理部77は、さらに、パワーベクトル{ESi}で表されているボイス信号S(t)が現在、ボイススピーチ(voiced speech)からなるか、アンボイススピーチ(unvoiced speech)からなるかを決定するボイススピーチ識別部89を備えていても良い。当技術分野で知られているように、声門のパルスからなる周波数帯域でつくられた音声はボイススピーチ信号と呼ばれ、一方、声帯の力をかりずに発音された音声はアンボイススピーチ信号と呼ばれる。
【0081】
本発明のいくつかの実施形態において、識別部89は、ボイス信号S(t)のフォルマントを識別し、したがって、ボイス信号がボイススピーチからなるかどうかを決定する。さらに、ボイス信号S(t)が、支配的な音程、例えば他のすべての音程よりも実質的に大きい振幅を持つ音程を含むならば、その信号はボイススピーチからなるとみなされる。代替としてまたは追加として、識別部89は、ボイス信号S(t)の低周波数におけるエネルギーと、高周波数におけるエネルギーとを比較する。さらに、低周波数におけるエネルギーが、高周波数におけるエネルギーよりも所定の閾値だけ大きい場合には、ボイス信号S(t)は音を発しているとみなされる。本発明の模範的な実施形態において、ボイス信号S(t)の周波数帯は、低周波数と高周波数の間で実質的に均一に分割される。代替として、低周波数と高周波数の間での分割は、音響上の考慮にしたがって、他のあらゆる位置にあっても良い。
【0082】
本発明のいくつかの実施形態において、識別部89は、信号が明確なボイス信号の特性を有しているときにのみ信号がボイス信号を含むことを決定する。その理由は、ボイススピーチ強調部91が、信号がボイズスピーチを含むと決定された場合にのみ信号を変化させるゲインを生成するからである。
【0083】
代替としてまたは追加として、例えば、Yooによる上述の論文に記載された方法、および/または、その開示が参照によって本明細書に組み込まれる、Katesらの米国特許4,468,804号に記載された方法のような、ボイススピーチを識別する為の他のあらゆる方法が用いられても良い。
【0084】
ボイススピーチ強調部91は、さらに、識別部89から、ボイス信号S(t)がボイススピーチを含むかどうかの指示を受け取っても良い。本発明のいくつかの実施形態において、ボイス信号S(t)がボイススピーチを含む場合には、強調部91は、ボイススピーチを運ぶボイス信号S(t)の周波数成分を強調するのに好適なボイススピーチ強調ベクトル(p1,p2,・・・,pn)を選択する。ボイススピーチ強調ベクトル(p1,p2,・・・,pn)は、実質的にすべてのボイススピーチ信号に用いられる所定のベクトルからなっていても良い。それに代わるものとして、ボイススピーチ強調ベクトル(p1,p2,・・・,pn)は、パワーベクトル{ESi}の関数である。
【0085】
本発明のいくつかの実施形態において、スピーチ強調ベクトル(p1,p2,・・・,pn)は、低周波数のパワーを強調し、および/または高周波数のパワーを低下させる。例えばボイススピーチ強調ベクトル(p1,p2,・・・,pn)は、非増加の単調関数であっても良い。本発明のいくつかの実施形態において、識別部89がアンボイススピーチの指示を行うとき、スピーチ強調ベクトル(p1,p2,・・・,pn)は、ボイス信号S(t)の振幅を変化させない単位ベクトルに等しい。
【0086】
本発明のいくつかの実施形態において、強調部91は、パワーベクトル{ESi}をスピーチ強調ベクトル(p1,p2,・・・,pn)で乗算したものに等しい、変更されたパワーベクトル{ESMi}をも提供する。変更されたパワーベクトル{ESMi}は、ボイス信号S(t)のパワーを表すために、オートゲイン部92によって使用されても良い。
【0087】
本発明のいくつかの実施形態において、オートゲイン部92は、ボイス信号S(t)の通常のパワーとノイズ信号N(t)の通常のパワーとの比較に基づいて、信号S(t)のための第1ゲイン係数(Gain1)を決定する。通常のパワーは、最近の期間での信号の履歴に基づいて決定されても良い。第1ゲイン係数は、ボイス信号S(t)を全体的にノイズ信号N(t)の上に持っていく為に設計され、一方、フォルマント部93は、現時点でのボイスおよびノイズ信号の特定の比較を行っても良い。本発明の模範的な実施形態において、オートゲイン部92は、図4を参照して以下で記載されるようなものである。オートゲイン部92は、また、信号S(t)を表す為にフォルマント部93で用いられる、増幅されたパワーベクトル{Gain1×ESMi}をさらに提供しても良い。
【0088】
本発明のいくつかの実施形態において、フォルマント部93は、ボイス信号S(t)の1以上のフォルマントを識別し、それに応じて、第2ゲイン係数(Gain2)を生成する。さらに、第2ゲイン係数(Gain2)は、ボイス信号S(t)の所定のフォルマントのグループに対応する周波数成分のパワーが、ノイズ信号N(t)の対応の周波数成分のパワーよりも、少なくとも所定のマージンだけ上の値を持つことを確実にするのに必要な最小のゲインとして選択されても良い。さらに、所定のマージンは、すべての周波数成分について同じであっても良い。代替として、異なるマージンが異なる周波数成分に対して適用されても良い。本発明のいくつかの実施形態において、所定のマージンは約3から10dBの間であり、さらには6dBであっても良い。本発明の模範的な実施形態において、フォルマント部93は、図5Aおよび5Bを参照して以下で述べるようなものである。さらに、フォルマント部93は、信号S(t)を表す為に圧縮部94で用いられる、増幅されたパワーベクトル{Gain2×Gain1×ESMi}をも提供しても良い。
【0089】
本発明のいくつかの実施形態において、オートゲイン部92からの増幅されたパワーベクトル{Gain1×ESMi}は、増幅されたパワーベクトル{Gain1×ESMi}を平滑化するプリフォルマントスムーザー97を通される。フォルマントの探索は、ボイス信号S(t)の周波数帯域の包絡線に対して実行され、ボイス信号自体には実行されないので、平滑化がさらに実行されても良い。
【0090】
平滑化されたベクトルにおけるそれぞれの周波数成分値(ESMi)は、さらに、その隣接の周波数成分を用いた重み付け平均に等しくても良い。本発明の模範的な実施形態において、プリフォルマントスムーザー97は、以下の数式にしたがって動作する。
【0091】
【数2】
【0092】
代替として、例えばさらに多い隣接の周波数成分を考慮に入れる関数、および/または他の重み付け係数を用いる関数のような、他のあらゆる平滑化関数が用いられる。
【0093】
本発明のいくつかの実施形態において、フォルマント部93は、ここで{ENi’}と呼ばれる、ノイズパワーベクトル{ENi}の平滑化されたものを受信する。さらに、平滑化されたノイズパワーベクトル{ENi}は、プリフォルマントスムーザー97と同じ機能を実行するノイズスムーザー98によって生成されても良い。代替として、ノイズスムーザー98は、プリフォルマントスムーザー97とは異なる機能を実行し、さらにはあまり平滑化されていない信号を生成しても良い。さらに、ノイズパワーベクトル{ENi}は、{Gain1×ESMi}の平滑化されたものと調和するように平滑化されても良い。
【0094】
本発明のいくつかの実施形態において、圧縮部94は、調節されたボイス信号S(t)のパワーを減少させるのに好適な圧縮ベクトル(c1,c2,・・・,cn)を生成する。さらに、圧縮ベクトル(c1,c2,・・・,cn)は、調節されたボイス信号S(t)のパワーを、パワーアンプ52および/またはスピーカ32の動作限界内に減じるのに好適であっても良い。代替としてまたは追加として、圧縮ベクトル(c1,c2,・・・,cn)は、調節されたボイス信号S(t)のパワーを、元のボイス信号S(t)に、または他のあらゆる所望のレベル実質的に等しいレベルにまで減じるのに好適であっても良い。
【0095】
さらに、圧縮部94は、各周波数成分について、その周波数成分における信号対ノイズ比(SNR)を決定しても良い。さらに、周波数成分のSNRが約6dBよりも大きい場合には、ベクトルciの圧縮ゲインは、そのバンド内のボイス信号を、そのSNRの関数である減衰値(負のゲイン)だけ減衰させるように設定されても良い。本発明のいくつかの実施形態において、負のゲインの大きさは、SNR6dBで値0dBを持ち、SNR約24dBで値5dBを持つ単調関数にしたがっている。さらに、負のゲインの最大の大きさは、5dBであっても良い。本発明の模範的な実施形態において、負のゲイン(Y)の大きさは、以下の関数による。
【0096】
【数3】
ここで、xは、SNRを指している。
【0097】
代替としてまたは追加として、圧縮部94は、{ESi}で表されるボイス信号S(t)がその隣接の周波数成分または他の全ての周波数成分よりも実質的に大きい(例えば8−10dBだけ)振幅を持つピーク周波数成分を探索する。さらに、圧縮ベクトル(c1,c2,・・・,cn)は、そのピーク周波数成分の振幅を、約5dBだけ、またはピーク周波数成分の振幅が他の周波数成分よりも大きくなっている程度の割合だけ減少させても良い。
【0098】
さらに代替としてまたは追加として、圧縮ベクトル(c1,c2,・・・,cn)はまた、ノイズによってマスクされる周波数成分を減衰させても良い。さらに、ボイス信号S(t)が実質的にノイズよりも低い(例えば少なくとも6dBだけ)振幅を有する周波数成分は、それらが実質的に除かれるように、0倍されても良い。
【0099】
さらに、代替としてまたは追加として、実質的に出力信号を歪ませない他のあらゆる圧縮機能が用いられる。さらに代替としてまたは追加として、圧縮部94は用いられず、圧縮を実行することがリミッタ100に依頼される。さらに代替としてまたは追加として、リミッタ100は用いられずに、圧縮部94に圧縮を行うことが依頼される。さらに代替として、リミッタ100と圧縮部94の両方が用いられず、圧縮は実行されない。さらに、この代替手段において、スピーカ32で音を鳴らすことのできる入力信号の振幅が可能となるように、パワーアンプ52は、入力ボイス信号の信号範囲よりも大きな動作範囲を持っていても良い。
【0100】
本発明のいくつかの実施形態において、フォルマント部93によって提供される増幅されたパワーベクトル{Gain2×Gain1×ESMi}は、圧縮部94に入力される前にプリ圧縮スムーザー107によって平滑化される。プリ圧縮スムーザー107は、プリフォルマントスムーザー97と同一のまたは類似の平滑化機能を実行しても良い。スムーザー107を用いることに対する代替として、圧縮部94は、ボイス信号S(t)を表す、プリフォルマントスムーザー97の平滑化された出力を受信する。この出力は、さらに、Gain2倍されていても良い。本発明のいくつかの実施形態において、圧縮部94は、ノイズ信号N(t)を表す為に平滑化されたノイズ信号{ENi’}を用いる。代替としてまたは追加として、圧縮部94は、ノイズパワーベクトル{ENi}の異なる平滑化されたものを用いる。さらに代替としてまたは追加として、圧縮部94は、平滑化されていないノイズパワーベクトル{ENi}を用いる。
【0101】
本発明のいくつかの実施形態において、乗算器99は、出力係数、例えば強調ベクトル{pi},Gian1,Gain2,および圧縮ベクトル{ci}を受信し、ゲインベクトル{g1,g2,・・・,gn}を、受信した積、例えばgi=pi*Gain1*Gain2*ciとして生成する。乗算器99を備える論理部77に対する代替としてまたは追加として、オートゲイン部92、ファルマント部93、および圧縮部94のうちの1以上が、1以上の先行する処理部の出力を受信する。本発明の模範的な実施形態において、フォルマント部93は、Gain1を受信しGain1およびGain2の積を提供し、また、圧縮部94は、強調ベクトル、Gain1およびGain2を受信し、圧縮ベクトル(c1,c2,・・・,cn)を生成し、したがってゲインベクトル{g1,g2,・・・,gn}を生成する。
【0102】
パワーベクトル{ESi}の修正されたものに関して動作する処理部92、93および94に対する代替としてまたは追加として、処理部の1以上が、元のパワーベクトル{ESi}に関して、または部分的に修正されたパワーベクトルに関して動作する。
【0103】
本発明のいくつかの実施形態において、論理部77は、重み付け平均部133によって用いられる重みb1およびb2を動的に決定する重み付け部138を備える。背景に比較的ノイズが多く、例えばGain1が比較的大きい場合には、変更されたボイス信号S’’(t)に与えられる重みb1は、比較的大きく例えば0.5である。さらに、変更されたボイス信号S’’(t)に与えられる重みb1は、Gain1についての非減少の関数であっても良い。すなわち、Gain1が増加すれば、変更されたボイス信号S’’(t)に与えられる重みはいっそう大きくなる。本発明の模範的な実施形態において、重みb1=Gain1/maxである。ここでmaxは、Gain1の可能な最大値である。代替としてまたは追加として、Gain1が所定値、例えば0.3よりも小さいとき、重みb1は0に設定される。さらに代替としてまたは追加として、Gain1が所定値、例えば3よりも大きいとき、重みb1は1に設定される。
【0104】
代替として、重みb1およびb2は、ノイズ{ENi}の関数であり、または所定値、例えば0.5である。代替としてまたは追加として、ユーザコントロールにより、ユーザーがその好みによってb1およびb2の値を調整することが可能とされる。
【0105】
本発明のいくつかの実施形態において、b1およびb2は、重みにおける周波数変動を防止するローパスフィルタを通過した後に重み付け平均部133に提供される。代替としてまたは追加として、重み決定部138で実行される関数は、時間平滑化効果を有する。
【0106】
図4は、本発明の好ましい実施形態による、オートゲイン部92のブロック図である。オートゲイン部92は、さらに、変更されたパワーベクトル{ESMi}で表されるボイス信号S(t)の代表的なパワーHSを決定する信号履歴部406を備えていても良い。また、オートゲイン部92は、ノイズパワーベクトル{ENi}で表されるノイズ信号N(t)の代表的なパワーHnを決定するノイズ履歴部411を備える。代表の通常値は、異なる期間での複数の最大値の平均として計算されても良い。本発明のいくつかの実施形態において、信号履歴部406およびノイズ履歴部411は実質的に同一である。代替として、履歴部406および履歴部411は、互いに異なっている。例えば、ボイス通常パワーHSは、ノイズ通常パワーHnが与えるよりも大きな待ち時間を以前の信号に対して与えても良い。
【0107】
本発明のいくつかの実施形態において、それぞれの履歴部406は、受信した全ての周波数成分のパワーの合計を生成する加算器408を備える。代替として、加算器408は、フィルタ62からの周波数成分信号の合計を生成して、合計のパワーを計算し、および/または元の信号S(t)のパワーを計算する。合計は、短期間最大値レジスタ410に、および長期間最大値レジスタ412にさらに提供されても良い。本発明のいくつかの実施形態において、レジスタ410および412のそれぞれは、その新しい値を次のように決定する。受信した値が内部に格納されている値よりも大きい場合には、新しい値は、格納された値に等しい。さもなければ、新しい値は、内部に格納された値の減衰したものである。この場合において、短期間レジスタ410内の値は、長期間レジスタ412内の値よりも速く減衰する。本発明のいくつかの実施形態において、レジスタ410内の値が単一の語内での最大パワーに関連するように、短期間レジスタ410内の値は、約1語の時間の範囲内で減衰する。本発明のいくつかの実施形態において、長期間レジスタ412内の値は、レジスタ412内の値が比較的長い期間での最大パワーに関連するように、1つのセンテンスまたは数センテンスの時間内で減衰する。
【0108】
本発明のいくつかの実施形態において、履歴部406のレジスタ410および412は、履歴部411びレジスタ410および412のそれぞれと同じ減衰値を持つ。代替として、履歴部406のレジスタ410および412は、履歴部411のレジスタ410および412の減衰値とは異なる減衰値を持つ。本発明の模範的な実施形態において、信号履歴部406の長期間レジスタ412内の値は、約256msの期間でその値の10から30%の間にまで減衰し、一方、信号履歴部406の短期間レジスタ410内の値は、約64msの期間で減衰する。さらに、信号履歴部411の長期間レジスタ412内の値は、約1秒の期間でその値の約10から30%の間にまで減衰し、一方、信号履歴部411の短期間レジスタ410内の値は、約25から100msの期間で減衰する。
【0109】
本発明のいくつかの実施形態において、VAD部250がボイス信号がスピーチを含まないという指示を行うとき、信号履歴部406のレジスタ410および412内の値は減衰しない。さらに、ボイス信号がスピーチを含まない場合に、入力値がレジスタの内容よりも高いパワーを有するときには、レジスタ410は更新されなくても良い。代替としてまたは追加として、短期間レジスタ410内の値は、ボイス信号がスピーチを含まないという決定に応じてゼロにされる。本発明のいくつかの実施形態において、信号履歴部411において同様の動作が行われる。
【0110】
本発明のいくつかの実施形態において、受信した値がレジスタの内容よりも大きい場合にレジスタ410および412の1以上のにおける値を即座に更新することに代えて、更新があまりに急峻になることがないように、更新は段階的に行われても良い。さらに、更新は、減衰勾配よりも急勾配の所定の勾配に制限されても良い。
【0111】
オートゲイン部92がパワー信号{ESMi}および/または{ENi}に基づいて動作することに対する代替として、オートゲイン部92は、周波数成分のサンプル値に基づいて動作する。さらに、周波数成分の値は加算され、それらの二乗が求められ、そしてこの二乗がオートゲイン部92で用いられても良い。
【0112】
本発明のいくつかの実施形態において、通常パワーHSまたはHnを生成する為に、平均化部414が、短期間レジスタ410および長期間レジスタ412内の値の平均値を計算する。本発明のいくつかの実施形態において、平均化部414は、幾何平均をとる。代替として、平均化部414は、算術平均または中心値のような他のあらゆる平均値を計算する。さらに、オートゲイン部92は、パワーの比からゲイン値を提供する為に履歴値の比の平方根、すなわち、√(Hn/HS)を計算する、デバイダ108および平方根部109を備えていても良い。
【0113】
レジスタ410および412のみであることに対する代替として、履歴部406および/または411は、異なる減衰時間を持つさらなるレジスタを備えていても良い。さらに代替としてまたは追加として、あらゆる他の方法が、1以上の代表的な通常パワー値を決定するために用いられても良い。
【0114】
本発明のいくつかの実施形態において、オートゲイン部92は、ノイズN(t)の周波数の広がりに関しての平坦度(または密度)指示値(FLAT)を提供するノイズ平坦度部407を備える。ノイズが広い周波数帯域を持つときに増幅が大きくなるように、増幅係数Gain1は、平坦度指示値にしたがって直線的に増加するものであっても良い。ノイズN(t)が白色ノイズと同様であるときには、Gain1は、1に近い値であり、ノイズが特定の周波数を持つ正弦波と同様であるときには、Gain1は低い値、例えば0.2であっても良い。
【0115】
本発明のいくつかの実施形態において、ノイズ平坦度部407は、周波数成分ノイズパワー値{ENi}の正規化された平均値NAを計算する。さらに、平均は、最大パワー値、すなわち、max{ENi}で割ることによって正規化されても良い。本発明の模範的な実施形態において、平坦度指示値FLATは、正規化された平均値NAから、以下の数式にしたがって計算される。
【0116】
【数4】
【0117】
本発明のいくつかの実施形態において、平坦度指示値FLATは、その値の強い変動を防ぐ為に、FLATの以前の値を用いて時間平均される。さらに、平坦度指示値は、1次のまたは2次のローパスフィルタを用いて以前の時間の値によりフィルタ処理されても良い。代替としてまたは追加として、強い変動を防ぐ為に他のあらゆる好適な時間依存のフィルタが用いられても良い。
【0118】
さらに、乗算器405が、平坦度指示値FLAT、履歴値の比の平方根√(Hn/HS)、および所定の一定の増幅(min_gain)の積として、Gain1を生成しても良い。本発明のいくつかの実施形態において、所定の一定の増幅(min_gain)は約1である。代替として、所定の一定の増幅(min_gain)は約2から2.5の間であっても良い。
【0119】
図5Aおよび5Bは、本発明の好ましい実施形態による、フォルマント部93により生成されたゲインによって修正される前と後の模範的なボイス信号209のグラフである。さらに、フォルマント部93は、ボイス信号S(t)についての所定数の(例えば、3つ)フォルマント、すなわち包絡線のピークを識別しても良い。所定数までのフォルマントを選択することは、さらに、低い方の周波数から開始し、フォルマントが見つからなくなるまで、または所定数のフォルマントが見つかるまで選択を行うことから構成されていても良い。本発明の模範的な実施形態において、フォルマント部93は、パワー信号{ESMi}に基づいてフォルマントが位置している周波数成分を識別する。例えば、信号209において、3つの第1のフォルマントが含まれるので、フォルマント部93は、周波数成分3(S3)、周波数成分8(S8)、および周波数成分12(S12)を識別する。
【0120】
所定数のフォルマントが位置しているそれぞれの周波数成分について、フォルマント部93は、さらに、周波数成分におけるSNR、すなわち、その周波数成分におけるノイズ信号ENi208のパワーと、その周波数成分におけるボイス信号ESMi209のパワーとの相違を決定しても良い。さらに、フォルマント部93は、SNRが最も小さい(最も負の値であるものを含む)周波数成分を選択しても良い。信号209については、周波数成分8のSNRが最も小さい。本発明のいくつかの実施形態において、フォルマント部93の出力ゲイン(Gain2)は、最も小さいSNRを所定値、例えば約3から6dBの間にするために必要なゲインに等しい。代替としてまたは追加として、フォルマント部93の出力ゲイン(Gain2)は、SNRを、動的に調節された値にする。さらに、動的に調節されたレベルは、ノイズレベル、ボイス信号S(t)のレベル、および/またはGain1の値に応じて調節されても良い。さらに、出力ゲイン(Gain2)は、ノイズと信号のパワー比の平方根をとることによって、および約2から4(3から6dBに等しい)の間の一定のマージンを掛け算することによって計算されても良い。
【0121】
信号209をGain2倍した後に、信号209の周波数帯域は図5Bに示すようなものになる。さらに、最も低いSNRが所定の閾値、例えば3から6dBよりも大きい場合には、Gain2は1に設定されても良い。本発明の模範的な実施形態において、所定の閾値は、増幅が必要な場合にGain2が最も低いSNRをそのレベルに持っていくレベルに等しい。代替として、所定の閾値は、増幅が必要な場合にGain2が最も低いSNRをそのレベルに持っていくレベルとは異なっており、例えばそれより低いものであっても良い。いっそう低い所定の閾値を用いることは、実行された振幅変化の場合を、変化が実際に必要な場合に限定する。
【0122】
本発明のいくつかの実施形態において、フォルマントの所定数は、ボイス信号S(t)内のフォルマントの数よりも少なくても良い。さらに、フォルマントの所定数は、2から4の間であっても良く、おそらくは3つであろう。なお、ボイス信号S(t)のフォルマント数は、フォルマントの所定数よりも少なくても良い。このような場合には、みつかるのは所定数のフォルマントよりも少ないであろうが、最も低いSNRの決定は、みつかったフォルマントの中から実行されても良い。
【0123】
なお、たとえシステム30が音楽信号のようにスピーチを含まない音声信号を用いて動作する場合であっても、いくつかの実施形態では、フォルマント部93が用いられても良い。
【0124】
図6は、本発明の実施形態による、強調フィルタ112のゲインのグラフである。図に示すように、さらに、低周波および高周波が強調フィルタ112により減衰され、中心周波数が増幅されても良い。本発明のいくつかの実施形態において、ボイス信号S(t)のトータルのパワーは、強調フィルタ112により変化させられない。さらに、強調フィルタ112は、それぞれの周波数成分Si(t)について各ゲインを持つ乗算器からなっていても良い。代替として、複数の周波数成分の少なくとも一つのグループは、強調フィルタ112の一つのゲイン係数を乗算される。
【0125】
図6に示されたゲインを有する強調フィルタに対する代替として、強調フィルタ112のゲインは、スピーチ信号を強調しおよび/またはノイズを減少させる他のあらゆる機能にしたがうものであっても良い。本発明のいくつかの実施形態において、強調フィルタのゲインは、シミュレーションに基づいて決定される。代替としてまたは追加として、強調フィルタのゲインは、工場での較正によって調整される。さらに、代替としてまたは追加として、強調フィルタ112のゲインは、フィールドテストに応じて周期的に更新される。さらに代替としてまたは追加として、強調フィルタ112のゲインは、ユーザにより調整される。この代替手段は、特に難聴に対して役に立つ。
【0126】
図7は、本発明の実施形態による、模範的なノイズパワー信号スペクトラム122およびマスクされたノイズパワー信号スペクトラム123のグラフである。マスキング部119は、さらに、信号スペクトラム122のスペクトルピーク251を見つけ出し、それぞれのピーク251について、互いに反対方向に所定の勾配で減少する一組のライン301および302を計算しても良い。さらに、所定の勾配は、約40〜60dB/10であっても良い。代替としてまたは追加として、異なるピーク251からのライン301および302は、音響上の考慮にしたがって異なる勾配を持っていても良い。さらに代替としてまたは追加として、ライン301および302は、例えば音響上の考慮にしたがって、同一のピークについて異なる勾配を持つ。マスクされたノイズパワー信号スペクトラム123は、さらに、それぞれの点で、ライン301および302のそれぞれの点での最大値に等しくても良い。代替として、マスクされたノイズパワー信号スペクトラム123は、さらに、それぞれの点で、ライン301および302およびスペクトラム122のそれぞれの点での最大値に等しくても良い。さらに、マスキング部119は、リアルタイムで動作し、それぞれの周波数成分に対して、元のノイズパワー値の代わりにマスクされた値を提供する。
【0127】
代替として、ヒトの耳への周波数の内部影響を考慮するあらゆる他のマスキング部が用いられる。さらに代替として、例えば周波数成分の数が比較的少ない場合には、および/または図2Bに示されるフィルタ64が周波数成分値を生成するのに用いられる場合には、マスキング部119は用いられない。フィルタ64が周波数成分値の生成に用いられるとき、フィルタの構造は、一般的には、マスキングの機能を実行するように設計することができる。
【0128】
例えばマイクロフォン34とスピーカ32が電話の一部となっている本発明のいくつかの実施形態において、システム30は、電話のユーザがいつ話しているかを決定するスピーチ検出器を備える。さらに、ユーザが話をしているとき、システム30は、遠方のボイス信号S(t)の修正をディスエーブルにしても良い。したがって、システム30は、ユーザの会話をノイズと関係付けせず、よって、遠くから受信されるボイス信号の振幅をユーザの話す音よりも大きくさせることはしない。
【0129】
図8は、本発明の好ましい実施形態による、スピーチ検出器81のブロック図である。スピーチ検出器81は、さらに、マイクロフォン34からの信号を受信し、受信した信号がいつスピーチを含んでいるかを決定する。本発明のいくつかの実施形態において、スピーチ検出器81は、受信した信号がいつスピーチを含んでいるかを決定する、ピーク検出器82および/または勾配検出器84を備える。ピーク検出器82は、受信した信号と閾値とを比較し、受信した信号が閾値より大きいときにスピーチ指示を提供する。勾配検出器84は、さらに、受信した信号の振幅の勾配をたどっても良い。本発明のいくつかの実施形態において、勾配検出器84は、勾配が所定の増加の勾配を超えたときにスピーチ開始の指示を行い、勾配が所定の減少の勾配を超えたときにスピーチ開始の指示を行う。
【0130】
さらに、スピーチ論理部86がその指示を受信しても良い。本発明のいくつかの実施形態において、スピーチ開始指示とスピーチ指示の両方が受信されるとき、論理部86はシステム30の信号修正をディセーブルにする。さらに、スピーチ終了信号が受信され且つスピーチ指示が受信されないとき、論理部86は、約0.5〜1.2秒のカウント期間を開始する。さらにこのカウント期間は1秒であっても良い。このカウント期間の後、システム30の信号の修正がイネーブルにされる。システム30の信号修正は、さらに、カウント期間の間にスピーチ開始指示がスピーチ指示と一緒に受信されないときにイネーブルにされても良い。したがって、ユーザが話しているとき、遠方の仲間からのボイス信号S(t)は、ユーザの話に打ち勝つようには強調されない。
【0131】
本発明のいくつかの実施形態において、システム30の信号修正をディスエーブルにすることは、遠隔のボイス信号S(t)が実際にスピーチ信号を含むか否かにかかわりなく、遠隔のボイス信号S(t)のVAD信号をスピーチがないことに設定することからなる。代替としてまたは追加として、システム30の信号修正をディスエーブルにすることは、b1をゼロに設定することからなる。
【0132】
本発明のいくつかの実施形態において、ピーク検出器82で用いられる閾値は、スピーチが存在しないときの受信信号の測定値に応じて適応的に調整されても良い。さらに、ノイズ平均化部87が、論理部86がマイクロフォン34からの受信信号がスピーチを含まないと決定した最近の期間で、受信信号を平均化しても良い。本発明のいくつかの実施形態において、平均化は、積分器で実行される。ピーク検出器82で用いられる閾値は、さらに、ノイズ平均化部87からの平均ノイズレベルより上の所定のギャップであっても良い。適応的な閾値の使用は、周囲ノイズが高い時にユーザが大きな声で話し、ノイズが低いときにユーザが小さな声で話す場合に有利である。
【0133】
本発明のいくつかの実施形態において、受信信号中の一時的な変化が論理部86の出力に影響することがないように、ピーク検出器82に入る信号はローパスフィルタ88を通される。代替としてまたは追加として、受信信号中の一時的な変化が出力に影響することがないように、ピーク検出器82および/または勾配検出器84に入る信号はヒステリシス機能を通される。
【0134】
本発明のいくつかの実施形態において、所定の増加勾配および減少勾配は、同じ大きさ、例えば約0.5*Max_amplitude/200msecである。ここで、Max_amplitudeは、マイクロフォン34が受信したスピーチ信号の所定の最大値、または現在のスピーカについての最大振幅である。代替としてまたは追加として、所定の増加勾配および減少勾配は、異なる大きさである。
【0135】
スピーチ検出器81を用いることに対する代替としてまたは追加として、VAD検出器250に類似した検出器および/または上述の米国特許5,524,148に記載のような、あらゆる他のスピーチ検出器またはVADが用いられても良い。さらに代替としてまたは追加として、スピーチ検出器81は用いられなくても良い。スピーカ32がマイクロフォン34の近くに配置されるとき、この代替手段は、たとえユーザが話しているときであっても受信信号が強調されるように、システム30がユーザの会話を補正するようにすることができる。
【0136】
上述の実施形態において、システム30は、7つの処理部、とりわけ、ボイス信号S(t)のゲインを計算することによりにボイス信号S(t)に直接的にまたは間接的に影響をおよぼす、強調部91、オートゲイン部92、フォルマント部93、圧縮部94、リミッタ100、強調フィルタ112、および重み決定部138を有するものとして記載された。本発明のいくつかの実施形態では、強調部91、強調フィルタ112、およびリミッタ100は、ノイズに関係なく動作し、オートゲイン部92、重み決定部138、フォルマント部93、および圧縮部94は、ノイズに依存するゲイン値を提供することが注目される。
【0137】
したがって、本発明のこれらの実施形態において、入力ノイズに応じてボイス信号S(t)を変化させる処理部は、同じゲイン(例えば処理部92および93)を用いてボイス信号(t)全体を変化させ、またはボイス信号のピークの相対的な位置を変化させることはない(処理部94)。したがって、ノイズ依存の修正は、信号の歪を生じさせない。本発明のいくつかの実施形態において、圧縮部9は用いられず、したがって、全てのノイズ依存の修正が、同一のゲインを用いて実質的に信号全体を増幅する。
【0138】
一般的に、処理部92および93は、ゲイン計数を決定し、強調部91および強調フィルタ112は、入力ノイズに依存しない先行の変形(predistortion)を実行し、圧縮部94、リミッタ10および重み決定部138はエネルギーを減じる。
【0139】
ノイズ依存のおよびノイズに依存しない係数を含む乗算部117のゲイン{gi}に対する代替として、本発明のいくつかの実施形態において、乗算部117のゲインは、ノイズ依存の係数のみからなる。強調部91で生成されるようなノイズに依存しない係数は、さらに、強調フィルタ112によっておよび/または分かれた乗算器によって適用されても良い。代替としてまたは追加として、強調部91は、用いられない。例えば圧縮部94が用いられない本発明のいくつかの実施形態において、乗算部117のゲインは、実質的にすべての周波数成分で同一である。
【0140】
本発明のいくつかの実施形態において、本発明のノイズ補正は、動的なノイズ抑制方法と組み合わされる。さらに、本発明の実施形態によりボイス信号S(t)の修正に用いられるノイズ推定値は、動的に抑制されたノイズに基づいていても良い。代替として、ノイズ推定値は、修正前の元のノイズに基づいている。
【0141】
上述の実施形態は、ハードウェア、ソフトウェア、またはそれらの組み合わせを用いることによって実施することができる。処理は、デジタル処理、アナログ処理、またはそれらの組み合わせからなっていても良い。特に、上述のフィルタは、アナログまたはデジタルであって良い。
【0142】
上述の方法は、複数の手順を同時に実行すること、手順の順番を変えること、および用いられた正確な実施を変えることなど、様々なやり方で変形することができることが理解されるであろう。例えば、周波数成分値を生成するためにFFTが用いられるとき、数個の隣接のFFT値は、いっそう少ない数の周波数成分の周波数成分値を生成するために加算されても良い。上述の方法および装置は、方法を実行するための装置、およびその装置を使用する方法を含むものとして解釈されることになる。
【0143】
本発明は、例証として提供され、発明の範囲を限定することを意図するものでない、本発明の実施形態の非限定の詳細な記載を用いて記述されてきた。一つの実施形態を基準にして記載された特徴および/または方法は、他の実施形態とともに用いられても良く、本発明の全ての実施形態が、特定の図に示された、または実施形態の一つに関して記載された全ての特徴および/またはステップを有しているわけではないことが理解される。当業者であれば、記載された実施形態の変形例に気付くであろう。
【0144】
なお、上述の実施形態のいくつかは、発明者によって考慮されたベストモードについて記載しているであろう。したがって、それらの実施形態は、構成、動作、構成の詳細、および発明に本質的ではない動作を含んでおり、また、例として記載されている。本明細書に記載された構成および動作は、当技術分野で知られているように、たとえその構成または動作が異なっていても、同じ機能を実行する同等物で置き換えることができる。したがって、本発明の範囲は、特許請求の範囲で用いられる要素および限定によってのみ制限される。“からなる”、“備える”、“有する”およびそれらの同一語源の語は、特許請求の範囲で用いられるとき、“非限定的に含んでいる”ということを意味する。
【図面の簡単な説明】
【図1】
図1は、本発明の実施形態による、ノイズ補正システムンの図である。
【図2A】
図2Aは、本発明の実施形態による、ノイズ補正システムのコントローラのブロック図である。
【図2B】
図2Bは、本発明の別の実施形態による、ノイズ補正システムのコントローラのブロック図である。
【図3】
図3は、本発明の実施形態による、図2Aまたは図2Bのコントローラの論理部の図である。
【図4】
図4は、本発明の実施形態による、図3の論理部のゲイン決定部の図である。
【図5A】
図5Aおよび図5Bは、本発明の実施形態による、フォルマント部で生成されるゲインによる補正の前と後の模範的なボイス信号のグラフである。
【図5B】
図5Aおよび図5Bは、本発明の実施形態による、フォルマント部で生成されるゲインによる補正の前と後の模範的なボイス信号のグラフである。
【図6】
図6は、本発明の実施形態による、強調フィルタのゲインのグラフである。
【図7】
図7は、本発明の実施形態による、模範的なノイズパワースペクトルおよびそのマスクされたものを表すグラフである。
【図8】
図8は、本発明の実施形態による、スピーチ検出器のブロック図である。
【符号の説明】
30 ノイズ補正システム
32 スピーカ
34 マイクロフォン
36 アンプ
40 コントローラ
95 ノイズクリーナ
96 エコーキャンセラ
[関連出願]
本出願は、その開示が参照によって本明細書に組み込まれる、2000年8月14日に出願された米国仮出願60/224,513、および2000年10月2日に出願された米国仮出願60/236,721の、35USC§119(e)の下での利益を主張する。また、本出願は、その開示が参照によって本明細書に組み込まれる、2000年7月27日に出願されたPCT出願PCT/US00/20395の一部継続出願(CIP)である。
【0002】
[発明の技術分野]
本発明は、音声強調システムに関する。
【0003】
[発明の背景]
電話セットは、電話セットを介して受信される音声信号の理解を背景ノイズが妨げるであろうような、ノイズのある場所で使われることがよくある。
【0004】
その開示が参照によって本明細書に組み込まれるGoldbergの米国特許4,829,565号は、ユーザに音を発する遠隔の信号の音量を背景ノイズに応じて調節する、自動式の音量コントロールシステムを備える電話について記載している。しかしながら、このシステムは、間違った変化のみならず音量についてあまりにも多い変化を生じさせるので、このことが人間の耳に不快感を与える。
【0005】
その開示が参照によって本明細書に組み込まれる、Millerの米国特許5,615,270号は、車両用の雑音補正システムについて記載している。このシステムは、車両内で感知された信号から所望の音楽の信号を除去することによって発生する雑音信号に基づいて必要な増幅を決定する。
【0006】
その開示が参照によって本明細書に組み込まれる、Allenの米国特許5,524,148号および5,526,419号は、ノイズ補正システムについて記載している。このシステムは、ノイズレベルおよび遠端信号の平均スピーチパワーに応じて決定されるゲインによって、電話セットに提供される遠端信号を増幅する。一つの実施形態において、背景ノイズレベルと平均スピーチパワーは、遠端信号の全ての周波数帯について計算され、同じゲインが、遠端信号の全ての周波数帯にかけられる。ゲインの決定で用いられる方法のために、ゲインは十分でないこともあり、または過度であることもある。
【0007】
Allen特許の別の実施形態では、遠端信号は複数の周波数成分に分けられ、それぞれの周波数成分は、それぞれのゲインで増幅される。それぞれの周波数成分のゲインは、その周波数成分における背景ノイズ、および、その平均周波数成分における平均スピーチパワーまたは全体的な平均スピーチパワーに応じて決定される。この実施形態では、音を発する信号は、その信号の異なる周波数成分についての、異なった関連のない増幅のために歪むであろう。その上、多くの増幅調節が不必要に実行され、このことは、特にバッテリ電源供給システムについては動作電力消費の無駄となるであろう。
【0008】
その開示が参照によって本明細書に組み込まれる、1999年1月14日に公開されたPCT公開WO 99/01863は、ノイズのある環境のためのスピーチ強調システムについて記載している。WO 99/01863のシステムは、スピーチの1以上の周波数が背景ノイズでマスクされるかどうかを決定するために、スピーチと背景ノイズのスペクトル分析を比較する。このようなマスキングが起きた場合、スピーチの1以上の線スペクトルペア(LSP)が、そのLSPについてのスピーチのマスキングを除去するために変更される。LSPの変更は、その周波数のシフト、そのバンド幅の増加、またはその増幅の増加を含んでいることがある。LSPの周波数のシフトは、スピーチ信号を歪ませるであろう。
【0009】
その開示が参照によって本明細書に組み込まれる、Rasmussonの米国特許5,636,272は、背景ノイズの関数ではない補正方法を用いて、スピーチをいっそう漠然としたものにするためのシステムについて記載している。
【0010】
[発明の要約]
本発明のいくつかの実施形態の側面は、背景ノイズを克服できるよう所望の音声信号を調整するためのノイズ補正システムに関連する。このシステムは、音声およびノイズ信号の周波数成分における音声およびノイズ信号の解析に基づいて、増幅をするかどうかを決定し、および/または音声信号の増幅ゲインを決定する。しかしながら、決定された増幅ゲインは、音声信号全体に、または複数の周波数成分を含む音声信号の一部に適用される。周波数成分に基づく増幅ゲインの決定は、必要なゲインのより正確な決定を提供し、一方、そのゲインの信号全体への適用は、信号へ歪みが入るのを防ぐ。
【0011】
本発明のいくつかの実施形態において、ゲインの決定は、1以上の周波数成分において音声信号のパワーとノイズ信号のパワーとを比較すること、およびその比較に応じてゲインを決定することからなる。本発明のいくつかの実施形態において、音声およびノイズ信号は、実質的に信号のスピーチ周波数帯全ての範囲にわたっていても良い複数の周波数成分に分けられ、また、比較は、実質的に全ての周波数成分において実行される。代替としてまたは追加として、比較は、その周波数成分全てよりも少ない範囲で実行される。例えば、ボイス信号のフォルマント、すなわち、その周波数帯における包絡線のピークを含む周波数成分においてのみ実行される。本発明のいくつかの実施形態において、比較は、ボイス信号のフォルマントを含む、その周波数成分全てよりも少ない範囲で実行される。本発明の模範的な実施形態において、所定数の異なるフォルマント、例えば3つのフォルマントまで、音声信号内で探索される。比較は、その探索で見つかったフォルマントを含む周波数成分に対して実行される。
【0012】
本発明のいくつかの実施形態において、増幅ゲインは、その比較に関わる、最も低いSNRを持っている周波数成分における信号対ノイズ比(SNR)に基づいて選択される。さらに、ゲインは、音声信号全体に適用されても良い。代替として、ゲインは、スピーチ信号を含むことが知られている音声信号の実質的に全ての周波数帯に適用される。本発明のいくつかの実施形態において、信号が増幅ゲインで増幅された後、その信号は、増幅された信号がその許容されるダイナミックレンジを超える場合に備えて、歪みを避ける為に圧縮される。
【0013】
本発明のいくつかの実施形態の側面は、ボイス信号が第1の周波数成分と異なる1以上の第2の周波数成分での増幅を必要とすることの決定に応じて、ボイス信号の1以上の第1の周波数成分を増幅するノイズ補正システムに関連する。システムは、ボイス信号を複数の周波数成分に分け、そして少なくとも一つの周波数成分について、その周波数成分の振幅が適切であるかどうかを決定する。第1の周波数成分の振幅が不適切であるとの決定に応じて、少なくとも一つの第2の周波数成分の振幅が調節される。本発明のいくつかの実施形態では、決定に応じて、恐らくは同じ調節係数によって、殆どのまたは全ての周波数成分の振幅が調節される。
【0014】
本発明のいくつかの実施形態の側面は、背景ノイズを克服できるよう所望の音声信号を調節するためのノイズ補正システムに関連する。音声信号は、複数の周波数成分に分割され、それぞれの周波数成分は、ノイズに依存するゲインによって、およびノイズに依存しないゲインによって増幅される。同一の分割で生成された周波数成分にノイズに依存するゲインおよびノイズに依存しないゲインを適用することによって、信号の分割に必要な2倍のコストおよび遅延が発生することなしに、両方のゲインの利点が得られる。本発明のいくつかの実施形態において、ノイズに依存するゲインの少なくとも一部は、信号に依存しないゲイン、例えば所定の固定ゲインでもあるゲインからなっている。本発明のいくつかの実施形態において、ノイズに依存するゲインは、実質的に全ての周波数成分について同じである。
【0015】
本発明のいくつかの実施形態において、ノイズに依存するゲインおよびノイズに依存しないゲインは、単一の増幅部によって音声信号に適用される。代替として、ゲインのそれぞれの部分を音声信号に適用する複数の増幅部が用いられる。さらに、第1の増幅部がノイズに依存するゲインのみを適用し、また第2の増幅部がノイズに依存するゲインおよびノイズに依存しないゲインの両方を適用するものであっても良い。代替としてまたは追加として、第1の増幅部が信号に依存しないゲインのみを提供し、第2の増幅部が信号に依存するゲインのみを提供する。
なお、本明細書で用いられるゲインという用語は、減衰、つまり1よりも小さいゲイン係数を含んでいても良い。
【0016】
本発明のいくつかの実施形態の側面は、背景ノイズを克服できるよう所望の音声信号を調節するためのノイズ補正システムに関連する。このノイズ補正システムは、背景ノイズに基づいて、修正された音声信号を計算する。システムの出力は、元の音声信号と、補正された信号との重み付け合計に等しい。補正された信号だけという代わりに重み付けされた合計の音を鳴らすことによって、(元の信号であることの利点を持つ)元の信号と(増強されているという利点を持つ)増強された信号とを兼ね備えたものが提供される。
【0017】
本発明のいくつかの実施形態において、重み付けされた合計は、元の信号におよび補正された信号に所定の重みを与える。均一の重みが、元の信号におよび補正された信号に与えられても良い。代替としてまたは追加として、重み付けされた合計の重みは、修正された音声信号に適用されたゲインの程度に応じて、および/または背景ノイズの程度に応じて調節される。
【0018】
本発明のいくつかの実施形態の側面は、音声信号のフォルマントを識別する方法に関連する。この方法は、音声信号の複数の周波数成分についてパワー値を決定すること、それぞれの周波数成分をそれに(周波数で)隣接する周波数成分で平均化するために、周波数成分のパワー値にローパスフィルタをかけること、およびフィルタがかけられたパワー値のパワーのピークを見つけ出すことからなる。
【0019】
さらに、周波数成分は、複数のフィルタを用いて生成されても良い。代替として、複数の周波数成分はフーリエ変換を用いて生成される。本発明のいくつかの実施形態において、複数の周波数成分は、10から24の周波数成分からなる。さらに、これは12から15の周波数成分であっても良い。代替として、複数の周波数成分の数は、用いられるFFTのFFTビン(FFT bin)の数からなる。本発明の模範的な実施形態において、複数の周波数成分の値は、FFTを実行し、複数の隣接するビン(bin)の値を一つの周波数成分の値に合成することによって計算される。
【0020】
本発明のいくつかの実施形態の側面は、近端部のユーザが話していないとの決定に応じて、遠端部から受信される信号のノイズ補正を実行する双方向の通信ハンドセット、例えば電話のためのノイズ補正システムに関連する。したがって、このノイズ補正システムの電力消費は減じられる。一般に、近端部のユーザが話すとき、遠端部のユーザは黙っているか、近端部のユーザは遠端部から受信した信号を聞いていないか、または、ノイズ補正が有効になっていない。
【0021】
本発明のいくつかの実施形態の側面は、背景ノイズを克服するできるよう所望の音声信号を増強するためのゲインを決定する方法に関連する。この方法は、異なる期間内で、音声信号の振幅の少なくとも2つの、程度の高い値を決定することを含む。程度の高い値は平均され、ノイズ指標と比較される。さらに、ゲインは、その比較に応じて決定されても良い。本発明のいくつかの実施形態において、ノイズ指標は、音声信号の程度の高い値の平均の計算に類似するやり方で、背景ノイズ信号から計算される。
【0022】
本発明のいくつかの実施形態において、程度の高い値の平均は、幾何平均または算術平均からなる。代替としてまたは追加として、あらゆる他の平均化の方法が用いられても良い。
【0023】
さらに、程度の高い値は、それぞれの周期内での最大値であっても良い。代替としてまたは追加として、1以上の程度の高い値は、減衰する最大値であっても良い。すなわち、最大値は格納され、格納された値は所定の関数にしたがって時間と共に減衰する。代替としてまたは追加として、程度の高い値は、より新しい値に高い重みが与えられた、重み付けされた音声信号の最大値からなる。
【0024】
本発明のいくつかの実施形態の側面は、エコーキャンセルを実行する方法に関連する。この方法は、エコーを発生する信号とエコーキャンセルを受ける信号との相関を見つけ出すこと、およびエコーを発生する信号のみを取り除くことからなる。この方法は、性能は低いけれども、当技術分野で知られた方法と比較して非常にシンプルである。この方法は、エコーが音響の状態が原因となった直接のエコーであるときに特に有利である。
【0025】
したがって本発明の実施形態によって提供されるのは、音声信号にとって無関係な背景ノイズを克服するために音声信号を処理する方法であって、音声信号の周波数成分における前記音声信号の評価基準と、前記背景ノイズの周波数成分におけるノイズの評価基準とを比較し、前記比較に応じてゲインを決定し、前記音声信号の前記周波数成分内には含まれていない少なくとも一つの周波数部分を含む、前記音声信号の少なくとも一部を、決定された前記ゲインによって増幅すること、を含む。
【0026】
さらに、前記音声信号の評価基準は、前記音声信号のパワーからなっていても良い。さらに、前記背景ノイズの周波数成分における前記ノイズの評価基準は、前記ノイズのマスキング型のパワーからなっていても良い。恐らく、前記信号の少なくとも一部を増幅することは、前記音声信号の比較された周波数成分を含む部分を増幅することからなるであろう。
【0027】
さらに、前記信号の少なくとも一部を増幅することは、前記決定されたゲインによって前記音声信号の全体を増幅することからなっていても良い。本発明のいくつかの実施形態において、適用されるべき前記ゲインを決定することは、前記音声信号の周波数成分の周波数帯における信号対ノイズ比を閾値より高くするであろうゲインを決定することからなる。
【0028】
さらに、前記閾値は、前記信号評価基準および/またはノイズ評価基準の時間変化にしてがって動的に調整されても良い。代替として、前記閾値は所定の値である。さらに、前記音声信号の周波数成分における前記音声信号の評価基準を比較することは、前記音声信号のフォルマントを含む周波数成分において比較することからなっていても良い。さらに、前記音声信号のフォルマントを含む周波数成分において比較することは、前記音声信号の複数の周波数成分の中で最も低い信号対ノイズ比(SNR)を持つ周波数帯の周波数成分において比較を行うことからなっていても良い。
【0029】
さらに、本方法は、前記音声信号を複数の周波数成分に分割し、全周波数成分より少ないものを選択することを含んでいても良い。恐らく、全周波数成分より少ないものを選択することは、前記音声信号のフォルマントを含む周波数成分を選択することからなる。さらに、前記音声信号のフォルマントを含む周波数成分を選択することは、フォルマントを含む周波数成分を所定数まで選択することからなっていても良い。
【0030】
さらに、本方法は、前記選択された周波数成分から前記音声信号の周波数成分を選択することを含んでいても良い。恐らく、前記音声信号の少なくとも一部を増幅することは、前記比較に応じて決定されたゲインを含む複数のゲインから合成されたゲインで増幅することからなるであろう。さらに、本方法は、前記背景ノイズが存在する状態で前記増幅された信号の音を鳴らすことを含んでいても良い。
【0031】
恐らく、前記音声信号の周波数成分と前記ノイズの周波数成分とは、実質的に同じ周波数帯にわたっているであろう。さらに、前記周波数成分は周波数帯からなっていても良い。
【0032】
さらに、本発明の実施形態によって提供されるのは、音声信号にとって無関係な背景ノイズを克服するために音声信号を処理する方法であって、前記音声信号を複数の周波数成分に分割し、前記周波数成分のそれぞれについてのノイズに依存しないゲインによって、それぞれの前記周波数成分を強調し、それぞれの周波数成分を、前記周波数成分のノイズ依存のゲインで乗算すること、を含む。
【0033】
恐らく、本方法は、前記複数の周波数成分を強調された音声信号に再結合することを含むであろう。
【0034】
さらに、前記音声信号を複数の周波数成分に分割することは、10から24の周波数成分、または100より多い周波数成分に分割することからなっていても良い。さらに、前記音声信号を複数の周波数成分に分割することは、実質的に重なり合っていない複数の周波数成分に分割することからなっていても良い。恐らく、それぞれのノイズに依存しないゲインによってそれぞれの前記周波数成分を強調することは、信号に依存しない所定のゲインによって強調することからなるであろう。
【0035】
恐らく、それぞれの周波数成分を前記周波数成分のノイズ依存のゲインで乗算することは、実質的に全ての周波数成分を、同一のノイズ依存のゲインで乗算することからなるであろう。恐らく、前記強調および増幅は、一つの機能要素で実行されるであろう。さらに、前記強調および増幅は、別々の機能要素で実行されても良い。
【0036】
さらに、前記ノイズに依存しないゲインは、前記音声信号がボイススピーチ(voiced speech)を含む場合、ボイススピーチ強調係数からなっていても良い。恐らく、前記音声信号を複数の周波数成分に分割することは、前記音声信号にフーリエ変換を適用することからなるであろう。代替としてまたは追加として、前記音声信号を複数の周波数成分に分割することは、前記音声信号を、バンドパスフィルタのアレイを通過させることからなる。
【0037】
さらに、本発明の実施形態によって提供されるのは、音声信号にとって無関係な背景ノイズを克服するために音声信号を処理する方法であって、音声信号を受信し、前記音声信号を前記背景ノイズの評価基準に応じて強調し、前記強調された音声信号と前記受信した音声信号との重み付けされた合計である出力を提供すること、を含む。
【0038】
さらに、前記音声信号を強調することは、前記音声信号の複数の周波数成分をそれぞれのゲインで乗算することからなっていても良い。さらに、重み付けされた合計を提供することは、動的に調整される重みにより生成される重み付けされた合計を提供することからなっていても良い。さらに、前記動的に調整される重みは、前記音声信号が強調される程度に応じて決定されても良い。本発明のいくつかの実施形態において、前記音声信号を強調することは、複数の異なるゲイン係数を計算し、前記音声信号を前記複数のゲイン係数で乗算することからなり、前記動的に調整される重みは、前記ゲイン係数の一つに応じて決定される。
【0039】
さらに、前記異なるゲイン係数の少なくとも一つは、過去に依存するゲイン係数からなっていても良い。さらに、重み付けされた合計を提供することは、所定の重みにより生成された、重み付けされた合計を提供することからなっていても良い。さらに、前記重み付けされた合計を提供することは、前記提供された重み付けされた合計の聞き手が話しているという決定に応じて、前記受信された音声信号が支配的となる重み付けされた合計を提供することからなっていても良い。さらに、前記重み付けられた合計を提供することは、前記音声信号がスピーチ信号を含まないという決定に応じて、前記受信された音声信号が支配的となる重み付けされた合計を提供することからなっていても良い。
【0040】
さらに、本発明の実施形態によって提供されるのは、ノイズ補正システムであって、音声信号を受信するように構成された入力インタフェースと、強調された音声信号を鳴らすように構成されたスピーカと、前記強調された信号を聞く聞き手を妨害するであろう背景ノイズを集めるように構成されたマイクロフォンと、前記強調された音声信号を提供するために、前記音声信号の周波数成分における前記音声信号の評価基準と、同一の周波数成分における背景ノイズの評価基準とを比較し、前記比較に基づいてゲインを決定し、および、前記周波数成分内にはない少なくとも一つの部分を含む、前記音声信号の少なくとも一部を増幅するように構成されたコントローラと、を備える。
【0041】
さらに、前記スピーカおよび前記マイクロフォンは、電話ハンドセットの部分であっても良い。さらに、本システムは、前記背景ノイズから前記強調された音声信号の少なくとも一つのエコーを取り除くエコーキャンセラを備えていても良い。さらに、前記エコーキャンセラは、前記背景ノイズから前記強調された音声信号の一つのエコーのみを取り除くものであっても良い。
【0042】
さらに、本発明の実施形態によって提供されるのは、音声信号にとって無関係な背景ノイズを克服するために音声信号を強調するためのゲインを決定する方法であって、前記音声信号の評価基準についてある時間にわたり複数の程度の高い値を決定し、前記程度の高い値を平均し、前記平均と前記ノイズの評価基準を比較し、前記比較に応じて前記音声信号を強調するためのゲインを決定すること、を含む。
【0043】
さらに、前記複数の程度の高い値を決定することは、前記音声信号の異なる時間部分について程度の高い値を決定することからなっていても良い。さらに、前記複数の程度の高い値を決定することは、前記音声信号の異なる長さの時間部分について程度の高い値を決定することからなっていても良い。さらに、前記複数の程度の高い値を決定することは、最大値を決定することからなっていても良い。代替としてまたは追加として、前記複数の程度の高い値を決定することは、より最近の値に高い重みが付けられる、前記音声信号の重み付けがなされたものについての最大値を決定することからなる。さらに、前記程度の高い値を平均することは、幾何平均を計算することからなっていても良い。
【0044】
[実施形態の詳細]
図1は、本発明の実施形態によるノイズ補正システム30の模式図である。システム30は、スピーカ32によって音を鳴らされる入力ボイズ信号Sinput(t)を受信する。例えば、Sinput(t)は、電話の会話における遠くの仲間から受信される。コントローラ40は、スピーカ32の近くで、入力ボイス信号Sinput(t)とノイズの推定値N(t)を受信し、入力ボイス信号のノイズ補正されたものである、ノイズ補正入力信号S’(t)を提供する。
【0045】
本発明のいくつかの実施形態において、入力ボイス信号は、入力ボイス信号Sinput(t)についてのノイズが除去されたものであるS(t)を提供するノイズクリーナ95を通される。ノイズクリーナ95は、スピーカ32の近辺のノイズとは関係無しに動作する。ノイズクリーナ95は、さらに、スピーチの信号がないときにノイズを測定し、ノイズの周波数帯の形式を決定しても良い。さらに、ノイズクリーナ95は、スピーチを含む信号部分のスペクトル表現からノイズのスペクトル表現を取り除いても良い。代替としてまたは追加として、その開示が参照によって本明細書に組み込まれる、Helfらの米国特許5,550,924号、および/または、Yooによる、“Utilizing Interband Acoustical Information For Modeling Stationary Time−Frequency Regions of Noisy Speech”、音響、スピーチ、および信号処理、1999、IEEE会報 vol.2 、809−812ページに記載されているような、当技術分野で知られた他のあらゆるノイズクリーナが用いられても良い。代替としてまたは追加として、ノイズクリーナは、周波数成分が決定された後の位置で、コントローラ40と一緒になっていても良い。
【0046】
本発明のいくつかの実施形態において、ノイズ推定値N(t)は、スピーカ32の近くのマイクロフォン32によって集められた入力ノイズ信号n(t)に応じて生成される。さらに、入力ノイズ信号n(t)は、ノイズ推定値N(t)を提供するために、アンプ36で増幅され、エコーキャンセラ(EC)96を通されても良い。エコーキャンセラ96は、入力ノイズ信号n(t)から、マイクロフォン34に集められたおよび/または音響結合によりn(t)に入り込んだ、出力された信号S’(t)のエコーを除去する。
【0047】
本発明のいくつかの実施形態において、エコーキャンセラ96は、出力信号S’(t)についての最近の所定のサイズのセグメント(例えば2、3msec)に関して、ノイズ信号n(t)における最大相関セグメントを見つけ出す。さらに、エコーキャンセラ96は、セグメントの相関値、およびそれらの時間差を決定しても良い。本発明のいくつかの実施形態において、エコーキャンセラ96は、セグメント間の時間差だけボイス信号S’(t)を遅延させ、遅延されたボイス信号を、決定された自動相関値倍する。さらに、ノイズ推定値N(t)は、乗算され遅延されたボイス信号が引かれた、検知されたノイス信号n(t)として計算されても良い。この場合、エコーキャンセラ96は、あまり正確ではないという代償を払うけれども、当技術分野で知られた他のエコーキャンセラよりもシンプルである。代替としてまたは追加として、例えば適応フィルタリングを利用するエコーキャンセラを含む他のエコーキャンセラが用いられても良い。
【0048】
さらに代替としてまたは追加として、ノイズn(t)は、エコーキャンセラを通されない。本発明の模範的な実施形態において、マイクロフォン34がスピーカ32に近くないとき、例えばマイクロフォン34がスピーカ32の近くというよりむしろノイズの発生源に近い時には、エコーキャンセラは用いられない。例えば、主要なノイズ発生源、例えば車のモータが知られているとき、マイクロフォン34はモータの近くに配置されても良い。本発明の模範的な実施形態において、スピーカ32およびマイクロフォン34は、例えば、垂直にまたは反対の方向を向いて、電話の中で互いに少なくとも約90度の角度で配置される。
【0049】
本発明のいくつかの実施形態において、ノイズ補正システム30は、有線のまたは携帯電話セットの近くにあるノイズを補正する。さらにシステム30は、電話セット内に配置されても良い。代替としてまたは追加として、システム30またはその一部は、電話セットのサービスを行う電話ネットワーク内に配置される。さらに、マイクロフォン34は、普通の使用に加えて、入力ノイス信号n(t)を集める為に用いられる通常の電話セットのマイクロフォンであっても良い。代替としてまたは追加として、マイクロフォン34は、電話セットに取り付けらるフリーハンドのマイクロフォンである。さらに代替としてまたは追加として、マイクロフォン34は、電話セットの通常のマイクロフォンとは独立している。
【0050】
本発明のいくつかの実施形態において、システム30は、アナウンスシステム、音楽システム、ビデオ会議システム、ラジオ、および/またはテレビのような他のボイズサウンディングシステムおよび/またはオーディオシステムと共に用いられる。本発明のいくつかの実施形態において、複数のマイクロフォンが、ノイズN(t)の推定で用いられるノイズ信号を集めるために用いられる。1以上のマイクロフォン34が、ノイズの発生源の近くに、聞き手の近くに、および/または補正されるべきノイズレベルの決定に適したあらゆる他の位置に配置されても良い。本発明のいくつかの実施形態において、一つの入力信号Sinput(t)が、複数のスピーカ32で音を鳴らされる。したがって、システム30は、それぞれのノイズ推定値N(t)に応じてそれぞれのスピーカ32に対して、それぞれに入力信号を修正する。
【0051】
図2Aは、本発明の好ましい実施形態によるコントローラ40のブロック図である。さらに、コントローラ40は、所定の周期、例えば10または12.5msecごとに1サンプル値のような周期で提供されるデジタルのサンプル値のストリームとして、入力信号S(t)およびノイズ推定信号N(t)を受信しても良い。代替としてまたは追加として、入力信号S(t)および/またはノイズ推定信号N(t)は、好適なアナログ−デジタルコンバータ(不図示)を用いてデジタルストリームに変換されるアナログ信号として提供されても良い。本発明のいくつかの実施形態において、ボイス信号S(t)およびノイズ信号N(t)の所定数のサンプル値が、バッファ110および116にそれぞれ蓄積される。蓄積されたサンプル値は、さらに、入力信号S(t)の複数の周波数成分について値S1,S2,・・・,Sn、およびノイズ信号N(t)についての複数のそれぞれの周波数成分値N1,N2,・・・,Nmを提供するために、高速フーリエ変換ユニット111および115をそれぞれ通されても良い。代替としてまたは追加として、必ずしもFFTではなく、他のフーリエ変換方法が用いられても良い。
【0052】
本発明のいくつかの実施形態において、FFTのそれぞれのビン(bin)は、それぞれの周波数成分に対応する。代替として、それぞれの周波数成分は、それぞれのビン(bin)のグループからなる。本発明のいくつかの実施形態において、極端なものを除く実質的に全ての周波数成分は、同じビン(bin)数から構成される。代替としてまたは追加として、例えば図2Bを参照して以下で記載されるように、周波数成分の帯域が決定され、それぞれの周波数帯域に含まれるビン(bin)の値は、周波数成分の値の決定で用いられる。
【0053】
さらに、周波数成分値S1,S2,・・・,Snは、ボイス信号S(t)の理解度を上げるために、所定の強調方式によって特定の周波数成分を強調する強調フィルタ112によってフィルタ処理されても良い。強調フィルタ112は、さらに、スピーチ信号を強調するために、主要なスピーチ周波数を含む周波数成分の振幅を強調しても良い。強調フィルタ112の模範的な実施形態は、図6を参照して以下で述べる。その後、以下で述べるように、強調された周波数成分値は、乗算部117において、論理部77でノイズ信号N(t)およびボイス信号S(t)に応じて決定されたそれぞれのゲイン係数(信号線121上のgi)倍される。このように、それぞれの周波数成分は、強調フィルタ112によってノイズに依存しない値倍され、乗算部117によってノイズに依存する値倍される。
【0054】
ノイズ依存の修正を行う前に強調フィルタ112によってスピーチ信号を強調することで、ノイズ依存の修正は、ボイス信号S(t)のスピーチ成分の処理に焦点を合わせられる。なお、以下で記載するように、ボイス信号に歪みを生じさせないように、ノイズ依存の修正は一般に全ての周波数成分に対して同じである。一方、ノイズに依存しない修正は、異なる周波数に対して異なるゲインを持っていても良い。異なるゲインを異なる周波数成分に適用することはボイス信号を歪ませることになるかも知れないが、このような歪みは既知の影響を持ち、調整される信号の外部の値、すなわちノイズには左右されない。本発明のいくつかの実施形態において、以下で記載するように、乗算部117のゲイン{gi}は、ノイズに依存するおよびノイズに依存しない修正の組み合わせである。
【0055】
強調フィルタ112を乗算部117の前に配置することに対する代替としてまたは追加として、強調フィルタ112(または第2の強調フィルタ)は、乗算部117の出力上で動作することもできる。周波数成分のうちの一つの抽出物に基づいてノイズに依存するおよびノイズに依存しない修正の両方を実行することにより、ノイズ補正システム30の複雑さが減少する。
【0056】
調節されたボイズ信号S’’(t)を提供する為に、乗算された周波数成分は、さらに、逆FFT(IFFT)部118によって再び時間領域に変換されても良い。本発明のいくつかの実施形態において、以下で述べるように、重み付け平均部133は、論理部77で生成されたそれぞれの重みb1およびb2(b1+b2=1)に基づいて、調節されたボイズ信号S’’(t)および入力ボイス信号S(t)の重み付け合計SW(t)を生成する。さらに、重み付け合計は、必要であれば、重み付け合計がスピーカ32の動作範囲を超えないように重み付け合計を調節するソフトリミッタ100に提供されても良い。リミッタ100からの信号は、さらに、デジタル−アナログ(D/A)変換器31によってアナログ信号に変換され、パワーアンプ52で増幅され、およびスピーカ32で音を鳴らされても良い。代替として、D/A変換器31は、重み付け平均部133の加算器の前、またはリミッタ100の前に配置されても良い。
【0057】
本発明のいくつかの実施形態において、リミッタ100は、重み付け合計SW(t)をアンプ52の所定の動作制限の範囲に制限する。代替としてまたは追加として、リミッタ100によって重み付け合計SW(t)が制限される範囲は、アンプ52の現在のダイナッミックレンジに基づいて周期的に決定される。さらに、リミッタ100は、対称的な制限、すなわち、−limit<SW(t)<+limitの間に制限されても良い。本発明の模範的な実施形態において、リミッタ100は、以下の関数を実行する。
【0058】
【数1】
ここで、Aは、0から1の間の任意の値であり、xは、制限すべき信号であり、F(x)は、制限された信号である。
【0059】
リミッタ100を用いることに対する代替としてまたは追加として、コントローラ40が実質的にパワーアンプ52のダイナミックレンジを超える信号を発生することができないように、パワーアンプ52のダイナミックレンジは、コントローラ40に入る信号のダイナミックレンジよりも大きい。さらに、代替としてまたは追加として、以下で記載するように、論理部77で生成されるゲインは、リミッタ100の必要を実質的になくす圧縮係数である。しかしながら、本発明のいくつかの実施形態では、あらゆる歪みを防ぐ為に、たとえ論理部100で生成されるゲインが圧縮係数であるときであっても、リミッタ100は用いられる。
【0060】
本発明のいくつかの実施形態において、論理部77は、ボイス信号S(t)のそれぞれの周波数成分についてパワーレベルESiを、ノイズ信号N(t)のそれぞれの周波数成分についてパワーレベルENiを受信する。さらに、信号の絶対値の二乗(ABS2)を生成するパワー決定部113は、強調フィルタ112からS(t)の周波数成分の強調された値を受信し、それらの値から、各周波数成分についてパワーESiを決定する。本発明のいくつかの実施形態において、FFT部115で生成されたノイズ信号N(t)の周波数成分は、各周波数成分におけるノイズ信号N(t)のパワーENiを計算するパワー決定部114(ABS2)を通される。さらに、ノイズパワー信号ENiは、図7を参照して以下で述べるように、ヒトの音響上の考慮事項にしたがってノイズパワー信号ENiを調節するマスキング部119を通される。
【0061】
本発明のいくつかの実施形態では、ボイス信号S(t)およびノイズ信号N(t)は、同じ周波数成分の区分を用い、同じ数の周波数成分(つまりn=m)に分けられいる。代替として、ボイス信号S(t)およびノイズ信号N(t)は、異なる数の周波数成分に分けられても良い。本発明のいくつかの実施形態において、ノイズ信号N(t)は、より広い帯域幅の周波数帯に変換される。さらに、これらの実施形態において、ノイズ信号N(t)は、ボイス信号S(t)よりも多い周波数成分に分けらる。この場合、1または2の周波数成分だけ多くても良い。本発明のいくつかの実施形態において、ノイズ信号N(t)の追加の周波数成分は、低い周波数に影響を与える高い帯域のノイズ周波数を考慮に入れるために、マスキング部119によって用いられる。さらに、論理部77に提供されるノイズおよびボイス信号は、同じ数の周波数成分を持っていても良い。
【0062】
本発明のいくつかの実施形態において、ボイス信号S(t)およびノイズ信号n(t)の両方は、ノイズ信号のいっそう多い数の周波数成分の生成を可能にする共通の十分に高速なサンンプリング速度でサンプリングされる。代替として、ノイズ信号n(t)は、サンプリングされた信号n(t)からいっそう多い数の周波数成分が生成されるように、ボイス信号S(t)よりも高い周波数でサンプリングされる。さらに、ノイズ信号n(t)は、信号の容易な比較が可能となるように、その後、ボイス信号S(t)のサンプリング速度に落としてサンプリングされても良い。代替として、ボイス信号S(t)は、高い周波数成分に0値が埋められる。
【0063】
本発明のいくつかの実施形態において、ボイス動作検出(VAD)部250は、S(t)がスピーチ信号を含んでいないとき(例えば語と語の間の無音の期間)を決定し、S(t)がスピーチ信号を含んでいないときに論理部77を実質的にディスエーブルにする。このように、背景ノイズn(t)を“克服”するために、語と語の間でボイス信号S(t)に含まれるノイズは増幅されない。さらに、VAD部250が入力はスピーチ信号を含んでいないと決定したときに、論理部77は、ボイス信号S(t)がスピーチを実際に含んでいたときの前の時間からの出力ゲイン{gi}を提供しても良い。代替としてまたは追加として、論理部77の1以上の要素が、電力消費を減じる為に出力を行わない。さらに、ボイス信号S(t)がスピーチを含まないと決定されたときに、ボイス信号S(t)は、変更されることなしにスピーカ32に提供されても良い。代替として、ボイス信号がスピーチ信号を含んでいないときに、ボイス信号S(t)はカットされ、信号は音を鳴らされない。
【0064】
本発明のいくつかの実施形態において、VAD部250は、ボイス信号S(t)がスピーチ信号を含むかどうかを、信号の振幅とボイス閾値との比較に基づいて決定する。さらに、ボイス閾値は、セッションの開始のノイズレベル、例えば電話の会話の開始時に測定されたノイズレベルに応じて設定されても良い。代替として、ボイス閾値は、工場調整され、またはさもなければ予め決定されても良い。さらにそれに代わるものとして、ボイス閾値は、連続的におよび/または周期的に取得されるノイズ測定値に応じて適応的に調整されても良い。本発明のいくつかの実施形態において、閾値は、測定されたノイズの所定値倍、例えばノイズの3から5倍に設定される。代替としてまたは追加として、当技術分野で知られた、あらゆる他のVADが用いられても良い。
【0065】
本発明のいくつかの実施形態において、コントローラ40の処理の繰返しが、所定数のサンプル値、例えば100から1000のサンプル値に適用される。さらに、この所定数は、サンプリング速度に依存していても良い。さらに、コントローラ40の処理の繰り返しは、高速フーリエ変換(FFT)を用いてフーリエ変換を実行することを可能にする為に、2の累乗、例えば128,256または512である多数のサンプル値に適用されても良い。本発明のいくつかの実施形態において、それぞれの繰り返しで用いられるサンプル値の数は、多数のサンプル値を要求する、必要な精度と、少数のサンプル値を要求する遅延の短縮との間の妥協点である。さらに、ユーザは、繰り返しの処理で用いられるサンプル値の数を特定の時間に調節しても良い。本発明のいくつかの実施形態において、遅延は、信号の発生元からスピーカ32に至るまでの信号のトータルの遅延にしたがって設定されても良い。例えば、システム30が電話で用いられているとき、往復遅延(RTD)が比較的小さい場合には、比較的大きな遅延(例えば20ms)を招く、多数のサンプル値を用いるFFTが用いられても良い。しかしながら、信号のRTDが比較的大きい場合には、システム30の遅延は、FFTを実行するサンプル値の数を減じることによって、5または10msに制限されても良い。
【0066】
さらに、それぞれの処理の繰り返しは、重なり合いのないサンプル値のグループに対して実行されても良い。代替として、それぞれの処理の繰り返しは、1以上の以前の処理の繰り返しで用いられたサンプル値に部分的に重なり合うサンプル値のクループに対して実行される。本発明の模範的な実施形態において、処理の繰り返しは、128個のサンプル値が集められる毎に、最も新しい256のサンプル値に対して実行される。本発明のいくつかの実施形態において、重なり合うサンプル値の量は、スピーチ品質対電力消費の関数として調節される。電力消費を最小にすることが必要となるとき、いっそう少ない数の処理の繰り返しが、少ない重なり合いまたは重なり合いのない状態で実行される。高いスピーチ品質が必要となるとき、頻繁な処理の繰り返しが、高い重なり合いの割合で実行される。さらに、ユーザは、所望の処理の繰り返しの速度を選択しても良い。
【0067】
フーリエ変換を用いて周波数成分値を生成することに対する代替として、図2Bを参照してここで述べるように、バンドパスフィルタのアレイが、ボイス信号およびノイズ信号の周波数成分信号を生成するために用いられても良い。フィルタアレイを使用することにより、システム30は、実質的に遅延を伴うことなく動作することが可能になる。
【0068】
図2Bは、本発明の実施形態による、コントローラ40’のブロック図である。コントローラ40’は、コントローラ40に類似しており、コントローラ40の代わりにシステム30において用いることができる。以下の記載では、コントローラ40’の中でコントローラ40と異なる要素についてのみ記載する。コントローラ40’において、ボイス信号S(t)およびノイズ信号N(t)は、複数の周波数成分ボイズ信号S1(t),S2(t),・・・,Sn(t)および複数の周波数成分ノイズ信号N1(t),N2(t),・・・,Nm(t)を生成する、各バンドパスフィルタ(BPF)アレイ62および64を通される。
【0069】
ボイスおよびノイズ周波数成分の数は、コントローラ40を参照して上記したあらゆる代替手段にしたがっていても良い。本発明のいくつかの実施形態において、フィルタアレイ62におけるフィルタの数は、必要な質、およびコントローラ40が対応する周波数範囲に依存して、約10から60の間である。さらに、コントローラ40の周波数範囲は、音声周波数範囲、例えば20Hzから20KHzの範囲であっても良い。代替として、コントローラ40の周波数範囲は、ヒトの音声の周波数範囲、例えば4から7KHzまであっても良い。さらに代替としてまたは追加として、周波数範囲は、例えば、システム30がペットに用いられた場合には、いっそう小さなまたはいっそう大きな周波数範囲である。
【0070】
本発明のいくつかの実施形態において、1kHzまでの周波数成分は、約100Hzの帯域幅を持ち、いっそう高い範囲の周波数成分は、周波数に対数的に関係する帯域幅を持つ。さらに、周波数成分の周波数は、ヒトの耳の音響のおよび/または他の特性にしたがって選択されても良い。例えば、ヒトの耳で実質的に異なって知覚される周波数は、異なる周波数成分に含められても良い。
【0071】
本発明のいくつかの模範的な実施形態において、周波数成分への分割は、当技術分野で知られた重要なボイスバンドにしたがって決定される。これらの模範的な実施形態において用いられる周波数成分の数は、重要であるとみなされる周波数範囲に依存する。0−20kHzの範囲については、これらの模範的な実施形態は、さらに、約24の周波数成分を用いても良い。300−4000Hzの範囲については、これらの実施形態は、さらに、以下の周波数、すなわち約450,570,630,700,840,100,1170,1370,1600,1850,2150,2500および2900Hzに中心を置く周波数成分を用いるものであっても良い。
【0072】
本発明の別の模範的な実施形態において、周波数成分は、以下の周波数範囲、400−510,510−630,630−770,770−920,920−1080,1080−1270,1270−1480,1480−1720,1720−2000,2000−2320,2320−2700および2700−3150Hzからなっていても良い。なお、周波数成分の周波数範囲の範囲内の周波数よりは重要性は低いけれども、400Hzよりも低い周波数および3150Hzよりも高い周波数は、最初のおよび最終の周波数成分で対応されていても良い。
【0073】
なお、上記の例は限定をするものではなく、周波数成分の他の組が用いられても良い。特に、いっそう多い数の周波数成分、例えば32、48、またはさらに65が用いられても良い。代替としてまたは追加として、周波数成分の範囲は、部分的に重なり合い、またはボイス信号の全周波数範囲よりも小さい範囲に対応するものであっても良い。
【0074】
本発明のいくつかの実施形態において、アレイ62および64内のフィルタは、バタワース(Butterworth)フィルタからなる。これは、さらに、少なくとも2、3、4、5、またはさらに6の段階を持つものであっても良い。本発明の模範的な実施形態において、システム30に低い電力消費が要求されるとき、2または3の段階が用いられる。高い精度が要求されるときには、少なくとも5または6の段階がさらに用いられても良い。本発明のいくつかの実施形態において、フィルターがヒトの耳の内部でのスピーチに対するノイズのマスキング効果を真似ることができるように、段階の数は選択される。
【0075】
さらに、周波数成分の制限は、フィルタの−3dBの位置であっても良い。本発明のいくつかの実施形態において、フィルタの最大の増幅は約1である。代替といしてまたは追加として、アレイ62および/またはアレイ64のいくつか、または全てのフィルタは、チェビシェフ(Chebyshev)、ベッセル(Bessel)、または楕円(elliptic)フィルタのような、他のタイプのものである。さらに、対応する周波数成分のノイズおよびボイスフィルタは、同じ特性を持つ。代替としてまたは追加として、対応する周波数成分のノイズおよびボイスフィルタの少なくともいくつかは、異なる特性である。例えば、本発明のいくつかの実施形態において、フィルタアレイ62のフィルタは、強調フィルタ112のいくつかのまたは全ての強調を実行する(さらに、強調フィルタ112はこれらの実施形態において除かれても良い)。これらの実施形態において、強調を実行するフィルタアレイ62は、フィルタアレイ64とは異なっていても良い。
【0076】
本発明のいくつかの実施形態において、コントローラ40’は、パワー信号ESi(t)を得る為に、それぞれのボイス周波数成分信号Si(t)を二乗する乗算器アレイ70を備える。パワー信号ESi(t)は、さらに、各ローパスフィルタ(LPF)76でフィルタ処理され、次に、周波数成分パワー値ESiを生成するために、サンプラー(不図示)によってサンンプリングされても良い。サンプラーを用いることに対する代替として、論理部77が、その入力端から値が入力されたときにサンプリングを実行する。さらに、ローパスフィルタ76が、サンプリングによって、代表値でない変動した値が取り込まれることがないように、サンンプリングの前にパワー信号ESi(t)を平滑化しても良い。同様に、ノイズ周波数成分信号Ni(t)が、それぞれの信号を二乗する、乗算器アレイ68内の各乗算器を通される。二乗された信号は、さらに、ローパスフィルタアレイ(LPF)73によってフィルタ処理され、周波数成分パワー値Niを生成する為にサンプリングされても良い。
【0077】
本発明のいくつかの実施形態において、LPF73および/または76は、1次または2次のフィルタからなる。さらに、ローパスフィルタは、各周波数成分についての低周波数境界Fminに依存する−3dBポイントを持っていても良い。本発明の模範的な実施形態において、パワー信号のDC成分を捕らえるために、−3dBポイントは、およそFmin/kの位置にある。ここでkは、約1.5から2の間である。代替としてまたは追加として、1以上のローパスフィルタが、各周波数成分の高周波数境界に依存する−3dBポイントを持つ。さらに代替としてまたは追加として、あらゆる他のローパスフィルタが用いられても良い。さらに代替としてまたは追加として、パワー信号のDC成分を動的に取り出すための、あらゆる他の好適な方法および/またはフィルタが用いられる。
【0078】
乗算部117の後、周波数成分信号S1(t),S2(t),・・・,Sn(t)は、さらに、例えば信号加算器65によって合成される。
【0079】
図3は、本発明の実施形態による、論理部77の図である。論理部77は、パワーベクトル{ESi}で表されているように、ボイス信号S(t)の様々な評価に応じて、ボイス信号S(t)の周波数成分を乗算することになるゲイン係数を決定する複数のゲイン決定部を備える。図3の実施形態において、複数のゲイン決定部は、ボイススピーチ強調部91、オートゲイン部92、フォルマント部93、および圧縮部94を備える。しかしながら、論理部77は、本発明の様々な実施形態にしたがって、いっそう少ない処理部、および/またはいっそう多い処理部から構成されていても良い。乗算器99は、さらに、ゲイン決定部で決定されたゲイン係数を受信し、乗算部117(図2Aおよび2B)に提供されることになるゲイン係数{gi}を提供しても良い。代替として、91、92、93および94のそれぞれの処理部は、先行の処理部からのゲインを受信し、蓄積された計算されたゲインを提供する。
【0080】
論理部77は、さらに、パワーベクトル{ESi}で表されているボイス信号S(t)が現在、ボイススピーチ(voiced speech)からなるか、アンボイススピーチ(unvoiced speech)からなるかを決定するボイススピーチ識別部89を備えていても良い。当技術分野で知られているように、声門のパルスからなる周波数帯域でつくられた音声はボイススピーチ信号と呼ばれ、一方、声帯の力をかりずに発音された音声はアンボイススピーチ信号と呼ばれる。
【0081】
本発明のいくつかの実施形態において、識別部89は、ボイス信号S(t)のフォルマントを識別し、したがって、ボイス信号がボイススピーチからなるかどうかを決定する。さらに、ボイス信号S(t)が、支配的な音程、例えば他のすべての音程よりも実質的に大きい振幅を持つ音程を含むならば、その信号はボイススピーチからなるとみなされる。代替としてまたは追加として、識別部89は、ボイス信号S(t)の低周波数におけるエネルギーと、高周波数におけるエネルギーとを比較する。さらに、低周波数におけるエネルギーが、高周波数におけるエネルギーよりも所定の閾値だけ大きい場合には、ボイス信号S(t)は音を発しているとみなされる。本発明の模範的な実施形態において、ボイス信号S(t)の周波数帯は、低周波数と高周波数の間で実質的に均一に分割される。代替として、低周波数と高周波数の間での分割は、音響上の考慮にしたがって、他のあらゆる位置にあっても良い。
【0082】
本発明のいくつかの実施形態において、識別部89は、信号が明確なボイス信号の特性を有しているときにのみ信号がボイス信号を含むことを決定する。その理由は、ボイススピーチ強調部91が、信号がボイズスピーチを含むと決定された場合にのみ信号を変化させるゲインを生成するからである。
【0083】
代替としてまたは追加として、例えば、Yooによる上述の論文に記載された方法、および/または、その開示が参照によって本明細書に組み込まれる、Katesらの米国特許4,468,804号に記載された方法のような、ボイススピーチを識別する為の他のあらゆる方法が用いられても良い。
【0084】
ボイススピーチ強調部91は、さらに、識別部89から、ボイス信号S(t)がボイススピーチを含むかどうかの指示を受け取っても良い。本発明のいくつかの実施形態において、ボイス信号S(t)がボイススピーチを含む場合には、強調部91は、ボイススピーチを運ぶボイス信号S(t)の周波数成分を強調するのに好適なボイススピーチ強調ベクトル(p1,p2,・・・,pn)を選択する。ボイススピーチ強調ベクトル(p1,p2,・・・,pn)は、実質的にすべてのボイススピーチ信号に用いられる所定のベクトルからなっていても良い。それに代わるものとして、ボイススピーチ強調ベクトル(p1,p2,・・・,pn)は、パワーベクトル{ESi}の関数である。
【0085】
本発明のいくつかの実施形態において、スピーチ強調ベクトル(p1,p2,・・・,pn)は、低周波数のパワーを強調し、および/または高周波数のパワーを低下させる。例えばボイススピーチ強調ベクトル(p1,p2,・・・,pn)は、非増加の単調関数であっても良い。本発明のいくつかの実施形態において、識別部89がアンボイススピーチの指示を行うとき、スピーチ強調ベクトル(p1,p2,・・・,pn)は、ボイス信号S(t)の振幅を変化させない単位ベクトルに等しい。
【0086】
本発明のいくつかの実施形態において、強調部91は、パワーベクトル{ESi}をスピーチ強調ベクトル(p1,p2,・・・,pn)で乗算したものに等しい、変更されたパワーベクトル{ESMi}をも提供する。変更されたパワーベクトル{ESMi}は、ボイス信号S(t)のパワーを表すために、オートゲイン部92によって使用されても良い。
【0087】
本発明のいくつかの実施形態において、オートゲイン部92は、ボイス信号S(t)の通常のパワーとノイズ信号N(t)の通常のパワーとの比較に基づいて、信号S(t)のための第1ゲイン係数(Gain1)を決定する。通常のパワーは、最近の期間での信号の履歴に基づいて決定されても良い。第1ゲイン係数は、ボイス信号S(t)を全体的にノイズ信号N(t)の上に持っていく為に設計され、一方、フォルマント部93は、現時点でのボイスおよびノイズ信号の特定の比較を行っても良い。本発明の模範的な実施形態において、オートゲイン部92は、図4を参照して以下で記載されるようなものである。オートゲイン部92は、また、信号S(t)を表す為にフォルマント部93で用いられる、増幅されたパワーベクトル{Gain1×ESMi}をさらに提供しても良い。
【0088】
本発明のいくつかの実施形態において、フォルマント部93は、ボイス信号S(t)の1以上のフォルマントを識別し、それに応じて、第2ゲイン係数(Gain2)を生成する。さらに、第2ゲイン係数(Gain2)は、ボイス信号S(t)の所定のフォルマントのグループに対応する周波数成分のパワーが、ノイズ信号N(t)の対応の周波数成分のパワーよりも、少なくとも所定のマージンだけ上の値を持つことを確実にするのに必要な最小のゲインとして選択されても良い。さらに、所定のマージンは、すべての周波数成分について同じであっても良い。代替として、異なるマージンが異なる周波数成分に対して適用されても良い。本発明のいくつかの実施形態において、所定のマージンは約3から10dBの間であり、さらには6dBであっても良い。本発明の模範的な実施形態において、フォルマント部93は、図5Aおよび5Bを参照して以下で述べるようなものである。さらに、フォルマント部93は、信号S(t)を表す為に圧縮部94で用いられる、増幅されたパワーベクトル{Gain2×Gain1×ESMi}をも提供しても良い。
【0089】
本発明のいくつかの実施形態において、オートゲイン部92からの増幅されたパワーベクトル{Gain1×ESMi}は、増幅されたパワーベクトル{Gain1×ESMi}を平滑化するプリフォルマントスムーザー97を通される。フォルマントの探索は、ボイス信号S(t)の周波数帯域の包絡線に対して実行され、ボイス信号自体には実行されないので、平滑化がさらに実行されても良い。
【0090】
平滑化されたベクトルにおけるそれぞれの周波数成分値(ESMi)は、さらに、その隣接の周波数成分を用いた重み付け平均に等しくても良い。本発明の模範的な実施形態において、プリフォルマントスムーザー97は、以下の数式にしたがって動作する。
【0091】
【数2】
【0092】
代替として、例えばさらに多い隣接の周波数成分を考慮に入れる関数、および/または他の重み付け係数を用いる関数のような、他のあらゆる平滑化関数が用いられる。
【0093】
本発明のいくつかの実施形態において、フォルマント部93は、ここで{ENi’}と呼ばれる、ノイズパワーベクトル{ENi}の平滑化されたものを受信する。さらに、平滑化されたノイズパワーベクトル{ENi}は、プリフォルマントスムーザー97と同じ機能を実行するノイズスムーザー98によって生成されても良い。代替として、ノイズスムーザー98は、プリフォルマントスムーザー97とは異なる機能を実行し、さらにはあまり平滑化されていない信号を生成しても良い。さらに、ノイズパワーベクトル{ENi}は、{Gain1×ESMi}の平滑化されたものと調和するように平滑化されても良い。
【0094】
本発明のいくつかの実施形態において、圧縮部94は、調節されたボイス信号S(t)のパワーを減少させるのに好適な圧縮ベクトル(c1,c2,・・・,cn)を生成する。さらに、圧縮ベクトル(c1,c2,・・・,cn)は、調節されたボイス信号S(t)のパワーを、パワーアンプ52および/またはスピーカ32の動作限界内に減じるのに好適であっても良い。代替としてまたは追加として、圧縮ベクトル(c1,c2,・・・,cn)は、調節されたボイス信号S(t)のパワーを、元のボイス信号S(t)に、または他のあらゆる所望のレベル実質的に等しいレベルにまで減じるのに好適であっても良い。
【0095】
さらに、圧縮部94は、各周波数成分について、その周波数成分における信号対ノイズ比(SNR)を決定しても良い。さらに、周波数成分のSNRが約6dBよりも大きい場合には、ベクトルciの圧縮ゲインは、そのバンド内のボイス信号を、そのSNRの関数である減衰値(負のゲイン)だけ減衰させるように設定されても良い。本発明のいくつかの実施形態において、負のゲインの大きさは、SNR6dBで値0dBを持ち、SNR約24dBで値5dBを持つ単調関数にしたがっている。さらに、負のゲインの最大の大きさは、5dBであっても良い。本発明の模範的な実施形態において、負のゲイン(Y)の大きさは、以下の関数による。
【0096】
【数3】
ここで、xは、SNRを指している。
【0097】
代替としてまたは追加として、圧縮部94は、{ESi}で表されるボイス信号S(t)がその隣接の周波数成分または他の全ての周波数成分よりも実質的に大きい(例えば8−10dBだけ)振幅を持つピーク周波数成分を探索する。さらに、圧縮ベクトル(c1,c2,・・・,cn)は、そのピーク周波数成分の振幅を、約5dBだけ、またはピーク周波数成分の振幅が他の周波数成分よりも大きくなっている程度の割合だけ減少させても良い。
【0098】
さらに代替としてまたは追加として、圧縮ベクトル(c1,c2,・・・,cn)はまた、ノイズによってマスクされる周波数成分を減衰させても良い。さらに、ボイス信号S(t)が実質的にノイズよりも低い(例えば少なくとも6dBだけ)振幅を有する周波数成分は、それらが実質的に除かれるように、0倍されても良い。
【0099】
さらに、代替としてまたは追加として、実質的に出力信号を歪ませない他のあらゆる圧縮機能が用いられる。さらに代替としてまたは追加として、圧縮部94は用いられず、圧縮を実行することがリミッタ100に依頼される。さらに代替としてまたは追加として、リミッタ100は用いられずに、圧縮部94に圧縮を行うことが依頼される。さらに代替として、リミッタ100と圧縮部94の両方が用いられず、圧縮は実行されない。さらに、この代替手段において、スピーカ32で音を鳴らすことのできる入力信号の振幅が可能となるように、パワーアンプ52は、入力ボイス信号の信号範囲よりも大きな動作範囲を持っていても良い。
【0100】
本発明のいくつかの実施形態において、フォルマント部93によって提供される増幅されたパワーベクトル{Gain2×Gain1×ESMi}は、圧縮部94に入力される前にプリ圧縮スムーザー107によって平滑化される。プリ圧縮スムーザー107は、プリフォルマントスムーザー97と同一のまたは類似の平滑化機能を実行しても良い。スムーザー107を用いることに対する代替として、圧縮部94は、ボイス信号S(t)を表す、プリフォルマントスムーザー97の平滑化された出力を受信する。この出力は、さらに、Gain2倍されていても良い。本発明のいくつかの実施形態において、圧縮部94は、ノイズ信号N(t)を表す為に平滑化されたノイズ信号{ENi’}を用いる。代替としてまたは追加として、圧縮部94は、ノイズパワーベクトル{ENi}の異なる平滑化されたものを用いる。さらに代替としてまたは追加として、圧縮部94は、平滑化されていないノイズパワーベクトル{ENi}を用いる。
【0101】
本発明のいくつかの実施形態において、乗算器99は、出力係数、例えば強調ベクトル{pi},Gian1,Gain2,および圧縮ベクトル{ci}を受信し、ゲインベクトル{g1,g2,・・・,gn}を、受信した積、例えばgi=pi*Gain1*Gain2*ciとして生成する。乗算器99を備える論理部77に対する代替としてまたは追加として、オートゲイン部92、ファルマント部93、および圧縮部94のうちの1以上が、1以上の先行する処理部の出力を受信する。本発明の模範的な実施形態において、フォルマント部93は、Gain1を受信しGain1およびGain2の積を提供し、また、圧縮部94は、強調ベクトル、Gain1およびGain2を受信し、圧縮ベクトル(c1,c2,・・・,cn)を生成し、したがってゲインベクトル{g1,g2,・・・,gn}を生成する。
【0102】
パワーベクトル{ESi}の修正されたものに関して動作する処理部92、93および94に対する代替としてまたは追加として、処理部の1以上が、元のパワーベクトル{ESi}に関して、または部分的に修正されたパワーベクトルに関して動作する。
【0103】
本発明のいくつかの実施形態において、論理部77は、重み付け平均部133によって用いられる重みb1およびb2を動的に決定する重み付け部138を備える。背景に比較的ノイズが多く、例えばGain1が比較的大きい場合には、変更されたボイス信号S’’(t)に与えられる重みb1は、比較的大きく例えば0.5である。さらに、変更されたボイス信号S’’(t)に与えられる重みb1は、Gain1についての非減少の関数であっても良い。すなわち、Gain1が増加すれば、変更されたボイス信号S’’(t)に与えられる重みはいっそう大きくなる。本発明の模範的な実施形態において、重みb1=Gain1/maxである。ここでmaxは、Gain1の可能な最大値である。代替としてまたは追加として、Gain1が所定値、例えば0.3よりも小さいとき、重みb1は0に設定される。さらに代替としてまたは追加として、Gain1が所定値、例えば3よりも大きいとき、重みb1は1に設定される。
【0104】
代替として、重みb1およびb2は、ノイズ{ENi}の関数であり、または所定値、例えば0.5である。代替としてまたは追加として、ユーザコントロールにより、ユーザーがその好みによってb1およびb2の値を調整することが可能とされる。
【0105】
本発明のいくつかの実施形態において、b1およびb2は、重みにおける周波数変動を防止するローパスフィルタを通過した後に重み付け平均部133に提供される。代替としてまたは追加として、重み決定部138で実行される関数は、時間平滑化効果を有する。
【0106】
図4は、本発明の好ましい実施形態による、オートゲイン部92のブロック図である。オートゲイン部92は、さらに、変更されたパワーベクトル{ESMi}で表されるボイス信号S(t)の代表的なパワーHSを決定する信号履歴部406を備えていても良い。また、オートゲイン部92は、ノイズパワーベクトル{ENi}で表されるノイズ信号N(t)の代表的なパワーHnを決定するノイズ履歴部411を備える。代表の通常値は、異なる期間での複数の最大値の平均として計算されても良い。本発明のいくつかの実施形態において、信号履歴部406およびノイズ履歴部411は実質的に同一である。代替として、履歴部406および履歴部411は、互いに異なっている。例えば、ボイス通常パワーHSは、ノイズ通常パワーHnが与えるよりも大きな待ち時間を以前の信号に対して与えても良い。
【0107】
本発明のいくつかの実施形態において、それぞれの履歴部406は、受信した全ての周波数成分のパワーの合計を生成する加算器408を備える。代替として、加算器408は、フィルタ62からの周波数成分信号の合計を生成して、合計のパワーを計算し、および/または元の信号S(t)のパワーを計算する。合計は、短期間最大値レジスタ410に、および長期間最大値レジスタ412にさらに提供されても良い。本発明のいくつかの実施形態において、レジスタ410および412のそれぞれは、その新しい値を次のように決定する。受信した値が内部に格納されている値よりも大きい場合には、新しい値は、格納された値に等しい。さもなければ、新しい値は、内部に格納された値の減衰したものである。この場合において、短期間レジスタ410内の値は、長期間レジスタ412内の値よりも速く減衰する。本発明のいくつかの実施形態において、レジスタ410内の値が単一の語内での最大パワーに関連するように、短期間レジスタ410内の値は、約1語の時間の範囲内で減衰する。本発明のいくつかの実施形態において、長期間レジスタ412内の値は、レジスタ412内の値が比較的長い期間での最大パワーに関連するように、1つのセンテンスまたは数センテンスの時間内で減衰する。
【0108】
本発明のいくつかの実施形態において、履歴部406のレジスタ410および412は、履歴部411びレジスタ410および412のそれぞれと同じ減衰値を持つ。代替として、履歴部406のレジスタ410および412は、履歴部411のレジスタ410および412の減衰値とは異なる減衰値を持つ。本発明の模範的な実施形態において、信号履歴部406の長期間レジスタ412内の値は、約256msの期間でその値の10から30%の間にまで減衰し、一方、信号履歴部406の短期間レジスタ410内の値は、約64msの期間で減衰する。さらに、信号履歴部411の長期間レジスタ412内の値は、約1秒の期間でその値の約10から30%の間にまで減衰し、一方、信号履歴部411の短期間レジスタ410内の値は、約25から100msの期間で減衰する。
【0109】
本発明のいくつかの実施形態において、VAD部250がボイス信号がスピーチを含まないという指示を行うとき、信号履歴部406のレジスタ410および412内の値は減衰しない。さらに、ボイス信号がスピーチを含まない場合に、入力値がレジスタの内容よりも高いパワーを有するときには、レジスタ410は更新されなくても良い。代替としてまたは追加として、短期間レジスタ410内の値は、ボイス信号がスピーチを含まないという決定に応じてゼロにされる。本発明のいくつかの実施形態において、信号履歴部411において同様の動作が行われる。
【0110】
本発明のいくつかの実施形態において、受信した値がレジスタの内容よりも大きい場合にレジスタ410および412の1以上のにおける値を即座に更新することに代えて、更新があまりに急峻になることがないように、更新は段階的に行われても良い。さらに、更新は、減衰勾配よりも急勾配の所定の勾配に制限されても良い。
【0111】
オートゲイン部92がパワー信号{ESMi}および/または{ENi}に基づいて動作することに対する代替として、オートゲイン部92は、周波数成分のサンプル値に基づいて動作する。さらに、周波数成分の値は加算され、それらの二乗が求められ、そしてこの二乗がオートゲイン部92で用いられても良い。
【0112】
本発明のいくつかの実施形態において、通常パワーHSまたはHnを生成する為に、平均化部414が、短期間レジスタ410および長期間レジスタ412内の値の平均値を計算する。本発明のいくつかの実施形態において、平均化部414は、幾何平均をとる。代替として、平均化部414は、算術平均または中心値のような他のあらゆる平均値を計算する。さらに、オートゲイン部92は、パワーの比からゲイン値を提供する為に履歴値の比の平方根、すなわち、√(Hn/HS)を計算する、デバイダ108および平方根部109を備えていても良い。
【0113】
レジスタ410および412のみであることに対する代替として、履歴部406および/または411は、異なる減衰時間を持つさらなるレジスタを備えていても良い。さらに代替としてまたは追加として、あらゆる他の方法が、1以上の代表的な通常パワー値を決定するために用いられても良い。
【0114】
本発明のいくつかの実施形態において、オートゲイン部92は、ノイズN(t)の周波数の広がりに関しての平坦度(または密度)指示値(FLAT)を提供するノイズ平坦度部407を備える。ノイズが広い周波数帯域を持つときに増幅が大きくなるように、増幅係数Gain1は、平坦度指示値にしたがって直線的に増加するものであっても良い。ノイズN(t)が白色ノイズと同様であるときには、Gain1は、1に近い値であり、ノイズが特定の周波数を持つ正弦波と同様であるときには、Gain1は低い値、例えば0.2であっても良い。
【0115】
本発明のいくつかの実施形態において、ノイズ平坦度部407は、周波数成分ノイズパワー値{ENi}の正規化された平均値NAを計算する。さらに、平均は、最大パワー値、すなわち、max{ENi}で割ることによって正規化されても良い。本発明の模範的な実施形態において、平坦度指示値FLATは、正規化された平均値NAから、以下の数式にしたがって計算される。
【0116】
【数4】
【0117】
本発明のいくつかの実施形態において、平坦度指示値FLATは、その値の強い変動を防ぐ為に、FLATの以前の値を用いて時間平均される。さらに、平坦度指示値は、1次のまたは2次のローパスフィルタを用いて以前の時間の値によりフィルタ処理されても良い。代替としてまたは追加として、強い変動を防ぐ為に他のあらゆる好適な時間依存のフィルタが用いられても良い。
【0118】
さらに、乗算器405が、平坦度指示値FLAT、履歴値の比の平方根√(Hn/HS)、および所定の一定の増幅(min_gain)の積として、Gain1を生成しても良い。本発明のいくつかの実施形態において、所定の一定の増幅(min_gain)は約1である。代替として、所定の一定の増幅(min_gain)は約2から2.5の間であっても良い。
【0119】
図5Aおよび5Bは、本発明の好ましい実施形態による、フォルマント部93により生成されたゲインによって修正される前と後の模範的なボイス信号209のグラフである。さらに、フォルマント部93は、ボイス信号S(t)についての所定数の(例えば、3つ)フォルマント、すなわち包絡線のピークを識別しても良い。所定数までのフォルマントを選択することは、さらに、低い方の周波数から開始し、フォルマントが見つからなくなるまで、または所定数のフォルマントが見つかるまで選択を行うことから構成されていても良い。本発明の模範的な実施形態において、フォルマント部93は、パワー信号{ESMi}に基づいてフォルマントが位置している周波数成分を識別する。例えば、信号209において、3つの第1のフォルマントが含まれるので、フォルマント部93は、周波数成分3(S3)、周波数成分8(S8)、および周波数成分12(S12)を識別する。
【0120】
所定数のフォルマントが位置しているそれぞれの周波数成分について、フォルマント部93は、さらに、周波数成分におけるSNR、すなわち、その周波数成分におけるノイズ信号ENi208のパワーと、その周波数成分におけるボイス信号ESMi209のパワーとの相違を決定しても良い。さらに、フォルマント部93は、SNRが最も小さい(最も負の値であるものを含む)周波数成分を選択しても良い。信号209については、周波数成分8のSNRが最も小さい。本発明のいくつかの実施形態において、フォルマント部93の出力ゲイン(Gain2)は、最も小さいSNRを所定値、例えば約3から6dBの間にするために必要なゲインに等しい。代替としてまたは追加として、フォルマント部93の出力ゲイン(Gain2)は、SNRを、動的に調節された値にする。さらに、動的に調節されたレベルは、ノイズレベル、ボイス信号S(t)のレベル、および/またはGain1の値に応じて調節されても良い。さらに、出力ゲイン(Gain2)は、ノイズと信号のパワー比の平方根をとることによって、および約2から4(3から6dBに等しい)の間の一定のマージンを掛け算することによって計算されても良い。
【0121】
信号209をGain2倍した後に、信号209の周波数帯域は図5Bに示すようなものになる。さらに、最も低いSNRが所定の閾値、例えば3から6dBよりも大きい場合には、Gain2は1に設定されても良い。本発明の模範的な実施形態において、所定の閾値は、増幅が必要な場合にGain2が最も低いSNRをそのレベルに持っていくレベルに等しい。代替として、所定の閾値は、増幅が必要な場合にGain2が最も低いSNRをそのレベルに持っていくレベルとは異なっており、例えばそれより低いものであっても良い。いっそう低い所定の閾値を用いることは、実行された振幅変化の場合を、変化が実際に必要な場合に限定する。
【0122】
本発明のいくつかの実施形態において、フォルマントの所定数は、ボイス信号S(t)内のフォルマントの数よりも少なくても良い。さらに、フォルマントの所定数は、2から4の間であっても良く、おそらくは3つであろう。なお、ボイス信号S(t)のフォルマント数は、フォルマントの所定数よりも少なくても良い。このような場合には、みつかるのは所定数のフォルマントよりも少ないであろうが、最も低いSNRの決定は、みつかったフォルマントの中から実行されても良い。
【0123】
なお、たとえシステム30が音楽信号のようにスピーチを含まない音声信号を用いて動作する場合であっても、いくつかの実施形態では、フォルマント部93が用いられても良い。
【0124】
図6は、本発明の実施形態による、強調フィルタ112のゲインのグラフである。図に示すように、さらに、低周波および高周波が強調フィルタ112により減衰され、中心周波数が増幅されても良い。本発明のいくつかの実施形態において、ボイス信号S(t)のトータルのパワーは、強調フィルタ112により変化させられない。さらに、強調フィルタ112は、それぞれの周波数成分Si(t)について各ゲインを持つ乗算器からなっていても良い。代替として、複数の周波数成分の少なくとも一つのグループは、強調フィルタ112の一つのゲイン係数を乗算される。
【0125】
図6に示されたゲインを有する強調フィルタに対する代替として、強調フィルタ112のゲインは、スピーチ信号を強調しおよび/またはノイズを減少させる他のあらゆる機能にしたがうものであっても良い。本発明のいくつかの実施形態において、強調フィルタのゲインは、シミュレーションに基づいて決定される。代替としてまたは追加として、強調フィルタのゲインは、工場での較正によって調整される。さらに、代替としてまたは追加として、強調フィルタ112のゲインは、フィールドテストに応じて周期的に更新される。さらに代替としてまたは追加として、強調フィルタ112のゲインは、ユーザにより調整される。この代替手段は、特に難聴に対して役に立つ。
【0126】
図7は、本発明の実施形態による、模範的なノイズパワー信号スペクトラム122およびマスクされたノイズパワー信号スペクトラム123のグラフである。マスキング部119は、さらに、信号スペクトラム122のスペクトルピーク251を見つけ出し、それぞれのピーク251について、互いに反対方向に所定の勾配で減少する一組のライン301および302を計算しても良い。さらに、所定の勾配は、約40〜60dB/10であっても良い。代替としてまたは追加として、異なるピーク251からのライン301および302は、音響上の考慮にしたがって異なる勾配を持っていても良い。さらに代替としてまたは追加として、ライン301および302は、例えば音響上の考慮にしたがって、同一のピークについて異なる勾配を持つ。マスクされたノイズパワー信号スペクトラム123は、さらに、それぞれの点で、ライン301および302のそれぞれの点での最大値に等しくても良い。代替として、マスクされたノイズパワー信号スペクトラム123は、さらに、それぞれの点で、ライン301および302およびスペクトラム122のそれぞれの点での最大値に等しくても良い。さらに、マスキング部119は、リアルタイムで動作し、それぞれの周波数成分に対して、元のノイズパワー値の代わりにマスクされた値を提供する。
【0127】
代替として、ヒトの耳への周波数の内部影響を考慮するあらゆる他のマスキング部が用いられる。さらに代替として、例えば周波数成分の数が比較的少ない場合には、および/または図2Bに示されるフィルタ64が周波数成分値を生成するのに用いられる場合には、マスキング部119は用いられない。フィルタ64が周波数成分値の生成に用いられるとき、フィルタの構造は、一般的には、マスキングの機能を実行するように設計することができる。
【0128】
例えばマイクロフォン34とスピーカ32が電話の一部となっている本発明のいくつかの実施形態において、システム30は、電話のユーザがいつ話しているかを決定するスピーチ検出器を備える。さらに、ユーザが話をしているとき、システム30は、遠方のボイス信号S(t)の修正をディスエーブルにしても良い。したがって、システム30は、ユーザの会話をノイズと関係付けせず、よって、遠くから受信されるボイス信号の振幅をユーザの話す音よりも大きくさせることはしない。
【0129】
図8は、本発明の好ましい実施形態による、スピーチ検出器81のブロック図である。スピーチ検出器81は、さらに、マイクロフォン34からの信号を受信し、受信した信号がいつスピーチを含んでいるかを決定する。本発明のいくつかの実施形態において、スピーチ検出器81は、受信した信号がいつスピーチを含んでいるかを決定する、ピーク検出器82および/または勾配検出器84を備える。ピーク検出器82は、受信した信号と閾値とを比較し、受信した信号が閾値より大きいときにスピーチ指示を提供する。勾配検出器84は、さらに、受信した信号の振幅の勾配をたどっても良い。本発明のいくつかの実施形態において、勾配検出器84は、勾配が所定の増加の勾配を超えたときにスピーチ開始の指示を行い、勾配が所定の減少の勾配を超えたときにスピーチ開始の指示を行う。
【0130】
さらに、スピーチ論理部86がその指示を受信しても良い。本発明のいくつかの実施形態において、スピーチ開始指示とスピーチ指示の両方が受信されるとき、論理部86はシステム30の信号修正をディセーブルにする。さらに、スピーチ終了信号が受信され且つスピーチ指示が受信されないとき、論理部86は、約0.5〜1.2秒のカウント期間を開始する。さらにこのカウント期間は1秒であっても良い。このカウント期間の後、システム30の信号の修正がイネーブルにされる。システム30の信号修正は、さらに、カウント期間の間にスピーチ開始指示がスピーチ指示と一緒に受信されないときにイネーブルにされても良い。したがって、ユーザが話しているとき、遠方の仲間からのボイス信号S(t)は、ユーザの話に打ち勝つようには強調されない。
【0131】
本発明のいくつかの実施形態において、システム30の信号修正をディスエーブルにすることは、遠隔のボイス信号S(t)が実際にスピーチ信号を含むか否かにかかわりなく、遠隔のボイス信号S(t)のVAD信号をスピーチがないことに設定することからなる。代替としてまたは追加として、システム30の信号修正をディスエーブルにすることは、b1をゼロに設定することからなる。
【0132】
本発明のいくつかの実施形態において、ピーク検出器82で用いられる閾値は、スピーチが存在しないときの受信信号の測定値に応じて適応的に調整されても良い。さらに、ノイズ平均化部87が、論理部86がマイクロフォン34からの受信信号がスピーチを含まないと決定した最近の期間で、受信信号を平均化しても良い。本発明のいくつかの実施形態において、平均化は、積分器で実行される。ピーク検出器82で用いられる閾値は、さらに、ノイズ平均化部87からの平均ノイズレベルより上の所定のギャップであっても良い。適応的な閾値の使用は、周囲ノイズが高い時にユーザが大きな声で話し、ノイズが低いときにユーザが小さな声で話す場合に有利である。
【0133】
本発明のいくつかの実施形態において、受信信号中の一時的な変化が論理部86の出力に影響することがないように、ピーク検出器82に入る信号はローパスフィルタ88を通される。代替としてまたは追加として、受信信号中の一時的な変化が出力に影響することがないように、ピーク検出器82および/または勾配検出器84に入る信号はヒステリシス機能を通される。
【0134】
本発明のいくつかの実施形態において、所定の増加勾配および減少勾配は、同じ大きさ、例えば約0.5*Max_amplitude/200msecである。ここで、Max_amplitudeは、マイクロフォン34が受信したスピーチ信号の所定の最大値、または現在のスピーカについての最大振幅である。代替としてまたは追加として、所定の増加勾配および減少勾配は、異なる大きさである。
【0135】
スピーチ検出器81を用いることに対する代替としてまたは追加として、VAD検出器250に類似した検出器および/または上述の米国特許5,524,148に記載のような、あらゆる他のスピーチ検出器またはVADが用いられても良い。さらに代替としてまたは追加として、スピーチ検出器81は用いられなくても良い。スピーカ32がマイクロフォン34の近くに配置されるとき、この代替手段は、たとえユーザが話しているときであっても受信信号が強調されるように、システム30がユーザの会話を補正するようにすることができる。
【0136】
上述の実施形態において、システム30は、7つの処理部、とりわけ、ボイス信号S(t)のゲインを計算することによりにボイス信号S(t)に直接的にまたは間接的に影響をおよぼす、強調部91、オートゲイン部92、フォルマント部93、圧縮部94、リミッタ100、強調フィルタ112、および重み決定部138を有するものとして記載された。本発明のいくつかの実施形態では、強調部91、強調フィルタ112、およびリミッタ100は、ノイズに関係なく動作し、オートゲイン部92、重み決定部138、フォルマント部93、および圧縮部94は、ノイズに依存するゲイン値を提供することが注目される。
【0137】
したがって、本発明のこれらの実施形態において、入力ノイズに応じてボイス信号S(t)を変化させる処理部は、同じゲイン(例えば処理部92および93)を用いてボイス信号(t)全体を変化させ、またはボイス信号のピークの相対的な位置を変化させることはない(処理部94)。したがって、ノイズ依存の修正は、信号の歪を生じさせない。本発明のいくつかの実施形態において、圧縮部9は用いられず、したがって、全てのノイズ依存の修正が、同一のゲインを用いて実質的に信号全体を増幅する。
【0138】
一般的に、処理部92および93は、ゲイン計数を決定し、強調部91および強調フィルタ112は、入力ノイズに依存しない先行の変形(predistortion)を実行し、圧縮部94、リミッタ10および重み決定部138はエネルギーを減じる。
【0139】
ノイズ依存のおよびノイズに依存しない係数を含む乗算部117のゲイン{gi}に対する代替として、本発明のいくつかの実施形態において、乗算部117のゲインは、ノイズ依存の係数のみからなる。強調部91で生成されるようなノイズに依存しない係数は、さらに、強調フィルタ112によっておよび/または分かれた乗算器によって適用されても良い。代替としてまたは追加として、強調部91は、用いられない。例えば圧縮部94が用いられない本発明のいくつかの実施形態において、乗算部117のゲインは、実質的にすべての周波数成分で同一である。
【0140】
本発明のいくつかの実施形態において、本発明のノイズ補正は、動的なノイズ抑制方法と組み合わされる。さらに、本発明の実施形態によりボイス信号S(t)の修正に用いられるノイズ推定値は、動的に抑制されたノイズに基づいていても良い。代替として、ノイズ推定値は、修正前の元のノイズに基づいている。
【0141】
上述の実施形態は、ハードウェア、ソフトウェア、またはそれらの組み合わせを用いることによって実施することができる。処理は、デジタル処理、アナログ処理、またはそれらの組み合わせからなっていても良い。特に、上述のフィルタは、アナログまたはデジタルであって良い。
【0142】
上述の方法は、複数の手順を同時に実行すること、手順の順番を変えること、および用いられた正確な実施を変えることなど、様々なやり方で変形することができることが理解されるであろう。例えば、周波数成分値を生成するためにFFTが用いられるとき、数個の隣接のFFT値は、いっそう少ない数の周波数成分の周波数成分値を生成するために加算されても良い。上述の方法および装置は、方法を実行するための装置、およびその装置を使用する方法を含むものとして解釈されることになる。
【0143】
本発明は、例証として提供され、発明の範囲を限定することを意図するものでない、本発明の実施形態の非限定の詳細な記載を用いて記述されてきた。一つの実施形態を基準にして記載された特徴および/または方法は、他の実施形態とともに用いられても良く、本発明の全ての実施形態が、特定の図に示された、または実施形態の一つに関して記載された全ての特徴および/またはステップを有しているわけではないことが理解される。当業者であれば、記載された実施形態の変形例に気付くであろう。
【0144】
なお、上述の実施形態のいくつかは、発明者によって考慮されたベストモードについて記載しているであろう。したがって、それらの実施形態は、構成、動作、構成の詳細、および発明に本質的ではない動作を含んでおり、また、例として記載されている。本明細書に記載された構成および動作は、当技術分野で知られているように、たとえその構成または動作が異なっていても、同じ機能を実行する同等物で置き換えることができる。したがって、本発明の範囲は、特許請求の範囲で用いられる要素および限定によってのみ制限される。“からなる”、“備える”、“有する”およびそれらの同一語源の語は、特許請求の範囲で用いられるとき、“非限定的に含んでいる”ということを意味する。
【図面の簡単な説明】
【図1】
図1は、本発明の実施形態による、ノイズ補正システムンの図である。
【図2A】
図2Aは、本発明の実施形態による、ノイズ補正システムのコントローラのブロック図である。
【図2B】
図2Bは、本発明の別の実施形態による、ノイズ補正システムのコントローラのブロック図である。
【図3】
図3は、本発明の実施形態による、図2Aまたは図2Bのコントローラの論理部の図である。
【図4】
図4は、本発明の実施形態による、図3の論理部のゲイン決定部の図である。
【図5A】
図5Aおよび図5Bは、本発明の実施形態による、フォルマント部で生成されるゲインによる補正の前と後の模範的なボイス信号のグラフである。
【図5B】
図5Aおよび図5Bは、本発明の実施形態による、フォルマント部で生成されるゲインによる補正の前と後の模範的なボイス信号のグラフである。
【図6】
図6は、本発明の実施形態による、強調フィルタのゲインのグラフである。
【図7】
図7は、本発明の実施形態による、模範的なノイズパワースペクトルおよびそのマスクされたものを表すグラフである。
【図8】
図8は、本発明の実施形態による、スピーチ検出器のブロック図である。
【符号の説明】
30 ノイズ補正システム
32 スピーカ
34 マイクロフォン
36 アンプ
40 コントローラ
95 ノイズクリーナ
96 エコーキャンセラ
Claims (49)
- 音声信号にとって無関係な背景ノイズを克服するために音声信号を処理する方法であって、
前記音声信号の周波数成分における前記音声信号の評価基準と、前記背景ノイズの周波数成分におけるノイズの評価基準とを比較し、
前記比較に応じてゲインを決定し、
前記音声信号の前記周波数成分内には含まれていない少なくとも一つの周波数部分を含む、前記音声信号の少なくとも一部を、決定された前記ゲインによって増幅すること、
を含む方法。 - 前記音声信号の評価基準は、前記音声信号のパワーからなる、請求項1に記載の方法。
- 前記背景ノイズの周波数成分における前記ノイズの評価基準は、前記ノイズのマスキング型のパワーからなる、請求項1または請求項2に記載の方法。
- 前記信号の少なくとも一部を増幅することは、前記音声信号の比較された周波数成分を含む部分を増幅することからなる、請求項1から請求項3のいずれかに記載の方法。
- 前記信号の少なくとも一部を増幅することは、前記決定されたゲインによって前記音声信号の全体を増幅することからなる、請求項4に記載の方法。
- 適用されるべき前記ゲインを決定することは、前記音声信号の周波数成分の周波数帯における信号対ノイズ比を閾値より高くするであろうゲインを決定することからなる、請求項1から請求項5のいずれかに記載の方法。
- 前記閾値は、前記信号評価基準および/またはノイズ評価基準の時間変化にしてがって動的に調整される、請求項6に記載の方法。
- 前記閾値は所定の値である、請求項6に記載の方法。
- 前記音声信号の周波数成分における前記音声信号の評価基準を比較することは、前記音声信号のフォルマントを含む周波数成分において比較することからなる、請求項1から請求項8のいずれかに記載の方法。
- 前記音声信号のフォルマントを含む周波数成分において比較することは、前記音声信号の複数の周波数成分の中で最も低い信号対ノイズ比(SNR)を持つ周波数帯の周波数成分において比較を行うことからなる、請求項9に記載の方法。
- 前記音声信号を複数の周波数成分に分割し、全周波数成分より少ないものを選択すること、を含む請求項1から請求項10のいずれかに記載の方法。
- 全周波数成分より少ないものを選択することは、前記音声信号のフォルマントを含む周波数成分を選択することからなる、請求項11に記載の方法。
- 前記音声信号のフォルマントを含む周波数成分を選択することは、フォルマントを含む周波数成分を所定数まで選択することからなる、請求項12に記載の方法。
- 前記選択された周波数成分から前記音声信号の周波数成分を選択することを含む、請求項11から請求項13のいずれかに記載の方法。
- 前記音声信号の少なくとも一部を増幅することは、前記比較に応じて決定されたゲインを含む複数のゲインから合成されたゲインで増幅することからなる、請求項1から請求項14のいずれかに記載の方法。
- 前記背景ノイズが存在する状態で前記増幅された信号の音を鳴らすことを含む、請求項1から請求項15のいずれかに記載の方法。
- 前記音声信号の周波数成分と前記ノイズの周波数成分とは、実質的に同じ周波数帯にわたっている、請求項1から請求項16のいずれかに記載の方法。
- 前記周波数成分は周波数帯からなる、請求項1から請求項17のいずれかに記載の方法。
- 音声信号にとって無関係な背景ノイズを克服するために音声信号を処理する方法であって、
前記音声信号を複数の周波数成分に分割し、
前記周波数成分のそれぞれについてのノイズに依存しないゲインによって、それぞれの前記周波数成分を強調し、
それぞれの周波数成分を、前記周波数成分のノイズ依存のゲインで乗算すること、
を含む方法。 - 前記複数の周波数成分を強調された音声信号に再結合することを含む、請求項19に記載の方法。
- 前記音声信号を複数の周波数成分に分割することは、10から24の周波数成分に分割することからなる、請求項19または請求項20に記載の方法。
- 前記音声信号を複数の周波数成分に分割することは、100より多い周波数成分に分割することからなる、請求項19または請求項20に記載の方法。
- 前記音声信号を複数の周波数成分に分割することは、実質的に重なり合っていない複数の周波数成分に分割することからなる、請求項19から請求項22のいずれかに記載の方法。
- それぞれのノイズに依存しないゲインによってそれぞれの前記周波数成分を強調することは、信号に依存しない所定のゲインによって強調することからなる、請求項19から請求項23のいずれかに記載の方法。
- それぞれの周波数成分を前記周波数成分のノイズ依存のゲインで乗算することは、実質的に全ての周波数成分を、同一のノイズ依存のゲインで乗算することからなる、請求項19から請求項24のいずれかに記載の方法。
- 前記強調および増幅は、一つの機能要素で実行される、請求項19から請求項25のいずれかに記載の方法。
- 前記強調および増幅は、別々の機能要素で実行される、請求項19から請求項25のいずれかに記載の方法。
- 前記ノイズに依存しないゲインは、前記音声信号がボイススピーチ(voiced speech)を含む場合、ボイススピーチ強調係数からなる、請求項19から請求項27のいずれかに記載の方法。
- 前記音声信号を複数の周波数成分に分割することは、前記音声信号にフーリエ変換を適用することからなる、請求項19から請求項28のいずれかに記載の方法。
- 前記音声信号を複数の周波数成分に分割することは、前記音声信号を、バンドパスフィルタのアレイを通過させることからなる、請求項19から請求項28のいずれかに記載の方法。
- 音声信号にとって無関係な背景ノイズを克服するために音声信号を処理する方法であって、
音声信号を受信し、
前記音声信号を前記背景ノイズの評価基準に応じて強調し、
前記強調された音声信号と前記受信した音声信号との重み付けされた合計である出力を提供すること、
を含む方法。 - 前記音声信号を強調することは、前記音声信号の複数の周波数成分をそれぞれのゲインで乗算することからなる、請求項31に記載の方法。
- 重み付けされた合計を提供することは、動的に調整される重みにより生成される重み付けされた合計を提供することからなる、請求項31または請求項32に記載の方法。
- 前記動的に調整される重みは、前記音声信号が強調される程度に応じて決定される、請求項33に記載の方法。
- 前記音声信号を強調することは、複数の異なるゲイン係数を計算し、前記音声信号を前記複数のゲイン係数で乗算することからなり、前記動的に調整される重みは、前記ゲイン係数の一つに応じて決定される、請求項33または請求項34に記載の方法。
- 前記異なるゲイン係数の少なくとも一つは、過去に依存するゲイン係数からなる、請求項35に記載の方法。
- 重み付けされた合計を提供することは、所定の重みにより生成された、重み付けされた合計を提供することからなる、請求項31から請求項36のいずれかに記載の方法。
- 前記重み付けされた合計を提供することは、前記提供された重み付けされた合計の聞き手が話しているという決定に応じて、前記受信された音声信号が支配的となる重み付けされた合計を提供することからなる、請求項31から請求項37のいずれかに記載の方法。
- 前記重み付けられた合計を提供することは、前記音声信号がスピーチ信号を含まないという決定に応じて、前記受信された音声信号が支配的となる重み付けされた合計を提供することからなる、請求項31から請求項37のいずれかに記載の方法。
- 音声信号を受信するように構成された入力インタフェースと、
強調された音声信号を鳴らすように構成されたスピーカと、
前記強調された信号を聞く聞き手を妨害するであろう背景ノイズを集めるように構成されたマイクロフォンと、
前記強調された音声信号を提供するために、前記音声信号の周波数成分における前記音声信号の評価基準と、同一の周波数成分における背景ノイズの評価基準とを比較し、前記比較に基づいてゲインを決定し、および、前記周波数成分内にはない少なくとも一つの部分を含む、前記音声信号の少なくとも一部を増幅するように構成されたコントローラと、
を備えることを特徴とするノイズ補正システム。 - 前記スピーカおよび前記マイクロフォンは、電話ハンドセットの部分である、請求項40に記載のシステム。
- 前記背景ノイズから前記強調された音声信号の少なくとも一つのエコーを取り除くエコーキャンセラを備える、請求項40または請求項41に記載のシステム。
- 前記エコーキャンセラは、前記背景ノイズから前記強調された音声信号の一つのエコーのみを取り除く、請求項42に記載のシステム。
- 音声信号にとって無関係な背景ノイズを克服するために音声信号を強調するためのゲインを決定する方法であって、
前記音声信号の評価基準についてある時間にわたり複数の程度の高い値を決定し、
前記程度の高い値を平均し、
前記平均と前記ノイズの評価基準を比較し、
前記比較に応じて前記音声信号を強調するためのゲインを決定すること、
を含む方法。 - 前記複数の程度の高い値を決定することは、前記音声信号の異なる時間部分について程度の高い値を決定することからなる、請求項44に記載の方法。
- 前記複数の程度の高い値を決定することは、前記音声信号の異なる長さの時間部分について程度の高い値を決定することからなる、請求項45に記載の方法。
- 前記複数の程度の高い値を決定することは、最大値を決定することからなる、請求項44から請求項46のいずれかに記載の方法。
- 前記複数の程度の高い値を決定することは、より最近の値に高い重みが付けられる、前記音声信号の重み付けがなされたものについての最大値を決定することからなる、請求項44から請求項46のいずれかに記載の方法。
- 前記程度の高い値を平均することは、幾何平均を計算することからなる、請求項44から請求項48のいずれかに記載の方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US22451300P | 2000-08-14 | 2000-08-14 | |
US23672100P | 2000-10-02 | 2000-10-02 | |
PCT/IL2001/000759 WO2002015395A1 (en) | 2000-07-27 | 2001-08-14 | Voice enhancement system |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004507141A true JP2004507141A (ja) | 2004-03-04 |
Family
ID=26918789
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002520408A Pending JP2004507141A (ja) | 2000-08-14 | 2001-08-14 | 音声強調システム |
Country Status (10)
Country | Link |
---|---|
US (1) | US20040057586A1 (ja) |
EP (2) | EP1312162B1 (ja) |
JP (1) | JP2004507141A (ja) |
KR (1) | KR100860805B1 (ja) |
CN (1) | CN100397781C (ja) |
AT (1) | ATE287141T1 (ja) |
AU (1) | AU2001282454A1 (ja) |
DE (1) | DE60108401T2 (ja) |
IL (1) | IL154397A0 (ja) |
WO (1) | WO2002015395A1 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2034710A2 (en) | 2007-06-11 | 2009-03-11 | Fujitsu Ltd. | Multipoint communication apparatus with sound level adjustment unit |
JP5236006B2 (ja) * | 2008-10-17 | 2013-07-17 | シャープ株式会社 | 音声信号調整装置及び音声信号調整方法 |
JP2022022393A (ja) * | 2014-11-12 | 2022-02-03 | シラス ロジック、インコーポレイテッド | 適応チャネル間弁別的リスケーリングフィルタ |
US11393460B2 (en) * | 2020-11-09 | 2022-07-19 | Gulfstream Aerospace Corporation | Aircraft speech amplitude compensation |
Families Citing this family (71)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6353671B1 (en) * | 1998-02-05 | 2002-03-05 | Bioinstco Corp. | Signal processing circuit and method for increasing speech intelligibility |
DE10232645A1 (de) * | 2002-07-18 | 2004-02-05 | Harman/Becker Automotive Systems Gmbh (Straubing Division) | Schaltungsanordnung zur Verringerung des Dynamikbereichs von Audiosignalen |
US7613310B2 (en) * | 2003-08-27 | 2009-11-03 | Sony Computer Entertainment Inc. | Audio input system |
EP1619793B1 (en) * | 2004-07-20 | 2015-06-17 | Harman Becker Automotive Systems GmbH | Audio enhancement system and method |
JP4381291B2 (ja) * | 2004-12-08 | 2009-12-09 | アルパイン株式会社 | 車載用オーディオ装置 |
US20060135085A1 (en) * | 2004-12-22 | 2006-06-22 | Broadcom Corporation | Wireless telephone with uni-directional and omni-directional microphones |
US7983720B2 (en) * | 2004-12-22 | 2011-07-19 | Broadcom Corporation | Wireless telephone with adaptive microphone array |
US20060147063A1 (en) * | 2004-12-22 | 2006-07-06 | Broadcom Corporation | Echo cancellation in telephones with multiple microphones |
US20060133621A1 (en) * | 2004-12-22 | 2006-06-22 | Broadcom Corporation | Wireless telephone having multiple microphones |
US8509703B2 (en) * | 2004-12-22 | 2013-08-13 | Broadcom Corporation | Wireless telephone with multiple microphones and multiple description transmission |
US8170221B2 (en) | 2005-03-21 | 2012-05-01 | Harman Becker Automotive Systems Gmbh | Audio enhancement system and method |
US7835773B2 (en) * | 2005-03-23 | 2010-11-16 | Kyocera Corporation | Systems and methods for adjustable audio operation in a mobile communication device |
DE602005015426D1 (de) | 2005-05-04 | 2009-08-27 | Harman Becker Automotive Sys | System und Verfahren zur Intensivierung von Audiosignalen |
US20070112563A1 (en) * | 2005-11-17 | 2007-05-17 | Microsoft Corporation | Determination of audio device quality |
GB2433849B (en) * | 2005-12-29 | 2008-05-21 | Motorola Inc | Telecommunications terminal and method of operation of the terminal |
JP4738213B2 (ja) * | 2006-03-09 | 2011-08-03 | 富士通株式会社 | 利得調整方法及び利得調整装置 |
JP4306708B2 (ja) * | 2006-09-25 | 2009-08-05 | ヤマハ株式会社 | オーディオ信号処理装置 |
CN101627428A (zh) * | 2007-03-06 | 2010-01-13 | 日本电气株式会社 | 抑制杂音的方法、装置以及程序 |
JP5034595B2 (ja) * | 2007-03-27 | 2012-09-26 | ソニー株式会社 | 音響再生装置および音響再生方法 |
KR100911610B1 (ko) * | 2007-07-20 | 2009-08-07 | 에스케이 텔레콤주식회사 | 수신 음성 인지율 향상을 위한 음성 처리 장치 및 방법 |
US8428661B2 (en) * | 2007-10-30 | 2013-04-23 | Broadcom Corporation | Speech intelligibility in telephones with multiple microphones |
JP4926005B2 (ja) * | 2007-11-13 | 2012-05-09 | ソニー・エリクソン・モバイルコミュニケーションズ株式会社 | 音声信号処理装置及び音声信号処理方法、通信端末 |
US8315398B2 (en) | 2007-12-21 | 2012-11-20 | Dts Llc | System for adjusting perceived loudness of audio signals |
KR101599875B1 (ko) * | 2008-04-17 | 2016-03-14 | 삼성전자주식회사 | 멀티미디어의 컨텐트 특성에 기반한 멀티미디어 부호화 방법 및 장치, 멀티미디어의 컨텐트 특성에 기반한 멀티미디어 복호화 방법 및 장치 |
KR20090110242A (ko) * | 2008-04-17 | 2009-10-21 | 삼성전자주식회사 | 오디오 신호를 처리하는 방법 및 장치 |
KR20090110244A (ko) * | 2008-04-17 | 2009-10-21 | 삼성전자주식회사 | 오디오 시맨틱 정보를 이용한 오디오 신호의 부호화/복호화 방법 및 그 장치 |
US9336785B2 (en) * | 2008-05-12 | 2016-05-10 | Broadcom Corporation | Compression for speech intelligibility enhancement |
US9197181B2 (en) * | 2008-05-12 | 2015-11-24 | Broadcom Corporation | Loudness enhancement system and method |
CN101789797A (zh) * | 2009-01-22 | 2010-07-28 | 浙江安迪信信息技术有限公司 | 无线通信抗干扰*** |
US8626516B2 (en) * | 2009-02-09 | 2014-01-07 | Broadcom Corporation | Method and system for dynamic range control in an audio processing system |
JP5197458B2 (ja) * | 2009-03-25 | 2013-05-15 | 株式会社東芝 | 受音信号処理装置、方法およびプログラム |
CN101859568B (zh) * | 2009-04-10 | 2012-05-30 | 比亚迪股份有限公司 | 一种语音背景噪声的消除方法和装置 |
US9093968B2 (en) * | 2009-05-29 | 2015-07-28 | Sharp Kabushiki Kaisha | Sound reproducing apparatus, sound reproducing method, and recording medium |
US8538042B2 (en) | 2009-08-11 | 2013-09-17 | Dts Llc | System for increasing perceived loudness of speakers |
US8204742B2 (en) * | 2009-09-14 | 2012-06-19 | Srs Labs, Inc. | System for processing an audio signal to enhance speech intelligibility |
EP2478444B1 (en) * | 2009-09-14 | 2018-12-12 | DTS, Inc. | System for adaptive voice intelligibility processing |
EP2486567A1 (en) | 2009-10-09 | 2012-08-15 | Dolby Laboratories Licensing Corporation | Automatic generation of metadata for audio dominance effects |
CN102577114B (zh) * | 2009-10-20 | 2014-12-10 | 日本电气株式会社 | 多带域压缩器 |
WO2011077509A1 (ja) * | 2009-12-21 | 2011-06-30 | 富士通株式会社 | 音声制御装置、及び音声制御方法 |
US20120020483A1 (en) * | 2010-07-23 | 2012-01-26 | Deshpande Sachin G | System and method for robust audio spatialization using frequency separation |
US8798278B2 (en) | 2010-09-28 | 2014-08-05 | Bose Corporation | Dynamic gain adjustment based on signal to ambient noise level |
KR101115559B1 (ko) * | 2010-11-17 | 2012-03-06 | 연세대학교 산학협력단 | 통화 품질 향상 방법 및 장치 |
WO2012094827A1 (en) * | 2011-01-14 | 2012-07-19 | Huawei Technologies Co., Ltd. | A method and an apparatus for voice quality enhancement |
US8761674B2 (en) * | 2011-02-25 | 2014-06-24 | Timothy R. Beevers | Electronic communication system that mimics natural range and orientation dependence |
PL2737479T3 (pl) | 2011-07-29 | 2017-07-31 | Dts Llc | Adaptacyjna poprawa zrozumiałości głosu |
TWI451405B (zh) * | 2011-10-20 | 2014-09-01 | Kuo Ping Yang | 增進語音即時輸出之方法及助聽器 |
US9167361B2 (en) * | 2011-11-22 | 2015-10-20 | Cochlear Limited | Smoothing power consumption of an active medical device |
US20130148811A1 (en) * | 2011-12-08 | 2013-06-13 | Sony Ericsson Mobile Communications Ab | Electronic Devices, Methods, and Computer Program Products for Determining Position Deviations in an Electronic Device and Generating a Binaural Audio Signal Based on the Position Deviations |
US20130336497A1 (en) * | 2012-04-04 | 2013-12-19 | Clinkle Corporation | Dynamic sonic signal intensity adjustment |
US9312829B2 (en) | 2012-04-12 | 2016-04-12 | Dts Llc | System for adjusting loudness of audio signals in real time |
KR101424327B1 (ko) * | 2012-05-15 | 2014-07-31 | 고려대학교 산학협력단 | 잡음 제거 장치 및 방법 |
CN102779527B (zh) * | 2012-08-07 | 2014-05-28 | 无锡成电科大科技发展有限公司 | 基于窗函数共振峰增强的语音增强方法 |
US9208766B2 (en) | 2012-09-02 | 2015-12-08 | QoSound, Inc. | Computer program product for adaptive audio signal shaping for improved playback in a noisy environment |
US9270801B2 (en) * | 2013-03-15 | 2016-02-23 | Intel Corporation | Low power audio trigger via intermittent sampling |
CA2923888C (en) * | 2013-09-12 | 2018-11-27 | Saudi Arabian Oil Company | Dynamic threshold methods, systems, computer readable media, and program code for filtering noise and restoring attenuated high-frequency components of acoustic signals |
CN104155644B (zh) * | 2014-08-20 | 2017-01-25 | 西安电子科技大学 | 一种基于声音传感器的测距方法及*** |
BR112017003218B1 (pt) * | 2014-12-12 | 2021-12-28 | Huawei Technologies Co., Ltd. | Aparelho de processamento de sinal para aprimorar um componente de voz dentro de um sinal de áudio multicanal |
US9479650B1 (en) * | 2015-05-04 | 2016-10-25 | Captioncall, Llc | Methods and devices for updating filter coefficients during echo cancellation |
US9847093B2 (en) | 2015-06-19 | 2017-12-19 | Samsung Electronics Co., Ltd. | Method and apparatus for processing speech signal |
CN105872884B (zh) * | 2016-05-24 | 2019-09-06 | Tcl通力电子(惠州)有限公司 | 耳机、耳机的下行降噪电路及方法 |
KR102478951B1 (ko) * | 2017-09-04 | 2022-12-20 | 삼성전자주식회사 | 비선형 특성을 갖는 오디오 필터를 이용하여 오디오 신호를 처리하는 방법 및 장치 |
CN107799122B (zh) * | 2017-09-08 | 2020-10-23 | 中国科学院深圳先进技术研究院 | 一种高生物拟真性语音处理滤波器与语音识别设备 |
CN111201569B (zh) | 2017-10-25 | 2023-10-20 | 三星电子株式会社 | 电子装置及其控制方法 |
WO2019127112A1 (zh) * | 2017-12-27 | 2019-07-04 | 深圳前海达闼云端智能科技有限公司 | 一种语音交互方法、装置和智能终端 |
JP7186375B2 (ja) * | 2018-03-29 | 2022-12-09 | パナソニックIpマネジメント株式会社 | 音声処理装置、音声処理方法および音声処理システム |
KR102132734B1 (ko) * | 2018-04-16 | 2020-07-13 | 주식회사 이엠텍 | 음성 지문을 이용한 음성 증폭 장치 |
US20210072378A1 (en) * | 2018-06-05 | 2021-03-11 | Google Llc | Systems and methods of ultrasonic sensing in smart devices |
EP3798685B1 (en) * | 2018-06-05 | 2021-11-10 | Google LLC | Systems and methods of ultrasonic sensing in smart devices |
US10859691B2 (en) * | 2018-08-22 | 2020-12-08 | Infineon Technologies Ag | Radar range accuracy improvement method |
CN110931028B (zh) * | 2018-09-19 | 2024-04-26 | 北京搜狗科技发展有限公司 | 一种语音处理方法、装置和电子设备 |
US20230412727A1 (en) * | 2022-06-20 | 2023-12-21 | Motorola Mobility Llc | Adjusting Transmit Audio at Near-end Device Based on Background Noise at Far-end Device |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05175772A (ja) * | 1991-11-28 | 1993-07-13 | Yamaha Corp | 音響再生装置 |
JPH06289897A (ja) * | 1993-03-31 | 1994-10-18 | Sony Corp | 音声信号処理装置 |
JPH06310962A (ja) * | 1992-08-05 | 1994-11-04 | Mitsubishi Electric Corp | 自動音量調整装置 |
JPH0766651A (ja) * | 1993-08-24 | 1995-03-10 | Alpine Electron Inc | オーディオ装置 |
JPH09116362A (ja) * | 1995-10-19 | 1997-05-02 | Matsushita Electric Ind Co Ltd | 自動音量制御装置 |
JPH1070600A (ja) * | 1996-08-26 | 1998-03-10 | Kokusai Electric Co Ltd | 電話機 |
JP2000069127A (ja) * | 1998-08-20 | 2000-03-03 | Matsushita Electric Ind Co Ltd | 音響センサー付携帯電話装置 |
JP2001136039A (ja) * | 1999-11-08 | 2001-05-18 | Alpine Electronics Inc | オーディオ音補正装置 |
Family Cites Families (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4061874A (en) * | 1976-06-03 | 1977-12-06 | Fricke J P | System for reproducing sound information |
US4381488A (en) | 1981-02-18 | 1983-04-26 | Fricke Jobst P | Dynamic volume expander varying as a function of ambient noise level |
US4476571A (en) * | 1981-06-15 | 1984-10-09 | Pioneer Electronic Corporation | Automatic sound volume control device |
US4468804A (en) * | 1982-02-26 | 1984-08-28 | Signatron, Inc. | Speech enhancement techniques |
US4628529A (en) * | 1985-07-01 | 1986-12-09 | Motorola, Inc. | Noise suppression system |
US4630302A (en) | 1985-08-02 | 1986-12-16 | Acousis Company | Hearing aid method and apparatus |
DE3730763A1 (de) * | 1987-09-12 | 1989-03-30 | Blaupunkt Werke Gmbh | Schaltung zur stoergeraeuschkompensation |
US4829565A (en) * | 1987-10-20 | 1989-05-09 | Goldberg Robert M | Telephone with background volume control |
US5212764A (en) * | 1989-04-19 | 1993-05-18 | Ricoh Company, Ltd. | Noise eliminating apparatus and speech recognition apparatus using the same |
US5050217A (en) * | 1990-02-16 | 1991-09-17 | Akg Acoustics, Inc. | Dynamic noise reduction and spectral restoration system |
FR2688371B1 (fr) * | 1992-03-03 | 1997-05-23 | France Telecom | Procede et systeme de spatialisation artificielle de signaux audio-numeriques. |
US5434922A (en) * | 1993-04-08 | 1995-07-18 | Miller; Thomas E. | Method and apparatus for dynamic sound optimization |
TW232116B (en) * | 1993-04-14 | 1994-10-11 | Sony Corp | Method or device and recording media for signal conversion |
JP3626492B2 (ja) * | 1993-07-07 | 2005-03-09 | ポリコム・インコーポレイテッド | 会話の品質向上のための背景雑音の低減 |
US5485515A (en) * | 1993-12-29 | 1996-01-16 | At&T Corp. | Background noise compensation in a telephone network |
US5526419A (en) * | 1993-12-29 | 1996-06-11 | At&T Corp. | Background noise compensation in a telephone set |
KR970011727B1 (en) * | 1994-11-09 | 1997-07-14 | Daewoo Electronics Co Ltd | Apparatus for encoding of the audio signal |
US5636272A (en) * | 1995-05-30 | 1997-06-03 | Ericsson Inc. | Apparatus amd method for increasing the intelligibility of a loudspeaker output and for echo cancellation in telephones |
US6141415A (en) * | 1996-10-11 | 2000-10-31 | Texas Instruments Incorporated | Method and apparatus for detecting speech at a near-end of a communications system, a speaker-phone system, or the like |
JP2874679B2 (ja) * | 1997-01-29 | 1999-03-24 | 日本電気株式会社 | 雑音消去方法及びその装置 |
FR2762746B1 (fr) * | 1997-04-25 | 1999-07-09 | France Telecom | Procede et systeme de radio telephone mobile numerique et terminal utilisable dans un tel systeme |
US6035048A (en) * | 1997-06-18 | 2000-03-07 | Lucent Technologies Inc. | Method and apparatus for reducing noise in speech and audio signals |
AU6748600A (en) * | 1999-07-28 | 2001-02-19 | Clear Audio Ltd. | Filter banked gain control of audio in a noisy environment |
US6766292B1 (en) * | 2000-03-28 | 2004-07-20 | Tellabs Operations, Inc. | Relative noise ratio weighting techniques for adaptive noise cancellation |
US7578131B2 (en) * | 2005-06-30 | 2009-08-25 | United Technologies Corporation | Augmentor spray bar mounting |
JP2007096002A (ja) * | 2005-09-29 | 2007-04-12 | Matsushita Electric Ind Co Ltd | 半導体装置の製造方法および半導体装置 |
JP4794262B2 (ja) * | 2005-09-30 | 2011-10-19 | 株式会社ジェイテクト | トルク検出装置及びこれを用いた電動パワーステアリング装置 |
-
2001
- 2001-08-14 EP EP01961076A patent/EP1312162B1/en not_active Expired - Lifetime
- 2001-08-14 DE DE60108401T patent/DE60108401T2/de not_active Expired - Fee Related
- 2001-08-14 JP JP2002520408A patent/JP2004507141A/ja active Pending
- 2001-08-14 KR KR1020037002127A patent/KR100860805B1/ko not_active IP Right Cessation
- 2001-08-14 AU AU2001282454A patent/AU2001282454A1/en not_active Abandoned
- 2001-08-14 EP EP05075088A patent/EP1526639A3/en not_active Withdrawn
- 2001-08-14 AT AT01961076T patent/ATE287141T1/de not_active IP Right Cessation
- 2001-08-14 WO PCT/IL2001/000759 patent/WO2002015395A1/en active IP Right Grant
- 2001-08-14 US US10/344,599 patent/US20040057586A1/en not_active Abandoned
- 2001-08-14 IL IL15439701A patent/IL154397A0/xx unknown
- 2001-08-14 CN CNB018170285A patent/CN100397781C/zh not_active Expired - Fee Related
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05175772A (ja) * | 1991-11-28 | 1993-07-13 | Yamaha Corp | 音響再生装置 |
JPH06310962A (ja) * | 1992-08-05 | 1994-11-04 | Mitsubishi Electric Corp | 自動音量調整装置 |
JPH06289897A (ja) * | 1993-03-31 | 1994-10-18 | Sony Corp | 音声信号処理装置 |
JPH0766651A (ja) * | 1993-08-24 | 1995-03-10 | Alpine Electron Inc | オーディオ装置 |
JPH09116362A (ja) * | 1995-10-19 | 1997-05-02 | Matsushita Electric Ind Co Ltd | 自動音量制御装置 |
JPH1070600A (ja) * | 1996-08-26 | 1998-03-10 | Kokusai Electric Co Ltd | 電話機 |
JP2000069127A (ja) * | 1998-08-20 | 2000-03-03 | Matsushita Electric Ind Co Ltd | 音響センサー付携帯電話装置 |
JP2001136039A (ja) * | 1999-11-08 | 2001-05-18 | Alpine Electronics Inc | オーディオ音補正装置 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2034710A2 (en) | 2007-06-11 | 2009-03-11 | Fujitsu Ltd. | Multipoint communication apparatus with sound level adjustment unit |
US8218777B2 (en) | 2007-06-11 | 2012-07-10 | Fujitsu Limited | Multipoint communication apparatus |
JP5236006B2 (ja) * | 2008-10-17 | 2013-07-17 | シャープ株式会社 | 音声信号調整装置及び音声信号調整方法 |
JP2022022393A (ja) * | 2014-11-12 | 2022-02-03 | シラス ロジック、インコーポレイテッド | 適応チャネル間弁別的リスケーリングフィルタ |
JP7179144B2 (ja) | 2014-11-12 | 2022-11-28 | シラス ロジック、インコーポレイテッド | 適応チャネル間弁別的リスケーリングフィルタ |
US11393460B2 (en) * | 2020-11-09 | 2022-07-19 | Gulfstream Aerospace Corporation | Aircraft speech amplitude compensation |
Also Published As
Publication number | Publication date |
---|---|
EP1526639A3 (en) | 2006-03-01 |
EP1312162A1 (en) | 2003-05-21 |
CN1620751A (zh) | 2005-05-25 |
EP1526639A2 (en) | 2005-04-27 |
US20040057586A1 (en) | 2004-03-25 |
DE60108401D1 (de) | 2005-02-17 |
AU2001282454A1 (en) | 2002-02-25 |
WO2002015395A1 (en) | 2002-02-21 |
CN100397781C (zh) | 2008-06-25 |
KR100860805B1 (ko) | 2008-09-30 |
ATE287141T1 (de) | 2005-01-15 |
KR20030040399A (ko) | 2003-05-22 |
EP1312162B1 (en) | 2005-01-12 |
DE60108401T2 (de) | 2006-04-06 |
IL154397A0 (en) | 2003-09-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2004507141A (ja) | 音声強調システム | |
EP1252796B1 (en) | System and method for dual microphone signal noise reduction using spectral subtraction | |
US9196258B2 (en) | Spectral shaping for speech intelligibility enhancement | |
CN106664473B (zh) | 信息处理装置、信息处理方法和程序 | |
US5757937A (en) | Acoustic noise suppressor | |
KR101250124B1 (ko) | 에코 억제 필터를 위한 제어 정보를 계산하는 장치 및 방법 및 지연 값을 계산하는 장치 및 방법 | |
US9014386B2 (en) | Audio enhancement system | |
JP4954334B2 (ja) | エコー抑制のためのフィルタ係数を演算する装置および方法 | |
US8180064B1 (en) | System and method for providing voice equalization | |
US20070232257A1 (en) | Noise suppressor | |
JP2002501337A (ja) | 通信システムのコンフォートノイズ提供方法及び装置 | |
JP2002508891A (ja) | 特に補聴器における雑音を低減する装置および方法 | |
JP2002541753A (ja) | 固定フィルタを用いた時間領域スペクトラル減算による信号雑音の低減 | |
US10319389B2 (en) | Automatic timbre control | |
US6999920B1 (en) | Exponential echo and noise reduction in silence intervals | |
KR20240007168A (ko) | 소음 환경에서 음성 최적화 | |
US20220165287A1 (en) | Context-aware voice intelligibility enhancement | |
JPH09311696A (ja) | 自動利得調整装置 | |
US10135413B2 (en) | Automatic timbre control | |
CN115881080B (zh) | 一种语音通信***中的声反馈处理方法及装置 | |
JP2003516673A (ja) | 端末通信システムのエコー処理装置 | |
JP5346350B2 (ja) | 反響消去装置とその方法とプログラム | |
Jeub et al. | On the application of psychoacoustically-motivated dereverberation for recordings taken in the German parliament |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080812 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20101005 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101209 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20110901 |