JP2008519553A - バーク帯域ワイナ・フィルタと線形減衰とを用いたノイズ低減及びコンフォート・ノイズ・ゲイン制御 - Google Patents

バーク帯域ワイナ・フィルタと線形減衰とを用いたノイズ低減及びコンフォート・ノイズ・ゲイン制御 Download PDF

Info

Publication number
JP2008519553A
JP2008519553A JP2007540324A JP2007540324A JP2008519553A JP 2008519553 A JP2008519553 A JP 2008519553A JP 2007540324 A JP2007540324 A JP 2007540324A JP 2007540324 A JP2007540324 A JP 2007540324A JP 2008519553 A JP2008519553 A JP 2008519553A
Authority
JP
Japan
Prior art keywords
noise
circuit
telephone
gain
comfort
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2007540324A
Other languages
English (en)
Inventor
エベネザー,サミュエル・ポンヴァーマ
Original Assignee
アコースティック・テクノロジーズ・インコーポレーテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アコースティック・テクノロジーズ・インコーポレーテッド filed Critical アコースティック・テクノロジーズ・インコーポレーテッド
Publication of JP2008519553A publication Critical patent/JP2008519553A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Noise Elimination (AREA)

Abstract

バーク帯域修正ワイナ・フィルタ(121)を用いたノイズ抑制と線形ノイズ低減(122)との組合せによって、電話機におけるノイズの除去を向上させる。長い無音区間を検出する検出器がノイズ抑制装置の出力に結合され、ノイズ抑制又はノイズ低減の選択を制御する。ゲイン平滑化フィルタは、ノイズ低減が用いられているときには大きな時定数を有し、あるレベルから別のレベルへの漸進的な変化を提供する。コンフォート・ノイズが、検出された長い無音区間の間だけにコンフォート・ノイズを発生させるデータを更新することによって滑らかに挿入される。

Description

本発明は、音声信号処理に関し、特に、電話機においてノイズ抑制とコンフォート・ノイズの発生とを向上させる回路に関する。
この出願では、「電話機」とは、ライセンスを受けたサービス・プロバイダからのダイアル・トーンを直接又は間接に用いる通信装置を意味する一般的な用語である。従って、「電話機」とは、机上電話機(図1)、コードレス電話機(図2)、スピーカフォン(図3)、ハンズフリー・キット(図4)、セルラ(携帯)電話機(図5)などを含む。簡潔のために、本発明は、電話機を例として説明するが、例えば、ダイアル・トーンを用いない無線周波数トランシーバやインターコムなど、より広い用途も有する。
電話機システムには、多くのノイズ源が存在する。ノイズのあるものはその起源において音響的であるが、他方で、例えば電話ネットワークなど電子的なノイズ源も存在する。この出願で用いられる「ノイズ」という用語は、すべての望まない音を意味する。その望まない音が周期的であるか、純粋にランダムであるか、その中間であるかを問わない。従って、ノイズには、バックグラウンドミュージック、希望する話者以外の人の声、風の音などが含まれる。自動車は、特にノイズを含む環境である。
このように広く定義されると、ノイズは、話者の声のエコーも含む。しかし、エコー除去は、電話機システムにおいて別個に扱われ、信号経路の転送特性のモデル化に関係する。更に、このモデルは、例えば、周波数応答、遅延、位相シフトなど、経路変化の特性など、時間経過と共に変化する又は適応される。
普遍的ではないとしても、従来技術では、一般的に、ノイズの「抑制」を減算と関連付け、ノイズの「低減」を減衰又はゲインの縮小と関連付けている。ここでは、ノイズ抑制には、1つの信号を他の信号から減算してノイズの量を減少させることが含まれる。
現在の適応型エコー除去アルゴリズムだけでは、エコーを完全に除去するのに十分でない。エコー除去装置によって生じるモデル化誤差の結果、エコー除去プロセスの後で残存エコーが生じる。この残存エコーは、聴いている者にとって不快である。残存エコーは、背景ノイズの有無を問わず、問題である。背景ノイズ・レベルが残存エコーよりも大きい場合であっても、残存エコーは不快である。その理由は、残存エコーは、近接し去っていく際に、聴いている者にとってより知覚可能であるからである。ほとんどの場合、残存エコーのスペクトル特性は背景ノイズとは異なるので、それをより知覚可能とする。
残存エコー抑制装置や非線形プロセッサなどの様々な技術は、残存エコーを除去するために用いられる。残存エコー抑制装置がノイズのない環境において十全に機能する場合であっても、この技術をノイズのある環境で機能させるためには、いくらかの追加的な信号処理が必要である。ノイズのある環境では、残存エコー抑制装置の非線形処理は、ノイズ・ポンピング(noise pumping)として知られている状態を生じさせる。残存エコーが抑制されると、加法的な背景ノイズもまた抑制され、結果的にノイズ・ポンピングが生じる。ノイズ・ポンピングの不快な効果を減少するため、エコー抑制装置が付勢されると、背景ノイズと一致されたコンフォート・ノイズが挿入される。
ノイズを低減しコンフォート・ノイズを付加する改良型のシステムが存在しているが、例えば300ミリ秒よりを超える長い無音区間の間には問題が残る。バーク帯域ベースの修正ワイナ・フィルタを用いたノイズ抑制システムは、長い無音区間の間では、音声アーティファクト(tonal artifacts)を生じさせることなしに適切にノイズを低減させないことがありうる。更に、残存エコー抑制装置とノイズ抑制装置とが相補的な態様で付勢されると、コンフォート・ノイズ発生プロセスの間は注意が必要である。その理由は、ノイズ抑制プロセスの前にコンフォート・ノイズが評価され、ノイズ・レベルはノイズ抑制の後では異なるからである。従って、変化とスペクトルとレベルとをトラッキングするためには、ノイズ抑制アルゴリズムによって生じるロバストな方法が必要である。
実際の背景ノイズを用いるコンフォート・ノイズ発生器は、スペクトル・コンテンツを調整するのに時間を要する。その間、ノイズは、長い無音区間の間の実際の背景ノイズとは気が付くほどに異なりうる。ノイズ低減がイネーブルされるときには、統合コンフォート・ノイズは、実際の背景ノイズとは一致しない。ノイズ抑制アルゴリズムにおけるゲイン・パラメータが変更されるときには、コンフォート・ノイズのゲインを調整することは困難である。
この技術分野の当業者であれば理解するように、アナログ信号がいったんデジタル形式に変換されると、それ以降のすべての動作は、1又は複数の適切にプログラムされたマイクロプロセッサにおいて生じうる。例えば、「信号」という用語はアナログ信号又はデタル信号のいずれかを意味することは限らない。メモリの中のデータは、1ビットであっても、信号でありうる。同様に、「メモリ」は、形式ではなく機能に関する。データがマイクロプロセッサの中のレジスタ、ランダム・アクセス・メモリ、リード・オンリ・メモリ、それ以外の種類の記憶媒体のいずれに記憶されるかは問題ではない。
従って、以上を鑑みると、本発明の目的は、長い無音区間の間のノイズ抑制を向上させることである。
本発明の別の目的は、コンフォート・ノイズと背景ノイズとのスペクトル一致を向上させることである。
本発明の更に別の目的は、実質的にノイズ・ポンピングを実質的に除去するコンフォート・ノイズ発生器を提供することである。
本発明の別の目的は、ノイズ低減調整パラメータに左右されるコンフォート・ノイズのレベルの動的な調整を提供し、よって、リモート・コンピュータでのチューニングを除去することである。
発明の概要
上述した目的は、本発明において達成されるのであるが、本発明では、音声処理回路が、バーク帯域(Bark band)ベースの修正ワイナ・フィルタ(modified Weiner filter)と、線形ノイズ低減回路とを含む。長い無音区間を検出する検出器が、長い無音区間が検出されると、バーク帯域ワイナ・フィルタリングから線形ノイズ低減に切り換える。線形ノイズ低減は、バーク帯域ワイナ・フィルタリングよりも大幅なノイズ低減を可能にし、音楽的人工物(musical artifacts)を生じない。ゲイン平滑化フィルタは、線形ノイズ低減が用いられるときには長い時定数を有し、ゲインのあるレベルから別のレベルへの漸進的な変化を提供する。長い無音区間が存在するときには、検出器がコンフォート・ノイズを発生するために背景ノイズの評価を制御し、よって、コンフォート・ノイズの発生を改善する。コンフォート・ノイズは、線形ノイズ低減回路とバーク帯域ワイナ・フィルタとのいずれかからのスペクトル・ゲイン計算回路からのデータに基づいてコンフォート・ノイズのゲインを調節することによって、更に改善される。
本発明のより改善な理解は、以下の詳細な説明を添付の図面を参照して考察することによって、得ることができる。
図面における信号はアナログ又はデジタルでありうるから、ブロック図は、ハードウェア、例えば流れ図のようなソフトウェア、又は、ハードウェアとソフトウェアとの組合せであると解釈することができる。マイクロプロセッサのプログラミングは、この技術分野における個人又はグループの通常の能力の範囲内にある。
本発明は、内部の電子装置が本質的には同じであるが装置の外見は異なる多くの応用例において、用いることができる。図1には、ベース10とキーパッド11とディスプレイ13とハンドセット14とを含む机上電話機が図解されている。図1に図解されているように、この電話機は、スピーカ15とマイクロフォン16とを含むスピーカ・フォン機能を有している。図2に図解されているコードレス電話機は、ベース20とハンドセット21とがコードではなくアンテナ23及び24を介して無線周波数信号によって結合されること以外は、類似している。ハンドセット21への電力は、ハンドセットがクレードル29に置かれたときにベース20の端子26及び27を介して充電されるバッテリ(図示せず)から供給される。
図3には、業務用のオフィスなどで見られる会議電話機又はスピーカ・フォンが図解されている。電話機30は、マイクロフォン31とスピーカ32とが、ある形状のケースの中に収められている。電話機30は、米国特許第5,138,651号(Sudo)に開示されているように、マイクロフォン34及び35のような複数のマイクロフォンを含むことがあり、音声の受信を向上させたり、エコー除去又はノイズ除去のための複数の入力部を提供したりする。
図4には、図5に図解されているセルラ電話への音声結合を提供するハンズフリー・キットとして知られているものが図解されている。ハンズフリー・キットは、様々な実現態様で存在するが、一般的には、プラグ37に結合され給電されたスピーカ36を含み、このプラグ37は、車両におけるアクセサリ・アウトレット又はシガレット・ソケット・ソケットに適合する。ハンズフリー・キットは、また、プラグ39で終端するケーブル38を含む。プラグ39は、セルラ電話42のソケット41(図5)など、セルラ電話のヘッドセット・ソケットに適合する。電話機への結合には、コードレス電話のように、無線信号を用いるキットもある。ハンズフリー・キットは、また、典型的には、音声コントロールと、例えば「オフフック」で呼(コール)に答えるためのコントロール・スイッチとを含む。ハンズフリー・キットは、また、典型的には、キットにプラグインするバイザ・マイクロフォン(visor microphone)(図示せず)を含む。本発明に従って構成される音声処理回路は、ハンズフリー・キット又はセルラ電話の中に設置することが可能である。
様々な携帯の電話機が本発明による利益を享受することができる。図6は、セルラ電話の主な構成要素のブロック図である。典型的には、これらのブロックは、指示された機能を実現する集積回路に対応する。マイクロフォン51とスピーカ52とキーパッド53とが、信号処理回路54に結合されている。回路54は、複数の機能を実行し、この技術分野における製造業者によって異なるいくつかの名称で知られている。例えば、インフィニオン社は回路54を「シングル・チップ・ベースバンドIC」と呼ぶ。クアルコム社は回路54を「モバイル・ステーション・モデム」と呼ぶ。異なる製造業者によって製造された回路は、明らかに細部において相異するが、一般的には、指示された機能が含まれる。
セルラ(携帯)電話は、音声周波数回路と無線周波数回路との両方を含む。デュープレクサ55は、アンテナ56を受信プロセッサ57に結合する。デュープレクサ55は、アンテナ56をパワーアンプ58に結合し、送信の間は受信プロセッサ57をパワーアンプから分離する。送信プロセッサ59は、無線周波数信号を回路54からの音声信号を用いて変調する。スピーカフォンのようなセルラ電話以外の応用例では、無線周波数回路は存在せず、信号プロセッサ54は、いくらかの単純化が可能である。エコー除去及びノイズの問題は残るが、音声プロセッサ60によって処理される。本発明を含むように修正されるのは音声プロセッサ60である。
現在のノイズ低減アルゴリズムは、ほとんどが、スペクトル・サブトラクション(減算)として知られている技術に基づく。ノイズのない音声信号が加算的で相関のない(additive and uncorrelated)ノイズを含む信号によって汚染される場合には、ノイズを含む音声信号は、単純に、信号の和である。ノイズ源のパワー・スペクトル密度(PSD)が完全に既知の場合には、それを、ノイズを含む音声信号からワイナ・フィルタ(Weiner filter)を用いて減算してノイズのない音声にすることが可能である。例えば、J.S. Lim and A.V. Oppenheim, “Enhancement and bandwidth compression of noisy speech”, Proc. IEEE, vol. 67, pp. 1586-1604, Dec. 1979を参照のこと。通常は、ノイズ源は既知ではなく、従って、スペクトル・サブトラクション・アルゴリズムの重要な要素は、ノイズを含む信号のパワー・スペクトル密度(PSD)の評価である。
図7は、本発明に従って構築されたノイズ抑制(suppression)装置を含む音声プロセッサ60の一部のブロック図である。ノイズ抑制に加えて、音声プロセッサ60は、エコー除去と追加的なフィルタリングとそれ以外の機能とを含むが、これらは本発明に含まれない。第2のノイズ抑制回路とコンフォート・ノイズ発生器とを、破線79によって表されているライン入力66とスピーカ出力68との間の受信チャネルにおいて結合することが可能である。
ノイズ低減(reduction)プロセスは、入力信号の複数のサンプルをまとめてグループとして処理することによって実行される。データのグループは、「ブロック」と称されることが多い。図面の中のブロックとの混合を避けるため、32個のサンプルで構成されるグループは「フレーム」、4つのフレーム(128個のサンプル)で構成されるグループは「スーパーフレーム」と呼ぶことにする。4つのフレームは一緒に処理されるので、入力データは、処理のためにバッファされなければならない。サンプルを記憶して入力データのウィンドウ処理をするためには、128ワードのバッファ・サイズが用いられる。
バッファされたデータは、ブロック71で示されているようにウィンドウ処理され、周波数領域におけるグループ処理によって生じるアーティファクトを低減する。異なるウィンドウのオプションが利用可能である。ウィンドウの選択は、メイン・ローブの幅、サイド・ローブのレベル、オーバラップのサイズなど、様々なファクタに基づいてなされる。前処理において用いられるウィンドウのタイプは、メイン・ローブの幅とサイド・ローブのレベルとに影響する。例えば、ハニング(Hanning)ウィンドウは、矩形のウィンドウと比較して、より幅の広いメイン・ローブと、より低いサイド・ローブのレベルとを有する。この技術分野では、いくつかのタイプのウィンドウが知られていて、ゲインや平滑化係数などいくつかのパラメータを適切に調整して用いることができる。
周波数領域処理によって生じるアーティファクトは、小さなオーバラップが用いられる場合には、悪化する。オーバラップが大きいと、結果的に、計算的な要求が増大する。統合ウィンドウを用いると、再構成段において生じるアーティファクトが低減される。以上のファクタすべてを考慮し、それぞれの25パーセントがオーバラップしている平滑化された台形状の解析ウィンドウと平滑化された台形状の統合ウィンドウとが、本発明の好適実施例では用いられる。128個の点の離散フーリエ変換(DFT)では、25パーセントのオーバラップは、直前のスーパーフレームの最後の32のサンプルが、現在のスーパーフレームの最初の(最も古い)32のサンプルとして用いられることを意味する。従って、産業標準である8kHzのサンプル・レートでは、それぞれのフレームは4ミリ秒の信号を表し、それぞれのスーパーフレームは16ミリ秒の信号を表す。オーバラップのため、スーパーフレームは、12ミリ秒ごとに発生することができる。
ウィンドウ処理された時間領域データは、離散フーリエ変換72を用いて周波数領域に変換される。ノイズ抑制回路の周波数応答が計算され、図8のブロック図に図解されているいくつかの側面を有する。信号対雑音比検出器96とコンフォート・ノイズ発生器98とが周波数領域処理回路の中に存在し、背景ノイズ評価から発生されたスペクトル・データを共有する。これらの機能は、後で詳述する。
ブロック81では、ノイズを含む音声のパワー・スペクトル密度が、それぞれが適切に重み付けされた現在のスーパーフレームの移動平均(running average)と前のスーパーフレームの平均として近似される。サブバンド・ノイズ評価85は、人間の耳の知覚をモデル化したバーク帯域(「クリティカル帯域」とも称される)を用いる。ノイズを含む音声フレームのDFTは、17のバーク帯域に分割される。サブバンド・エネルギは、ブロック82において評価され、サブバンド・ノイズはブロック85で評価される。
この技術分野では、スペクトル・ゲインを一般化されたワイナ・フィルタリングに基づいて信号対雑音比の関数として計算することが知られている。L. Arslan, A. McCree, V. Viswanathan, “New methods for adaptive noise suppression,” Proceedings of the 26th IEEE International Conference on Acoustics, Speech, and Signal Processing, ICASSP-01, Salt Lake City, Utah, pp. 812-815, May 2001を参照のこと。このフィルタは、ノイズを含むフレームに対してより強い抑制を適用し、音声を含む音声フレームの間にはより弱い抑制を適用する。
信号対雑音比は、ブロック86において、それぞれのフレームの中でそれぞれの帯域において計算される。最終的に、スペクトル・ゲインの値が、修正されたワイナ・ソリューションにおいて、バーク帯域SNRを用いてブロック89で計算される。スペクトル減算ベースの方法の短所の1つは、音楽的トーン(musical tone)のアーティファクトが生じることである。ノイズ評価の不正確さのために、いくつかのスペクトル・ピークがスペクトル減算のあとで残存する。これらのスペクトル・ピークは、音楽的トーンとして明白になる。これらのアーティファクトを低減するために、ノイズ抑制ファクタを、計算された値よりも高い値に維持しなければならない。しかし、高い値は、結果的に、よりはっきりした音声の歪みが生じる。パラメータの調整は、音声振幅の低減と音楽的トーンのアーティファクトとの間のトレードオフである。これにより、音声の間のノイズ低減量を制御する新たな機能に至るのである。
音声強化を向上させるノイズを含むスペクトル成分における信号の存在の不確実性を用いるというアイデアは、この技術分野において既知である。R.J. McAulay and M.L. Malpass, “Speech enhancement using a soft-decision noise suppression filter,” IEEE Trans. Acoust., Speech, Signal Processing, vol ASSP-28, pp. 137-145, April 1980を参照のこと。音声がノイズを含む環境にある確率を計算した後で、計算された確率は、ノイズ抑制ファクタを調整するのに用いられる。
発声された音声を検出する1つの方法は、ノイズを含む音声エネルギ・スペクトルとノイズ・エネルギ・スペクトルとの間の比率を計算することである。この比率が非常に大きい場合には、発声された音声が存在すると想定することができる。音声存在の確率は、1次の指数的平均化(平滑化)フィルタ87によって計算される。ノイズ抑制ファクタは、音声存在確率をスペクトル・ゲイン計算機89におけるスレショルドと比較することによって決定される。特に、ノイズ抑制ファクタは、スレショルドを超える場合には、スレショルドを超えていない場合よりも低い値に設定される。ファクタは、それぞれの帯域について計算される。
スペクトル・ゲインは、例えば、−20dBなどの最小値を下回ることが阻止されるように制限される。このシステムは、より小さなゲインでも可能であるが、ゲインが最小値を下回ることは許容されていない。この値は重要ではない。ゲインを制限することによって、スペクトル・ゲインの有限で正確な固定点計算の結果として生じる音楽的トーン(musical tone)アーティファクトと音声歪みとを減少させる。
ゲインの下限は、スペクトル・ゲイン計算プロセスによって調整される。バーク帯域におけるエネルギが何らかのスレショルドEthよりも下である場合には、最小のゲインは−1dBに設定される。あるセグメントが発声された音声であると分類される場合には、すなわち、確率がpthを超える場合には、最小ゲインは、−1dBに設定される。いずれの条件も満たさない場合には、最小ゲインは、例えば−20dBの許容される最小ゲインに設定される。本発明のある実施例では、Ethの適切な値は、0.01である。pthの適切な値は0.01である。このプロセスはそれぞれの帯域について反復され、それぞれの帯域のゲインが調整される。
すべてのグループ変換ベースの処理では、ウィンドウ処理とオーバラップ加算とが、周波数領域の中のグループにおいて信号を処理することによって生じるアーティファクトを低減する既知の技術である。このようなアーティファクトの低減は、ウィンドウのメイン・ローブの幅、ウィンドウのサイド・ローブの勾配、グループ間のオーバラップの量など、複数のファクタに影響される。メイン・ローブの幅は、用いられるウィンドウのタイプに影響を受ける。例えば、ハニング(Hanning)(上向きに移動されたコサイン)ウィンドウは、矩形のウィンドウよりもよりメイン・ローブの幅が広くサイド・ローブのレベルが低い。
複数の周波数による急激なゲインの変化を回避するために、スペクトル・ゲインは、指数的な平均化平滑化フィルタ92を用いて周波数軸に沿って平滑化される。スペクトル・ゲインの急激な変化は、ブロック95において、それぞれのバーク帯域でのスペクトル・ゲインを平均化することによって更に低減される。ノイズを含み急激に変化する環境では、低周波のノイズ・フラタ(flutter)が強化された出力音声に導かれる。このフラタは、スペクトル減算ベースのほとんどのノイズ低減システムの副作用である。背景ノイズが急激に変化しノイズ評価がその急速な変化に適応することができる場合には、スペクトル・ゲインもまた急速に変動し、フラタを生じる。低周波フラタは、1次指数的平均化平滑化フィルタ94において時間経過と共にスペクトル・ゲインを平均化することによって、低減される。
ノイズを含まない音声スペクトルは、ノイズを含む音声スペクトルとスペクトル・ゲイン関数とをブロック75(図7)において乗算することによって得られる。このスペクトルは、逆変換76において時間領域に変換され、統合ウィンドウ77を用いてウィンドウ処理がなされてグループ化アーティファクトが低減される。最終的には、その後のブロック78において、ウィンドウ処理されたノイズを含まない音声が、先行するフレームとオーバラップされ加算される。
図9は、本発明の好適実施例によって構築されたコンフォート・ノイズ発生器のブロック図である。背景ノイズ評価装置84(図8)は、背景ノイズ・スペクトルと一致する高分解能のコンフォート・ノイズ・データを生じる。コンフォート・ノイズは、擬似ランダム位相スペクトルを変調することによって周波数領域で発生され、逆DFTを用いて時間領域に変換される。順方向のDFT72とPSD評価81とは(図8)、ノイズ抑制について上述したように動作する。
発生器101は、単位振幅(unity magnitude)を有するランダム位相周波数スペクトルを生じる。コンフォート・ノイズの位相スペクトルを発生する1つの方法は、範囲[−p,p]に一様に分散している擬似乱数発生器を用いるものである。位相スペクトルを用いると、単位振幅とランダム位相周波数スペクトルとを、位相スペクトルからの実数成分及び虚数成分を計算することによって得ることができる。しかし、この方法は、計算論的な負荷が大きい。
他の方法として、ランダム周波数スペクトル(振幅及び位相の両方がランダム)を、擬似乱数発生器を用いてこのスペクトルの実部及び虚部を発生することにより最初に発生し、次にこのスペクトルを単位振幅に正規化するというものがある。ランダム周波数スペクトルの実部及び虚部は一様に分布しているので、導かれる位相スペクトルは一様にはならない。一様に分布している乱数の適切な境界値を選択することにより、より一様な位相スペクトルを発生することができる。先の方法と比較すると、この方法は、ひとつ余分な乱数発生器と除算とを必要とするが、超越関数を計算することを回避できる。
単位振幅でランダム位相のスペクトルを発生するより単純でより効率的な方法は、8相のルックアップテーブルを用いる方法である。位相スペクトルは、一様に分布している乱数を用いてルックアップテーブルの中の8つの値の中の1つの値から選択される。特に、この数は、範囲[0,1]で一様に分布しており、8つの異なる数に量子化される。(0から0.125の範囲にある乱数は1に量子化される。0.126から0.250までの範囲にある乱数は2に量子化される、等である。)量子化された値は、また、一様に分布しており、45度、90度など、特定の位相シフトに対応する。位相の数は任意である。可聴のアーティファクトのないコンフォート・ノイズを発生するには、8相が十分であることがわかっている。この技術は第1の技術よりも容易に実現が可能であるが、その理由は、除算と三角関数の計算とを含まないからである。
コンフォート・ノイズ・ゲインは、背景ノイズ・レベルとノイズ低減レベルとの関数としてブロック102で計算される。VAD_OUTPUT制御信号が、このブロックのオン又はオフの動作を制御する。ノイズ低減がイネーブルされると、コンフォート・ノイズ・ゲインは、好ましくはルックアップテーブルから、ノイズ低減レベルに逆比例するように設定される。
コンフォート・ノイズのスペクトルが一致し高分解能の周波数スペクトルは、発生器101からの単位振幅周波数スペクトルと回路103における計算102からのコンフォート・ノイズ・ゲインとを乗算することによって発生される。スペクトルが一致した周波数スペクトルは、逆DFT104を用いて時間領域に変換される。
発生されたコンフォート・ノイズはランダムであるから、可聴アーティファクトがフレーム境界において導かれる。境界アーティファクトを低減するため、コンフォート・ノイズは、任意のウィンドウを用いてブロック105においてウィンドウ処理される。ウィンドウ処理されたコンフォート・ノイズはバッファされ、出力レートはノイズ低減アルゴリズムの出力レートと同期化される。
図7及び図8との関係で説明されたノイズ低減アルゴリズムは、長い無音(non-speech)区間の間、ノイズ低減量を減少させる。更に、処理された信号は、長い無音区間の間、音楽的なアーティファクトを含む。この問題を解決するため、音声バースト検出器を用いて、長い無音区間を検出する。検出されると、線形ノイズ低減がノイズを含む信号に適用されるが、上述したように、バーク帯域ワイナ・フィルタリングがアーティファクトを生じるため、バーク帯域ワイナ・フィルタリングから得られるよりも大きなノイズ低減がもたらされる。線形ノイズ低減に切り換えることにより、長い無音区間の間に修正ワイナ・フィルタによって生じる可能性があるトーンの(tonal)アーティファクトが除去される。
図10では、波形100は、音声(speech)部分107と無音(non-speech)部分108とを有する信号を表している。これらの部分の継続時間は、尺度通りではない。ここで用いる「長い」無音部分は、300ミリ秒のオーダー(約75フレーム又は約25スーパーフレーム)又はそれより長い継続時間を有する。本発明による改善は、長い無音区間の検出に左右される。
図11は、長い無音区間を検出する回路のブロック図である。この検出器は、単純なエネルギ・ベースの方法に基づいている。1つのスーパーフレームにおける信号対雑音比(SNR)111は、所定のスレショルドであるthと比較される。SNRがスレショルドよりも大きい場合には、このスーパーフレームは音声フレームとして指定され、そうでない場合には、このスーパーフレームは無音フレームとして指定される。例えば2などのある連続的なフレームにわたってSNRがスレショルドよりも大きい場合にだけ、スーパーフレームは音声フレームと宣言される。1周期当たりの音声フレーム数は、レジスタ114でカウントされ、コンパレータ115でスレショルドと比較される。
本発明のある実施例によると、長い区間の間のスレショルド継続時間は、31のスーパーフレームに設定される。正論理が用いられるのであって、すなわち、ゼロ(「0」)は「偽」すなわち無音を表し、「1」は真すなわち音声を表す。これらは、重要ではない設計的な選択である。代わりに、他の値や負論理を用いることもできる。
音声検出器のフラグVAD_OUTPUTは、過去のn個のフレームの中で少なくとも1つのフレームでスーパーフレームが音声フレームであると宣言される場合には1に設定される。VAD_OUTPUTがゼロである場合には、長い無音区間が存在することを意味する。
本発明によると、図12に図解されているように、バーク帯域ワイナ・フィルタ121と線形ノイズ低減回路122とが、VAD_OUTPUTによって制御される回路を切り換えることによって、交互に選択される。線形ノイズ低減は、VAD_OUTPUTがゼロのときに用いられる。回路ゲインが急激に変化し、他方では、ノイズ低減回路における修正ワイナ・フィルタから線形ノイズ低減に又はその逆に切り換わる場合には、波形ノイズにおける不快な変化が存在しうる。この効果を回避するために、ゲインは、低速崩壊フィルタを用いてノイズ低減回路におけるゲインを平滑化することにより、非常にゆっくりと変更される。このフィルタは、次のような重み付けされた移動平均形式(weighted, running average form)を有する。
G(k,m)=α*G(k,m−1)+(1−α)γ
ただし、この数式において、G(k,m)は、フレームmにおけるビンkに対するゲインであり、γは周波数とは独立の線形ゲインであり、αは平滑化定数である。低速の崩壊の場合には、本発明のある実施例では、0.992という値がαに対して用いられた。高速の崩壊の場合には、0.300という値が用いられた。なお、これらの値は、単なる例示である。
本発明の好適実施例では、図8からの平滑化されたノイズ評価が、SNRの計算に用いられる。単純なエネルギ・ベースの検出器の性能は背景ノイズの量によって制限され、SNRの計算において、いくらかの修正がなされ、低い入力SNR条件でのVAD性能の改善がなされる。著しい性能の改善は、SNRがノイズ除去ブロックの後で計算されるときに、得られる。すなわち、ブロック111(図11)がブロック75(図7)の出力に結合されている場合に、性能が改善される。この性能の改善が達成される理由は、バーク帯域ベースの修正ワイナ・フィルタがノイズを含む音声信号のSNRを改善するからである。周波数領域において帯域全体にわたるSNRを計算することは、パーセバル(Parseval)の定理により、時間領域においてSNRを計算することに等しい。SNRの計算は周波数領域でなされるのであるが、その理由は、ノイズ評価が周波数領域において利用可能であるからである。
コンフォート・ノイズ・ゲインは、バーク帯域ベースの過剰減算(over-subtraction)ファクタに基づいて調整される。(スペクトル・ビン数に関して)大域的なパラメータを用いて、コンフォート・ノイズのレベルの一致がなされる。この方法の短所は、線形ノイズ低減がイネーブルされているときには統合(synthetic)コンフォート・ノイズは実背景ノイズにスペクトル的に一致しないということである。更に、ノイズ低減アルゴリズムにおける最小ゲインが変化するときにはコンフォート・ノイズ・レベルを調整するのは面倒である。この問題を解決するため、コンフォート・ノイズ・ゲインは、図13に図解されているように、スペクトル(ノイズ低減)ゲインに基づいて調整される。この強化によって、調整の労力が低減され、コンフォート・ノイズのスペクトルの質が改善される。線形ノイズ低減が用いられていないときでも、スペクトル・ゲインはコンフォート・ノイズに影響することに注意すべきである。
コンフォート・ノイズの質は、音声の間の背景ノイズを過剰評価することによって劣化する。コンフォート・ノイズの質を向上させるには、本発明によると、長い区間検出器(図11)を用いて、音声の間の背景ノイズの評価を阻止する。コンフォート・ノイズ発生器98のための背景ノイズ評価(図8のブロック84)は、VAD_OUTPUTがゼロのときにだけ更新される。背景ノイズは、修正ドブリンガ(Doblinger’s)ノイズ評価アルゴリズムに基づいて更新される。上述した平滑化ノイズ評価は、SNRの計算において用いられる。
ノイズ抑制装置からのスペクトル・ゲインが用いられる場合には、発生されたコンフォート・ノイズのレベルは、低減された背景ノイズにより近くまで一致される。この結果として、ノイズ低減モードからコンフォート・ノイズ挿入モードへのより滑らかな変化が生じる。変化がより滑らかであることによって、快適な音声効果が生じる。しかし、コンフォート・ノイズ・ゲインを制御するこの技術の短所は、音声セグメントの直後にコンフォート・ノイズを挿入することが必要な場合には、コンフォート・ノイズ・ゲインが過渡になるということである。その理由は、ノイズ低減の量が、音声セグメントの間はより少ないからである。過渡なコンフォート・ノイズ・ゲインの結果として、ノイズ・ポンピングが生じる。ノイズ・ポンピングを避けるには、音声が存在しないときだけ、つまり、入力に背景ノイズだけがあるときにコンフォート・ノイズ・ゲインが更新される。この理由は、ノイズ低減は信号対雑音比に直接に比例するからである。従って、コンフォート・ノイズが更新されるときには、SNRが高いフレームでは、コンフォート・ノイズ・ゲインの過剰な評価のために、ノイズ・ポンピングが生じる。この効果を低減するため、VAD_OUTPUTと平滑化フィルタとが用いられ、コンフォート・ノイズ・ゲインが制御される。フィルタ94(図8)からのフィルタリングされた出力を用いることが可能であるし、又は、別個のフィルタを用いることもできる。
このように、本発明は、長い無音区間の間により大きなノイズ低減と、コンフォート・ノイズの背景ノイズへの選りすぐれたスペクトル一致とを提供する。更に、この効果により、ノイズ増加を実質的に除去し、ノイズ低減パラメータに完全に依存する態様で、コンフォート・ノイズのレベルを調整することを可能にする。
以上で本発明について説明してきたが、この技術分野の当業者には、本発明の範囲から逸脱することなく様々な修正が可能であることは明白であろう。例えば、長い無音区間は、信号のスペクトル全体又は減少されたスペクトルと用いて時間領域において検出することも可能である。
机上電話機の全体図である。 コードレス電話機の全体図である。 会議電話機(コンファレンスフォン)又はスピーカフォンの全体図である。 ハンズフリー・キットの全体図である。 セルラ(携帯)電話機の全体図である。 電話機における音声処理回路の一般的なブロック図である。 本発明に従って構築されたノイズ抑制装置のブロック図である。 周波数領域においてノイズを計算する回路のブロック図である。 信号における音声区間及び無音区間を図解する波形である。 音声部分と無音部分とを有する波形の図解である。 長い無音区間を検出する回路のブロック図である。 本発明のある特徴の図解である。 本発明の別の特徴の図解である。

Claims (8)

  1. 音声信号をそれぞれが複数のサンプルを含む複数のフレームに分割する解析回路と、ノイズ抑制回路と、ノイズ低減回路と、を含む音声処理回路を有する電話機であって、
    長い無音区間を検出する手段と、
    長い無音区間が検出されたらノイズ低減からノイズ抑制に切り換える手段と、
    を備えていることを特徴とする電話機。
  2. 請求項1記載の電話機において、
    前記ノイズ低減回路にゲイン平滑化フィルタを更に備えており、前記ゲイン平滑化フィルタは、ノイズ抑制からノイズ低減への切り換えのときに長い時定数を有し、ゲインのあるレベルから別のレベルへの漸進的変化を提供することを特徴とする電話機。
  3. 請求項2記載の電話機において、前記フィルタは短い無音区間の間は短い時定数を有することを特徴とする電話機。
  4. 請求項1記載の電話機において、前記検出手段は前記ノイズ抑制回路の出力に結合されており、よって、低い信号対雑音比における前記検出手段の性能を向上させることを特徴とする電話機。
  5. 背景ノイズを評価する回路を有するノイズ抑制回路と、前記ノイズ抑制回路に結合されており前記背景ノイズ評価回路からのデータに基づいてコンフォート・ノイズを発生するコンフォート・ノイズ発生器とを有する電話機であって、
    長い無音区間を検出する手段と、
    前記回路に結合されており、長い無音区間を検出する手段が長い無音区間を検出すると、評価を延期する手段と、
    を備えていることを特徴とする電話機。
  6. 請求項5記載の電話機において、
    スペクトル・ゲイン計算回路と、
    前記スペクトル・ゲイン計算回路からのデータに基づいて前記コンフォート・ノイズのゲインを調整する手段と、
    を更に備えていることを特徴とする電話機。
  7. 請求項6記載の電話機において、前記データは平均化されることを特徴とする電話機。
  8. 請求項5記載の電話機において、前記検出手段は前記ノイズ抑制回路の出力に結合されており、よって、低い信号対雑音比における前記検出手段の性能を向上させることを特徴とする電話機。
JP2007540324A 2004-11-03 2005-10-17 バーク帯域ワイナ・フィルタと線形減衰とを用いたノイズ低減及びコンフォート・ノイズ・ゲイン制御 Withdrawn JP2008519553A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/979,969 US7454010B1 (en) 2004-11-03 2004-11-03 Noise reduction and comfort noise gain control using bark band weiner filter and linear attenuation
PCT/US2005/037320 WO2006052395A2 (en) 2004-11-03 2005-10-17 Noise reduction and comfort noise gain control using bark band weiner filter and linear attenuation

Publications (1)

Publication Number Publication Date
JP2008519553A true JP2008519553A (ja) 2008-06-05

Family

ID=36336933

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007540324A Withdrawn JP2008519553A (ja) 2004-11-03 2005-10-17 バーク帯域ワイナ・フィルタと線形減衰とを用いたノイズ低減及びコンフォート・ノイズ・ゲイン制御

Country Status (6)

Country Link
US (1) US7454010B1 (ja)
EP (1) EP1815461A2 (ja)
JP (1) JP2008519553A (ja)
KR (1) KR20070085729A (ja)
CN (1) CN101080766A (ja)
WO (1) WO2006052395A2 (ja)

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8159548B2 (en) 2003-01-30 2012-04-17 Qualcomm Incorporated Modular architecture having reusable front end for processing digital video data
US7769189B1 (en) * 2005-04-12 2010-08-03 Apple Inc. Preserving noise during editing of a signal
US8767974B1 (en) * 2005-06-15 2014-07-01 Hewlett-Packard Development Company, L.P. System and method for generating comfort noise
US8566086B2 (en) * 2005-06-28 2013-10-22 Qnx Software Systems Limited System for adaptive enhancement of speech signals
US8295682B1 (en) 2005-07-13 2012-10-23 Apple Inc. Selecting previously-selected segments of a signal
US8364294B1 (en) 2005-08-01 2013-01-29 Apple Inc. Two-phase editing of signal data
US8538761B1 (en) 2005-08-01 2013-09-17 Apple Inc. Stretching/shrinking selected portions of a signal
US7610197B2 (en) * 2005-08-31 2009-10-27 Motorola, Inc. Method and apparatus for comfort noise generation in speech communication systems
KR20070078171A (ko) * 2006-01-26 2007-07-31 삼성전자주식회사 신호대 잡음비에 의한 억제 정도 조절을 이용한 잡음 제거장치 및 그 방법
US20080091415A1 (en) * 2006-10-12 2008-04-17 Schafer Ronald W System and method for canceling acoustic echoes in audio-conference communication systems
CN101335003B (zh) * 2007-09-28 2010-07-07 华为技术有限公司 噪声生成装置、及方法
US8219387B2 (en) * 2007-12-10 2012-07-10 Microsoft Corporation Identifying far-end sound
US8554550B2 (en) 2008-01-28 2013-10-08 Qualcomm Incorporated Systems, methods, and apparatus for context processing using multi resolution analysis
CN101483042B (zh) * 2008-03-20 2011-03-30 华为技术有限公司 一种噪声生成方法以及噪声生成装置
CN100550133C (zh) * 2008-03-20 2009-10-14 华为技术有限公司 一种语音信号处理方法及装置
WO2010070840A1 (ja) * 2008-12-17 2010-06-24 日本電気株式会社 音声検出装置、音声検出プログラムおよびパラメータ調整方法
GB0919672D0 (en) * 2009-11-10 2009-12-23 Skype Ltd Noise suppression
KR20120034863A (ko) * 2010-10-04 2012-04-13 삼성전자주식회사 이동통신 단말기에서 오디오 신호 처리 방법 및 장치
CN102201241A (zh) * 2011-04-11 2011-09-28 深圳市华新微声学技术有限公司 语音信号处理方法及装置
US8712076B2 (en) 2012-02-08 2014-04-29 Dolby Laboratories Licensing Corporation Post-processing including median filtering of noise suppression gains
US9173025B2 (en) 2012-02-08 2015-10-27 Dolby Laboratories Licensing Corporation Combined suppression of noise, echo, and out-of-location signals
CN103327201B (zh) * 2012-03-20 2016-04-20 联芯科技有限公司 残留回声消除方法及***
AU2013366642B2 (en) * 2012-12-21 2016-09-22 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Generation of a comfort noise with high spectro-temporal resolution in discontinuous transmission of audio signals
EP2936486B1 (en) 2012-12-21 2018-07-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Comfort noise addition for modeling background noise at low bit-rates
US8958509B1 (en) 2013-01-16 2015-02-17 Richard J. Wiegand System for sensor sensitivity enhancement and method therefore
FR3002679B1 (fr) * 2013-02-28 2016-07-22 Parrot Procede de debruitage d'un signal audio par un algorithme a gain spectral variable a durete modulable dynamiquement
US20140278380A1 (en) * 2013-03-14 2014-09-18 Dolby Laboratories Licensing Corporation Spectral and Spatial Modification of Noise Captured During Teleconferencing
CN104093178A (zh) * 2013-04-01 2014-10-08 联想(北京)有限公司 一种通信方法及移动终端
CN104217723B (zh) * 2013-05-30 2016-11-09 华为技术有限公司 信号编码方法及设备
CN110265059B (zh) * 2013-12-19 2023-03-31 瑞典爱立信有限公司 估计音频信号中的背景噪声
RU2713852C2 (ru) * 2014-07-29 2020-02-07 Телефонактиеболагет Лм Эрикссон (Пабл) Оценивание фонового шума в аудиосигналах
CN104581538B (zh) * 2015-01-28 2018-03-02 三星电子(中国)研发中心 消除噪音的方法和装置
US10186276B2 (en) * 2015-09-25 2019-01-22 Qualcomm Incorporated Adaptive noise suppression for super wideband music
US9838783B2 (en) 2015-10-22 2017-12-05 Cirrus Logic, Inc. Adaptive phase-distortionless magnitude response equalization (MRE) for beamforming applications
EP3312838A1 (en) * 2016-10-18 2018-04-25 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for processing an audio signal
JP7043344B2 (ja) * 2018-05-17 2022-03-29 株式会社トランストロン エコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラム
US10951859B2 (en) 2018-05-30 2021-03-16 Microsoft Technology Licensing, Llc Videoconferencing device and method
CN111147983A (zh) * 2018-11-06 2020-05-12 展讯通信(上海)有限公司 扬声器控制方法及装置、可读存储介质
EP3683794B1 (en) * 2019-01-15 2021-07-28 Nokia Technologies Oy Audio processing
CN113113039B (zh) * 2019-07-08 2022-03-18 广州欢聊网络科技有限公司 一种噪声抑制方法、装置和移动终端
CN111863001A (zh) * 2020-06-17 2020-10-30 广州华燎电气科技有限公司 一种多方通话***中抑制背景噪声的方法
CN112185410B (zh) * 2020-10-21 2024-04-30 北京猿力未来科技有限公司 音频处理方法及装置
JP2023106686A (ja) * 2022-01-21 2023-08-02 ヤマハ株式会社 音声処理装置および音声処理方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4630305A (en) * 1985-07-01 1986-12-16 Motorola, Inc. Automatic gain selector for a noise suppression system
US6212273B1 (en) * 1998-03-20 2001-04-03 Crystal Semiconductor Corporation Full-duplex speakerphone circuit including a control interface
JP2000022603A (ja) * 1998-07-02 2000-01-21 Oki Electric Ind Co Ltd コンフォートノイズ発生装置
US7058572B1 (en) * 2000-01-28 2006-06-06 Nortel Networks Limited Reducing acoustic noise in wireless and landline based telephony
US6377637B1 (en) * 2000-07-12 2002-04-23 Andrea Electronics Corporation Sub-band exponential smoothing noise canceling system

Also Published As

Publication number Publication date
WO2006052395A2 (en) 2006-05-18
CN101080766A (zh) 2007-11-28
US7454010B1 (en) 2008-11-18
KR20070085729A (ko) 2007-08-27
EP1815461A2 (en) 2007-08-08
WO2006052395A3 (en) 2006-12-14

Similar Documents

Publication Publication Date Title
US7454010B1 (en) Noise reduction and comfort noise gain control using bark band weiner filter and linear attenuation
US7649988B2 (en) Comfort noise generator using modified Doblinger noise estimate
US7492889B2 (en) Noise suppression based on bark band wiener filtering and modified doblinger noise estimate
US8886525B2 (en) System and method for adaptive intelligent noise suppression
US8326616B2 (en) Dynamic noise reduction using linear model fitting
US6549586B2 (en) System and method for dual microphone signal noise reduction using spectral subtraction
US8521530B1 (en) System and method for enhancing a monaural audio signal
EP1252796B1 (en) System and method for dual microphone signal noise reduction using spectral subtraction
US8180064B1 (en) System and method for providing voice equalization
US6510224B1 (en) Enhancement of near-end voice signals in an echo suppression system
KR100595799B1 (ko) 스펙트럼 종속 지수 이득 함수 평균화를 이용한 스펙트럼공제에 의한 신호 잡음 저감
US20070255560A1 (en) Low complexity noise reduction method
JP2001350498A (ja) 時間領域雑音抑圧
JP2002501337A (ja) 通信システムのコンフォートノイズ提供方法及び装置
CN111554315A (zh) 单通道语音增强方法及装置、存储介质、终端

Legal Events

Date Code Title Description
A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20090804

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20090804