JP2008519553A

JP2008519553A - バーク帯域ワイナ・フィルタと線形減衰とを用いたノイズ低減及びコンフォート・ノイズ・ゲイン制御

Info

Publication number: JP2008519553A
Application number: JP2007540324A
Authority: JP
Inventors: エベネザー，サミュエル・ポンヴァーマ
Original assignee: アコースティック・テクノロジーズ・インコーポレーテッド
Priority date: 2004-11-03
Filing date: 2005-10-17
Publication date: 2008-06-05
Also published as: WO2006052395A2; CN101080766A; US7454010B1; KR20070085729A; EP1815461A2; WO2006052395A3

Abstract

バーク帯域修正ワイナ・フィルタ（１２１）を用いたノイズ抑制と線形ノイズ低減（１２２）との組合せによって、電話機におけるノイズの除去を向上させる。長い無音区間を検出する検出器がノイズ抑制装置の出力に結合され、ノイズ抑制又はノイズ低減の選択を制御する。ゲイン平滑化フィルタは、ノイズ低減が用いられているときには大きな時定数を有し、あるレベルから別のレベルへの漸進的な変化を提供する。コンフォート・ノイズが、検出された長い無音区間の間だけにコンフォート・ノイズを発生させるデータを更新することによって滑らかに挿入される。

Description

本発明は、音声信号処理に関し、特に、電話機においてノイズ抑制とコンフォート・ノイズの発生とを向上させる回路に関する。

この出願では、「電話機」とは、ライセンスを受けたサービス・プロバイダからのダイアル・トーンを直接又は間接に用いる通信装置を意味する一般的な用語である。従って、「電話機」とは、机上電話機（図１）、コードレス電話機（図２）、スピーカフォン（図３）、ハンズフリー・キット（図４）、セルラ（携帯）電話機（図５）などを含む。簡潔のために、本発明は、電話機を例として説明するが、例えば、ダイアル・トーンを用いない無線周波数トランシーバやインターコムなど、より広い用途も有する。

電話機システムには、多くのノイズ源が存在する。ノイズのあるものはその起源において音響的であるが、他方で、例えば電話ネットワークなど電子的なノイズ源も存在する。この出願で用いられる「ノイズ」という用語は、すべての望まない音を意味する。その望まない音が周期的であるか、純粋にランダムであるか、その中間であるかを問わない。従って、ノイズには、バックグラウンドミュージック、希望する話者以外の人の声、風の音などが含まれる。自動車は、特にノイズを含む環境である。

このように広く定義されると、ノイズは、話者の声のエコーも含む。しかし、エコー除去は、電話機システムにおいて別個に扱われ、信号経路の転送特性のモデル化に関係する。更に、このモデルは、例えば、周波数応答、遅延、位相シフトなど、経路変化の特性など、時間経過と共に変化する又は適応される。

普遍的ではないとしても、従来技術では、一般的に、ノイズの「抑制」を減算と関連付け、ノイズの「低減」を減衰又はゲインの縮小と関連付けている。ここでは、ノイズ抑制には、１つの信号を他の信号から減算してノイズの量を減少させることが含まれる。

現在の適応型エコー除去アルゴリズムだけでは、エコーを完全に除去するのに十分でない。エコー除去装置によって生じるモデル化誤差の結果、エコー除去プロセスの後で残存エコーが生じる。この残存エコーは、聴いている者にとって不快である。残存エコーは、背景ノイズの有無を問わず、問題である。背景ノイズ・レベルが残存エコーよりも大きい場合であっても、残存エコーは不快である。その理由は、残存エコーは、近接し去っていく際に、聴いている者にとってより知覚可能であるからである。ほとんどの場合、残存エコーのスペクトル特性は背景ノイズとは異なるので、それをより知覚可能とする。

残存エコー抑制装置や非線形プロセッサなどの様々な技術は、残存エコーを除去するために用いられる。残存エコー抑制装置がノイズのない環境において十全に機能する場合であっても、この技術をノイズのある環境で機能させるためには、いくらかの追加的な信号処理が必要である。ノイズのある環境では、残存エコー抑制装置の非線形処理は、ノイズ・ポンピング（noise pumping）として知られている状態を生じさせる。残存エコーが抑制されると、加法的な背景ノイズもまた抑制され、結果的にノイズ・ポンピングが生じる。ノイズ・ポンピングの不快な効果を減少するため、エコー抑制装置が付勢されると、背景ノイズと一致されたコンフォート・ノイズが挿入される。

ノイズを低減しコンフォート・ノイズを付加する改良型のシステムが存在しているが、例えば３００ミリ秒よりを超える長い無音区間の間には問題が残る。バーク帯域ベースの修正ワイナ・フィルタを用いたノイズ抑制システムは、長い無音区間の間では、音声アーティファクト（tonal artifacts）を生じさせることなしに適切にノイズを低減させないことがありうる。更に、残存エコー抑制装置とノイズ抑制装置とが相補的な態様で付勢されると、コンフォート・ノイズ発生プロセスの間は注意が必要である。その理由は、ノイズ抑制プロセスの前にコンフォート・ノイズが評価され、ノイズ・レベルはノイズ抑制の後では異なるからである。従って、変化とスペクトルとレベルとをトラッキングするためには、ノイズ抑制アルゴリズムによって生じるロバストな方法が必要である。

実際の背景ノイズを用いるコンフォート・ノイズ発生器は、スペクトル・コンテンツを調整するのに時間を要する。その間、ノイズは、長い無音区間の間の実際の背景ノイズとは気が付くほどに異なりうる。ノイズ低減がイネーブルされるときには、統合コンフォート・ノイズは、実際の背景ノイズとは一致しない。ノイズ抑制アルゴリズムにおけるゲイン・パラメータが変更されるときには、コンフォート・ノイズのゲインを調整することは困難である。

この技術分野の当業者であれば理解するように、アナログ信号がいったんデジタル形式に変換されると、それ以降のすべての動作は、１又は複数の適切にプログラムされたマイクロプロセッサにおいて生じうる。例えば、「信号」という用語はアナログ信号又はデタル信号のいずれかを意味することは限らない。メモリの中のデータは、１ビットであっても、信号でありうる。同様に、「メモリ」は、形式ではなく機能に関する。データがマイクロプロセッサの中のレジスタ、ランダム・アクセス・メモリ、リード・オンリ・メモリ、それ以外の種類の記憶媒体のいずれに記憶されるかは問題ではない。

従って、以上を鑑みると、本発明の目的は、長い無音区間の間のノイズ抑制を向上させることである。
本発明の別の目的は、コンフォート・ノイズと背景ノイズとのスペクトル一致を向上させることである。

本発明の更に別の目的は、実質的にノイズ・ポンピングを実質的に除去するコンフォート・ノイズ発生器を提供することである。
本発明の別の目的は、ノイズ低減調整パラメータに左右されるコンフォート・ノイズのレベルの動的な調整を提供し、よって、リモート・コンピュータでのチューニングを除去することである。

発明の概要

上述した目的は、本発明において達成されるのであるが、本発明では、音声処理回路が、バーク帯域（Bark band）ベースの修正ワイナ・フィルタ（modified Weiner filter）と、線形ノイズ低減回路とを含む。長い無音区間を検出する検出器が、長い無音区間が検出されると、バーク帯域ワイナ・フィルタリングから線形ノイズ低減に切り換える。線形ノイズ低減は、バーク帯域ワイナ・フィルタリングよりも大幅なノイズ低減を可能にし、音楽的人工物（musical artifacts）を生じない。ゲイン平滑化フィルタは、線形ノイズ低減が用いられるときには長い時定数を有し、ゲインのあるレベルから別のレベルへの漸進的な変化を提供する。長い無音区間が存在するときには、検出器がコンフォート・ノイズを発生するために背景ノイズの評価を制御し、よって、コンフォート・ノイズの発生を改善する。コンフォート・ノイズは、線形ノイズ低減回路とバーク帯域ワイナ・フィルタとのいずれかからのスペクトル・ゲイン計算回路からのデータに基づいてコンフォート・ノイズのゲインを調節することによって、更に改善される。

本発明のより改善な理解は、以下の詳細な説明を添付の図面を参照して考察することによって、得ることができる。
図面における信号はアナログ又はデジタルでありうるから、ブロック図は、ハードウェア、例えば流れ図のようなソフトウェア、又は、ハードウェアとソフトウェアとの組合せであると解釈することができる。マイクロプロセッサのプログラミングは、この技術分野における個人又はグループの通常の能力の範囲内にある。

本発明は、内部の電子装置が本質的には同じであるが装置の外見は異なる多くの応用例において、用いることができる。図１には、ベース１０とキーパッド１１とディスプレイ１３とハンドセット１４とを含む机上電話機が図解されている。図１に図解されているように、この電話機は、スピーカ１５とマイクロフォン１６とを含むスピーカ・フォン機能を有している。図２に図解されているコードレス電話機は、ベース２０とハンドセット２１とがコードではなくアンテナ２３及び２４を介して無線周波数信号によって結合されること以外は、類似している。ハンドセット２１への電力は、ハンドセットがクレードル２９に置かれたときにベース２０の端子２６及び２７を介して充電されるバッテリ（図示せず）から供給される。

図３には、業務用のオフィスなどで見られる会議電話機又はスピーカ・フォンが図解されている。電話機３０は、マイクロフォン３１とスピーカ３２とが、ある形状のケースの中に収められている。電話機３０は、米国特許第５，１３８，６５１号（Sudo）に開示されているように、マイクロフォン３４及び３５のような複数のマイクロフォンを含むことがあり、音声の受信を向上させたり、エコー除去又はノイズ除去のための複数の入力部を提供したりする。

図４には、図５に図解されているセルラ電話への音声結合を提供するハンズフリー・キットとして知られているものが図解されている。ハンズフリー・キットは、様々な実現態様で存在するが、一般的には、プラグ３７に結合され給電されたスピーカ３６を含み、このプラグ３７は、車両におけるアクセサリ・アウトレット又はシガレット・ソケット・ソケットに適合する。ハンズフリー・キットは、また、プラグ３９で終端するケーブル３８を含む。プラグ３９は、セルラ電話４２のソケット４１（図５）など、セルラ電話のヘッドセット・ソケットに適合する。電話機への結合には、コードレス電話のように、無線信号を用いるキットもある。ハンズフリー・キットは、また、典型的には、音声コントロールと、例えば「オフフック」で呼（コール）に答えるためのコントロール・スイッチとを含む。ハンズフリー・キットは、また、典型的には、キットにプラグインするバイザ・マイクロフォン（visor microphone）（図示せず）を含む。本発明に従って構成される音声処理回路は、ハンズフリー・キット又はセルラ電話の中に設置することが可能である。

様々な携帯の電話機が本発明による利益を享受することができる。図６は、セルラ電話の主な構成要素のブロック図である。典型的には、これらのブロックは、指示された機能を実現する集積回路に対応する。マイクロフォン５１とスピーカ５２とキーパッド５３とが、信号処理回路５４に結合されている。回路５４は、複数の機能を実行し、この技術分野における製造業者によって異なるいくつかの名称で知られている。例えば、インフィニオン社は回路５４を「シングル・チップ・ベースバンドＩＣ」と呼ぶ。クアルコム社は回路５４を「モバイル・ステーション・モデム」と呼ぶ。異なる製造業者によって製造された回路は、明らかに細部において相異するが、一般的には、指示された機能が含まれる。

セルラ（携帯）電話は、音声周波数回路と無線周波数回路との両方を含む。デュープレクサ５５は、アンテナ５６を受信プロセッサ５７に結合する。デュープレクサ５５は、アンテナ５６をパワーアンプ５８に結合し、送信の間は受信プロセッサ５７をパワーアンプから分離する。送信プロセッサ５９は、無線周波数信号を回路５４からの音声信号を用いて変調する。スピーカフォンのようなセルラ電話以外の応用例では、無線周波数回路は存在せず、信号プロセッサ５４は、いくらかの単純化が可能である。エコー除去及びノイズの問題は残るが、音声プロセッサ６０によって処理される。本発明を含むように修正されるのは音声プロセッサ６０である。

現在のノイズ低減アルゴリズムは、ほとんどが、スペクトル・サブトラクション（減算）として知られている技術に基づく。ノイズのない音声信号が加算的で相関のない（additive and uncorrelated）ノイズを含む信号によって汚染される場合には、ノイズを含む音声信号は、単純に、信号の和である。ノイズ源のパワー・スペクトル密度（ＰＳＤ）が完全に既知の場合には、それを、ノイズを含む音声信号からワイナ・フィルタ（Weiner filter）を用いて減算してノイズのない音声にすることが可能である。例えば、J.S. Lim and A.V. Oppenheim, “Enhancement and bandwidth compression of noisy speech”, Proc. IEEE, vol. 67, pp. 1586-1604, Dec. 1979を参照のこと。通常は、ノイズ源は既知ではなく、従って、スペクトル・サブトラクション・アルゴリズムの重要な要素は、ノイズを含む信号のパワー・スペクトル密度（ＰＳＤ）の評価である。

図７は、本発明に従って構築されたノイズ抑制（suppression）装置を含む音声プロセッサ６０の一部のブロック図である。ノイズ抑制に加えて、音声プロセッサ６０は、エコー除去と追加的なフィルタリングとそれ以外の機能とを含むが、これらは本発明に含まれない。第２のノイズ抑制回路とコンフォート・ノイズ発生器とを、破線７９によって表されているライン入力６６とスピーカ出力６８との間の受信チャネルにおいて結合することが可能である。

ノイズ低減（reduction）プロセスは、入力信号の複数のサンプルをまとめてグループとして処理することによって実行される。データのグループは、「ブロック」と称されることが多い。図面の中のブロックとの混合を避けるため、３２個のサンプルで構成されるグループは「フレーム」、４つのフレーム（１２８個のサンプル）で構成されるグループは「スーパーフレーム」と呼ぶことにする。４つのフレームは一緒に処理されるので、入力データは、処理のためにバッファされなければならない。サンプルを記憶して入力データのウィンドウ処理をするためには、１２８ワードのバッファ・サイズが用いられる。

バッファされたデータは、ブロック７１で示されているようにウィンドウ処理され、周波数領域におけるグループ処理によって生じるアーティファクトを低減する。異なるウィンドウのオプションが利用可能である。ウィンドウの選択は、メイン・ローブの幅、サイド・ローブのレベル、オーバラップのサイズなど、様々なファクタに基づいてなされる。前処理において用いられるウィンドウのタイプは、メイン・ローブの幅とサイド・ローブのレベルとに影響する。例えば、ハニング（Hanning）ウィンドウは、矩形のウィンドウと比較して、より幅の広いメイン・ローブと、より低いサイド・ローブのレベルとを有する。この技術分野では、いくつかのタイプのウィンドウが知られていて、ゲインや平滑化係数などいくつかのパラメータを適切に調整して用いることができる。

周波数領域処理によって生じるアーティファクトは、小さなオーバラップが用いられる場合には、悪化する。オーバラップが大きいと、結果的に、計算的な要求が増大する。統合ウィンドウを用いると、再構成段において生じるアーティファクトが低減される。以上のファクタすべてを考慮し、それぞれの２５パーセントがオーバラップしている平滑化された台形状の解析ウィンドウと平滑化された台形状の統合ウィンドウとが、本発明の好適実施例では用いられる。１２８個の点の離散フーリエ変換（ＤＦＴ）では、２５パーセントのオーバラップは、直前のスーパーフレームの最後の３２のサンプルが、現在のスーパーフレームの最初の（最も古い）３２のサンプルとして用いられることを意味する。従って、産業標準である８ｋＨｚのサンプル・レートでは、それぞれのフレームは４ミリ秒の信号を表し、それぞれのスーパーフレームは１６ミリ秒の信号を表す。オーバラップのため、スーパーフレームは、１２ミリ秒ごとに発生することができる。

ウィンドウ処理された時間領域データは、離散フーリエ変換７２を用いて周波数領域に変換される。ノイズ抑制回路の周波数応答が計算され、図８のブロック図に図解されているいくつかの側面を有する。信号対雑音比検出器９６とコンフォート・ノイズ発生器９８とが周波数領域処理回路の中に存在し、背景ノイズ評価から発生されたスペクトル・データを共有する。これらの機能は、後で詳述する。

ブロック８１では、ノイズを含む音声のパワー・スペクトル密度が、それぞれが適切に重み付けされた現在のスーパーフレームの移動平均（running average）と前のスーパーフレームの平均として近似される。サブバンド・ノイズ評価８５は、人間の耳の知覚をモデル化したバーク帯域（「クリティカル帯域」とも称される）を用いる。ノイズを含む音声フレームのＤＦＴは、１７のバーク帯域に分割される。サブバンド・エネルギは、ブロック８２において評価され、サブバンド・ノイズはブロック８５で評価される。

この技術分野では、スペクトル・ゲインを一般化されたワイナ・フィルタリングに基づいて信号対雑音比の関数として計算することが知られている。L. Arslan, A. McCree, V. Viswanathan, “New methods for adaptive noise suppression,” Proceedings of the 26^th IEEE International Conference on Acoustics, Speech, and Signal Processing, ICASSP-01, Salt Lake City, Utah, pp. 812-815, May 2001を参照のこと。このフィルタは、ノイズを含むフレームに対してより強い抑制を適用し、音声を含む音声フレームの間にはより弱い抑制を適用する。

信号対雑音比は、ブロック８６において、それぞれのフレームの中でそれぞれの帯域において計算される。最終的に、スペクトル・ゲインの値が、修正されたワイナ・ソリューションにおいて、バーク帯域ＳＮＲを用いてブロック８９で計算される。スペクトル減算ベースの方法の短所の１つは、音楽的トーン（musical tone）のアーティファクトが生じることである。ノイズ評価の不正確さのために、いくつかのスペクトル・ピークがスペクトル減算のあとで残存する。これらのスペクトル・ピークは、音楽的トーンとして明白になる。これらのアーティファクトを低減するために、ノイズ抑制ファクタを、計算された値よりも高い値に維持しなければならない。しかし、高い値は、結果的に、よりはっきりした音声の歪みが生じる。パラメータの調整は、音声振幅の低減と音楽的トーンのアーティファクトとの間のトレードオフである。これにより、音声の間のノイズ低減量を制御する新たな機能に至るのである。

音声強化を向上させるノイズを含むスペクトル成分における信号の存在の不確実性を用いるというアイデアは、この技術分野において既知である。R.J. McAulay and M.L. Malpass, “Speech enhancement using a soft-decision noise suppression filter,” IEEE Trans. Acoust., Speech, Signal Processing, vol ASSP-28, pp. 137-145, April 1980を参照のこと。音声がノイズを含む環境にある確率を計算した後で、計算された確率は、ノイズ抑制ファクタを調整するのに用いられる。

発声された音声を検出する１つの方法は、ノイズを含む音声エネルギ・スペクトルとノイズ・エネルギ・スペクトルとの間の比率を計算することである。この比率が非常に大きい場合には、発声された音声が存在すると想定することができる。音声存在の確率は、１次の指数的平均化（平滑化）フィルタ８７によって計算される。ノイズ抑制ファクタは、音声存在確率をスペクトル・ゲイン計算機８９におけるスレショルドと比較することによって決定される。特に、ノイズ抑制ファクタは、スレショルドを超える場合には、スレショルドを超えていない場合よりも低い値に設定される。ファクタは、それぞれの帯域について計算される。

スペクトル・ゲインは、例えば、−２０ｄＢなどの最小値を下回ることが阻止されるように制限される。このシステムは、より小さなゲインでも可能であるが、ゲインが最小値を下回ることは許容されていない。この値は重要ではない。ゲインを制限することによって、スペクトル・ゲインの有限で正確な固定点計算の結果として生じる音楽的トーン（musical tone）アーティファクトと音声歪みとを減少させる。

ゲインの下限は、スペクトル・ゲイン計算プロセスによって調整される。バーク帯域におけるエネルギが何らかのスレショルドＥ_ｔｈよりも下である場合には、最小のゲインは−１ｄＢに設定される。あるセグメントが発声された音声であると分類される場合には、すなわち、確率がｐ_ｔｈを超える場合には、最小ゲインは、−１ｄＢに設定される。いずれの条件も満たさない場合には、最小ゲインは、例えば−２０ｄＢの許容される最小ゲインに設定される。本発明のある実施例では、Ｅ_ｔｈの適切な値は、０．０１である。ｐ_ｔｈの適切な値は０．０１である。このプロセスはそれぞれの帯域について反復され、それぞれの帯域のゲインが調整される。

すべてのグループ変換ベースの処理では、ウィンドウ処理とオーバラップ加算とが、周波数領域の中のグループにおいて信号を処理することによって生じるアーティファクトを低減する既知の技術である。このようなアーティファクトの低減は、ウィンドウのメイン・ローブの幅、ウィンドウのサイド・ローブの勾配、グループ間のオーバラップの量など、複数のファクタに影響される。メイン・ローブの幅は、用いられるウィンドウのタイプに影響を受ける。例えば、ハニング（Hanning）（上向きに移動されたコサイン）ウィンドウは、矩形のウィンドウよりもよりメイン・ローブの幅が広くサイド・ローブのレベルが低い。

複数の周波数による急激なゲインの変化を回避するために、スペクトル・ゲインは、指数的な平均化平滑化フィルタ９２を用いて周波数軸に沿って平滑化される。スペクトル・ゲインの急激な変化は、ブロック９５において、それぞれのバーク帯域でのスペクトル・ゲインを平均化することによって更に低減される。ノイズを含み急激に変化する環境では、低周波のノイズ・フラタ（flutter）が強化された出力音声に導かれる。このフラタは、スペクトル減算ベースのほとんどのノイズ低減システムの副作用である。背景ノイズが急激に変化しノイズ評価がその急速な変化に適応することができる場合には、スペクトル・ゲインもまた急速に変動し、フラタを生じる。低周波フラタは、１次指数的平均化平滑化フィルタ９４において時間経過と共にスペクトル・ゲインを平均化することによって、低減される。

ノイズを含まない音声スペクトルは、ノイズを含む音声スペクトルとスペクトル・ゲイン関数とをブロック７５（図７）において乗算することによって得られる。このスペクトルは、逆変換７６において時間領域に変換され、統合ウィンドウ７７を用いてウィンドウ処理がなされてグループ化アーティファクトが低減される。最終的には、その後のブロック７８において、ウィンドウ処理されたノイズを含まない音声が、先行するフレームとオーバラップされ加算される。

図９は、本発明の好適実施例によって構築されたコンフォート・ノイズ発生器のブロック図である。背景ノイズ評価装置８４（図８）は、背景ノイズ・スペクトルと一致する高分解能のコンフォート・ノイズ・データを生じる。コンフォート・ノイズは、擬似ランダム位相スペクトルを変調することによって周波数領域で発生され、逆ＤＦＴを用いて時間領域に変換される。順方向のＤＦＴ７２とＰＳＤ評価８１とは（図８）、ノイズ抑制について上述したように動作する。

発生器１０１は、単位振幅（unity magnitude）を有するランダム位相周波数スペクトルを生じる。コンフォート・ノイズの位相スペクトルを発生する１つの方法は、範囲［−ｐ，ｐ］に一様に分散している擬似乱数発生器を用いるものである。位相スペクトルを用いると、単位振幅とランダム位相周波数スペクトルとを、位相スペクトルからの実数成分及び虚数成分を計算することによって得ることができる。しかし、この方法は、計算論的な負荷が大きい。

他の方法として、ランダム周波数スペクトル（振幅及び位相の両方がランダム）を、擬似乱数発生器を用いてこのスペクトルの実部及び虚部を発生することにより最初に発生し、次にこのスペクトルを単位振幅に正規化するというものがある。ランダム周波数スペクトルの実部及び虚部は一様に分布しているので、導かれる位相スペクトルは一様にはならない。一様に分布している乱数の適切な境界値を選択することにより、より一様な位相スペクトルを発生することができる。先の方法と比較すると、この方法は、ひとつ余分な乱数発生器と除算とを必要とするが、超越関数を計算することを回避できる。

単位振幅でランダム位相のスペクトルを発生するより単純でより効率的な方法は、８相のルックアップテーブルを用いる方法である。位相スペクトルは、一様に分布している乱数を用いてルックアップテーブルの中の８つの値の中の１つの値から選択される。特に、この数は、範囲［０，１］で一様に分布しており、８つの異なる数に量子化される。（０から０．１２５の範囲にある乱数は１に量子化される。０．１２６から０．２５０までの範囲にある乱数は２に量子化される、等である。）量子化された値は、また、一様に分布しており、４５度、９０度など、特定の位相シフトに対応する。位相の数は任意である。可聴のアーティファクトのないコンフォート・ノイズを発生するには、８相が十分であることがわかっている。この技術は第１の技術よりも容易に実現が可能であるが、その理由は、除算と三角関数の計算とを含まないからである。

コンフォート・ノイズ・ゲインは、背景ノイズ・レベルとノイズ低減レベルとの関数としてブロック１０２で計算される。VAD_OUTPUT制御信号が、このブロックのオン又はオフの動作を制御する。ノイズ低減がイネーブルされると、コンフォート・ノイズ・ゲインは、好ましくはルックアップテーブルから、ノイズ低減レベルに逆比例するように設定される。

コンフォート・ノイズのスペクトルが一致し高分解能の周波数スペクトルは、発生器１０１からの単位振幅周波数スペクトルと回路１０３における計算１０２からのコンフォート・ノイズ・ゲインとを乗算することによって発生される。スペクトルが一致した周波数スペクトルは、逆ＤＦＴ１０４を用いて時間領域に変換される。

発生されたコンフォート・ノイズはランダムであるから、可聴アーティファクトがフレーム境界において導かれる。境界アーティファクトを低減するため、コンフォート・ノイズは、任意のウィンドウを用いてブロック１０５においてウィンドウ処理される。ウィンドウ処理されたコンフォート・ノイズはバッファされ、出力レートはノイズ低減アルゴリズムの出力レートと同期化される。

図７及び図８との関係で説明されたノイズ低減アルゴリズムは、長い無音（non-speech）区間の間、ノイズ低減量を減少させる。更に、処理された信号は、長い無音区間の間、音楽的なアーティファクトを含む。この問題を解決するため、音声バースト検出器を用いて、長い無音区間を検出する。検出されると、線形ノイズ低減がノイズを含む信号に適用されるが、上述したように、バーク帯域ワイナ・フィルタリングがアーティファクトを生じるため、バーク帯域ワイナ・フィルタリングから得られるよりも大きなノイズ低減がもたらされる。線形ノイズ低減に切り換えることにより、長い無音区間の間に修正ワイナ・フィルタによって生じる可能性があるトーンの（tonal）アーティファクトが除去される。

図１０では、波形１００は、音声（speech）部分１０７と無音（non-speech）部分１０８とを有する信号を表している。これらの部分の継続時間は、尺度通りではない。ここで用いる「長い」無音部分は、３００ミリ秒のオーダー（約７５フレーム又は約２５スーパーフレーム）又はそれより長い継続時間を有する。本発明による改善は、長い無音区間の検出に左右される。

図１１は、長い無音区間を検出する回路のブロック図である。この検出器は、単純なエネルギ・ベースの方法に基づいている。１つのスーパーフレームにおける信号対雑音比（ＳＮＲ）１１１は、所定のスレショルドであるｔｈと比較される。ＳＮＲがスレショルドよりも大きい場合には、このスーパーフレームは音声フレームとして指定され、そうでない場合には、このスーパーフレームは無音フレームとして指定される。例えば２などのある連続的なフレームにわたってＳＮＲがスレショルドよりも大きい場合にだけ、スーパーフレームは音声フレームと宣言される。１周期当たりの音声フレーム数は、レジスタ１１４でカウントされ、コンパレータ１１５でスレショルドと比較される。

本発明のある実施例によると、長い区間の間のスレショルド継続時間は、３１のスーパーフレームに設定される。正論理が用いられるのであって、すなわち、ゼロ（「０」）は「偽」すなわち無音を表し、「１」は真すなわち音声を表す。これらは、重要ではない設計的な選択である。代わりに、他の値や負論理を用いることもできる。

音声検出器のフラグVAD_OUTPUTは、過去のｎ個のフレームの中で少なくとも１つのフレームでスーパーフレームが音声フレームであると宣言される場合には１に設定される。VAD_OUTPUTがゼロである場合には、長い無音区間が存在することを意味する。

本発明によると、図１２に図解されているように、バーク帯域ワイナ・フィルタ１２１と線形ノイズ低減回路１２２とが、VAD_OUTPUTによって制御される回路を切り換えることによって、交互に選択される。線形ノイズ低減は、VAD_OUTPUTがゼロのときに用いられる。回路ゲインが急激に変化し、他方では、ノイズ低減回路における修正ワイナ・フィルタから線形ノイズ低減に又はその逆に切り換わる場合には、波形ノイズにおける不快な変化が存在しうる。この効果を回避するために、ゲインは、低速崩壊フィルタを用いてノイズ低減回路におけるゲインを平滑化することにより、非常にゆっくりと変更される。このフィルタは、次のような重み付けされた移動平均形式（weighted, running average form）を有する。
Ｇ（ｋ，ｍ）＝α＊Ｇ（ｋ，ｍ−１）＋（１−α）γ
ただし、この数式において、Ｇ（ｋ，ｍ）は、フレームｍにおけるビンｋに対するゲインであり、γは周波数とは独立の線形ゲインであり、αは平滑化定数である。低速の崩壊の場合には、本発明のある実施例では、０．９９２という値がαに対して用いられた。高速の崩壊の場合には、０．３００という値が用いられた。なお、これらの値は、単なる例示である。

本発明の好適実施例では、図８からの平滑化されたノイズ評価が、ＳＮＲの計算に用いられる。単純なエネルギ・ベースの検出器の性能は背景ノイズの量によって制限され、ＳＮＲの計算において、いくらかの修正がなされ、低い入力ＳＮＲ条件でのＶＡＤ性能の改善がなされる。著しい性能の改善は、ＳＮＲがノイズ除去ブロックの後で計算されるときに、得られる。すなわち、ブロック１１１（図１１）がブロック７５（図７）の出力に結合されている場合に、性能が改善される。この性能の改善が達成される理由は、バーク帯域ベースの修正ワイナ・フィルタがノイズを含む音声信号のＳＮＲを改善するからである。周波数領域において帯域全体にわたるＳＮＲを計算することは、パーセバル（Parseval）の定理により、時間領域においてＳＮＲを計算することに等しい。ＳＮＲの計算は周波数領域でなされるのであるが、その理由は、ノイズ評価が周波数領域において利用可能であるからである。

コンフォート・ノイズ・ゲインは、バーク帯域ベースの過剰減算（over-subtraction）ファクタに基づいて調整される。（スペクトル・ビン数に関して）大域的なパラメータを用いて、コンフォート・ノイズのレベルの一致がなされる。この方法の短所は、線形ノイズ低減がイネーブルされているときには統合（synthetic）コンフォート・ノイズは実背景ノイズにスペクトル的に一致しないということである。更に、ノイズ低減アルゴリズムにおける最小ゲインが変化するときにはコンフォート・ノイズ・レベルを調整するのは面倒である。この問題を解決するため、コンフォート・ノイズ・ゲインは、図１３に図解されているように、スペクトル（ノイズ低減）ゲインに基づいて調整される。この強化によって、調整の労力が低減され、コンフォート・ノイズのスペクトルの質が改善される。線形ノイズ低減が用いられていないときでも、スペクトル・ゲインはコンフォート・ノイズに影響することに注意すべきである。

コンフォート・ノイズの質は、音声の間の背景ノイズを過剰評価することによって劣化する。コンフォート・ノイズの質を向上させるには、本発明によると、長い区間検出器（図１１）を用いて、音声の間の背景ノイズの評価を阻止する。コンフォート・ノイズ発生器９８のための背景ノイズ評価（図８のブロック８４）は、VAD_OUTPUTがゼロのときにだけ更新される。背景ノイズは、修正ドブリンガ（Doblinger’s）ノイズ評価アルゴリズムに基づいて更新される。上述した平滑化ノイズ評価は、ＳＮＲの計算において用いられる。

ノイズ抑制装置からのスペクトル・ゲインが用いられる場合には、発生されたコンフォート・ノイズのレベルは、低減された背景ノイズにより近くまで一致される。この結果として、ノイズ低減モードからコンフォート・ノイズ挿入モードへのより滑らかな変化が生じる。変化がより滑らかであることによって、快適な音声効果が生じる。しかし、コンフォート・ノイズ・ゲインを制御するこの技術の短所は、音声セグメントの直後にコンフォート・ノイズを挿入することが必要な場合には、コンフォート・ノイズ・ゲインが過渡になるということである。その理由は、ノイズ低減の量が、音声セグメントの間はより少ないからである。過渡なコンフォート・ノイズ・ゲインの結果として、ノイズ・ポンピングが生じる。ノイズ・ポンピングを避けるには、音声が存在しないときだけ、つまり、入力に背景ノイズだけがあるときにコンフォート・ノイズ・ゲインが更新される。この理由は、ノイズ低減は信号対雑音比に直接に比例するからである。従って、コンフォート・ノイズが更新されるときには、ＳＮＲが高いフレームでは、コンフォート・ノイズ・ゲインの過剰な評価のために、ノイズ・ポンピングが生じる。この効果を低減するため、VAD_OUTPUTと平滑化フィルタとが用いられ、コンフォート・ノイズ・ゲインが制御される。フィルタ９４（図８）からのフィルタリングされた出力を用いることが可能であるし、又は、別個のフィルタを用いることもできる。

このように、本発明は、長い無音区間の間により大きなノイズ低減と、コンフォート・ノイズの背景ノイズへの選りすぐれたスペクトル一致とを提供する。更に、この効果により、ノイズ増加を実質的に除去し、ノイズ低減パラメータに完全に依存する態様で、コンフォート・ノイズのレベルを調整することを可能にする。

以上で本発明について説明してきたが、この技術分野の当業者には、本発明の範囲から逸脱することなく様々な修正が可能であることは明白であろう。例えば、長い無音区間は、信号のスペクトル全体又は減少されたスペクトルと用いて時間領域において検出することも可能である。

机上電話機の全体図である。コードレス電話機の全体図である。会議電話機（コンファレンスフォン）又はスピーカフォンの全体図である。ハンズフリー・キットの全体図である。セルラ（携帯）電話機の全体図である。電話機における音声処理回路の一般的なブロック図である。本発明に従って構築されたノイズ抑制装置のブロック図である。周波数領域においてノイズを計算する回路のブロック図である。信号における音声区間及び無音区間を図解する波形である。音声部分と無音部分とを有する波形の図解である。長い無音区間を検出する回路のブロック図である。本発明のある特徴の図解である。本発明の別の特徴の図解である。

Claims

音声信号をそれぞれが複数のサンプルを含む複数のフレームに分割する解析回路と、ノイズ抑制回路と、ノイズ低減回路と、を含む音声処理回路を有する電話機であって、
長い無音区間を検出する手段と、
長い無音区間が検出されたらノイズ低減からノイズ抑制に切り換える手段と、
を備えていることを特徴とする電話機。
請求項１記載の電話機において、
前記ノイズ低減回路にゲイン平滑化フィルタを更に備えており、前記ゲイン平滑化フィルタは、ノイズ抑制からノイズ低減への切り換えのときに長い時定数を有し、ゲインのあるレベルから別のレベルへの漸進的変化を提供することを特徴とする電話機。
請求項２記載の電話機において、前記フィルタは短い無音区間の間は短い時定数を有することを特徴とする電話機。
請求項１記載の電話機において、前記検出手段は前記ノイズ抑制回路の出力に結合されており、よって、低い信号対雑音比における前記検出手段の性能を向上させることを特徴とする電話機。
背景ノイズを評価する回路を有するノイズ抑制回路と、前記ノイズ抑制回路に結合されており前記背景ノイズ評価回路からのデータに基づいてコンフォート・ノイズを発生するコンフォート・ノイズ発生器とを有する電話機であって、
長い無音区間を検出する手段と、
前記回路に結合されており、長い無音区間を検出する手段が長い無音区間を検出すると、評価を延期する手段と、
を備えていることを特徴とする電話機。
請求項５記載の電話機において、
スペクトル・ゲイン計算回路と、
前記スペクトル・ゲイン計算回路からのデータに基づいて前記コンフォート・ノイズのゲインを調整する手段と、
を更に備えていることを特徴とする電話機。
請求項６記載の電話機において、前記データは平均化されることを特徴とする電話機。
請求項５記載の電話機において、前記検出手段は前記ノイズ抑制回路の出力に結合されており、よって、低い信号対雑音比における前記検出手段の性能を向上させることを特徴とする電話機。