JP2010520512A

JP2010520512A - 定常的な背景雑音の平滑化を行うための方法及び装置

Info

Publication number: JP2010520512A
Application number: JP2009552636A
Authority: JP
Inventors: ステファンブルーン，
Original assignee: テレフオンアクチーボラゲットエルエムエリクソン（パブル）
Priority date: 2007-03-05
Filing date: 2008-02-13
Publication date: 2010-06-10
Anticipated expiration: 2028-02-13
Also published as: WO2008108719A1; US20100114567A1; AU2008221657B2; US8457953B2; PL2945158T3; AU2008221657A1; EP2132731B1; KR20090129450A; ES2778076T3; EP2132731A4; PT2945158T; KR101462293B1; JP5340965B2; CN101632119A; ES2548010T3; PL2132731T3; EP2132731A1; CN101632119B; EP2945158B1; EP3629328A1

Abstract

通信音声セッションにおいて背景雑音を平滑化する方法において、音声セッションを表す信号であって音声成分及び背景雑音成分を含む信号を受信し復号化する（Ｓ１０）。次に、受信した信号のＬＰＣパラメータ（Ｓ２０）及び励振信号（Ｓ３０）を算出する。その後、算出したＬＰＣパラメータ及び励振信号に基づいて出力信号を合成し出力する（Ｓ４０）。更に、励振信号のパワーゆらぎ及びスペクトルゆらぎを低減することによって算出した励振信号を修正し（Ｓ３５）、これにより平滑化された出力信号を提供する。

Description

本発明は、通信システムにおける音声符号化に関し、特に、通信システムにおいて定常的な背景雑音の平滑化を行うための方法及び装置に関する。

音声符号化は、帯域制限された有線及び無線チャネル並びに記憶装置の少なくともいずれかを介する効率的な送信を行うために音声信号のコンパクト表現を取得する処理である。今日、音声符号化器は、通信及びマルチメディアの設備において不可欠な構成要素となっている。効率的な音声符号化に依存する市販のシステムには、ＰＣを使用する多くのゲーム及びマルチメディアアプリケーションに加え、セルラ通信、ＶｏＩＰ（Voice Over IP（インターネットプロトコル））、テレビ会議、電子玩具、アーカイビング及びＤＳＶＤ（Digital Simultaneous Voice and Data）などがある。

連続時間信号である場合、音声は、サンプリング及び量子化の処理を経てデジタル表現されうる。音声サンプルは、一般に、１６ビット又は８ビットで量子化される。多くの他の信号と同様に、音声信号は、大量の冗長な情報（信号の連続サンプル間のノンゼロ相互情報）又は知覚とは無関係の大量な情報（聴き手に知覚されない情報）を含む。殆どの通信符号化器は不可逆である。これは、合成音声が知覚的には元の音声に類似するが物理的には異なることを意味する。

音声符号化器はデジタル化音声信号を符号化表現に変換する。通常、符号化表現はフレームで送信される。これに対応して、音声復号化器は、符号化フレームを受信て再構成音声を合成する。

最近の多くの音声符号化器は、ＬＰＣ（線形予測符号化器）として知られている主流の音声符号化器に属する。そのような符号化器のいくつかの例は、３ＧＰＰＦＲ、ＥＦＲ、ＡＭＲ、ＡＭＲ−ＷＢ音声コーデック、３ＧＰＰ２ＥＶＲＣ、ＳＭＶ、ＥＶＲＣ−ＷＢ音声コーデック、並びにＧ．７２８、Ｇ．７２３、Ｇ．７２９等の種々のＩＴＵ−Ｔコーデックである。

それらの符号化器は全て、信号生成処理において合成フィルタの概念を利用する。フィルタは、再生される信号の短期スペクトルをモデル化するために使用されるが、フィルタへの入力は、全ての他の信号変動を処理すると仮定される。

これらの合成フィルタモデルの共通の特徴は、再生される信号が合成フィルタを規定するパラメータによって表されることである。用語「線形予測」は、フィルタパラメータを推定するために使用されることが多い方法の種類を示す。ＬＰＣを使用する符号化器において、音声信号は、入力がフィルタに対する励振信号である線形時不変（ＬＴＩ）システムの出力と考えられる。従って、再生される信号は、フィルタパラメータのセットにより及び部分的にフィルタを駆動する励振信号により部分的に表される。そのような符号化コンセプトの利点は、フィルタ及びその駆動励振信号の双方が相対的に少ないビットで効率的に記述されることにある。

ＬＰＣを使用するコーデックの１つの特定の種類は、いわゆる合成による分析（ＡｂＳ）の原理に基づくものである。それらのコーデックは、デコーダのローカルコピーをエンコーダに組み込み、候補励振信号のセットのうち原音声信号に対する合成出力信号の類似度を最大にする励振信号を選択することにより合成フィルタの駆動励振信号を見つける。

そのような線形予測符号化及び特にＡｂＳ符号化を利用するコンセプトは、例えば４〜１２ｋｂｐｓの低ビットレートでも音声信号に対して比較的適切に動作することを証明している。しかし、そのような符号化技術を使用する移動電話において、ユーザが沈黙し、入力信号が雑音等の周囲音を含む場合、現在の周知の符号化器は、音声信号に対して最適化されているため、そのような状況に対処することが困難である。エンコーダにより「誤って処理」されたために馴染みのある背景音が認識できない場合には、受信側の聴き手は不快に思うだろう。

いわゆる渦流音（swirling）は、再生された背景音の最もひどい品質劣化の１つの原因となる。これは、車の雑音等の比較的定常的な背景雑音に起こる現象であり、復号化信号のパワー及びスペクトルの不自然な時間的ゆらぎにより起こる。それらのゆらぎは、合成フィルタ係数及びその励振信号の不完全な推定及び量子化により生じる。通常、コーデックのビットレートを増加させれば、渦流音は小さくなる。

渦流音は、従来技術において問題であると認識されており、これに対する複数の解決策が文献において提案されている。提案されている解決策のうちの１つは、米国特許第５６３２００４号（特許文献１）において説明される。この特許によると、非音声期間中、合成された背景音のスペクトル変動が低減されるように、フィルタパラメータをローパスフィルタ又は帯域幅拡大によって修正する。この方法は米国特許第５５７９４３２号（特許文献２）において、検出された定常背景雑音のみに渦流音低減技術が適用されるように改善されている。

渦流音の問題に対処する別の方法が、米国特許第５４８７０８７号（特許文献３）に開示されている。この方法は、信号自体及びその時間的変動の双方に適合する修正信号量子化方式を使用する。特に、音声の非アクティブ期間中にＬＰＣフィルタパラメータ及び信号ゲインパラメータに対してそのようなゆらぎが低減された量子化器を使用することが考えられる。

望ましくない合成信号のパワーゆらぎによる信号品質の劣化は、別の方法によって対処される。そのうちの１つは、米国特許第６２７５７９８号（特許文献４）において説明され、3GPP TS 26.090（非特許文献１）において説明されるＡＭＲ音声コーデックアルゴリズムの一部でも説明されている。それによると、合成フィルタ励振信号の少なくとも１つの成分のゲイン、すなわち固定コードブックの寄与は、ＬＰＣ短期スペクトルの定常性に依存して適応的に平滑化される。この方法は、平滑化が信号合成において使用されるゲインの制限を更に含む欧州特許第１０９６４７６号（特許文献５）及び欧州特許第１６８８９２０号（特許文献６）において展開されている。ＬＰＣボコーダにおいて使用される関連する方法は、米国特許第５９５３６９７号（特許文献７）において説明される。それによると、合成フィルタの励振信号のゲインは、合成音声の最大振幅が入力音声波形包絡にちょうど到達するように制御される。

渦流音の問題に対処する更なる種類の方法は、音声復号化器の後のポストプロセッサとして動作する。欧州特許第０６６５５３０号（特許文献８）は、検出された非音声期間中に音声復号化器出力信号の一部分をローパスフィルタリングされた白色雑音又はコンフォートノイズ信号で置換する方法を説明している。音声復号化器出力信号の一部をフィルタリングされたノイズで置換する関連する方法を開示する種々の文献において同様の方法がとられる。

ここで図１を参照する。スケーラブル符号化又はエンベデッド符号化は、符号化が階レイヤ的に行われる符号化パラダイムである。基本レイヤ又はコアレイヤが低ビットレートで信号を符号化する一方、各々が互いに重なり合う追加レイヤは、コアから先の各レイヤまでの全てのレイヤにより達成される符号化に対して多少の拡張を提供する。各レイヤは、多少の追加のビットレートを加える。生成されたビットストリームは埋め込まれる。これは、下位レイヤの符号化のビットストリームが上位レイヤのビットストリームに埋め込まれることを意味する。この特性により、送信又は受信機の任意の場所で上位レイヤに属するビットをドロップできる。そのような取り除かれたビットストリームは、ビットが保持されるレイヤまで依然として復号化可能である。

今日、最もよく使用されるスケーラブル音声圧縮アルゴリズムは、６４ｋｂｐｓのＧ．７１１のA/U-law対数ＰＣＭコーデックである。８ｋＨｚサンプリングのＧ．７１１コーデックは、１２ビット又は１３ビット線形ＰＣＭサンプルを８ビット対数サンプルに変換する。対数サンプルの指示されたビット表現は、Ｇ．７１１ビットストリームの最下位ビット（ＬＳＢ）スチールを可能にし、Ｇ．７１１符号化器は実際には４８、５６及び６４ｋｂｐｓの間でＳＮＲスケーラブルとなる。このＧ．７１１コーデックの拡張性は、帯域内制御信号の目的で回線交換通信網において使用される。このＧ．７１１のスケーラビリティの使用の最近の例は、従来の６４ｋｂｐｓのＰＣＭリンクを介する広帯域音声の設定及び転送を可能にする３ＧＰＰＴＦＯプロトコルである。元の６４ｋｂｐｓのＧ．７１１ストリームのうちの８ｋｂｐｓは、狭帯域サービス品質にそれ程影響を及ぼさずに広帯域音声サービスの呼設定を可能にするためにまず使用される。呼設定の後、広帯域音声は、６４ｋｂｐｓのＧ．７１１ストリームのうち１６ｋｂｐｓを使用する。オープンループスケーラビリティをサポートする他のより古い音声符号化規格はＧ．７２７（エンベデッドＡＤＰＣＭ）であり、またある程度はＧ．７２２（サブバンドＡＤＰＣＭ）を含む。

スケーラブル音声符号化技術における更に最近の進歩は、ＭＰＥＧ４−ＣＥＬＰにスケーラビリティ拡張性を提供するＭＰＥＧ−４規格である。ＭＰＥ基本レイヤは、追加のフィルタパラメータ情報又は追加の新しいパラメータ情報の送信により拡張されうる。国際通信連合の標準化部門であるＩＴＵ−Ｔは近年、Ｇ．７２９．ＥＶと呼ばれる新たなスケーラブルコーデックＧ．７２９．１の標準化を完了した。このスケーラブル音声コーデックのビットレートの範囲は、８ｋｂｐｓ乃至３２ｋｂｐｓである。このコーデックの主な使用例は、いくつかのＶｏＩＰ呼び出しの間の共有ｘＤＳＬ６４／１２８ｋｂｐｓアップリンク等のホーム又はオフィスゲートウェイにおける限定された帯域幅リソースの効率的な共有を可能にすることである。

スケーラブル音声符号化の最近の１つの傾向は、音楽等の非音声オーディオ信号の符号化のサポートを上位レイヤに提供することである。そのようなコーデックにおいて、下位レイヤは、例えばＣＥＬＰが周知の例であるＡｂＳパラダイムに従う単なる従来の音声符号化を採用する。そのような符号化は音声にのみよく適しており、音楽等の非音声オーディオ信号にはあまり適さないため、上位レイヤはオーディオコーデックにおいて使用される符号化パラダイムに従って動作する。従って、一般に上位レイヤの符号化は下位レイヤの符号化の符号化誤差に対して動作する。

音声コーデックを考慮する別の関連する方法は、いわゆるスペクトル傾斜補償であり、これは、復号化音声の適応ポストフィルタリングにおいて行われる。これにより解決される問題は、短期ポストフィルタ又はフォルマントポストフィルタによって生じるスペクトル傾斜を補償することである。そのような技術は、例えばＡＭＲコーデック及びＳＭＶコーデックの一部であり、背景雑音の性能ではなく音声中のコーデックの性能を主に対象とする。ＳＭＶコーデックは、残差のＬＰＣ分析の応答とは独立して合成フィルタリングの前に重み付き残差領域においてその傾斜補償を適用する。

米国特許第５６３２００４号米国特許第５５７９４３２号米国特許第５４８７０８７号米国特許第６２７５７９８号欧州特許第１０９６４７６号欧州特許第１６８８９２０号米国特許第５９５３６９７号欧州特許第０６６５５３０号

3GPP TS 26.090, AMR Speech Codec; Transcoding functions

米国特許第５６３２００４号（特許文献１）、米国特許第５５７９４３２号（特許文献２）、及び米国特許第５４８７０８７号（特許文献３）の上述の方法に関する問題は、ＬＰＣ合成フィルタ励振が白色（すなわち、平坦な）スペクトルを有すること及び渦流音の問題を引き起こす全てのスペクトルゆらぎがＬＰＣ合成フィルタスペクトルのゆらぎに関連することをそれらの方法が前提としていることである。しかし、これは、特に励振信号の粗い量子化だけを行う場合には当てはまらない。その場合、励振信号のスペクトルゆらぎは、ＬＰＣフィルタゆらぎと同様の作用を有するため、回避される必要がある。

合成信号の望ましくないパワーゆらぎに対処する方法に関する問題は、それらの方法が渦流音の問題の一部のみに対処し、スペクトルゆらぎに関連する解決策を提供しないことである。シミュレーションによれば、スペクトルゆらぎに対処する例示した方法と組み合わせても、定常的な背景音中の渦流音に関連する全ての信号品質劣化が回避されるわけではないことが示されている。

音声復号化器の後のポストプロセッサとして動作する方法に関する１つの問題は、それらの方法が音声復号化出力信号の一部分のみを平滑化雑音信号と置換することである。従って、渦流音の問題は、音声復号化器からの残りの信号部分において解決されないため、最終的な出力信号は、同一のＬＰＣ合成フィルタを使用して音声復号化器出力信号としては形成されない。これは、特に非アクティブからアクティブな音声へ遷移中に不連続音を発生する可能性がある。更に、そのような後処理方法は、計算上の複雑さが相対的に高いため不利である。

既存の方法のうち、渦流音の理由の１つがＬＰＣ合成フィルタの励振信号のスペクトルゆらぎに依存するという問題に対する解決策を提供する方法はない。この問題は、特に励振信号が少なすぎるビットにより表現される場合に深刻になり、これは、一般に１２ｋｂｐｓ以下のビットレートで動作する音声コーデックに当てはまる。

従って、非音声期間中に定常的な背景雑音により引き起こされる渦流音に関する上述の問題を軽減する方法及び装置が必要とされる。

本発明の目的は、通信システムにおいて音声信号の品質を改善することである。

更なる目的は、定常背景雑音を含む非音声期間中の音声復号化器出力信号の品質を向上することである。

本発明は、通信音声セッションにおいて背景雑音を平滑化する方法及び装置を提供する。基本的に、本発明に係る方法は、音声セッションを表す信号であって音声成分及び背景雑音成分を含む信号を受信し復号化する（Ｓ１０）。次に、受信した信号のＬＰＣパラメータを算出し（Ｓ２０）、励振信号を算出する（Ｓ３０）。その後、算出したＬＰＣパラメータ及び励振信号に基づいて出力信号を合成し出力する（Ｓ４０）。更に、上記合成ステップの前に、励振信号のパワーゆらぎ及びスペクトルゆらぎを低減することによって算出した励振信号を修正し（Ｓ３５）、これにより平滑化された出力信号を提供する。

本発明の利点は以下を含む。
音声復号化器出力信号の改善を可能にする。
平滑な音声復号化器出力信号を可能にする。

スケーラブル音声・オーディオコーデックを示すブロック図である。本発明に係る方法の一実施形態を示すフローチャートである。本発明に係る方法の更なる実施形態を示すフローチャートである。本発明に係る方法の実施形態を示すブロック図である。本発明に係る装置の一実施形態を示す図である。

（略語）
ＡｂＳ Analysis by Synthesis 合成による分析
ＡＤＰＣＭ Adaptive Differential PCM 適応差分ＰＣＭ
ＡＭＲ−ＷＢ Adaptive Multi Rate Wide Band 適応マルチレート広帯域
ＥＶＲＣ−ＷＢ Enhanced Variable Rate Wideband Codec 拡張可変レート広帯域コーデック
ＣＥＬＰ Code excited Linear Prediction 符号励振線形予測
ＩＳＰ Immittance spectral Pair イミタンススペクトル対
ＩＴＵ−Ｔ International Telecommunication Union 国際通信連合
ＬＰＣ Linear Predictive Coders 線形予測符号化器
ＬＳＦ Line Spectral Frequency 線スペクトル周波数
ＭＰＥＧ Moving Pictures Experts Group
ＰＣＭ Pulse code Modulation パルス符号変調
ＳＭＶ Selectable Mode Vocoder 選択可能モードボコーダ
ＶＡＤ Voice Activity Detector 音声アクティビティ検出器

(詳細な説明）
一般的な通信システムにおける電話通話等の音声セッションに関して本発明を説明する。一般に、方法及び装置は音声合成に適する復号化器（エンコーダ）において実現される。しかし、方法及び装置がネットワークの中間ノードにおいて実現され且つその後対象とするユーザに送信されることが同様に可能である。通信システムは、無線及び有線の双方であってもよい。

従って、本発明は、電話音声セッションにおける非音声期間中の定常的な背景雑音により引き起こされる渦流音に関する上述の周知の問題を軽減する方法及び装置を可能にする。特に本発明は、定常背景雑音を含む非音声期間中の音声復号化器出力信号の品質を向上することを可能にする。

本開示の中で、音声セッションという用語は、通信システムを介する音声信号の任意の交換として解釈される。従って、音声セッション信号はアクティブな部分及び背景部分を含むものとして説明される。アクティブな部分は、セッションの実際の音声信号である。背景部分は、ユーザの周囲のノイズであり、背景雑音とも呼ばれる。非アクティブな期間は、例えばセッションの音声部分が非アクティブである等のアクティブな期間がなく背景部分のみが存在する音声セッション内のある期間として規定される。

基本的な実施形態によると、本発明は、非音声の検出期間中にＬＰＣ合成フィルタ励振信号のパワー変動及びスペクトルゆらぎを低減することにより音声セッションの品質を向上することを可能にする。

更なる実施形態によると、出力信号は、励振信号修正をＬＰＣパラメータ平滑化動作と組み合わせることにより更に改善される。

図２のフローチャートを参照すると、本発明に係る方法の一実施形態は、音声セッションを表す信号（すなわち、アクティブな音声信号の形態の音声成分及び／又は定常背景雑音成分を含む）を受信し復号化する（Ｓ１０）。その後、受信した信号のＬＰＣパラメータのセットが算出される（Ｓ２０）。更に、受信した信号の励振信号が算出される（Ｓ３０）。出力信号は、算出したＬＰＣパラメータ及び算出した励振信号に基づいて合成され出力される（Ｓ４０）。本発明によると、励振信号は、平滑化された出力信号を提供するために励振信号のパワーゆらぎ及びスペクトルゆらぎを低減することにより改善又は修正される（Ｓ３５）。

図３のフローチャートを参照して、本発明に係る方法の更なる実施形態を説明する。対応するステップは、図２のステップと同一の図中符号を保持する。上述の実施形態の励振信号を修正するステップに加え、判定したＬＰＣパラメータのセットに対して、ＬＰＣパラメータ平滑化等の修正動作（Ｓ２５）が行われる。

図４を参照すると、本発明の更なる実施形態に係るＬＰＣパラメータ平滑化（Ｓ２５）は、平滑度がノイズネス（noisiness）係数と呼ばれるパラメータから得られる係数βにより制御されるように、ＬＰＣパラメータ平滑化を実行することを含む。

第１のステップにおいて、ローパスフィルタリングされたＬＰＣパラメータのセットが計算される（Ｓ２０）。これは、以下の式に従って一次自己回帰フィルタリングにより行われるのが好ましい。

ただし、^~a(n)は現在のフレームnで取得されるローパスフィルタＬＰＣパラメータベクトル、a(n)はフレームnの復号化ＬＰＣパラメータベクトル、λは平滑度を制御する重み付け係数である。λの適切な選択は０．９である。

第２のステップＳ２５において、ローパスフィルタＬＰＣパラメータベクトル^~a(n)及び復号化ＬＰＣパラメータベクトルa(n)の重み付き合成は、以下の式に従って平滑化制御係数βを使用して計算される。

ＬＰＣパラメータは、フィルタリング及び補間に適する任意の表現であってもよいが、線スペクトル周波数（ＬＳＦ）又はイミタンススペクトル対（ＩＳＰ）として表されるのが好ましい。

一般に、音声復号化器は、ローパスフィルタＬＰＣパラメータも補間されるのが好ましいサブフレームにわたりＬＰＣパラメータを補間してもよい。特定の一実施形態において、音声復号化器は、各々が長さ２０ｍｓ、５ｍｓのサブフレームを４つ含む複数のフレームに対して動作する。音声復号化器が最初に先行フレームの終了フレームＬＰＣパラメータベクトルa(n-1)、中間フレームＬＰＣパラメータベクトルa_m(n)及び現在のフレームの終了フレームＬＰＣパラメータベクトルa(n)の間を補間することにより４つのサブフレームＬＰＣパラメータベクトルを計算する場合、ローパスフィルタＬＰＣパラメータベクトル及び復号化ＬＰＣパラメータベクトルの重み付き合成は以下のように計算される。

その後、それらの平滑化ＬＰＣパラメータベクトルは、元の復号化ＬＰＣパラメータベクトルa(n-1)、a_m(n)、a(n)の代わりにサブフレーム毎の補間に使用される。

上述のように、本発明の重要な要素は、非音声期間中のＬＰＣフィルタ励振信号のパワーゆらぎ及びスペクトルゆらぎを低減することである。本発明の好適な一実施形態によると、励振信号がより少ないスペクトル傾斜のゆらぎを有し且つ本質的には既存のスペクトル傾斜が補償されるように修正が行われる。

従って、多くの音声コーデック（及び特にＡｂＳコーデック）が傾斜のない励振信号又は白色励振信号を必ずしも生成しないことは、本発明者により考慮され認識されている。本発明者は、元の入力信号が合成信号と一致するようにその対象信号により励振を最適化する。これは、特に低レート音声コーデックの場合に、フレーム毎に励振信号のスペクトル傾斜の大きなゆらぎを引き起こす可能性がある。

傾斜補償は、以下の式に従って傾斜補償フィルタ（又は白色化フィルタ）H(z)により行われる。

このフィルタの係数a_iは、元の励振信号のＬＰＣ係数として容易に計算される。予測次数Pの適切な選択は１であり、この場合、白色化ではなく本質的に単に傾斜補償が実行される。この場合、係数a₁は以下のように計算される。

ただし、r_e(0)及びr_e(1)は、元のＬＰＣ合成フィルタ励振信号の０番目及び１番目の自己相関係数である。

上述の傾斜補償又は白色化動作は、フレーム毎又はサブフレーム毎に少なくとも１回行われるのが好ましい。

別の特定の実施形態によると、励振信号のパワー及びスペクトルゆらぎは、励振信号の一部を白色雑音信号に置換することにより更に低減できる。そのために、まず適切にスケーリングされたランダムシーケンスが生成される。スケーリングは、パワーが励振信号のパワー又は励振信号の平滑化パワーと等しくなるように行われる。スケーリングは、励振信号の平滑化パワーと等しくなるように行われるのが好ましく、平滑化は、励振信号パワー又はそれから得られる励振ゲイン係数の推定値をローパスフィルタリングすることにより行える。従って、非平滑化ゲイン係数g(n)は、励振信号のパワーの平方根として計算される。その後、好ましくは以下の式に従って一次自己回帰フィルタリングを行うことにより、ローパスフィルタリングが実行される。

ただし、^~g(n)は現在のフレームnで取得されるローパスフィルタゲイン係数、κは平滑度を制御する重み付け係数である。κの適切な選択は０．９である。元のランダムシーケンスが正規化パワー（分散）１を有する場合、ノイズ信号rにスケーリングした後、そのパワーは励振信号のパワー又は励振信号の平滑化パワーに対応する。なお、ゲイン係数の平滑化動作は、以下の式に従って対数領域において行われる。

次のステップにおいて、励振信号はノイズ信号と合成される。そのために、励振信号eはある係数αによりスケーリングされ、ノイズ信号rはある係数βによりスケーリングされ、その後２つのスケーリング信号は加算される。

係数βは、ＬＰＣパラメータ平滑化に対して使用される制御係数βに対応する必要があるが必ずしも対応するわけではない。係数βは、ノイズネス係数と呼ばれるパラメータから得られてもよい。好適な一実施形態によると、係数βは1-αとして選択される。この場合、αに対する適切な選択は０．５以上１以下である。しかし、αが１でない限り、信号が励振信号eより小さいパワーを有することが観察される。この作用は、非アクティブとアクティブな音声との間の遷移中に望ましくない不連続な合成出力信号の原因となる可能性がある。この問題を解決するために、一般にe及びrが統計的に個別のランダムシーケンスであることが考慮される必要がある。従って、修正された励振信号のパワーは、以下のように係数α、並びに励振信号e及ノイズ信号rのパワーに依存する。

従って、修正された励振信号が適切なパワーを有することを保証するために、その励振信号は更に係数γによりスケーリングされる必要がある。

ノイズ信号のパワー及び修正された励振信号の望ましいパワーが励振信号のパワーP{e}と同一であるという単純化された仮定（上述のノイズ信号のパワー平滑化を無視する）の下、係数γは以下のように選択される必要があることが分かる。

適切な近似は、ノイズ信号ではなく係数γにより励振信号のみをスケーリングすることである。

上述のノイズミキシング動作は、フレーム毎に１回行われるのが好ましいが、サブフレーム毎に１回行われてもよい。

詳細な調査によれば、上述の傾斜補償（白色化）及び上述の励振信号のノイズ修正が組み合わされて行われることが好ましいことが分かった。その場合、合成された背景雑音信号の最高の品質は、ノイズ修正が音声復号化器の元の励振信号ではなく傾斜補償された励振信号により動作する場合に達成される。

方法をより適切に動作させるために、ＬＰＣパラメータ平滑化及び励振修正がアクティブな音声信号に影響を及ぼさないことを保証する必要があるだろう。基本的な一実施形態において、図４を参照すると、これは、平滑化動作が非音声を示すＶＡＤ（Ｓ５０）に応答して起動される場合に可能である。

本発明の好適な更なる実施形態は、スケーラブル音声コーデックにおける応用例である。更に改善された全体の性能は、信号が復号化される際のビットレートに上述の定常背景雑音の平滑化動作を適応させるステップにより達成される。平滑化は、低レート下位レイヤの復号化においてのみ行われる一方で、より高いビットレートで復号化する際にはオフにされる（又は低減される）のが好ましい。その理由は、上位レイヤが通常渦流音からの悪影響をそれ程受けず、復号化器がより高いビットレートで音声信号を再合成する際の忠実度に平滑化動作が影響を及ぼすためである。

図５を参照して、本発明に係る方法を可能にするデコーダにおける装置１について説明する。

装置１は、入力信号を受信し且つ出力信号を装置から送信する一般的な入出力ユニットＩ／Ｏ１０を含む。ユニットは、装置に対する信号を受信及び復号化するために任意の必要な機能性を含むのが好ましい。更に装置１は、受信し復号化した信号のＬＰＣパラメータを復号化し算出するＬＰＣパラメータ提供器２０と、受信した入力信号の励振信号を復号化及び算出する励振信号提供器３０とを含む。また、装置１は、励振信号のパワーゆらぎ及びスペクトルゆらぎを低減することにより、算出した励振信号を修正する修正器３５を含む。最後に、装置１は、少なくとも算出したＬＰＣパラメータ及び修正された算出された励振信号に基づいて平滑化合成音声出力信号を提供するＬＰＣ合成器又はフィルタ４０を含む。

更なる一実施形態において、図５を参照すると、装置はＬＰＣパラメータ提供器２０からの算出されたＬＰＣパラメータを平滑化する平滑化器２５を含む。更に、ＬＰＣ合成器４０は、少なくとも平滑化されたＬＰＣパラメータ及び修正された励振信号に基づいて合成音声信号を判定するように構成される。

最後に、装置は、誰かが実際に話しているか等、音声セッションがアクティブな音声部分を含むかを検出するか、あるいは１人のユーザが沈黙しており且つ移動電話には背景雑音のみが入力されているか等、背景雑音のみが存在するかを検出する検出器を備える。その場合、装置は、音声セッションの音声部分が非アクティブである場合にのみ修正ステップを実行するように構成される。すなわち、本発明の平滑化動作（ＬＰＣパラメータ平滑化及び／又は励振信号修正）は非音声期間中にのみ実行される。

本発明の利点は以下を含む。
本発明によれば、非音声期間中の定常的な背景雑音信号（車のノイズ等）の再構成又は合成音声信号の品質を改善できる。

本発明に対しては、特許請求の範囲により定義される本発明の範囲から逸脱することなく種々の変形や変更を行うことができることは、当業者には理解されよう。

Claims

通信音声セッションにおいて背景雑音を平滑化するための方法であって、
音声セッションを表す信号であって音声成分及び背景雑音成分を含む信号を受信し復号化するステップ（Ｓ１０）と、
前記受信した信号のＬＰＣパラメータを算出するステップ（Ｓ２０）と、
前記受信した信号の励振信号を算出するステップ（Ｓ３０）と、
前記ＬＰＣパラメータ及び前記励振信号に基づいて出力信号を合成し出力する合成ステップ（Ｓ４０）と、
を有し、
更に、前記励振信号のパワーゆらぎ及びスペクトルゆらぎを低減することによって前記算出された励振信号を修正するステップ（Ｓ３５）を有し、これにより平滑化された出力信号を提供することを特徴とする方法。
前記算出したＬＰＣパラメータのセットを修正するステップ（Ｓ２５）を更に有し、
前記合成ステップは、前記修正されたＬＰＣパラメータのセットに基づいて前記出力信号を合成し、平滑化された出力信号を提供することを特徴とする請求項１に記載の方法。
前記ＬＰＣパラメータのセットを修正するステップ（Ｓ２５）は、
ローパスフィルタリングされたＬＰＣパラメータのセットを提供するステップと、
前記ローパスフィルタリングされたＬＰＣパラメータのセットと前記算出されたＬＰＣパラメータのセットとの重み付き合成を計算するステップと、
を含むことを特徴とする請求項２に記載の方法。
一次自己回帰フィルタリングにより前記ローパスフィルタリングを実行することを特徴とする請求項３に記載の方法。
前記励振信号を修正するステップ（Ｓ３５）は、傾斜を補償することにより前記励振信号のスペクトルを修正するステップを含むことを特徴とする請求項１に記載の方法。
前記励振信号を修正するステップは、前記励振信号の少なくとも一部を白色雑音信号に置換するステップを含むことを特徴とする請求項１に記載の方法。
前記励振信号を修正するステップは、
前記算出された励振信号のパワー又はその平滑化された表現と等しくなるように前記白色雑音信号のパワーをスケーリングするステップと、
前記算出された励振信号と前記スケーリングされた雑音信号とを線形結合するステップと、
を含むことを特徴とする請求項６に記載の方法。
前記線形結合は、前記修正された励振信号のパワーが元の励振信号のパワーと等しくなるように行われることを特徴とする請求項７に記載の方法。
前記音声成分がアクティブか非アクティブかを判定するステップ（Ｓ５０）を更に有することを特徴とする請求項１乃至８のいずれか１項に記載の方法。
前記励振信号を修正するステップ（Ｓ３５）は、前記音声成分が非アクティブである場合にのみ実行されることを特徴とする請求項９に記載の方法。
音声セッションを表す信号であって音声成分及び背景雑音成分を含む信号を受信し復号化する手段（１０）と、
前記受信した信号のＬＰＣパラメータを算出する手段（２０）と、
前記受信した信号の励振信号を算出する手段（３０）と、
前記ＬＰＣパラメータ及び前記励振信号に基づいて出力信号を合成する手段（４０）と、
を有し、
更に、前記励振信号のパワーゆらぎ及びスペクトルゆらぎを低減することによって前記算出した励振信号を修正する手段（３５）を有し、これにより平滑化された出力信号を提供することを特徴とする平滑化装置。
前記平滑化された出力信号を提供するために、前記算出したＬＰＣパラメータを修正する手段（２５）を更に有することを特徴とする請求項１１記載の平滑化装置。
前記音声成分の非アクティブ状態を検出する手段を更に有することを特徴とする請求項１１に記載の平滑化装置。
前記励振信号を修正する手段（３５）は、前記音声成分が非アクティブであることが検出されたことに応答して前記励振信号の前記修正を実行することを特徴とする請求項１３に記載の平滑化装置。
請求項１１乃至１４のいずれか１項に記載の平滑化装置を含むことを特徴とする、通信システムにおける復号化装置。