JP2010520512A - 定常的な背景雑音の平滑化を行うための方法及び装置 - Google Patents

定常的な背景雑音の平滑化を行うための方法及び装置 Download PDF

Info

Publication number
JP2010520512A
JP2010520512A JP2009552636A JP2009552636A JP2010520512A JP 2010520512 A JP2010520512 A JP 2010520512A JP 2009552636 A JP2009552636 A JP 2009552636A JP 2009552636 A JP2009552636 A JP 2009552636A JP 2010520512 A JP2010520512 A JP 2010520512A
Authority
JP
Japan
Prior art keywords
signal
excitation signal
speech
lpc
modifying
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009552636A
Other languages
English (en)
Other versions
JP5340965B2 (ja
Inventor
ステファン ブルーン,
Original Assignee
テレフオンアクチーボラゲット エル エム エリクソン(パブル)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テレフオンアクチーボラゲット エル エム エリクソン(パブル) filed Critical テレフオンアクチーボラゲット エル エム エリクソン(パブル)
Publication of JP2010520512A publication Critical patent/JP2010520512A/ja
Application granted granted Critical
Publication of JP5340965B2 publication Critical patent/JP5340965B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

通信音声セッションにおいて背景雑音を平滑化する方法において、音声セッションを表す信号であって音声成分及び背景雑音成分を含む信号を受信し復号化する(S10)。次に、受信した信号のLPCパラメータ(S20)及び励振信号(S30)を算出する。その後、算出したLPCパラメータ及び励振信号に基づいて出力信号を合成し出力する(S40)。更に、励振信号のパワーゆらぎ及びスペクトルゆらぎを低減することによって算出した励振信号を修正し(S35)、これにより平滑化された出力信号を提供する。

Description

本発明は、通信システムにおける音声符号化に関し、特に、通信システムにおいて定常的な背景雑音の平滑化を行うための方法及び装置に関する。
音声符号化は、帯域制限された有線及び無線チャネル並びに記憶装置の少なくともいずれかを介する効率的な送信を行うために音声信号のコンパクト表現を取得する処理である。今日、音声符号化器は、通信及びマルチメディアの設備において不可欠な構成要素となっている。効率的な音声符号化に依存する市販のシステムには、PCを使用する多くのゲーム及びマルチメディアアプリケーションに加え、セルラ通信、VoIP(Voice Over IP(インターネットプロトコル))、テレビ会議、電子玩具、アーカイビング及びDSVD(Digital Simultaneous Voice and Data)などがある。
連続時間信号である場合、音声は、サンプリング及び量子化の処理を経てデジタル表現されうる。音声サンプルは、一般に、16ビット又は8ビットで量子化される。多くの他の信号と同様に、音声信号は、大量の冗長な情報(信号の連続サンプル間のノンゼロ相互情報)又は知覚とは無関係の大量な情報(聴き手に知覚されない情報)を含む。殆どの通信符号化器は不可逆である。これは、合成音声が知覚的には元の音声に類似するが物理的には異なることを意味する。
音声符号化器はデジタル化音声信号を符号化表現に変換する。通常、符号化表現はフレームで送信される。これに対応して、音声復号化器は、符号化フレームを受信て再構成音声を合成する。
最近の多くの音声符号化器は、LPC(線形予測符号化器)として知られている主流の音声符号化器に属する。そのような符号化器のいくつかの例は、3GPP FR、EFR、AMR、AMR−WB音声コーデック、3GPP2 EVRC、SMV、EVRC−WB音声コーデック、並びにG.728、G.723、G.729等の種々のITU−Tコーデックである。
それらの符号化器は全て、信号生成処理において合成フィルタの概念を利用する。フィルタは、再生される信号の短期スペクトルをモデル化するために使用されるが、フィルタへの入力は、全ての他の信号変動を処理すると仮定される。
これらの合成フィルタモデルの共通の特徴は、再生される信号が合成フィルタを規定するパラメータによって表されることである。用語「線形予測」は、フィルタパラメータを推定するために使用されることが多い方法の種類を示す。LPCを使用する符号化器において、音声信号は、入力がフィルタに対する励振信号である線形時不変(LTI)システムの出力と考えられる。従って、再生される信号は、フィルタパラメータのセットにより及び部分的にフィルタを駆動する励振信号により部分的に表される。そのような符号化コンセプトの利点は、フィルタ及びその駆動励振信号の双方が相対的に少ないビットで効率的に記述されることにある。
LPCを使用するコーデックの1つの特定の種類は、いわゆる合成による分析(AbS)の原理に基づくものである。それらのコーデックは、デコーダのローカルコピーをエンコーダに組み込み、候補励振信号のセットのうち原音声信号に対する合成出力信号の類似度を最大にする励振信号を選択することにより合成フィルタの駆動励振信号を見つける。
そのような線形予測符号化及び特にAbS符号化を利用するコンセプトは、例えば4〜12kbpsの低ビットレートでも音声信号に対して比較的適切に動作することを証明している。しかし、そのような符号化技術を使用する移動電話において、ユーザが沈黙し、入力信号が雑音等の周囲音を含む場合、現在の周知の符号化器は、音声信号に対して最適化されているため、そのような状況に対処することが困難である。エンコーダにより「誤って処理」されたために馴染みのある背景音が認識できない場合には、受信側の聴き手は不快に思うだろう。
いわゆる渦流音(swirling)は、再生された背景音の最もひどい品質劣化の1つの原因となる。これは、車の雑音等の比較的定常的な背景雑音に起こる現象であり、復号化信号のパワー及びスペクトルの不自然な時間的ゆらぎにより起こる。それらのゆらぎは、合成フィルタ係数及びその励振信号の不完全な推定及び量子化により生じる。通常、コーデックのビットレートを増加させれば、渦流音は小さくなる。
渦流音は、従来技術において問題であると認識されており、これに対する複数の解決策が文献において提案されている。提案されている解決策のうちの1つは、米国特許第5632004号(特許文献1)において説明される。この特許によると、非音声期間中、合成された背景音のスペクトル変動が低減されるように、フィルタパラメータをローパスフィルタ又は帯域幅拡大によって修正する。この方法は米国特許第5579432号(特許文献2)において、検出された定常背景雑音のみに渦流音低減技術が適用されるように改善されている。
渦流音の問題に対処する別の方法が、米国特許第5487087号(特許文献3)に開示されている。この方法は、信号自体及びその時間的変動の双方に適合する修正信号量子化方式を使用する。特に、音声の非アクティブ期間中にLPCフィルタパラメータ及び信号ゲインパラメータに対してそのようなゆらぎが低減された量子化器を使用することが考えられる。
望ましくない合成信号のパワーゆらぎによる信号品質の劣化は、別の方法によって対処される。そのうちの1つは、米国特許第6275798号(特許文献4)において説明され、3GPP TS 26.090(非特許文献1)において説明されるAMR音声コーデックアルゴリズムの一部でも説明されている。それによると、合成フィルタ励振信号の少なくとも1つの成分のゲイン、すなわち固定コードブックの寄与は、LPC短期スペクトルの定常性に依存して適応的に平滑化される。この方法は、平滑化が信号合成において使用されるゲインの制限を更に含む欧州特許第1096476号(特許文献5)及び欧州特許第1688920号(特許文献6)において展開されている。LPCボコーダにおいて使用される関連する方法は、米国特許第5953697号(特許文献7)において説明される。それによると、合成フィルタの励振信号のゲインは、合成音声の最大振幅が入力音声波形包絡にちょうど到達するように制御される。
渦流音の問題に対処する更なる種類の方法は、音声復号化器の後のポストプロセッサとして動作する。欧州特許第0665530号(特許文献8)は、検出された非音声期間中に音声復号化器出力信号の一部分をローパスフィルタリングされた白色雑音又はコンフォートノイズ信号で置換する方法を説明している。音声復号化器出力信号の一部をフィルタリングされたノイズで置換する関連する方法を開示する種々の文献において同様の方法がとられる。
ここで図1を参照する。スケーラブル符号化又はエンベデッド符号化は、符号化が階レイヤ的に行われる符号化パラダイムである。基本レイヤ又はコアレイヤが低ビットレートで信号を符号化する一方、各々が互いに重なり合う追加レイヤは、コアから先の各レイヤまでの全てのレイヤにより達成される符号化に対して多少の拡張を提供する。各レイヤは、多少の追加のビットレートを加える。生成されたビットストリームは埋め込まれる。これは、下位レイヤの符号化のビットストリームが上位レイヤのビットストリームに埋め込まれることを意味する。この特性により、送信又は受信機の任意の場所で上位レイヤに属するビットをドロップできる。そのような取り除かれたビットストリームは、ビットが保持されるレイヤまで依然として復号化可能である。
今日、最もよく使用されるスケーラブル音声圧縮アルゴリズムは、64kbpsのG.711のA/U-law対数PCMコーデックである。8kHzサンプリングのG.711コーデックは、12ビット又は13ビット線形PCMサンプルを8ビット対数サンプルに変換する。対数サンプルの指示されたビット表現は、G.711ビットストリームの最下位ビット(LSB)スチールを可能にし、G.711符号化器は実際には48、56及び64kbpsの間でSNRスケーラブルとなる。このG.711コーデックの拡張性は、帯域内制御信号の目的で回線交換通信網において使用される。このG.711のスケーラビリティの使用の最近の例は、従来の64kbpsのPCMリンクを介する広帯域音声の設定及び転送を可能にする3GPP TFOプロトコルである。元の64kbpsのG.711ストリームのうちの8kbpsは、狭帯域サービス品質にそれ程影響を及ぼさずに広帯域音声サービスの呼設定を可能にするためにまず使用される。呼設定の後、広帯域音声は、64kbpsのG.711ストリームのうち16kbpsを使用する。オープンループスケーラビリティをサポートする他のより古い音声符号化規格はG.727(エンベデッドADPCM)であり、またある程度はG.722(サブバンドADPCM)を含む。
スケーラブル音声符号化技術における更に最近の進歩は、MPEG4−CELPにスケーラビリティ拡張性を提供するMPEG−4規格である。MPE基本レイヤは、追加のフィルタパラメータ情報又は追加の新しいパラメータ情報の送信により拡張されうる。国際通信連合の標準化部門であるITU−Tは近年、G.729.EVと呼ばれる新たなスケーラブルコーデックG.729.1の標準化を完了した。このスケーラブル音声コーデックのビットレートの範囲は、8kbps乃至32kbpsである。このコーデックの主な使用例は、いくつかのVoIP呼び出しの間の共有xDSL64/128kbpsアップリンク等のホーム又はオフィスゲートウェイにおける限定された帯域幅リソースの効率的な共有を可能にすることである。
スケーラブル音声符号化の最近の1つの傾向は、音楽等の非音声オーディオ信号の符号化のサポートを上位レイヤに提供することである。そのようなコーデックにおいて、下位レイヤは、例えばCELPが周知の例であるAbSパラダイムに従う単なる従来の音声符号化を採用する。そのような符号化は音声にのみよく適しており、音楽等の非音声オーディオ信号にはあまり適さないため、上位レイヤはオーディオコーデックにおいて使用される符号化パラダイムに従って動作する。従って、一般に上位レイヤの符号化は下位レイヤの符号化の符号化誤差に対して動作する。
音声コーデックを考慮する別の関連する方法は、いわゆるスペクトル傾斜補償であり、これは、復号化音声の適応ポストフィルタリングにおいて行われる。これにより解決される問題は、短期ポストフィルタ又はフォルマントポストフィルタによって生じるスペクトル傾斜を補償することである。そのような技術は、例えばAMRコーデック及びSMVコーデックの一部であり、背景雑音の性能ではなく音声中のコーデックの性能を主に対象とする。SMVコーデックは、残差のLPC分析の応答とは独立して合成フィルタリングの前に重み付き残差領域においてその傾斜補償を適用する。
米国特許第5632004号 米国特許第5579432号 米国特許第5487087号 米国特許第6275798号 欧州特許第1096476号 欧州特許第1688920号 米国特許第5953697号 欧州特許第0665530号
3GPP TS 26.090, AMR Speech Codec; Transcoding functions
米国特許第5632004号(特許文献1)、米国特許第5579432号(特許文献2)、及び米国特許第5487087号(特許文献3)の上述の方法に関する問題は、LPC合成フィルタ励振が白色(すなわち、平坦な)スペクトルを有すること及び渦流音の問題を引き起こす全てのスペクトルゆらぎがLPC合成フィルタスペクトルのゆらぎに関連することをそれらの方法が前提としていることである。しかし、これは、特に励振信号の粗い量子化だけを行う場合には当てはまらない。その場合、励振信号のスペクトルゆらぎは、LPCフィルタゆらぎと同様の作用を有するため、回避される必要がある。
合成信号の望ましくないパワーゆらぎに対処する方法に関する問題は、それらの方法が渦流音の問題の一部のみに対処し、スペクトルゆらぎに関連する解決策を提供しないことである。シミュレーションによれば、スペクトルゆらぎに対処する例示した方法と組み合わせても、定常的な背景音中の渦流音に関連する全ての信号品質劣化が回避されるわけではないことが示されている。
音声復号化器の後のポストプロセッサとして動作する方法に関する1つの問題は、それらの方法が音声復号化出力信号の一部分のみを平滑化雑音信号と置換することである。従って、渦流音の問題は、音声復号化器からの残りの信号部分において解決されないため、最終的な出力信号は、同一のLPC合成フィルタを使用して音声復号化器出力信号としては形成されない。これは、特に非アクティブからアクティブな音声へ遷移中に不連続音を発生する可能性がある。更に、そのような後処理方法は、計算上の複雑さが相対的に高いため不利である。
既存の方法のうち、渦流音の理由の1つがLPC合成フィルタの励振信号のスペクトルゆらぎに依存するという問題に対する解決策を提供する方法はない。この問題は、特に励振信号が少なすぎるビットにより表現される場合に深刻になり、これは、一般に12kbps以下のビットレートで動作する音声コーデックに当てはまる。
従って、非音声期間中に定常的な背景雑音により引き起こされる渦流音に関する上述の問題を軽減する方法及び装置が必要とされる。
本発明の目的は、通信システムにおいて音声信号の品質を改善することである。
更なる目的は、定常背景雑音を含む非音声期間中の音声復号化器出力信号の品質を向上することである。
本発明は、通信音声セッションにおいて背景雑音を平滑化する方法及び装置を提供する。基本的に、本発明に係る方法は、音声セッションを表す信号であって音声成分及び背景雑音成分を含む信号を受信し復号化する(S10)。次に、受信した信号のLPCパラメータを算出し(S20)、励振信号を算出する(S30)。その後、算出したLPCパラメータ及び励振信号に基づいて出力信号を合成し出力する(S40)。更に、上記合成ステップの前に、励振信号のパワーゆらぎ及びスペクトルゆらぎを低減することによって算出した励振信号を修正し(S35)、これにより平滑化された出力信号を提供する。
本発明の利点は以下を含む。
音声復号化器出力信号の改善を可能にする。
平滑な音声復号化器出力信号を可能にする。
スケーラブル音声・オーディオコーデックを示すブロック図である。 本発明に係る方法の一実施形態を示すフローチャートである。 本発明に係る方法の更なる実施形態を示すフローチャートである。 本発明に係る方法の実施形態を示すブロック図である。 本発明に係る装置の一実施形態を示す図である。
(略語)
AbS Analysis by Synthesis 合成による分析
ADPCM Adaptive Differential PCM 適応差分PCM
AMR−WB Adaptive Multi Rate Wide Band 適応マルチレート広帯域
EVRC−WB Enhanced Variable Rate Wideband Codec 拡張可変レート広帯域コーデック
CELP Code excited Linear Prediction 符号励振線形予測
ISP Immittance spectral Pair イミタンススペクトル対
ITU−T International Telecommunication Union 国際通信連合
LPC Linear Predictive Coders 線形予測符号化器
LSF Line Spectral Frequency 線スペクトル周波数
MPEG Moving Pictures Experts Group
PCM Pulse code Modulation パルス符号変調
SMV Selectable Mode Vocoder 選択可能モードボコーダ
VAD Voice Activity Detector 音声アクティビティ検出器
(詳細な説明)
一般的な通信システムにおける電話通話等の音声セッションに関して本発明を説明する。一般に、方法及び装置は音声合成に適する復号化器(エンコーダ)において実現される。しかし、方法及び装置がネットワークの中間ノードにおいて実現され且つその後対象とするユーザに送信されることが同様に可能である。通信システムは、無線及び有線の双方であってもよい。
従って、本発明は、電話音声セッションにおける非音声期間中の定常的な背景雑音により引き起こされる渦流音に関する上述の周知の問題を軽減する方法及び装置を可能にする。特に本発明は、定常背景雑音を含む非音声期間中の音声復号化器出力信号の品質を向上することを可能にする。
本開示の中で、音声セッションという用語は、通信システムを介する音声信号の任意の交換として解釈される。従って、音声セッション信号はアクティブな部分及び背景部分を含むものとして説明される。アクティブな部分は、セッションの実際の音声信号である。背景部分は、ユーザの周囲のノイズであり、背景雑音とも呼ばれる。非アクティブな期間は、例えばセッションの音声部分が非アクティブである等のアクティブな期間がなく背景部分のみが存在する音声セッション内のある期間として規定される。
基本的な実施形態によると、本発明は、非音声の検出期間中にLPC合成フィルタ励振信号のパワー変動及びスペクトルゆらぎを低減することにより音声セッションの品質を向上することを可能にする。
更なる実施形態によると、出力信号は、励振信号修正をLPCパラメータ平滑化動作と組み合わせることにより更に改善される。
図2のフローチャートを参照すると、本発明に係る方法の一実施形態は、音声セッションを表す信号(すなわち、アクティブな音声信号の形態の音声成分及び/又は定常背景雑音成分を含む)を受信し復号化する(S10)。その後、受信した信号のLPCパラメータのセットが算出される(S20)。更に、受信した信号の励振信号が算出される(S30)。出力信号は、算出したLPCパラメータ及び算出した励振信号に基づいて合成され出力される(S40)。本発明によると、励振信号は、平滑化された出力信号を提供するために励振信号のパワーゆらぎ及びスペクトルゆらぎを低減することにより改善又は修正される(S35)。
図3のフローチャートを参照して、本発明に係る方法の更なる実施形態を説明する。対応するステップは、図2のステップと同一の図中符号を保持する。上述の実施形態の励振信号を修正するステップに加え、判定したLPCパラメータのセットに対して、LPCパラメータ平滑化等の修正動作(S25)が行われる。
図4を参照すると、本発明の更なる実施形態に係るLPCパラメータ平滑化(S25)は、平滑度がノイズネス(noisiness)係数と呼ばれるパラメータから得られる係数βにより制御されるように、LPCパラメータ平滑化を実行することを含む。
第1のステップにおいて、ローパスフィルタリングされたLPCパラメータのセットが計算される(S20)。これは、以下の式に従って一次自己回帰フィルタリングにより行われるのが好ましい。
Figure 2010520512
ただし、~a(n)は現在のフレームnで取得されるローパスフィルタLPCパラメータベクトル、a(n)はフレームnの復号化LPCパラメータベクトル、λは平滑度を制御する重み付け係数である。λの適切な選択は0.9である。
第2のステップS25において、ローパスフィルタLPCパラメータベクトル~a(n)及び復号化LPCパラメータベクトルa(n)の重み付き合成は、以下の式に従って平滑化制御係数βを使用して計算される。
Figure 2010520512
LPCパラメータは、フィルタリング及び補間に適する任意の表現であってもよいが、線スペクトル周波数(LSF)又はイミタンススペクトル対(ISP)として表されるのが好ましい。
一般に、音声復号化器は、ローパスフィルタLPCパラメータも補間されるのが好ましいサブフレームにわたりLPCパラメータを補間してもよい。特定の一実施形態において、音声復号化器は、各々が長さ20ms、5msのサブフレームを4つ含む複数のフレームに対して動作する。音声復号化器が最初に先行フレームの終了フレームLPCパラメータベクトルa(n-1)、中間フレームLPCパラメータベクトルam(n)及び現在のフレームの終了フレームLPCパラメータベクトルa(n)の間を補間することにより4つのサブフレームLPCパラメータベクトルを計算する場合、ローパスフィルタLPCパラメータベクトル及び復号化LPCパラメータベクトルの重み付き合成は以下のように計算される。
Figure 2010520512
その後、それらの平滑化LPCパラメータベクトルは、元の復号化LPCパラメータベクトルa(n-1)、am(n)、a(n)の代わりにサブフレーム毎の補間に使用される。
上述のように、本発明の重要な要素は、非音声期間中のLPCフィルタ励振信号のパワーゆらぎ及びスペクトルゆらぎを低減することである。本発明の好適な一実施形態によると、励振信号がより少ないスペクトル傾斜のゆらぎを有し且つ本質的には既存のスペクトル傾斜が補償されるように修正が行われる。
従って、多くの音声コーデック(及び特にAbSコーデック)が傾斜のない励振信号又は白色励振信号を必ずしも生成しないことは、本発明者により考慮され認識されている。本発明者は、元の入力信号が合成信号と一致するようにその対象信号により励振を最適化する。これは、特に低レート音声コーデックの場合に、フレーム毎に励振信号のスペクトル傾斜の大きなゆらぎを引き起こす可能性がある。
傾斜補償は、以下の式に従って傾斜補償フィルタ(又は白色化フィルタ)H(z)により行われる。
Figure 2010520512
このフィルタの係数aiは、元の励振信号のLPC係数として容易に計算される。予測次数Pの適切な選択は1であり、この場合、白色化ではなく本質的に単に傾斜補償が実行される。この場合、係数a1は以下のように計算される。
Figure 2010520512
ただし、re(0)及びre(1)は、元のLPC合成フィルタ励振信号の0番目及び1番目の自己相関係数である。
上述の傾斜補償又は白色化動作は、フレーム毎又はサブフレーム毎に少なくとも1回行われるのが好ましい。
別の特定の実施形態によると、励振信号のパワー及びスペクトルゆらぎは、励振信号の一部を白色雑音信号に置換することにより更に低減できる。そのために、まず適切にスケーリングされたランダムシーケンスが生成される。スケーリングは、パワーが励振信号のパワー又は励振信号の平滑化パワーと等しくなるように行われる。スケーリングは、励振信号の平滑化パワーと等しくなるように行われるのが好ましく、平滑化は、励振信号パワー又はそれから得られる励振ゲイン係数の推定値をローパスフィルタリングすることにより行える。従って、非平滑化ゲイン係数g(n)は、励振信号のパワーの平方根として計算される。その後、好ましくは以下の式に従って一次自己回帰フィルタリングを行うことにより、ローパスフィルタリングが実行される。
Figure 2010520512
ただし、~g(n)は現在のフレームnで取得されるローパスフィルタゲイン係数、κは平滑度を制御する重み付け係数である。κの適切な選択は0.9である。元のランダムシーケンスが正規化パワー(分散)1を有する場合、ノイズ信号rにスケーリングした後、そのパワーは励振信号のパワー又は励振信号の平滑化パワーに対応する。なお、ゲイン係数の平滑化動作は、以下の式に従って対数領域において行われる。
Figure 2010520512
次のステップにおいて、励振信号はノイズ信号と合成される。そのために、励振信号eはある係数αによりスケーリングされ、ノイズ信号rはある係数βによりスケーリングされ、その後2つのスケーリング信号は加算される。
Figure 2010520512
係数βは、LPCパラメータ平滑化に対して使用される制御係数βに対応する必要があるが必ずしも対応するわけではない。係数βは、ノイズネス係数と呼ばれるパラメータから得られてもよい。好適な一実施形態によると、係数βは1-αとして選択される。この場合、αに対する適切な選択は0.5以上1以下である。しかし、αが1でない限り、信号 が励振信号eより小さいパワーを有することが観察される。この作用は、非アクティブとアクティブな音声との間の遷移中に望ましくない不連続な合成出力信号の原因となる可能性がある。この問題を解決するために、一般にe及びrが統計的に個別のランダムシーケンスであることが考慮される必要がある。従って、修正された励振信号のパワーは、以下のように係数α、並びに励振信号e及ノイズ信号rのパワーに依存する。
Figure 2010520512
従って、修正された励振信号が適切なパワーを有することを保証するために、その励振信号は更に係数γによりスケーリングされる必要がある。
Figure 2010520512
ノイズ信号のパワー及び修正された励振信号の望ましいパワーが励振信号のパワーP{e}と同一であるという単純化された仮定(上述のノイズ信号のパワー平滑化を無視する)の下、係数γは以下のように選択される必要があることが分かる。
Figure 2010520512
適切な近似は、ノイズ信号ではなく係数γにより励振信号のみをスケーリングすることである。
Figure 2010520512
上述のノイズミキシング動作は、フレーム毎に1回行われるのが好ましいが、サブフレーム毎に1回行われてもよい。
詳細な調査によれば、上述の傾斜補償(白色化)及び上述の励振信号のノイズ修正が組み合わされて行われることが好ましいことが分かった。その場合、合成された背景雑音信号の最高の品質は、ノイズ修正が音声復号化器の元の励振信号ではなく傾斜補償された励振信号により動作する場合に達成される。
方法をより適切に動作させるために、LPCパラメータ平滑化及び励振修正がアクティブな音声信号に影響を及ぼさないことを保証する必要があるだろう。基本的な一実施形態において、図4を参照すると、これは、平滑化動作が非音声を示すVAD(S50)に応答して起動される場合に可能である。
本発明の好適な更なる実施形態は、スケーラブル音声コーデックにおける応用例である。更に改善された全体の性能は、信号が復号化される際のビットレートに上述の定常背景雑音の平滑化動作を適応させるステップにより達成される。平滑化は、低レート下位レイヤの復号化においてのみ行われる一方で、より高いビットレートで復号化する際にはオフにされる(又は低減される)のが好ましい。その理由は、上位レイヤが通常渦流音からの悪影響をそれ程受けず、復号化器がより高いビットレートで音声信号を再合成する際の忠実度に平滑化動作が影響を及ぼすためである。
図5を参照して、本発明に係る方法を可能にするデコーダにおける装置1について説明する。
装置1は、入力信号を受信し且つ出力信号を装置から送信する一般的な入出力ユニットI/O10を含む。ユニットは、装置に対する信号を受信及び復号化するために任意の必要な機能性を含むのが好ましい。更に装置1は、受信し復号化した信号のLPCパラメータを復号化し算出するLPCパラメータ提供器20と、受信した入力信号の励振信号を復号化及び算出する励振信号提供器30とを含む。また、装置1は、励振信号のパワーゆらぎ及びスペクトルゆらぎを低減することにより、算出した励振信号を修正する修正器35を含む。最後に、装置1は、少なくとも算出したLPCパラメータ及び修正された算出された励振信号に基づいて平滑化合成音声出力信号を提供するLPC合成器又はフィルタ40を含む。
更なる一実施形態において、図5を参照すると、装置はLPCパラメータ提供器20からの算出されたLPCパラメータを平滑化する平滑化器25を含む。更に、LPC合成器40は、少なくとも平滑化されたLPCパラメータ及び修正された励振信号に基づいて合成音声信号を判定するように構成される。
最後に、装置は、誰かが実際に話しているか等、音声セッションがアクティブな音声部分を含むかを検出するか、あるいは1人のユーザが沈黙しており且つ移動電話には背景雑音のみが入力されているか等、背景雑音のみが存在するかを検出する検出器を備える。その場合、装置は、音声セッションの音声部分が非アクティブである場合にのみ修正ステップを実行するように構成される。すなわち、本発明の平滑化動作(LPCパラメータ平滑化及び/又は励振信号修正)は非音声期間中にのみ実行される。
本発明の利点は以下を含む。
本発明によれば、非音声期間中の定常的な背景雑音信号(車のノイズ等)の再構成又は合成音声信号の品質を改善できる。
本発明に対しては、特許請求の範囲により定義される本発明の範囲から逸脱することなく種々の変形や変更を行うことができることは、当業者には理解されよう。

Claims (15)

  1. 通信音声セッションにおいて背景雑音を平滑化するための方法であって、
    音声セッションを表す信号であって音声成分及び背景雑音成分を含む信号を受信し復号化するステップ(S10)と、
    前記受信した信号のLPCパラメータを算出するステップ(S20)と、
    前記受信した信号の励振信号を算出するステップ(S30)と、
    前記LPCパラメータ及び前記励振信号に基づいて出力信号を合成し出力する合成ステップ(S40)と、
    を有し、
    更に、前記励振信号のパワーゆらぎ及びスペクトルゆらぎを低減することによって前記算出された励振信号を修正するステップ(S35)を有し、これにより平滑化された出力信号を提供することを特徴とする方法。
  2. 前記算出したLPCパラメータのセットを修正するステップ(S25)を更に有し、
    前記合成ステップは、前記修正されたLPCパラメータのセットに基づいて前記出力信号を合成し、平滑化された出力信号を提供することを特徴とする請求項1に記載の方法。
  3. 前記LPCパラメータのセットを修正するステップ(S25)は、
    ローパスフィルタリングされたLPCパラメータのセットを提供するステップと、
    前記ローパスフィルタリングされたLPCパラメータのセットと前記算出されたLPCパラメータのセットとの重み付き合成を計算するステップと、
    を含むことを特徴とする請求項2に記載の方法。
  4. 一次自己回帰フィルタリングにより前記ローパスフィルタリングを実行することを特徴とする請求項3に記載の方法。
  5. 前記励振信号を修正するステップ(S35)は、傾斜を補償することにより前記励振信号のスペクトルを修正するステップを含むことを特徴とする請求項1に記載の方法。
  6. 前記励振信号を修正するステップは、前記励振信号の少なくとも一部を白色雑音信号に置換するステップを含むことを特徴とする請求項1に記載の方法。
  7. 前記励振信号を修正するステップは、
    前記算出された励振信号のパワー又はその平滑化された表現と等しくなるように前記白色雑音信号のパワーをスケーリングするステップと、
    前記算出された励振信号と前記スケーリングされた雑音信号とを線形結合するステップと、
    を含むことを特徴とする請求項6に記載の方法。
  8. 前記線形結合は、前記修正された励振信号のパワーが元の励振信号のパワーと等しくなるように行われることを特徴とする請求項7に記載の方法。
  9. 前記音声成分がアクティブか非アクティブかを判定するステップ(S50)を更に有することを特徴とする請求項1乃至8のいずれか1項に記載の方法。
  10. 前記励振信号を修正するステップ(S35)は、前記音声成分が非アクティブである場合にのみ実行されることを特徴とする請求項9に記載の方法。
  11. 音声セッションを表す信号であって音声成分及び背景雑音成分を含む信号を受信し復号化する手段(10)と、
    前記受信した信号のLPCパラメータを算出する手段(20)と、
    前記受信した信号の励振信号を算出する手段(30)と、
    前記LPCパラメータ及び前記励振信号に基づいて出力信号を合成する手段(40)と、
    を有し、
    更に、前記励振信号のパワーゆらぎ及びスペクトルゆらぎを低減することによって前記算出した励振信号を修正する手段(35)を有し、これにより平滑化された出力信号を提供することを特徴とする平滑化装置。
  12. 前記平滑化された出力信号を提供するために、前記算出したLPCパラメータを修正する手段(25)を更に有することを特徴とする請求項11記載の平滑化装置。
  13. 前記音声成分の非アクティブ状態を検出する手段を更に有することを特徴とする請求項11に記載の平滑化装置。
  14. 前記励振信号を修正する手段(35)は、前記音声成分が非アクティブであることが検出されたことに応答して前記励振信号の前記修正を実行することを特徴とする請求項13に記載の平滑化装置。
  15. 請求項11乃至14のいずれか1項に記載の平滑化装置を含むことを特徴とする、通信システムにおける復号化装置。
JP2009552636A 2007-03-05 2008-02-13 定常的な背景雑音の平滑化を行うための方法及び装置 Active JP5340965B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US89299407P 2007-03-05 2007-03-05
US60/892,994 2007-03-05
PCT/SE2008/050169 WO2008108719A1 (en) 2007-03-05 2008-02-13 Method and arrangement for smoothing of stationary background noise

Publications (2)

Publication Number Publication Date
JP2010520512A true JP2010520512A (ja) 2010-06-10
JP5340965B2 JP5340965B2 (ja) 2013-11-13

Family

ID=39738501

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009552636A Active JP5340965B2 (ja) 2007-03-05 2008-02-13 定常的な背景雑音の平滑化を行うための方法及び装置

Country Status (10)

Country Link
US (1) US8457953B2 (ja)
EP (3) EP2945158B1 (ja)
JP (1) JP5340965B2 (ja)
KR (1) KR101462293B1 (ja)
CN (1) CN101632119B (ja)
AU (1) AU2008221657B2 (ja)
ES (2) ES2778076T3 (ja)
PL (2) PL2132731T3 (ja)
PT (1) PT2945158T (ja)
WO (1) WO2008108719A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017524164A (ja) * 2014-06-27 2017-08-24 華為技術有限公司Huawei Technologies Co.,Ltd. オーディオコーディング方法および装置
JP2018045244A (ja) * 2011-11-03 2018-03-22 ヴォイスエイジ・コーポレーション 低レートcelpデコーダに関する非音声コンテンツの向上

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8386266B2 (en) 2010-07-01 2013-02-26 Polycom, Inc. Full-band scalable audio codec
WO2012065081A1 (en) 2010-11-12 2012-05-18 Polycom, Inc. Scalable audio in a multi-point environment
PL3550562T3 (pl) * 2013-02-22 2021-05-31 Telefonaktiebolaget Lm Ericsson (Publ) Sposoby i urządzenia dla zawieszenia DTX w kodowaniu audio
CN105761723B (zh) 2013-09-26 2019-01-15 华为技术有限公司 一种高频激励信号预测方法及装置
US9697843B2 (en) * 2014-04-30 2017-07-04 Qualcomm Incorporated High band excitation signal generation
CN106531175B (zh) * 2016-11-13 2019-09-03 南京汉隆科技有限公司 一种网络话机柔和噪声产生的方法
KR102198598B1 (ko) * 2019-01-11 2021-01-05 네이버 주식회사 합성 음성 신호 생성 방법, 뉴럴 보코더 및 뉴럴 보코더의 훈련 방법

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09281999A (ja) * 1996-04-12 1997-10-31 Olympus Optical Co Ltd 音声符号化装置
JPH1083200A (ja) * 1996-09-09 1998-03-31 Fujitsu Ltd 符号化,復号化方法及び符号化,復号化装置
JPH1198090A (ja) * 1997-07-25 1999-04-09 Nec Corp 音声符号化/復号化装置
JP2001134296A (ja) * 1999-11-01 2001-05-18 Nec Corp 音声信号復号方法及び装置と音声信号符号化復号方法及び装置と記録媒体
JP2001142499A (ja) * 1999-11-10 2001-05-25 Nec Corp 音声符号化装置ならびに音声復号化装置
JP2002140099A (ja) * 2000-11-06 2002-05-17 Nec Corp 音声復号化装置
JP2002523806A (ja) * 1998-08-24 2002-07-30 コネクサント システムズ, インコーポレイテッド 雑音補償のための音声分類を採用した音声コーデック
JP2003520481A (ja) * 2000-01-07 2003-07-02 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 符号器における予測フィルタのための係数の生成

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4667340A (en) * 1983-04-13 1987-05-19 Texas Instruments Incorporated Voice messaging system with pitch-congruent baseband coding
US5233660A (en) * 1991-09-10 1993-08-03 At&T Bell Laboratories Method and apparatus for low-delay celp speech coding and decoding
SE470577B (sv) 1993-01-29 1994-09-19 Ericsson Telefon Ab L M Förfarande och anordning för kodning och/eller avkodning av bakgrundsljud
SE501305C2 (sv) 1993-05-26 1995-01-09 Ericsson Telefon Ab L M Förfarande och anordning för diskriminering mellan stationära och icke stationära signaler
JP2906968B2 (ja) * 1993-12-10 1999-06-21 日本電気株式会社 マルチパルス符号化方法とその装置並びに分析器及び合成器
US5657422A (en) 1994-01-28 1997-08-12 Lucent Technologies Inc. Voice activity detection driven noise remediator
US5487087A (en) 1994-05-17 1996-01-23 Texas Instruments Incorporated Signal quantizer with reduced output fluctuation
JP3557662B2 (ja) * 1994-08-30 2004-08-25 ソニー株式会社 音声符号化方法及び音声復号化方法、並びに音声符号化装置及び音声復号化装置
US5781880A (en) * 1994-11-21 1998-07-14 Rockwell International Corporation Pitch lag estimation using frequency-domain lowpass filtering of the linear predictive coding (LPC) residual
US5727125A (en) * 1994-12-05 1998-03-10 Motorola, Inc. Method and apparatus for synthesis of speech excitation waveforms
CN1155139A (zh) * 1995-06-30 1997-07-23 索尼公司 降低语音信号噪声的方法
US5774837A (en) * 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
EP0763818B1 (en) * 1995-09-14 2003-05-14 Kabushiki Kaisha Toshiba Formant emphasis method and formant emphasis filter device
GB2312360B (en) * 1996-04-12 2001-01-24 Olympus Optical Co Voice signal coding apparatus
JPH1091194A (ja) * 1996-09-18 1998-04-10 Sony Corp 音声復号化方法及び装置
US6269331B1 (en) * 1996-11-14 2001-07-31 Nokia Mobile Phones Limited Transmission of comfort noise parameters during discontinuous transmission
US5960389A (en) * 1996-11-15 1999-09-28 Nokia Mobile Phones Limited Methods for generating comfort noise during discontinuous transmission
TW326070B (en) 1996-12-19 1998-02-01 Holtek Microelectronics Inc The estimation method of the impulse gain for coding vocoder
US6026356A (en) * 1997-07-03 2000-02-15 Nortel Networks Corporation Methods and devices for noise conditioning signals representative of audio information in compressed and digitized form
US6163608A (en) * 1998-01-09 2000-12-19 Ericsson Inc. Methods and apparatus for providing comfort noise in communications systems
GB9811019D0 (en) * 1998-05-21 1998-07-22 Univ Surrey Speech coders
US6275798B1 (en) 1998-09-16 2001-08-14 Telefonaktiebolaget L M Ericsson Speech coding with improved background noise reproduction
JP3417362B2 (ja) * 1999-09-10 2003-06-16 日本電気株式会社 音声信号復号方法及び音声信号符号化復号方法
US7010480B2 (en) * 2000-09-15 2006-03-07 Mindspeed Technologies, Inc. Controlling a weighting filter based on the spectral content of a speech signal
US6691085B1 (en) * 2000-10-18 2004-02-10 Nokia Mobile Phones Ltd. Method and system for estimating artificial high band signal in speech codec using voice activity information
US7478042B2 (en) * 2000-11-30 2009-01-13 Panasonic Corporation Speech decoder that detects stationary noise signal regions
TW564400B (en) * 2001-12-25 2003-12-01 Univ Nat Cheng Kung Speech coding/decoding method and speech coder/decoder

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09281999A (ja) * 1996-04-12 1997-10-31 Olympus Optical Co Ltd 音声符号化装置
JPH1083200A (ja) * 1996-09-09 1998-03-31 Fujitsu Ltd 符号化,復号化方法及び符号化,復号化装置
JPH1198090A (ja) * 1997-07-25 1999-04-09 Nec Corp 音声符号化/復号化装置
JP2002523806A (ja) * 1998-08-24 2002-07-30 コネクサント システムズ, インコーポレイテッド 雑音補償のための音声分類を採用した音声コーデック
JP2001134296A (ja) * 1999-11-01 2001-05-18 Nec Corp 音声信号復号方法及び装置と音声信号符号化復号方法及び装置と記録媒体
JP2001142499A (ja) * 1999-11-10 2001-05-25 Nec Corp 音声符号化装置ならびに音声復号化装置
JP2003520481A (ja) * 2000-01-07 2003-07-02 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 符号器における予測フィルタのための係数の生成
JP2002140099A (ja) * 2000-11-06 2002-05-17 Nec Corp 音声復号化装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JPN6013034589; 村島淳他: '"広帯域音声符号化方式の背景雑音音質改善に関する検討"' 1999年電子情報通信学会情報・システムソサイエティ大会講演論文集 , 199908, p.213 *
JPN6013034590; Atsushi MURASHIMA, et al.: '"A Post-Processing Technique to Improve Coding Quality of CELP under Background Noise"' 2000年電子情報通信学会基礎・境界ソサイエティ大会講演論文集 , 200009, p.134 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018045244A (ja) * 2011-11-03 2018-03-22 ヴォイスエイジ・コーポレーション 低レートcelpデコーダに関する非音声コンテンツの向上
JP2017524164A (ja) * 2014-06-27 2017-08-24 華為技術有限公司Huawei Technologies Co.,Ltd. オーディオコーディング方法および装置
US10460741B2 (en) 2014-06-27 2019-10-29 Huawei Technologies Co., Ltd. Audio coding method and apparatus
US11133016B2 (en) 2014-06-27 2021-09-28 Huawei Technologies Co., Ltd. Audio coding method and apparatus

Also Published As

Publication number Publication date
WO2008108719A1 (en) 2008-09-12
US20100114567A1 (en) 2010-05-06
AU2008221657B2 (en) 2010-12-02
US8457953B2 (en) 2013-06-04
PL2945158T3 (pl) 2020-07-13
AU2008221657A1 (en) 2008-09-12
EP2132731B1 (en) 2015-07-22
KR20090129450A (ko) 2009-12-16
ES2778076T3 (es) 2020-08-07
EP2132731A4 (en) 2014-04-16
PT2945158T (pt) 2020-02-18
KR101462293B1 (ko) 2014-11-14
JP5340965B2 (ja) 2013-11-13
CN101632119A (zh) 2010-01-20
ES2548010T3 (es) 2015-10-13
PL2132731T3 (pl) 2015-12-31
EP2132731A1 (en) 2009-12-16
CN101632119B (zh) 2012-08-15
EP2945158B1 (en) 2019-12-25
EP3629328A1 (en) 2020-04-01
EP2945158A1 (en) 2015-11-18

Similar Documents

Publication Publication Date Title
US10438601B2 (en) Method and arrangement for controlling smoothing of stationary background noise
JP6976934B2 (ja) ビットバジェットに応じて2サブフレームモデルと4サブフレームモデルとの間で選択を行うステレオ音声信号の左チャンネルおよび右チャンネルを符号化するための方法およびシステム
JP5340965B2 (ja) 定常的な背景雑音の平滑化を行うための方法及び装置
JP5009910B2 (ja) レートスケーラブル及び帯域幅スケーラブルオーディオ復号化のレートの切り替えのための方法
JP5203929B2 (ja) スペクトルエンベロープ表示のベクトル量子化方法及び装置
JP5097219B2 (ja) 非因果性ポストフィルタ
JP2010518434A (ja) オーディオ信号の符号化
JP5255575B2 (ja) レイヤード・コーデックのためのポストフィルタ

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110113

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120918

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121001

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20121211

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20121218

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130319

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130712

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130807

R150 Certificate of patent or registration of utility model

Ref document number: 5340965

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250