JP2010520505A - 非因果性ポストフィルタ - Google Patents

非因果性ポストフィルタ Download PDF

Info

Publication number
JP2010520505A
JP2010520505A JP2009551967A JP2009551967A JP2010520505A JP 2010520505 A JP2010520505 A JP 2010520505A JP 2009551967 A JP2009551967 A JP 2009551967A JP 2009551967 A JP2009551967 A JP 2009551967A JP 2010520505 A JP2010520505 A JP 2010520505A
Authority
JP
Japan
Prior art keywords
frame
decoder
pitch
post
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009551967A
Other languages
English (en)
Other versions
JP5097219B2 (ja
Inventor
ステファン ブルーン,
Original Assignee
テレフオンアクチーボラゲット エル エム エリクソン(パブル)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テレフオンアクチーボラゲット エル エム エリクソン(パブル) filed Critical テレフオンアクチーボラゲット エル エム エリクソン(パブル)
Publication of JP2010520505A publication Critical patent/JP2010520505A/ja
Application granted granted Critical
Publication of JP5097219B2 publication Critical patent/JP5097219B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Medicines Containing Material From Animals Or Micro-Organisms (AREA)
  • Solid-Sorbent Or Filter-Aiding Compositions (AREA)

Abstract

デコーダ装置は、フレームごとに符号化信号のパラメータ(4)を入力する受信機入力部(40)と、デコーダ(20)とを含み、パラメータ(4)に基づいて復号化オーディオ信号(5)のフレームを出力する。受信機入力部(40)及び/又はデコーダ(20)は、第1のフレームのパラメータが受信機入力部(40)で利用可能になった時と第1のフレームの復号化オーディオ信号がデコーダ(20)の出力で利用可能になる時との間に少なくとも1つのフレームに対応する時間差が生じるように構成される。ポストフィルタ(30)は、デコーダ(20)の出力及び受信機入力部(40)に接続される。ポストフィルタ(30)は、各後続フレームのパラメータ(4)に応じて復号化オーディオ信号のフレームをフィルタリングして出力信号(6)を得る。

Description

本発明は、一般に、オーディオ及び/又は音声信号の符号化及び復号化に関し、特に、符号化ノイズを低減することに関する。
一般に、オーディオ符号化(audio coding)、特に音声符号化(speech coding)は、符号化領域においてアナログ入力オーディオ信号又は音声信号をデジタル表現にマッピングし、再びアナログ出力オーディオ信号又は音声信号に戻す。デジタル表現は、オーディオ又は音声を表す値又はパラメータの量子化又は離散化に必要である。量子化又は離散化は、符号化ノイズにより本来の値又はパラメータを乱すと考えられる。オーディオ符号化又は音声符号化の技術は、所与のビットレートの復号化音声における符号化ノイズの影響が可能な限り小さくなるように符号化を行う。しかし、音声が符号化される際に与えられるビットレートによって、符号化ノイズが最も低減される理論上の限度が規定される。符号化ノイズを少なくとも可能な限り除去することが目的となる。
符号化ノイズに対する適切な考えは、その符号化ノイズが付加的なホワイトノイズ又はカラーノイズであると仮定することである。デコーダでオーディオ信号又は音声信号の復号化した後に、符号化ノイズをより低減するように修正し、その結果、オーディオ信号又は音声の品質を向上させるある種のエンハンスメント方法が存在する。そのような技術は、一般に「ポストフィルタリング」と呼ばれる。これは、実際のデコーダの後の後処理において、改善されたオーディオ信号又は音声信号が得られることを意味する。ポストフィルタによる音質の改善に関する文献は多く存在する。最も基本的な文献の一部は非特許文献1乃至4である。
ピッチポストフィルタの基本的な動作原理は、有声音声の高調波間のスペクトルの谷に入り込む符号化ノイズの少なくとも一部を除去することである。これは、一般に、復号化音声信号を、その復号化音声信号をタイムシフトした信号に重み付き重ね合わせすることにより達成される。ここで、タイムシフトは音声のピッチラグ又はピッチ周期に対応する。その結果、特に音声高調波間において所望の音声信号に対して相関性のない符号化ノイズが減衰する。上述の効果は、非再帰フィルタ構造及び再帰フィルタ構造の双方により得られる。実際には、非再帰フィルタ構造が好ましい。
本発明の説明は、ピッチポストフィルタ又は微細構造ポストフィルタに関する。それらの基本的な動作原理は、有声音声の高調波間のスペクトルの谷に入り込む符号化ノイズの少なくとも一部を除去することである。これは、一般に、復号化音声信号を、その復号化音声信号をタイムシフトした信号に重み付き重ね合わせすることにより達成される。ここで、タイムシフトは音声のピッチラグ又はピッチ期間に対応する。また、タイムシフトされた信号が後続の音声信号サンプルに含まれることが好ましい。より最近の1つの非再帰ピッチポストフィルタ方法は、特許文献1において説明される。ここで、信号符号化のピッチパラメータは、対応する信号サンプルのポストフィルタリングにおいて再利用される。特許文献1の非再帰ピッチポストフィルタ方法は、3GPPのAMR-WB+オーディオ及び音声符号化標準規格3GPP TS 26.290, "Audio codec processing functions; Extended Adaptive Multi-Rate - Wideband (AMR-WB+) codec; Transcoding functions"、及び、3GPPのVMR-WB[3GPP2 C.S0052-A, "Source-Controlled Variable-Rate Multimode Wideband Speech Codec (VMR-WB), Service Options 62 and 63 for Spread Spectrum Systems"] においても適用される。特許文献2は、1つのピッチポストフィルタ方法を開示する。同文献は、1つの同一フレーム内の過去及び後続の合成音声を使用することについて記載している。
P. Kroon、B. Atal, "Quantization procedures for 4.8 kbps CELP coders", in Proc IEEE ICASSP, pp. 1650-1654, 1987. V. Ramamoorthy, N.S. Jayant, "Enhancement of ADPCM speech by adaptive postfiltering", AT&T Bell Labs Tech. J., pp. 1465-1475, 1984. V. Ramamoorthy, N.S., Jayant, R. Cox, M. Sondhi, "Enhancement of ADPCM speech coding with backward-adaptive algorithms for postfiltering and noise feed-back", IEEE J. on Selected Areas in Communications, vol. SAC-6, pp. 364-382, 1988. J. H. Chen, A. Gersho, "Adaptive postfiltering for quality enhancements of coded speech", IEEE Trans. Speech Audio Process., vol. 3, no. 1, 1995
米国特許出願公開第2005/0165603A1号 欧州特許第0807307B1号 欧州特許第1050040B1号
後続の音声信号を評価するピッチポストフィルタの1つの問題は、後続の1ピッチ周期の復号化オーディオ信号又は音声信号へのアクセスを必要とすることである。一般に、この後続の信号をポストフィルタで利用可能にすることは、復号化オーディオ信号又は音声信号をバッファリングすることにより可能である。しかし、オーディオ又は音声コーデックの従来のアプリケーションにおいては、これはコーデックのアルゴリズム的な遅延が増加するものであり、通信品質及び特に対話性に影響を与えるため、望ましくない。
本発明の目的は、デコーダ装置によりオーディオ又は音声の品質を向上することである。本発明の更なる目的は、オーディオ信号又は音声信号の遅延増加の原因とならないスケーラブルなデコーダ装置用の効果的なポストフィルタの構成を提供することである。
上記目的は、添付の請求の範囲に係る装置及び方法により達成される。第1の側面によれば、デコーダ装置は、フレームごとに符号化信号のパラメータを入力する受信機入力部と、前記受信機入力部に接続され、前記パラメータに基づいて復号化オーディオ信号のフレームを出力するデコーダとを含む。前記受信機入力部及び前記デコーダの少なくともいずれか一方は、第1のフレームのパラメータが前記受信機入力部で利用可能になった時と、前記第1のフレームの復号化オーディオ信号が前記デコーダの出力で利用可能になる時との間に少なくとも1つのフレームに対応する時間差が生じるように構成される。ポストフィルタは、前記デコーダの出力及び前記受信機入力部に接続される。前記ポストフィルタは、各後続フレームの前記パラメータに応じて前記復号化オーディオ信号のフレームをフィルタリングして前記出力信号を得るように構成される。デコーダ装置は、前記ポストフィルタに接続された前記出力信号の出力部も有する。
第2の側面によれば、復号化方法は、フレームごとに符号化信号のパラメータを受信する受信ステップと、前記パラメータを復号化して復号化オーディオ信号を得る復号化ステップとを有する。前記受信ステップ及び前記復号化ステップの少なくともいずれか一方は、第1のフレームのパラメータが受信後に利用可能になった時と、前記第1のフレームの復号化オーディオ信号が復号化後に利用可能になる時との間に少なくとも1つのフレームに対応する時間差を生じさせる。前記復号化オーディオ信号のフレームは、各後続フレームの前記パラメータに応じてポストフィルタリングされて出力信号が得られる。前記方法は、前記出力信号を出力するステップも有する。
本発明の1つの利点は、音声及びオーディオコーデックの再構成信号の品質を向上できることである。例えば、コーデックがスケーラブル音声及びオーディオコーデックである場合、あるいはコーデックが受信端末のジッタバッファと共にVoIPアプリケーションにおいて使用される場合、追加の遅延という不利益を伴わずに再構成信号品質を向上させることができる。特に、例えば音声の開始のような過渡音における改善が可能である。
ポストフィルタを有するオーディオ又は音声コーデックの基本構造を示す図である。 本発明に係るデコーダ装置の一実施形態を示すブロック図である。 本発明に係るデコーダ装置の別の実施形態を示すブロック図である。 一般的なスケーラブルオーディオ又は音声コーデックを示すブロック図である。 上位レイヤが非音声オーディオ信号の符号化をサポートする場合の別のスケーラブルオーディオコーデックを示すブロック図である。 本発明に係る方法の一実施形態の手順を示すフローチャートである。 本発明に係るスケーラブルデコーダ装置の一実施形態を示すブロック図である。 本発明に係るスケーラブルデコーダ装置の別の実施形態を示すブロック図である。 本発明に係るスケーラブルデコーダ装置の更に別の実施形態を示すブロック図である。 本発明に係るスケーラブルデコーダ装置の別の実施形態を示すブロック図である。 本発明に係る改良されたピッチ進みパラメータ計算を説明する図である。
本開示において、各図面及び実施形態における同等の又は直接対応する機能は同一の符号で示される。
詳細な説明の十分な理解を提供するため、いくつかの用語については混乱を避けるために、明示的に定義をしておく必要があろう。本開示において、用語「パラメータ」は一般名称として使用され、ビット又はビットストリームを含む任意の種類の信号の表現を表す。
本発明により達成される利点を理解するために、詳細な説明は、一般的なポストフィルタリングの簡単な説明から始める。図1は、ポストフィルタを含むオーディオ又は音声コーデックの基本構造を示す。送信機1は、入力オーディオ又は音声信号3をパラメータ4のストリームに符号化するエンコーダ10を含む。一般に、パラメータ4は符号化され、受信機2に転送される。受信機2はデコーダ20を含み、デコーダ20は、元のオーディオ又は音声信号3を表すパラメータ4を受信し、それらのパラメータ4を復号化オーディオ又は音声信号5に復号化する。復号化オーディオ又は音声信号5は、可能な限り元のオーディオ又は音声信号3と類似することが意図される。しかし、復号化オーディオ又は音声信号5は多少の符号化ノイズを常に含む。受信機2はポストフィルタ30を更に含み、ポストフィルタ30は、復号化オーディオ又は音声信号5をデコーダ20から受信し、ポストフィルタリング手順を実行し、そしてポストフィルタ復号化オーディオ又は音声信号6を出力する。
ポストフィルタの基本概念は、符号化ノイズがより低減されるように符号化ノイズのスペクトル形状を形成することであり、これは実質的に人間の聴知覚特性を活用する。一般にこれは、音声信号が相対的に高い電力(スペクトルピーク)を有する知覚感度の低い周波数領域にノイズが移動し、音声信号が低い電力(スペクトル谷)を有する領域からノイズが除去されるように行われる。2つの基本的なポストフィルタ手法として、フォルマントポストフィルタ、ピッチポストフィルタ、微細構造ポストフィルタとも呼ばれる短期ポストフィルタ及び長期ポストフィルタがある。適切な性能を得るために、適応ポストフィルタがよく使用される。
上述のように、ピッチポストフィルタ又は微細構造ポストフィルタは本発明で有用である。復号化音声信号のタイムシフトされた信号への復号化音声信号の重ね合わせの結果、特に音声高調波間において所望の音声信号に対して相関性のない符号化ノイズが減衰する。上述の効果は、非再帰型フィルタ構造及び再帰型フィルタ構造の双方により得られる。非特許文献4で説明される1つのそのような一般的な形式は以下の式で与えられる。
Figure 2010520505
ただし、Tは音声のピッチ周期に対応する。
実際には、非再帰型フィルタ構造が好ましい。最近の1つの非再帰型ピッチポストフィルタ方法は、米国特許出願公開第2005/0165603号(特許文献1)において説明される。これは、オーディオ及び音声符号化標準規格である、3GPP(第3世代パートナーシッププロジェクト)のAMR-WB+(拡張適応マルチレート広帯域コーデック)[3GPP TS 26.290]、及び、3GPP2のVMR-WB(可変レートマルチモード広帯域(VMR-WB)コーデック)[3GPP2 C.S0052-A: "Source-Controlled Variable-Rate Multimode Wideband Speech Codec (VMR-WB), Service Options 62 and 63 for Spread Spectrum Systems"]において適用される。ここで、基本概念は、第1に以下の関係により符号化ノイズ推定値r(n)を計算することである。
r(n) = y(n) - yp(n)
ただし、y(n)は復号化オーディオ又は音声信号、ypは以下のように計算される予測信号である。
yp = 0.5・(y(n-T)) + y(n+T)) (1)
第2に、ノイズ推定値をローパス(又はバンドパス)フィルタリングし、係数αで重み付けした値を音声信号から減算し、その結果、エンハンスメントオーディオ又は音声信号を得る。
yenh(n) = y(n) - α・LP{r(n)} (2)
符号が反転した場合のローパスフィルタリングされたノイズ信号の適切な解釈は、その信号を符号化ノイズの低周波数部分を補償するエンハンスメント信号として見ることである。係数αは、予測信号及び復号化音声信号の相関性、予測信号のエネルギ、並びに音声信号及び予測信号の差のエネルギのある時間平均に応じて適応化される。
上述のように、上記定義式 yp = 0.5・(y(n-T)) + y(n+T)) を評価する従来技術のピッチポストフィルタの1つの問題は、それらのポストフィルタが後続の1ピッチ周期の復号化音声信号y(n+T)が必要となり、その結果、アルゴリズム的な遅延が増加することである。AMR-WB+及びVMR-WBでは、得られた復号化オーディオ又は音声信号に基づいて、復号化オーディオ又は音声信号を後方に延ばすことにより、また、そのオーディオ又は音声信号はピッチ周期Tで周期的に延びていくと仮定することにより、その問題を解決している。復号化オーディオ又は音声信号が時間インデックスn+までのみ利用可能であるという仮定の下、後続のピッチ周期は以下の式に従って計算される。
Figure 2010520505
この拡張は、単なる近似であるため、本来の後続の復号化音声信号を使用した場合に得られる品質と比較すると、品質に関しては妥協したものとなる。なお、特許文献2も、この問題に対しては望ましい解決策を提供するものではない。特許文献2は、エンハンスされるサブフレームに後続するサブフレームが利用可能であるという条件の下、現フレームにおける後続の合成音声データを用いたポストフィルタリングのみが行われることを記載している。これに対し本明細書は、後続のフレームではなく、現在の音声フレームまでの音声フレームを利用することを想定している。
別のポストフィルタ方法が特許文献3に開示されるが、本発明の説明においては関連性は低い。同文献は、ポストフィルタの強度が平均ビットレートに応じて制御される可変レート音声コーデックのためのポストフィルタ方法を説明している。
従来のポストフィルタ(例えば、フォルマントポストフィルタ/ピッチポストフィルタ)は、コーデックの遅延を最小限に維持するために、いかなる遅延も生じない。これは、符号化遅延配分が例えば将来のためにエンコーダにおいてより効果的に費やされるためである。このため、ポストフィルタのエンハンスメント能力を低下させる以下の問題が発生する。
なお、時間延長は、特に音声信号のピッチ期間が一定でない場合に問題となる。これは、とりわけ有声音声開始の場合に当てはまる。更に一般的には、音声の過渡状態に対する従来のポストフィルタの性能は、それらのパラメータの信頼性が同程度に低いため最適ではないことが示されている。
従って、本発明の基本概念の重要な部分は、将来のフレームからの情報を利用することによってポストフィルタ性能を向上することである。そのために、受信動作及び復号化動作における固有の時間遅延が利用される。本発明は、後続フレームのパラメータが利用可能になる時に関連して又はそれより後に、フレームの復号化信号が利用可能になるという状況に基づく。換言すると、受信機入力及びデコーダにより構成される集合体は、第1のフレームnに後続するフレームn+1のパラメータx(n+1)とほぼ同時に第1のフレームnの復号化信号y(n)を出力するように構成される。復号化音声フレームy(n)は、エンハンス出力音声フレームyout(n)を生成するポストフィルタに供給される。本発明によれば、ポストフィルタの動作は、ポストフィルタに少なくとも1つの後続フレームn+1のパラメータx(n+1)へのアクセスを提供することによって改善される。信号遅延は受信動作及び復号化動作において固有であるため、追加の信号遅延が発生することはない。
一実施形態は、少なくともフレーム長Lだけ出力の遅延を生じるアルゴリズムに従って動作するデコーダを含む。デコーダが復号化音声フレームy(n)を出力し、それがポストフィルタリングで使用されるようになったときに、インデックスn+1の符号化音声フレームが受信機において利用可能になる。そのような遅延は、種々のデコーダ装置において生じうる。図2は、本発明に係るデコーダ装置のそのような一実施形態を示すブロック図である。受信機2は受信機入力部40を有し、一般には符号化音声又はオーディオ信号であるフレームに基づく符号化信号x(n+1)を表すパラメータ4を受信するように構成される。デコーダ20は受信機入力部40に接続され、パラメータ4に基づいて復号化オーディオ信号5のフレームy(n)を出力するように構成される。デコーダ20は、第1のフレームのパラメータ4が受信機入力部40で利用可能になった時と、第1のフレームの復号化オーディオ信号がデコーダ20の出力で利用可能になる時との間に時間差が生じるように構成される。この時間差は、少なくとも1つのフレームに対応する。本実施形態において、復号化動作は1フレーム分の信号の遅延51を発生させる。デコーダ20及び受信機入力部40の集合体50は、復号化信号y(n)を出力すると同時に後続フレームx(n+1)のパラメータを入力する。
ポストフィルタ30は、デコーダ20の出力及び受信機入力部40に接続される。ポストフィルタ30は、後続フレームのパラメータx(n+1)に応じて復号化オーディオ信号のフレーム5に基づいて出力信号6を提供するように構成される。それにより、将来の信号フレームの情報をポストフィルタリング処理において利用可能となるが、追加の復号化遅延を生じることはない。受信機出力部60はポストフィルタ30と接続され、出力信号6を出力する。
VoIPシステムの1つの重要な要素は、受信端末におけるジッタバッファである。その目的は、パケットに含まれる受信した符号化音声フレームの非同期ストリームを同期ストリームに変換することである。同期ストリームは、その後音声デコーダにより復号化される。従って、ジッタバッファは上述の概念に従ってパラメータバッファとして動作可能である。換言すると、本発明の一実施形態は、VoIPアプリケーションにおいて有利に適用可能であり、受信端末のジッタバッファは、バッファが空でないという条件の下、将来のフレームへのアクセスを容易に提供する。
従って、本発明の別の実施形態は、パラメータバッファを含む受信機入力を含む。パラメータバッファは受信した少なくとも2つの符号化音声フレームを格納する。デコーダは、バッファリングされたフレームnを復号化し、復号化音声フレームy(n)を出力する。それと同時に、インデックスn+1の符号化音声フレームがパラメータバッファにおいて入手可能であり、ポストフィルタリングで使用可能である。図3は、本発明に係るデコーダ装置のそのような一実施形態を示すブロック図である。受信機2は受信機入力部40を含み、フレームに基づく符号化信号を表すパラメータ4を受信するように構成される。受信機入力部40は、少なくとも2つのフレームのパラメータに対する格納位置42A、42Bを有するジッタバッファ41を含む。
デコーダ20は、ジッタバッファ41の第1の位置42Aに接続され、第1のフレームx(n)のパラメータ4Aを受信する。デコーダ20は、パラメータ4Aに基づいて復号化オーディオ信号5のフレームy(n)を出力するように構成される。受信機入力部40は、ジッタバッファ41のために、特定のフレームのパラメータ4Bが受信機入力部40において利用可能になった時と、同一フレームの復号化オーディオ信号5がデコーダ20の出力で利用可能になる時との間に時間差を生じさせる。その時間差は、少なくとも1つのフレームに対応する。本実施形態において、ジッタの動作は、少なくとも1フレーム分の信号の遅延を発生させる。デコーダ20及び受信機入力部40の集合体50は、復号化信号y(n)を出力すると同時に後続フレームx(n+1)のパラメータを入力する。ポストフィルタ30は、図2と同様に構成される。
図4は、本発明に係る方法の一実施形態の手順を示すフローチャートである。復号化方法は、ステップ200で開始する。ステップ210において、フレームに基づく符号化信号のパラメータが受信される。ステップ212において、パラメータは復号化オーディオ信号のフレームに復号化される。ステップ210及び212の少なくともいずれか一方は、第1のフレームのパラメータが受信後に利用可能になった時と、第1のフレームの復号化オーディオ信号が復号化後に利用可能になる時との間に時間差を生じさせる。この時間差は、少なくとも1つのフレームに対応する。ステップ214において、復号化オーディオ信号のフレームは、各後続フレームのパラメータに応じてポストフィルタリングされて出力信号が得られる。ステップ216において、出力信号が出力される。処理は、ステップ299で終了する。
固有の遅延を有するコーデックの一般的な例は、スケーラブルコーデック又はエンベデッドコーデックである。従って、スケーラブルコーデックの簡単な説明を以下に提示する。図5は、一般的なスケーラブルオーディオ又は音声コーデックシステムを示すブロック図である。ここでは、送信機1は、入力オーディオ又は音声信号3をパラメータ4のストリームに符号化するエンコーダ10、この例においてはスケーラブルエンコーダ110を含む。符号化全体は、2つのレイヤ、送信機において1次エンコーダ11を含む下位レイヤ7及び送信機において2次エンコーダ15を含む少なくとも1つの上位レイヤ8において行われる。スケーラブルコーデック装置は追加のレイヤを有してもよいが、ここでは2レイヤのデコーダシステムがモデルシステムとして使用される。しかし、本発明の原理は、3つ以上のレイヤを含むスケーラブルコーデックにも適用可能である。
1次エンコーダ11は、入力オーディオ又は音声信号3を受信し、それを1次パラメータ12のストリームに符号化する。更に1次エンコーダは、1次パラメータ12を推定1次信号13に復号化する。推定1次信号13は、デコーダ側で1次パラメータ12から取得される信号に対応するのが理想的である。推定1次信号13は、比較器14、この場合は減算器、において、元の入力オーディオ又は音声信号3と比較される。従って、差信号が、1次エンコーダ11の1次符号化ノイズ信号16である。1次符号化ノイズ信号16は2次エンコーダに供給され、2次エンコーダはその信号を2次パラメータ17のストリームに符号化する。それらの2次パラメータ17は、1次パラメータ12から復号化可能な信号の好適なエンハンスメントパラメータとして考えられる。それと共に、1次パラメータ12及び2次パラメータ17は、入力オーディオ又は音声信号3のパラメータ4の一般的なストリームを形成する。
一般に、パラメータ4は符号化されて受信機2に転送される。受信機2はデコーダ20、この例においてはスケーラブルデコーダ120、を含み、デコーダは、元のオーディオ又は音声信号3を表すパラメータ4を受信し、それらのパラメータ4を復号化オーディオ又は音声信号5に復号化する。復号化全体は、2つのレイヤ、すなわち下位レイヤ7及び上位レイヤ8において行われる。受信機において、下位レイヤ7は1次デコーダ21を含む。同様に、上位レイヤ8は受信機において2次デコーダ25を含む。1次デコーダ21は、パラメータ4のストリームの入力1次パラメータ22を受信する。それらのパラメータはエンコーダ10において作成されるパラメータと同一であるのが理想的であるが、送信ノイズはパラメータを歪ませている場合がある。1次デコーダ21は、入力1次パラメータ22を復号化1次オーディオ又は音声信号23に復号化する。2次デコーダ25は、同様に、パラメータ4のストリームの入力2次パラメータ27を受信する。それらのパラメータはエンコーダ10において作成されるパラメータと同一であるのが理想的であるが、この場合も送信ノイズはパラメータを歪ませている場合がある。2次デコーダ21は、入力2次パラメータ22を復号化エンハンスメントオーディオ又は音声信号26に復号化する。この復号化エンハンスメントオーディオ又は音声信号26は、可能な限り正確に1次エンコーダ11の符号化ノイズに対応し、それにより1次デコーダ21から結果として得られる符号化ノイズと類似することが意図される。復号化1次オーディオ又は音声信号23及び復号化エンハンスメントオーディオ又は音声信号26は、加算器24で加算され、最終的な出力信号5が出力される。
1次パラメータ22のみが受信機2において受信される場合、受信機が1次復号化のみをサポートする場合、あるいは、何らかの理由により2次復号化を実行しないと決定した場合は、得られる復号化エンハンスメントオーディオ又は音声信号26はゼロとなり、出力信号5は復号化1次オーディオ又は音声信号23と同一になる。これは、スケーラブルコーデックシステムの概念のフレキシビリティである。従来技術によれば、一般に、ポストフィルタリングは出力信号5に対して実行される。
今日、最も使用されるスケーラブル音声圧縮アルゴリズムは、1998年11月のITU−T勧告G.711「音声周波数のパルス符号変調(PCM)(Pulse code modulation (PCM) of voice frequencies)」による64kbpsのA/U-law対数PCMコーデックである。8kHzサンプリングのG.711コーデックは、12ビット又は13ビットリニアPCM(パルス符号変調)サンプルを8ビット対数サンプルに変換する。対数サンプルのビット表現は、G.711ビットストリームの最下位ビット(LSB)スチールを可能にし、G.711コーデックは実際には48、56及び64kbpsの間でSNR(信号対雑音比)スケーラブルとなる。このG.711コーデックのスケーラビリティは、帯域内制御信号の目的で回線交換通信網において使用される。このG.711のスケーラビリティの使用の最近の例は、従来の64kbpsのPCMリンクを介する広帯域音声の設定及び転送を可能にする3GPP−TFOプロトコル(3GPPのTS28.062によると、TFO=Tandem Free Operation)である。元の64kbpsのG.711ストリームのうちの8kbpsは、狭帯域サービス品質にそれ程影響を及ぼさずに広帯域音声サービスの呼設定を可能にするためにまず使用される。呼設定の後、広帯域音声は、64kbpsのG.711ストリームのうち16kbpsを使用する。オープンループ・スケーラビリティをサポートする他の従来の音声符号化標準規格としては、1990年12月のITU−T勧告G.727「5-, 4-, 3-, and 2-bit/sample embedded adaptive differential pulse code modulation (ADPCM)」や、G.722(サブバンドADPCM)がある。
スケーラブル音声符号化技術における更なる最近の進歩は、MPEG−4(MPEG=Moving Picture Experts Group)CELPにスケーラビリティを提供するMPEG−4規格(ISO/IEC−14496)である。MPE基本レイヤは、追加のフィルタパラメータ情報又は追加の新しいパラメータ情報の送信により拡張されうる。国際電気通信連合の標準化部門であるITU−Tは、近年、G.729.EVと呼ばれるITU−T勧告G.729.1「G.729 based Embedded Variable bit-rate coder: An 8-32 kbit/s scalable wideband coder bitstream interoperable with G.729」(2006年5月)に係る新たなスケーラブルコーデックの標準化を終了した。このスケーラブル音声コーデックのビットレートの範囲は、8kbps〜32kbpsである。このコーデックの主な使用例は、いくつかのVoIP(Voice over IP(インターネットプロトコル))呼び出しの間の共有xDSL64/128kbps(DSL=デジタル加入者回線、xDSL=種々の特定のDSL方法の一般的名称)アップリンク等のホーム又はオフィスゲートウェイにおける制限のある帯域幅リソースの効率的な共有を可能にすることである。
スケーラブル音声符号化の最近の1つの傾向は、音楽等の非音声オーディオ信号の符号化のサポートを上位レイヤに提供することである。1つのそのような方法を図6に示す。そのようなコーデックにおいて、下位レイヤ7は、例えばCELP(符号励振線形予測)が周知の例である合成による分析(AbS)パラダイムに従う単なる従来の音声符号化を採用する。本実施形態において、1次エンコーダ11はCELPエンコーダ18であり、1次デコーダ21はCELPデコーダ28である。そのような符号化は音声にのみよく適しており、音楽等の非音声オーディオ信号にはあまり適さないため、上位レイヤ8はオーディオコーデックにおいて使用される符号化パラダイムに従って動作する。従って、本実施形態において、2次エンコーダはオーディオエンコーダ19であり、2次デコーダはオーディオデコーダ29である。本実施形態において、一般に上位レイヤ8の符号化は下位レイヤの符号化の符号化エラーに対して動作する。
下位レイヤが1次デコーダ21において1次復号化信号ypへの1次復号化を実行し、上位レイヤが2次デコーダ25において2次エンハンスメント信号ysへの2次復号化を実行するスケーラブル音声/オーディオデコーダ120の応用例において、本発明の特定の一実施形態を図7に示す。2次エンハンスメント信号ysは、1次復号化信号ypをエンハンスメント復号化信号yeにエンハンスする。本実施形態において、デコーダ20は例えば20msの長さの音声フレームに対して動作し、1次デコーダ21は少なくとも1つのフレームの2次デコーダ25よりも低遅延であると仮定する。すなわち、本質的な遅延51は2次デコーダ25内に存在する。
いくつかの特殊なコーデックシステムにおいて、2次コーデックは1次コーデックと異なるフレーム長で動作してもよい。例えば、2次コーデックは1次コーデックと比較して半分のフレーム長を有してもよく、従って2次コーデックは、1次デコーダが1つのフレームを復号化する間に2つの2次フレームを復号化する。設計によって、2次デコーダが有する遅延は、1次デコーダのフレーム長又は2次デコーダのフレーム長となる。
詳細には図7に示すように、1次デコーダ21は特定の遅延なしで、すなわちフレームインデックスn+1の対応する受信符号化音声フレームデータx(n+1)に基づいて、n+1番目の音声フレームx(n+1)を1次復号化信号23の出力フレームyp(n+1)に復号化できると仮定する。これに対して、2次デコーダ25は次の符号化フレームデータを必要とする。従って、2次デコーダ25は、インデックスn+1の利用可能なフレームx(n+1)を使用して復号化2次エンハンスメント信号26の復号化フレームys(n)を出力する。復号化2次エンハンスメント信号26を1次復号化信号23と適切に合成するために、1次復号化信号23は1フレーム分遅延させる必要がある。これは遅延フィルタ53において実行され、遅延復号化1次信号54を与える。
これにより、デコーダにおける望ましくない遅延が更に増加するという不利益なしに本発明を適用できる。受信ビットストリームがエンハンスメントレイヤ情報を含む場合、復号化2次エンハンスメント信号26のフレームys(n)が生成可能である。この信号26は、遅延1次復号化信号のフレームyp(n)と合成され、エンハンスメント復号化信号のフレームye(n)を形成する。このフレームye(n)は、パラメータのフレームx(n+1)が集合体50Bから入手可能になった時に利用可能になる。その後、フレームye(n)は非因果性2次ポストフィルタ30Bに供給され、ポストフィルタ30Bは上述のように本発明から利益を得られる。それらの概念によれば、ポストフィルタ30Bの動作は、フレームn+1の符号化パラメータを利用することにより改善可能である。また、このポストフィルタ30Bは、まだ利用可能でない将来のフレームye(n+1)の近似を構成する1次復号化信号23の次のフレームyp(n+1)を使用することから更に利益を得られる。従って本実施形態において、ポストフィルタ30Bは、将来のフレームのパラメータに基づくだけでなく将来のフレームの実際の信号の非常に適切な近似からも信号の品質を改善できる。それにより、2次ポストフィルタ30Bは、デコーダ装置からの出力信号6としてポストフィルタエンハンスメント信号56を提供する。
図8は、本発明に係るスケーラブルデコーダ装置の別の実施形態を示すブロック図である。本実施形態において、1次ポストフィルタ30Aが提供され、遅延フィルタ53からの出力に接続される。すなわち、1次ポストフィルタ30Aは遅延復号化1次信号54に対して動作する。本実施形態において、集合体50Aは、受信機入力部40、1次デコーダ21及び遅延フィルタ53を含む。本発明によると、1次ポストフィルタ30Aは後続フレームのパラメータにアクセス可能に動作する。本実施形態において、後続フレームの復号化1次信号23も利用可能であり、1次ポストフィルタ30Aにおいて有利に使用される。換言すると、遅延復号化1次信号54の音声フレームyp(n)は非因果性1次ポストフィルタ30Aによりエンハンス可能であり、ポストフィルタ30Aは復号化1次信号23の音声フレームyp(n+1)及びフレームn+1のパラメータ4へのアクセスから利益を得る。
ポストフィルタ30Aからの出力信号55、すなわちyp *(n)は、最終的な出力信号を生成するために2次エンハンスメント信号26と合成するのに使用される。しかし、状況によっては、2次エンハンスメント信号26により提供されるエンハンスメントは1次ポストフィルタ30Aにより得られるエンハンスメントと類似し、その結果、符号化ノイズの過剰補償になる場合がある。そのような場合、ポストフィルタ30Aは、2次符号化に対するパラメータが受信機入力部40において利用可能であるかを判定するように構成されるのが有利である。2次パラメータが利用可能である場合、ポストフィルタの動作はOFFにされて1次ポストフィルタ30Aからの出力として元の復号化1次信号を与えるか、あるいは少なくとも2次エンハンスメント信号の動作を干渉しないようにポストフィルタリングの原理を変更する。
図9は、本発明に係るスケーラブルデコーダ装置の更に別の実施形態を示すブロック図である。本実施形態において、図7のように2次デコーダ25の後に2次ポストフィルタ30Bが存在するが、1次ポストフィルタ30Aも提供される。そのような実施形態において、2次デコーダ25からエンハンスされた出力信号は、2次ポストフィルタ30Bを使用して更に改善される。この場合も、2次ポストフィルタ30Bの動作は後続フレームのパラメータに基づくことができる。このポストフィルタ30Bはエンハンスメントデコーダ出力5の将来のフレームye(n+1)にアクセスできないが、その一方で、ポストフィルタ30Bの動作は1次復号化信号の将来のフレームyp(n+1)に基づくことができる。1次集合体50Aが受信機入力部40、1次デコーダ21及び遅延フィルタ53を含む一方で、2次集合体50Bは受信機入力部40、スケーラブルデコーダ全体120及び1次ポストフィルタ30Aを含む。
図10は、本発明に係るスケーラブルデコーダ装置の更なる実施形態を示すブロック図である。ここで、ポストフィルタリングされていない遅延復号化1次信号54は加算器24に提供され、2次エンハンスメント信号26と合成される。これにより、1次ポストフィルタ30Aの符号化ノイズ修正及び2次デコーダ25からのエンハンスメントの混合を回避する。その代わり、出力部60は、セレクタ61として構成され、ポストフィルタ復号化1次信号55又はポストフィルタエンハンスメント信号56をデコーダ装置からの出力信号として出力するように構成される。セレクタ61は、破線矢印62により示されるように、入力信号に応じて動作されるのが好ましい。より多くのこれらの可能性について、以下に更に説明する。
上述したように、本発明の更なる部分の側面は、音声又はオーディオ信号の特性に依存してポストフィルタの非因果性エンハンスメントを適用することである。特に、そのような適用は、音声の過渡状態に有益である。この音声の過渡状態とは、例えば相対的に固定又は静止している1つの音素(音声要素)から別の音素に遷移する期間をいう。一般的なそのような過渡状態においては、信号が静止しておらず、音声エンコーダにより行われるパラメータ推定の信頼性が安定した音声の期間より低い。ポストフィルタがそのような信頼性の低いパラメータに基づく場合、ポストフィルタの性能は低い可能性が高い。本発明によると、そのような過渡状態でのポストフィルタ性能は、パラメータ及び好ましくは将来のフレームの合成音声を利用することにより向上される。将来のフレームの間の音声がより安定し、より信頼性のあるパラメータ推定を可能にするため、ポストフィルタ性能は向上する。
本実施形態は、特定の非因果性ポストフィルタ動作が可能になる過渡状態の検出に依存する。そのような検出は、音声分類器により行われる。単純な例において、音声分類器は音声アクティビティ検出器(VAD : voice activity detector)であってもよいが、あるいはより一般的には、基本的な音声/非音声識別とは異なる、有声音、無声音、音声開始等の種々の音声を区別できる音声検出器(sound detector)であってもよい。そのような検出は、エネルギ又はLPCパラメータ等の特定の信号パラメータの時間変化の評価に基づくことができ、それらのパラメータが急激に変化する音声又はオーディオ信号の部分を、過渡状態として識別することができる。過渡状態検出器は、エンコーダ又はデコーダで実現されてもよく、前者の場合、検出情報を受信機に送信することが必要になる。オーディオ特性の変化は、有意度(significance degree)で定量化されて測定され、ポストフィルタの動作を制御するために使用される。特に本発明に係るポストフィルタは、ピッチポストフィルタにおいて使用されるピッチパラメータが後続フレームのピッチパラメータに基づくように適応するように構成されてもよい。その適応化は、現在のフレームと先行フレーム又は後続フレームとの間のオーディオ特性の変化の有意性の基準に依存して実行される。
ポストフィルタ性能が向上する1つの特定の好適な実施形態は、無音期間後の有声音開始に対する応用例である。ここでは特に、ポストフィルタはピッチポストフィルタであり、そのポストフィルタにおいて使用される将来のフレームからのパラメータは現在のフレームに後続するフレームに属するサブフレームピッチパラメータである。
ピッチポストフィルタの改善に対処する本発明の更なる好適な実施形態によると、ピッチパラメータは新しいより正確な方法で処理される。上述のように、最新のピッチポストフィルタは式(1)及び(2)に基づく表現を評価する。ここで、合成音声の過去及び将来のセグメントは現在の音声セグメントと合成される。セグメントは、サブフレームあるいはピッチ周期等の単位であってもよい。ピッチパラメータ値Tを使用すると、過去のセグメントは現在のセグメントに対して遅れているし、将来のセグメントは現在のセグメントに対して進んでいることになる。過去の音声セグメントに対して遅れパラメータとしてTを使用することは、遅延したセグメントと現在の音声セグメントとの相関性を最大にする遅れ値としてTを計算する一般的なAbS(analysis-by-synthesis)音声コーデックの適応コードブック探索パラダイムと一致するため概念上は適切である。
しかし、一般に、ピッチ遅れパラメータが将来のセグメントに対しても一定のままであると仮定されるため、将来のセグメントに対してTを進みパラメータとして使用することは的確でない。これは、特にピッチが大きく変化する可能性のある過渡状態において問題である。特許文献2は、セグメント間の相関性の計算に基づいて追加の遅れ及び進み判定器を特定することによりその問題に対する解決策を提供する。しかし、これは演算量の点で不利である。
図11を参照すると、本発明に係る問題に対する解決策は以下の通りである。ピッチポストフィルタは、現在のフレームn及び少なくとも1つの将来のフレームn+1に対するサブフレームピッチパラメータのベクトルにアクセスできると仮定する。一般に、各フレームは4つのサブフレームを含む。T[0]...T[3]は現在のフレームの4つのサブフレームピッチパラメータを示し、T[4]...T[7]は将来のフレームの4つのサブフレームピッチパラメータを示す。所定のセグメントに対する進みパラメータは、現在のセグメントへの時間的遅れのあるサブフレーム位置に関連するサブフレームピッチパラメータを探索することにより見つけられると仮定する。所定の現在のセグメント100に対する図11の例によると、これはサブフレームピッチ値T[4]の場合である。図から分かるように、進みパラメータとして現在のセグメントのピッチパラメータ値T[1]を使用することは、ピッチがより小さな値に変更しているため不的確である。
図12を参照すると、所定のセグメントに対する進みパラメータが見つけられる時に従うアルゴリズムの好適な例は以下の通りである。図4のステップ214の一部である手順はステップ220で開始する。ステップ222において、現在のセグメントに後続する第1のサブフレームが選択される。現在のセグメントに後続するこの第1のサブフレームから開始して、ステップ224において、対応するサブフレームのピッチ値を差し引いたサブフレーム時間インデックスが現在のセグメントの時間インデックス以上であるかがチェックされる。現在のセグメントの時間インデックス以上である場合、ステップ226において、サブフレームのピッチ値は現在のセグメントに対するピッチ進みパラメータとして利用され、アルゴリズムはステップ299で終了する。現在のセグメントの時間インデックス以上でない場合は、次のサブフレームに対してチェックが繰り返される。ステップ228において、利用可能なサブフレームが更に存在するかがチェックされる。存在しない場合、手順はステップ299で終了する。存在する場合、ステップ230で新しいサブフレームが選択され、ステップ224のチェックが繰り返される。このアルゴリズムにおいて、サブフレーム時間インデックスは、例えばサブフレームの開始時間インデックス又は中間時間インデックスであってもよい。なお、相関性の計算が実行される必要のある範囲を限定することにより複雑さを軽減するのを助長できるため、特許文献2で説明される進み判定器が使用される場合、このアルゴリズムはある利得を伴って使用される。
上述の実施形態は、本発明のいくつかの例として理解されよう。本発明の範囲から逸脱することなく、実施形態に対する種々の変形、組み合わせ、変更が行われうることは、当業者には理解されるだろう。特に、技術的に可能であれば、種々の実施形態における種々の部分的な解決策は他の構成と組み合わせ可能である。本発明の範囲は添付の特許請求の範囲によって定義される。

Claims (20)

  1. フレームごとに符号化信号のパラメータ(4)を入力する受信機入力部(40)と、
    前記受信機入力部(40)に接続され、前記パラメータに基づいて復号化オーディオ信号(5;54)のフレームを出力するデコーダ(20)と、
    前記デコーダ(20)の出力に接続され、前記復号化オーディオ信号(5;54)のフレームに基づいて出力信号(6)を出力するポストフィルタ(30;30A,30B)と、
    前記出力信号(6)の出力部(60)と、
    を有するデコーダ装置であって、
    前記受信機入力部(40)及び前記デコーダ(20)の少なくともいずれか一方は、第1のフレームのパラメータが前記受信機入力部(40)で利用可能になる時と前記第1のフレームの復号化オーディオ信号が前記デコーダ(20)の出力で利用可能になる時との間に少なくとも1つのフレームに対応する時間差が生じるように構成され、
    前記ポストフィルタ(30;30A,30B)は、前記受信機入力部(40)に接続され、
    前記ポストフィルタ(30;30A,30B)は、各後続フレームの前記パラメータ(4)に応じて前記復号化オーディオ信号(5;54)のフレームをフィルタリングして前記出力信号(6)を得るように構成される
    ことを特徴とするデコーダ装置。
  2. 前記受信機入力部(40)は、連続する少なくとも2つのフレームのパラメータを記憶する記憶部(41)を含み、前記デコーダ(20)は、第1のフレームのパラメータ(4A)を前記記憶部(41)から受信し、前記ポストフィルタ(30;30A,30B)は、後続する第2のフレームのパラメータ(4B)にアクセスすることを特徴とする請求項1に記載のデコーダ装置。
  3. 前記デコーダ(20)は、前記ポストフィルタ(30;30A,30B)に出力する前に前記復号化オーディオ信号のフレームを遅延させる手段(51:53)を含むことを特徴とする請求項1に記載のデコーダ装置。
  4. 前記ポストフィルタ(30;30A,30B)は、ピッチポストフィルタを含み、前記ピッチポストフィルタにおいて使用されるピッチパラメータは、前記後続フレームのピッチパラメータに基づくものであることを特徴とする請求項1乃至3のいずれか1項に記載のデコーダ装置。
  5. 前記ポストフィルタ(30;30A,30B)の前記ピッチポストフィルタは、後続のサブフレームごとに、当該後続のサブフレームのピッチ値を差し引いた時間インデックスの値を求め、前記求めた値が現在の時間インデックス以上である場合、前記後続のサブフレームの前記ピッチ値を、現在のフレームのピッチ進みパラメータとして利用することを特徴とする請求項4に記載のデコーダ装置。
  6. 出力が前記ポストフィルタ(30;30A,30B)に接続されるオーディオ特性検出器を更に有し、
    前記ポストフィルタ(30;30A,30B)は、前記ピッチポストフィルタにおいて使用される前記ピッチパラメータが、現在のフレームと先行フレーム及び後続フレームの少なくともいずれか一方との間のオーディオ特性の変化の有意性の基準に依存して、前記後続フレームの前記ピッチパラメータに基づいて適応化されるように構成されることを特徴とする請求項4又は5記載のデコーダ装置。
  7. 前記オーディオ特性検出器は、音声アクティビティ検出器及び有声音検出器のうちの少なくともいずれか一方であり、前記ポストフィルタは、有声音の開始が検出された場合に前記ピッチポストフィルタにおいて使用されるピッチパラメータを前記後続フレームのピッチパラメータに基づくものとするように構成されることを特徴とする請求項6に記載のデコーダ装置。
  8. 前記ポストフィルタ(30;30A,30B)は、前記後続フレームの復号化信号にもアクセスするように構成されることを特徴とする請求項1乃至7のいずれか1項に記載のデコーダ装置。
  9. 前記デコーダ(20)は、スケーラブルデコーダ(120)又はスケーラブルデコーダの一部であり、前記スケーラブルデコーダの2次デコーダ(25)は、前記スケーラブルデコーダの1次デコーダ(21)よりも高遅延であることを特徴とする請求項1乃至8のいずれか1項に記載のデコーダ装置。
  10. スケーラブルデコーダ(120)と、請求項7に記載の少なくとも2つのデコーダ装置とを有することを特徴とするデコーダ装置。
  11. フレームごとに符号化信号のパラメータを受信する受信ステップ(210)と、
    前記パラメータを復号化して復号化オーディオ信号を得る復号化ステップ(212)と、を有し、
    前記受信ステップ及び前記復号化ステップの少なくともいずれか一方は、第1のフレームのパラメータが受信後に利用可能になった時と前記第1のフレームの復号化オーディオ信号が復号化後に利用可能になる時との間に少なくとも1つのフレームに対応する時間差を生じさせ、
    更に、
    各後続フレームの前記パラメータに応じて前記復号化オーディオ信号のフレームをポストフィルタリングして出力信号を得るポストフィルタリングステップ(214)と、
    前記出力信号を出力する出力ステップ(216)と、
    を有することを特徴とする復号化方法。
  12. 各時点において連続する少なくとも2つのフレームのパラメータを記憶する記憶ステップを更に有し、前記復号化ステップは、第1のフレームのパラメータを使用して実行され、前記ポストフィルタリングは後続する第2のフレームのパラメータにアクセスして実行されることを特徴とする請求項11に記載の復号化方法。
  13. 前記ポストフィルタリングステップを実行する前に前記復号化オーディオ信号のフレームを遅延させるステップを更に有することを特徴とする請求項11に記載の復号化方法。
  14. 前記ポストフィルタリングステップ(214)はピッチポストフィルタリングを行うステップを含み、前記ピッチポストフィルタリングにおいて使用されるピッチパラメータは、前記後続フレームのピッチパラメータに基づくものであることを特徴とする請求項11乃至13のいずれか1項に記載の復号化方法。
  15. 前記ポストフィルタリングステップ(214)における前記ピッチポストフィルタリングは、
    後続のサブフレームごとに、当該後続のサブフレームのピッチ値を差し引いた時間インデックスの値を求めるステップ(224)と、
    前記求めた値が現在の時間インデックス以上である場合、前記後続のサブフレームの前記ピッチ値を、現在のフレームのピッチ進みパラメータとして利用するステップ(226)と、
    を含むことを特徴とする請求項14に記載の復号化方法。
  16. 前記フレームごとの符号化信号のオーディオ特性を検出する検出ステップを更に有し、
    前記ポストフィルタリングステップは、前記ピッチパラメータを、現在のフレームと先行フレーム及び後続フレームの少なくともいずれか一方との間のオーディオ特性の変化の有意性の基準に依存して、前記後続フレームの前記ピッチパラメータに基づいて適応化させる
    ことを特徴とする請求項14又は15に記載の復号化方法。
  17. 前記検出ステップは、音声アクティビティ及び有声音の少なくともいずれか一方を検出するステップを含み、前記ポストフィルタリングステップは、有声音の開始が検出された場合にのみ、前記ピッチパラメータを前記後続フレームのピッチパラメータに基づくものとすることを特徴とする請求項16に記載の復号化方法。
  18. 前記ポストフィルタリングステップ(214)は、各後続フレームの復号化信号にも応じて実行されることを特徴とする請求項11乃至17のいずれか1項に記載の復号化方法。
  19. 前記復号化ステップ(212)は、スケーラブルデコーダにおいて復号化を行うステップであり、前記スケーラブルデコーダの2次復号化は、前記スケーラブルデコーダの1次復号化よりも高遅延であることを特徴とする請求項11乃至18のいずれか1項に記載の復号化方法。
  20. 請求項19に記載の少なくとも2つの復号化方法を含むことを特徴とする復号化方法。
JP2009551967A 2007-03-02 2007-12-14 非因果性ポストフィルタ Expired - Fee Related JP5097219B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US89266707P 2007-03-02 2007-03-02
US60/892,667 2007-03-02
PCT/SE2007/051000 WO2008108702A1 (en) 2007-03-02 2007-12-14 Non-causal postfilter

Publications (2)

Publication Number Publication Date
JP2010520505A true JP2010520505A (ja) 2010-06-10
JP5097219B2 JP5097219B2 (ja) 2012-12-12

Family

ID=39738489

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009551967A Expired - Fee Related JP5097219B2 (ja) 2007-03-02 2007-12-14 非因果性ポストフィルタ

Country Status (7)

Country Link
US (1) US8620645B2 (ja)
EP (1) EP2132733B1 (ja)
JP (1) JP5097219B2 (ja)
CN (1) CN101622666B (ja)
AT (1) ATE548728T1 (ja)
ES (1) ES2383365T3 (ja)
WO (1) WO2008108702A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015158689A (ja) * 2010-07-02 2015-09-03 ドルビー・インターナショナル・アーベー 選択的バスポストフィルタ
JP2016513270A (ja) * 2013-01-29 2016-05-12 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 符号化信号を処理する装置および方法、並びに符号化信号を生成するエンコーダおよび方法
JP2016535315A (ja) * 2013-09-12 2016-11-10 ドルビー・インターナショナル・アーベー Qmfベースの処理データの時間整列
JP2017522604A (ja) * 2014-07-28 2017-08-10 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 高調波ポストフィルタを使用してオーディオ信号を処理するための装置および方法

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101770776B (zh) * 2008-12-29 2011-06-08 华为技术有限公司 瞬态信号的编码方法和装置、解码方法和装置及处理***
EP2761616A4 (en) * 2011-10-18 2015-06-24 Ericsson Telefon Ab L M IMPROVED METHOD AND DEVICE FOR AN ADAPTIVE MULTIRATE CODEC
PL3550562T3 (pl) * 2013-02-22 2021-05-31 Telefonaktiebolaget Lm Ericsson (Publ) Sposoby i urządzenia dla zawieszenia DTX w kodowaniu audio
US9967195B1 (en) * 2014-12-09 2018-05-08 Cloud & Stream Gears Llc Iterative autocorrelation function calculation for big data using components
US10313250B1 (en) * 2014-12-09 2019-06-04 Cloud & Stream Gears Llc Incremental autocorrelation calculation for streamed data using components
US10492085B2 (en) * 2016-01-15 2019-11-26 Qualcomm Incorporated Real-time transport protocol congestion control techniques in video telephony

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0282710A (ja) * 1988-09-19 1990-03-23 Nippon Telegr & Teleph Corp <Ntt> 後処理フィルタ
JPH096397A (ja) * 1995-06-20 1997-01-10 Sony Corp 音声信号の再生方法、再生装置及び伝送方法

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2142391C (en) * 1994-03-14 2001-05-29 Juin-Hwey Chen Computational complexity reduction during frame erasure or packet loss
US5544278A (en) * 1994-04-29 1996-08-06 Audio Codes Ltd. Pitch post-filter
US5664055A (en) * 1995-06-07 1997-09-02 Lucent Technologies Inc. CS-ACELP speech compression system with adaptive pitch prediction filter gain based on a measure of periodicity
SE9700772D0 (sv) * 1997-03-03 1997-03-03 Ericsson Telefon Ab L M A high resolution post processing method for a speech decoder
IL120788A (en) * 1997-05-06 2000-07-16 Audiocodes Ltd Systems and methods for encoding and decoding speech for lossy transmission networks
JP3206497B2 (ja) * 1997-06-16 2001-09-10 日本電気株式会社 インデックスによる信号生成型適応符号帳
JP3022462B2 (ja) * 1998-01-13 2000-03-21 興和株式会社 振動波の符号化方法及び復号化方法
FI980132A (fi) * 1998-01-21 1999-07-22 Nokia Mobile Phones Ltd Adaptoituva jälkisuodatin
US7272556B1 (en) * 1998-09-23 2007-09-18 Lucent Technologies Inc. Scalable and embedded codec for speech and audio signals
US6775649B1 (en) * 1999-09-01 2004-08-10 Texas Instruments Incorporated Concealment of frame erasures for speech transmission and storage system and method
US6625226B1 (en) * 1999-12-03 2003-09-23 Allen Gersho Variable bit rate coder, and associated method, for a communication station operable in a communication system
US6687668B2 (en) * 1999-12-31 2004-02-03 C & S Technology Co., Ltd. Method for improvement of G.723.1 processing time and speech quality and for reduction of bit rate in CELP vocoder and CELP vococer using the same
US6850884B2 (en) * 2000-09-15 2005-02-01 Mindspeed Technologies, Inc. Selection of coding parameters based on spectral content of a speech signal
US7319703B2 (en) * 2001-09-04 2008-01-15 Nokia Corporation Method and apparatus for reducing synchronization delay in packet-based voice terminals by resynchronizing during talk spurts
US7512535B2 (en) * 2001-10-03 2009-03-31 Broadcom Corporation Adaptive postfiltering methods and systems for decoding speech
US20040002856A1 (en) * 2002-03-08 2004-01-01 Udaya Bhaskar Multi-rate frequency domain interpolative speech CODEC system
CA2388352A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for frequency-selective pitch enhancement of synthesized speed
US7391812B2 (en) * 2002-07-14 2008-06-24 Apple Inc. Adaptively post filtering encoded video
US7394833B2 (en) * 2003-02-11 2008-07-01 Nokia Corporation Method and apparatus for reducing synchronization delay in packet switched voice terminals using speech decoder modification
US7478040B2 (en) * 2003-10-24 2009-01-13 Broadcom Corporation Method for adaptive filtering
US7987089B2 (en) * 2006-07-31 2011-07-26 Qualcomm Incorporated Systems and methods for modifying a zero pad region of a windowed frame of an audio signal

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0282710A (ja) * 1988-09-19 1990-03-23 Nippon Telegr & Teleph Corp <Ntt> 後処理フィルタ
JPH096397A (ja) * 1995-06-20 1997-01-10 Sony Corp 音声信号の再生方法、再生装置及び伝送方法

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10236010B2 (en) 2010-07-02 2019-03-19 Dolby International Ab Pitch filter for audio signals
US9558753B2 (en) 2010-07-02 2017-01-31 Dolby International Ab Pitch filter for audio signals
JP2015158689A (ja) * 2010-07-02 2015-09-03 ドルビー・インターナショナル・アーベー 選択的バスポストフィルタ
US11996111B2 (en) 2010-07-02 2024-05-28 Dolby International Ab Post filter for audio signals
US11610595B2 (en) 2010-07-02 2023-03-21 Dolby International Ab Post filter for audio signals
US9558754B2 (en) 2010-07-02 2017-01-31 Dolby International Ab Audio encoder and decoder with pitch prediction
US9595270B2 (en) 2010-07-02 2017-03-14 Dolby International Ab Selective post filter
US11183200B2 (en) 2010-07-02 2021-11-23 Dolby International Ab Post filter for audio signals
US9830923B2 (en) 2010-07-02 2017-11-28 Dolby International Ab Selective bass post filter
US9858940B2 (en) 2010-07-02 2018-01-02 Dolby International Ab Pitch filter for audio signals
US10811024B2 (en) 2010-07-02 2020-10-20 Dolby International Ab Post filter for audio signals
US9552824B2 (en) 2010-07-02 2017-01-24 Dolby International Ab Post filter
JP2016513270A (ja) * 2013-01-29 2016-05-12 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 符号化信号を処理する装置および方法、並びに符号化信号を生成するエンコーダおよび方法
JP2016535315A (ja) * 2013-09-12 2016-11-10 ドルビー・インターナショナル・アーベー Qmfベースの処理データの時間整列
US10811023B2 (en) 2013-09-12 2020-10-20 Dolby International Ab Time-alignment of QMF based processing data
JP7490722B2 (ja) 2013-09-12 2024-05-27 ドルビー・インターナショナル・アーベー Qmfベースの処理データの時間整列
US10510355B2 (en) 2013-09-12 2019-12-17 Dolby International Ab Time-alignment of QMF based processing data
US11037580B2 (en) 2014-07-28 2021-06-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for processing an audio signal using a harmonic post-filter
JP2017522604A (ja) * 2014-07-28 2017-08-10 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 高調波ポストフィルタを使用してオーディオ信号を処理するための装置および方法
US10242688B2 (en) 2014-07-28 2019-03-26 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for processing an audio signal using a harmonic post-filter
US11694704B2 (en) 2014-07-28 2023-07-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for processing an audio signal using a harmonic post-filter

Also Published As

Publication number Publication date
EP2132733A1 (en) 2009-12-16
JP5097219B2 (ja) 2012-12-12
WO2008108702A1 (en) 2008-09-12
ES2383365T3 (es) 2012-06-20
CN101622666A (zh) 2010-01-06
ATE548728T1 (de) 2012-03-15
CN101622666B (zh) 2012-08-15
EP2132733A4 (en) 2010-12-15
US8620645B2 (en) 2013-12-31
EP2132733B1 (en) 2012-03-07
US20100063805A1 (en) 2010-03-11

Similar Documents

Publication Publication Date Title
JP5097219B2 (ja) 非因果性ポストフィルタ
JP5009910B2 (ja) レートスケーラブル及び帯域幅スケーラブルオーディオ復号化のレートの切り替えのための方法
RU2469419C2 (ru) Способ и устройство для управления сглаживанием стационарного фонового шума
JP5149198B2 (ja) 音声コーデック内の効率的なフレーム消去隠蔽の方法およびデバイス
US20160240203A1 (en) Audio decoder and method for providing a decoded audio information using an error concealment modifying a time domain excitation signal
CA2483791A1 (en) Method and device for efficient frame erasure concealment in linear predictive based speech codecs
EP2162880A1 (en) Method and device for sound activity detection and sound signal classification
US8457953B2 (en) Method and arrangement for smoothing of stationary background noise
JP5255575B2 (ja) レイヤード・コーデックのためのポストフィルタ
Gibson Speech coding for wireless communications

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101112

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120521

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120802

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120827

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120921

R150 Certificate of patent or registration of utility model

Ref document number: 5097219

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150928

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees