JP2007520748A - 複素値データを用いたオーディオ信号の復号 - Google Patents

複素値データを用いたオーディオ信号の復号 Download PDF

Info

Publication number
JP2007520748A
JP2007520748A JP2006550384A JP2006550384A JP2007520748A JP 2007520748 A JP2007520748 A JP 2007520748A JP 2006550384 A JP2006550384 A JP 2006550384A JP 2006550384 A JP2006550384 A JP 2006550384A JP 2007520748 A JP2007520748 A JP 2007520748A
Authority
JP
Japan
Prior art keywords
decoder
complex
valued
frequency
transform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006550384A
Other languages
English (en)
Inventor
ヘー ペー スハイエルス,エリク
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV, Koninklijke Philips Electronics NV filed Critical Koninklijke Philips NV
Publication of JP2007520748A publication Critical patent/JP2007520748A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

MPEG−1レイヤーIIIデータ信号用であるが、これに限定されないデコーダである。該デコーダは、回復したスペクトル係数を時間領域信号成分に変換する。第2のスペクトル係数を生成するため、エンコーダで使用した順方向変換に対して直交変調された順方向変換を用いて、その時間領域信号成分を変換する。このように、第1と第2のスペクトル係数を、後処理のために補正可能な複素数値スペクトル係数として使用する。好ましい実施形態において、後処理後、奇周波数変調離散フーリエ変換(DFT)を用いて、複素数値周波数成分を時間領域に変換する。

Description

発明の詳細な説明
本発明は、オーディオ信号の符号化に関する。本発明は、具体的には、しかし排他的にではなく、MPEG−1レイヤーIIIデータ信号の復号に関する。
MPEG−1レイヤーIII(一般的にはmp3として知られている)は、広く使用されているオーディオコーデックである。mp3の産業標準規格は、ISO/IEC JTC1/SC29/WG11 MPEG、IS11172−3、情報技術−約1.5Mbit/sまでのデジタル記憶媒体用の動画及び関連するオーディオの符号化、パート3:オーディオ、MPEG−1、1992年に記載されている。この標準規格は国際標準化機構(ISO)(www.iso.ch)から入手可能であり、ここに参照により援用する。
適応オーディオコーディング標準規格(AAC)は、mp3の欠点の一部を補うために作られた。AAC標準規格は、ISO/IEC JTC1/SC29/WG11 MPEG、IS13818−3、情報技術−動画と関連オーディオの一般的符号化、パート3:オーディオ、MPEG−2、1994年に記載されている。これもISOから入手可能である。
各標準規格により規定されたそれぞれのオーディオデコーダは、復号プロセスの一部として、修正離散余弦変換(MDCT)として、符号化データ信号の周波数(すなわちスペクトル)係数、すなわち、スペクトル成分を表す係数を生成する。
各スペクトル係数は、符号化オーディオ信号のそれぞれの周波数成分を表す。イコライザ等の一部のアプリケーションでは、スペクトル係数に後処理を実行して、信号の対応する1つ以上の周波数成分を直接操作できるようにすることが望ましい。しかし、従来のmp3及びAACによる復号では、可能なMDCT係数の後処理は限定されている。これには2つの理由がある。第1に、MDCTは、時間領域エイリアシングキャンセレーション(TDAC)により完全な再構成を達成する、非常にサンプルされラップ(lap)された(典型的には50%のオーバーラップを利用する)変換である。すなわち、信号x(n)を(順方向)MDCTによりX(k)に変換し、X(k)を逆MDCTにより時間領域信号x′(n)に逆変換すると、一般的には、時間領域エイリアシングにより等式x(n)=x′(n)が成り立たない。しかし、信号x′(n)にオーバーラップ加法演算をすると、完全な再構成ができる。よって、単一のフレームのMDCT係数を調節すると、時間領域エイリアシングキャンセレーションが変化し(例えば、減少し)、復号信号中の可聴なアーティファクトが生じる。第2の理由は、MDCTが実数値変換であることであり、このことにより位相調整(すなわち回転)が実際不可能になる。
後処理は、信号のスペクトル成分の実数成分と虚数成分を有する複素表示に対して、実行する方が容易である。コーディングテクノロジー社(www.codingtechnologies.com)により提供されるスペクトラルバンドレプリケーション(SBR)帯域幅拡張ツールは、例えば、mp3プロやAACプラスに応用されているように、複素数値のサブバンド領域表示上で動作する。
図1は、AAC用として提案されたSBRデコーダを示す図である。AAC MDCT係数は、(一般的にはサンプリング周波数の半分の周波数で動作している)フルベースレイヤーデコーダ30で処理され、複数の時間領域サンプルが得られる。時間領域サンプルは、32(または、ベースレイヤーデコーダがフルサンプリング周波数で動作する場合は64)バンド複素指数変調の分析QMF(Quadrature Mirror Filter)バンク32に入力され、複素数値サブバンド領域信号が求められる。この領域信号は処理部34で後処理される。後処理後、複素数値サブバンド領域信号は、64バンド複素指数変調合成QMFバンク36に入力される。この合成QMFバンク36はPCMサンプルを含む出力信号を作る。図1に示したアルゴリズムの不便な点は、ベースレイヤーデコーダに加えて複素指数変調フィルタバンクを使用することである。このフィルタバンクは、計算負荷及びメモリの点でコストがかかる。mp3について提案されているSBRアルゴリズムにも同じ不都合がある。
それゆえ、デコーダをあまり複雑にすることなく、複素数値のスペクトル係数の後処理をサポートするオーディオデコーダが望まれている。
従って、本発明の第1の態様は、デコーダを提供する。該デコーダは、第1の変換手段の積を有する複数のスペクトル係数を受信信号から回復する手段と、前記第1のスペクトル係数を1つ以上の時間領域信号成分に変換する逆変換手段と、前記1つ以上の時間領域信号成分を複数の第2のスペクトル係数に変換する第2の変換手段と、を有し、前記第2の変換手段の変調は対応する変調周波数において前記第1の変換手段の変調と直交し、前記デコーダは、それぞれの第2のスペクトル係数とともに前記1つ以上の第1のスペクトル係数を処理する手段をさらに有することを特徴とするデコーダ。
共通の変調周波数に対応する第1と第2のスペクトル係数は、共に、複素数値スペクトルとして処理され、そのために処理手段による後処理に好適である。
好ましい一実施形態では、前記第1の順方向周波数変換手段と前記第2の順方向周波数変換手段のうち一方は、修正離散余弦変換(MDCT)を含み、他方は修正離散正弦変換(MDST)を含む。このような実施形態では、デコーダはmp3信号の復号に特に好適である。一実施形態において、デコーダは、前記第2のスペクトル係数とそれぞれのエイリアスシングされた第1のスペクトル係数に複素数値エイリアシングリダクションを実行する手段をさらに含み、前記複素数値エイリアシングリダクション手段は、前記エイリアシングされた第1の周波数成分と対応する第2の周波数成分とに複素数値の重みを与えるように構成された1つ以上のアンチエイリアシングバタフライを有する。
好ましい一実施形態では、デコーダは、複数のデータサンプルを生成するために前記複素数値スペクトル係数に1つ以上の複素数値逆周波数変換を実行する手段と、複数の窓データサンプルを生成するために前記データサンプルに1つ以上のタイプの窓関数を適用する手段と、前記窓データサンプルから出力信号を構成する手段と、をさらに含む。好ましくは、前記複素数値逆周波数変換は、奇周波数変調逆離散フーリエ変換(DFT)を有し、より好ましくは、奇時間奇周波数修正逆離散フーリエ変換(ODFT)を有する。
好ましくは、デコーダは、以下の明細書の式[5]と式[6]に従って複素数値スペクトル係数の位相を調整する手段をさらに含む。
好ましい一実施形態では、前記逆変換手段は合成サブバンドフィルタバンクを有し、第2の順方向変換手段は解析サブバンドフィルタバンクを有する。好ましくは、前記第1の変換手段は解析フィルタバンクを有し、前記第1の順方向変換手段と第2の順方向変換手段のうちの一方は余弦変調され、他方は正弦変調される。
本発明の第2の態様によると、データ信号の復号方法が提供される。前記方法は、第1の変換手段の積を含む複数の第1のスペクトル係数を受信信号から回復する段階と、逆変換手段により、前記第1のスペクトル係数を1つ以上の時間領域信号成分に変換する段階と、第2の変換手段により、前記1つ以上の時間領域信号成分を複数の第2のスペクトル係数に変換する段階と、を有し、前記第2の変換手段の変調は対応する変調周波数において前記第1の変換手段の変調と直交し、前記方法は、それぞれの第2のスペクトル係数とともに前記1つ以上の第1のスペクトル係数を処理する段階をさらに有する。
この他の好ましい特徴は、従属項に記載されている。
本技術分野の当業者には、本発明の実施形態に関する以下の説明を読めば、本発明のさらに別の有利な態様が明らかになるであろう。
ここで、添付した図面を参照して、本発明の実施形態を実施例により説明する。
従来のMPEG−1レイヤーIIIエンコーダ(図示せず)は、一般的に、一連の(または1フレーム)1152個のオーディオ入力サンプルを含むPCM入力信号を受け取るように構成されている。入力信号は多相解析フィルタバンクに送られる。この多相解析フィルタバンクは、入力信号を32個の等間隔の重なり合う周波数帯域にフィルタし、32個のダウンサンプルされたサブバンド信号成分を作る。各サブバンド信号成分は36個のサブバンドサンプルを含む。
各サブバンド信号成分に対して、窓(windowed)(順方向)MDCT(修正離散余弦変換)を実行する。いろいろな時間セグメンテーションをするため、4つのタイプの窓を使用する。信号の(準)静的部分に対しては、いわゆる通常窓を使用することができる。一方、信号の非静的部分に対しては、いわゆる短い窓のシーケンスを使用することができる。通常窓から短い窓への切り換える場合、及びその逆の場合に不連続となることを防ぐため、2つのタイプの一時的窓である、いわゆるスタート窓とストップ窓が規定されている。通常窓、スタート窓、ストップ窓の場合、MDCTは36個の入力(すなわち、36サブバンドサンプル)に対して実行され、18出力MDCT係数が作られる。これらは、一般的に周波数ラインと呼ばれる。短い窓の場合、MDCTは12個の入力のセット3つ(three sets of 12 inputs)(すなわち12個のサブバンドサンプルのセット3つ)に対して実行され、6個の出力MDCT係数のセット3つ(three sets of 6 output MDCT coefficients)を作る。576個のMDCT係数のセットは、1グラニュール(granule)である。一般的なmp3フレームに関して、mp3フレームは1152入力サンプルを含むので、符号化プロセスにおいては重なりが生じる結果、2グラニュールが作られる。合計すると、18×32=576MDCT係数、すなわち周波数ラインが、576個のサンプルごとに作られる。
通常窓、スタート窓、ストップ窓の場合、MDCT周波数ラインは、アンチエイリアシングバタフライに送られ、多相フィルタバンクのスペクトル的に重なり合ったフィルタをダウンサンプリングすることにより生じるエイリアシングの効果が小さくなる。最後に、MDCT係数は(ハフマン符号化を用いて)符号化され、量子化され、所定のビットストリームフォーマットの出力信号が生成される。量子化と符号化は、ビットアロケーション部の制御下で実行される。このビットアロケーション部は、一般的には音響心理学に基づくビットアロケーションアルゴリズムを実行する。
図2は、従来のMPEG−1レイヤーIIIデコーダ10を示す簡略化したブロック図であり、本発明の理解に資する構成要素のみを示した。デコーダ10は、所定のmp3ビットストリームフォーマットで入力信号を受け取るように構成されている。復号・逆量子化部12は、ビットストリームを復号(一般的にはハフマン復号)及び逆量子化し、周波数ライン、すなわちMDCT計数を生成する。エンコーダにより生成された576個のMDCT周波数ラインの各セットに対して、576個の周波数ラインが再生される。
周波数ラインは並べ替え部14に送られる。並べ替え部14は、短い窓の場合、各グラニュール内で、周波数ラインを並べ替える(re-order)。通常窓、スタート窓、ストップ窓の場合、周波数ラインはエイリアシングバタフライ16に送られる。このエイリアシングバタフライ16は、エンコーダのアンチエイリアシングバタフライにより実行されたアンチエイリアシング動作の逆動作を実行する。
IMDCT部18は、周波数ラインにIMDCT(逆修正離散余弦変換)を実行し、各々が36個のサブバンドサンプルを含む32個の多相フィルタサブバンド信号成分を生成する。通常窓、スタート窓、ストップ窓のMDCTに対応する周波数ラインについて、IMDCT部18は18個の周波数ラインを入力として受け取り、36個のサブバンド領域サンプルを生成する。短い窓MDCTに対応する周波数ラインについて、IMDCT部18は6周波数ラインのセット3つを入力として受け取り、12個のサブバンド領域サンプルのセット3つを生成する。
窓・重なり−加法部20により、サブバンドサンプルに対して、窓演算と、標準重なり及び加法演算を実行する。どのタイプの窓を使うかの情報は、ビットストリームの関連サイド情報で搬送される。
最後に、サブバンドサンプルは多相合成フィルタバンク22に送られる。このフィルタバンク22は、32倍のアップサンプリングを実行し、PCMサンプルを含む出力信号を生成する。
フィルタバンク22は、高周波帯域を形成するために余弦変調(cosine modulated)されたプロトタイプローパスフィルタを含む。サブバンドフィルタバンクとMDCT/IMDCT部の直列の組み合わせは、ハイブリッドフィルタバンクとして知られている。一部がフィルタバンクで構成され、一部が変換で構成されているからである。IMDCT部18と合成フィルタバンク22は、ハイブリッド合成フィルタバンクを共に有する。ハイブリッドフィルタバンクの使用は、それにより生じる計算上及び実施上の複雑さの観点から、mp3の弱点として認識されている。
上記の通り、MDCT係数は実数値であり(すなわち、虚数部を含まない)、非常にサンプリングされており(critically sampled)、それ自体後処理に適していない。以下に与える本発明の好ましい一実施形態の説明では、デコーダ10と同等の複雑性を有するデコーダを提示する。このデコーダは、復号プロセスの中間段階において、奇変調(oddly-modulated)離散フーリエ変換(DFT)表現に似た複素数値係数を生成する。この複素数値係数は、後処理に好適である。さらに、実数値MDCT係数を複素数値係数に拡張することにより、2倍の有効オーバーサンプリングが得られる。結果として、これらの複素数値係数では、MDCTの場合のように時間領域エイリアシングが問題とはならない。言い換えると、この複素数値変換及びその逆変換により信号x(n)を変換及び逆変換すると、同じ信号x(n)が得られる。
MDCTは次式[1]で定義される:
Figure 2007520748
ここで、nは、従来のmp3デコーダの場合、サブバンドサンプルインデックスを示す時間インデックスである。Nは、変換長さまたはサイズである。kは、周波数インデックスである。x(n)は、従来のmp3デコーダにおいて、サブバンドサンプルを含むサブバンド時間領域信号を含む時間領域信号である。C(k)は、周波数領域MDCTスペクトルである。
式[1]は、次式[2]に示す複素数値変換の実部を表している:
Figure 2007520748
式[2]の複素数値変換は、奇時間(odd-time)奇周波数(odd-frequency)離散フーリエ変換(ODFT)であり、高速フーリエ変換(FFT)の前回転(pre-rotation)及び後回転(post-rotation)(または変調)により効率的に計算できる。修正離散サイン変換(MDST)としてしられる変換が、式[2]の複素数値変換の虚部により得られる。よって、MDSTは次のように表すことができる:
Figure 2007520748
ここで、S(k)は、周波数領域MDSTスペクトルである。
よって、MDCT係数はそれに対応するMDST係数とともに、周波数領域におけるデータ信号の複素数値表示を与える。各MDCT係数は、それぞれの複素数値係数の実部を与え、対応するMDST係数は、虚部を与える。このような複素数値係数は後処理に好適である。MDCTとMDSTは、相互直交変換であり、すなわち、互いに直交する変換であり、一方の変換の周波数インデックスkの変換核は、他方の変換の同じ周波数インデックスkの変換核と直交している。言い換えると、第1の変換(例えば、MDCT)の変換変調核と、同じ変調周波数を有する第2の変換(例えば、MDST)は直交する。
この直交性により、変換のそれぞれの出力を対応する複素数値表示の実部と虚部として使用することができる。一般的に、複素数値周波数(すなわちスペクトル)係数の虚部を生成するために、本発明を実施するデコーダで使用される順方向周波数変換の変調は、その複素数値周波数(すなわちスペクトル)係数の実部を生成するために、そのエンコーダで使用される順方向周波数変換の変調と、対応する周波数において直交する(または、この逆であって、デコーダの順方向周波数変換が複素数値周波数係数の実部を生成し、エンコーダの順方向周波数変換が複素数値周波数係数の虚部を生成する)。以下に説明する本発明の実施形態では、デコーダがmp3データ信号を復号するように構成され、MDCTがエンコーダ(図示せず)で使用され、MDSTが本発明を実施するデコーダで使用されるものと仮定する。しかし、言うまでもなく、別の実施形態では同様に直交する別の変換を使用してもよい。さらに、時間領域から周波数領域に(及びその逆に)データ信号を変換する他の手段、例えば、サブバンド解析及び合成フィルタバンクを使用してもよい。このサブバンド解析及び合成フィルタバンクは、互いに直交するように変調されている。
図3は、本発明の一態様を実施するデコーダ40を示すブロック図である。説明を明瞭にするため、デコーダ40の本発明の理解に役立つ構成要素のみを示した。デコーダ40は、図3の左側に示したように、複数のMDCT係数すなわち周波数ライン上で動作するように構成されている。通常、MDCT係数は、デコーダ40により受けられた入力信号を復号して逆量子化することにより、再生される。例えば、デコーダ40がmp3デコーダを有する場合、入力信号はmp3で符号化されたビットストリームを含み、デコーダ40は、復号・逆量子化部と並べ替え部(図2に示したが、図3には示していない)をさらに含む。これらの復号・逆量子化部と並べ替え部は、受け取ったmp3ビットストリームを再生して並べ替え(re-order)、MDCT係数を生成する。以下の説明では、例として、デコーダ40はmp3信号を復号するように構成されていると仮定する。
サブバンド領域サンプルを求めるため、MDCT係数をIMDCTにより変換する。mp3復号の場合、これは従来のmp3デコーダ10により使用されていたのと同様に達成できる。よって、好ましい実施形態では、デコーダ40は、エイリアシング部、またはエイリアシングバタフライ42、及びIMDCT部44を含む。これらはそれぞれ、従来のデコーダ10のエイリアシングバタフライ16とIMDCT部18と同様である。
IMDCT部44は、サブバンドサンプルを含む複数のサブバンド領域信号成分を生成する。窓及び重なり−加法部46により、従来の窓及び重なり−加法演算をサブバンドサンプルに実行する。この窓及び重なり−加法部46は、好ましい実施形態では、従来のデコーダ10の窓及び重なり−加法部20と類似している。
複素数値係数を生成するために、デコーダ40は係数の虚部を生成しなければならない。式[3]を参照して説明したように、これは、サブバンド領域信号成分にMDSTを実行することにより達成することができる。サブバンド信号成分は、重なり−加法演算後に、周波数領域に変換し戻す準備ができており、MDST部48に送られる。
各サブバンド領域信号成分に関して、MDST部48は窓(順方向)MDSTを実行する。通常窓、スタート窓、ストップ窓の場合、MDSTは36個の入力(すなわち、36サブバンドサンプル)に対して実行され、18出力MDST係数、すなわち周波数ラインが生成される。短い窓の場合、MDSTは12個の入力のセット3つ(three sets of 12 inputs)(すなわち12個のサブバンドサンプルのセット3つ)に対して実行され、6個の出力MDST係数のセット3つ(three sets of 6 output MDCT coefficients)を作る。
MDST係数にアンチエイリアシングを実行することが好ましい。よって、デコーダ40は、好ましくはアンチエイリアシング部50またはアンチエイリアシングバタフライを含む。通常、アンチエイリアシングは、通常窓、スタート窓、またはストップ窓と関連するデータに関してのみ実行される。アンチエイリアシングバタフライ50は、一般的には、計算の一部が無効であることを除けば、mp3標準規格に記載されているアンチエイリアシングバタフライと同様である。具体的に、mp3標準規格を参照して同じ記法を用いて、MDCT係数のアンチエイリアシングバタフライで使用する場合、ベクトルcは次のように定義される:
c=[-0.6,-0.535,-0.33,-0.185,-0.095,-0.041,-0.0142,-0.0037]
これから、さらに別の2つのベクトルcaとcsを次のように計算する:
Figure 2007520748
MDST係数にアンチエイリアシングを実行する時、ベクトルcaは反転される、すなわち−1倍される。さもないと、アンチエイリアシングバタフライ50はmp3標準規格に従って動作する。
よって、図3において破線A−A′で表した復号段階において、デコーダ40は複素数値係数を利用することができる。各係数の虚部はそれぞれのMDST係数により求められ、その係数の実部は対応するMDCT係数により求められる。各MDST係数の生成をそれぞれのMDCT係数と同期するため、MDCT係数は遅延要素52により遅延されることが好ましい。遅延量は、MDST係数を生成するのに必要な処理遅延に応じる。その処理遅延は、重なり−加法演算を実行するために必要な遅延により主に決定される。デコーダ40は、各グラニュールの各MDCT係数のそれぞれの複素数値係数を生成する。
複素数値係数は後処理に好適であり、このため、1つ以上の複素数値係数を望むように調節する処理部56がデコーダ中に設けられる。複素数値係数は周波数領域成分であるから、後処理は、有利にも、符号化された信号の1つ以上の周波数成分に直接実行されてもよい。
デコーダ40は、後処理された複素数値係数から、本例では、PCM信号を含む時間領域出力信号を生成することも要する。このため、複素数値係数の形式は、DFTにより生成された係数の形式と同様であることが分かる。さらに、(エンコーダとデコーダの両方における)アンチエイリアシングと組み合わせた(エンコーダとデコーダの両方における)全周波数分析により得られる係数は、各サブバンド信号に対する複素数値変換の組みよりも、単一の複素数値変換により得られた係数に非常によく一致する。それゆえ、複素数値係数に逆ODFTを実行することにより時間領域出力信号を生成することができると思われる。これから、デコーダ40においてサブバンドフィルタバンクの使用が不要となる。
しかし、出力信号における知覚可能なアーティファクトを減らすため、複素数値係数の前処理を実行して、各サブバンド信号のODFTではなく、単一のODFTで求めたように、ODFT係数により近くすることが好ましい。これに関して、デコーダ40により生成された複素数値係数と真のODFT係数の間の主な相違点は以下の通りである:1)エイリアシングは、エンコーダのアンチエイリアシングバタフライ50によるアンチエイリアシングにより大幅に減少するが、複素数値係数にはまだあり;
2)従来のmp3エンコーダの(多相)フィルタバンクによる位相回転。
残りのエイリアシングは大きくなく、許容可能である。しかし、多相フィルタによる位相回転は、各複素数値係数に位相回転、すなわちシフトを適用することにより、補正することができる。ハイブリッドmp3フィルタバンクとODFTの両方のそれぞれの位相特性は、実質的に線形であり、それゆえ線形関数で表すことができる。mp3フィルタバンクを奇サブバンド(odd sub-bands)への周波数反転の適用と組み合わせると、交代サブバンド(すなわち、180°すなわちπのフェイズシフトの導入)も不要となる。よって、mp3または類似のフィルタバンクの振る舞いを補正するために複素数値係数が必要とするフェイズシフトψcompは、次式[5]で近似することができる:
Figure 2007520748
ここで、aとbは定数であり、kは1グラニュールの576係数に対応するインデックスである。ak+bの項は、プロトタイプフィルタ及び適用された余弦変調の両方の線形位相特性と関連する線形位相シフトであり、πmod([k/18],2)の項は、(通常のmp3構成を仮定して)交代サブバンドに対応する係数を不要にするよう機能する。aとbの値は、ODFTの出力、及びハイブリッド複素数値拡張MPEG−1解析フィルタバンクの出力において、任意の入力信号の位相特性を測定することにより決定される。複数の入力信号、またはフレームのそれぞれの位相特性を解析することにより、aとbの値を最適化することができる。
多相フィルタ補正を単純な回転として複素数値係数に適用することができる:
Figure 2007520748
ここで、P(k)は補償されていない複素数値係数であり、Pcorr(k)は補償、すなわち補正された複素数値係数である(図3のA−A′の段階で入手可能である)。
図3において、デコーダ40は、式[6]の位相補正を実行する位相補償部54、すなわち多相フィルタ補正部を含む。位相補償部54は、処理部56に補償された複素数値係数Pcorr(k)を送る。
(適宜)後処理の後、複素数値係数を時間領域に変換する準備ができる。上記の通り、これは、各グラニュールと関連する複素数値係数に1つ以上の逆ODFTを実行することにより従来達成されてきた。このため、デコーダ40は、複素数値係数に1つ以上のODFTを実行することを条件に、逆ODFT部58を更に含む。好ましい実施形態では、逆ODFT部58は、より小さい一連の逆ODFTを複素数値係数が関連するサブバンドに従ってその複素数値係数に適用するよりも、グラニュール全体のそれぞれの複素数値係数に一度に作用するように構成されていることが分かる。よって、逆ODFT部58は、(通常窓、スタート窓、またはストップ窓を要する時、)1つのグラニュールと関連するすべての複素数値係数に単一の逆ODFTか、あるいは、(短い窓を要する時、)そのグラニュールと関連する全ての複素数値係数の対応する数の部分に複数の逆ODFTを実行する。1グラニュールが576周波数ラインを含むmp3ビットストリームの場合、逆ODFT部58は、通常窓、スタート窓、またはストップ窓についてグラニュール全体に単一の逆ODFTを実行し、その結果1152個の時間領域サンプルを生成する。また、192個の複素数値係数のサブセット3つのうちそれぞれに3回の逆ODFTを実行し、その結果384個の時間領域サンプルのシーケンスすなわちセットを3つ生成する。逆ODFT部58の出力は、複数(この例では1152個)の回復された信号成分すなわちサンプルを含む。この信号成分はPCM出力信号を構成するために使用される。
PCM出力信号を構成するために、逆ODFT部58により生成された信号サンプルに窓及び重なり−加法動作を実行する。よって、デコーダ40は窓部60と重なり−加法部62をさらに含む。これらの動作は以下により詳しく説明する。
窓及び重なり−加算部60、62を用いたPCM出力信号の構成をよりよく理解するため、従来のmp3窓(windowing)をここでより詳しく説明する。mp3では、異なる4つの窓タイプ(及びそれに伴う長さ)が規定されている。すなわち、「通常」、「スタート」、「短い」、及び「ストップ」である。データ部分の特性を適合させるため、特定のタイプの窓または異なるタイプの窓のシーケンスを選択する。例えば、短い窓は、通常、オーディオ信号中の遷移に対応するデータ部分に適用される。与えられたデータフレームと関連するサイド情報には、そのグラニュール(granule)にどの窓タイプを使用すべきかが示されている。必要な窓タイプは、MDCT(及び逆MDCT)の長さ(またはサイズ)と窓/重なり−加算動作の長さ(またはサイズ)の両方に影響する。
mp3の場合、窓関数z(n)は以下のように表される:
通常窓タイプの場合(タイプ0):
Figure 2007520748
スタート窓タイプの場合(タイプ1):
Figure 2007520748
短い窓タイプの場合(タイプ2)、3つの短い窓が同時に符号化される:
Figure 2007520748
ストップ窓タイプの場合(タイプ3):
Figure 2007520748
式[7]、[8]、[9]、[10]の窓関数の各々は、2つ以上の窓の適用を含むこともあるが、通常は単一窓関数とみなされる。関数[7]、[8]、及び[10]から、窓の長さは36(すなわち、36ポイントの窓)であり、インデックスnは0と35の間にわたることが分かる。関数[9]の場合、3つの短い12ポイント窓を合わせた長さは36であり、よって、p=0から2について、nは0と11の間にわたる。このように、各窓タイプの全体的長さは、サブバンド信号成分のサイズ(36サブバンドサンプル)と一致する。
逆ODFT部58を伴う窓及び重なり−加算部60、62によるPCM出力信号の構成をここで説明する。以下の例では、元のPCM信号は1152オーディオサンプルのフレームを有し、各フレームは576周波数ライン(すなわちMDCT係数)のグラニュール2つに効果的に変換される。よって、逆ODFT部58は、576個の複素数値係数のグラニュールに作用し、1152サンプルを含む信号を生成する。この信号は窓及び重なり−加算部60、62に送られる。逆ODFT部58により生成された信号サンプルのそれぞれの実部のみが窓部60に送られることが分かる。
複素数値係数のl(アルファベットLの小文字)番目のセットすなわちグラニュールをX(k)とする。ここでk=0...575である。図3を参照して、X(k)は、(処理部56による後処理後の)補正された複素数値係数Pcorr(k)のそれぞれのセットすなわちグラニュールからなる。複素数値係数のl番目のセット(lは0から始まる)を復号した後、窓及び重なり−加算部60、62により生成された出力信号は、(重なり−加算を用いて)次のように表せる:
Figure 2007520748
ここで、インデックスn=0...1151であり、y(n)はl番目のセットを復号した後の出力信号であり、x(n)は複素数値係数X(k)を(逆ODFTにより)変換した結果の信号の実部である。出力信号y(n)は、すべてのnに対して初期化される。
信号x(n)の生成は、以下の対応する指定された窓タイプに応じる。l番目のセットの窓タイプが0、1、または3である場合、逆ODFT部58は、入力長さが576で出力長さが1152である(すなわち、それぞれのグラニュールと関連するすべての複素数値係数に対し単一の「長い」逆ODFT)逆ODFTの実部を含む一時的信号xtmp(n)を生成する。適当な変換を式[12]に示す:
Figure 2007520748
ここで、n=0...N−1であり、変換長N=1152である。
l(アルファベットLの小文字)番目のセットの窓タイプが2(すなわち、「短い窓」)である場合、逆ODFT部58は、192複素数値係数の3つのセットにそれぞれ逆ODFTを実行し、式[13]に示したように、384ポイントずつの3つの一時的信号xtmp,0(n)、xtmp,1(n)、及びxtmp,2(n)を生成する:
Figure 2007520748
ここで、インデックスp=0...2であり、n=0...N−1であり、N=384であり、X(k)は周波数でソーティングする前にpに従ってソーティングされる。
窓及び重なり−加算部60、62に有効に送られるのは、一時的信号xtmp(n)、xtmp,p(n)である。
l番目のセットの窓タイプが0であるとき、信号x(n)が窓部60により計算される:
Figure 2007520748
ここで、式[14]中の分母1152は、逆ODFT変換長Nに一致する。
l番目のセットの窓タイプが1であるとき、信号x(n)が窓部60により計算される:
Figure 2007520748
l(アルファベットLの小文字)番目の窓タイプが2であるとき、窓部60は、まず3つの一時的信号を計算することにより、信号x(n)を計算する:
Figure 2007520748
ここで、式[16]中の分母384は、逆ODFT変換長Nに一致する。
信号x(n)は次のように構成される:
Figure 2007520748
l番目のセットの窓タイプが3であるとき、窓部60は信号x(n)を次のように計算する:
Figure 2007520748
ここで、分母1152は逆ODFT変換長Nに一致し、分母384はN/3に一致する。
式[14]、[15]、[16]及び[18]は一般的な次のタイプであることが分かる:
Figure 2007520748
ここで、x(n)は窓信号(windowed signal)であり、xtmp(n)は非窓信号(unwindowed signal)であり、z(n)は窓関数である。式[14]、[15]、[16]、及び[18]の窓関数z(n)は、一般的には、式[7]、[8]、[9]、及び[10]で説明した窓関数z(n)と同様である。しかし、式[14]、[15]、[16]、及び[18]の窓関数z(n)のそれぞれの窓長は、それぞれの変換長Nに応じて長くなり、それぞれの分母は対応して大きくなっている。式[14]、[15]、[16]、[18]の窓関数z(n)は、それぞれ式[7]、[8]、[9]、[10]の窓関数z(n)をアップサンプリングしたもの(アップサンプリングの程度はそれぞれの変換長/窓長Nに応じて決まる)であるということができる。式[14]、[15]、[16]、[18]の窓関数は、2つ以上の窓の適用を含むが、それぞれ単一の窓関数を含んでいる。
以上の説明からいうまでもなく、デコーダ40により、複素数値係数を生成することにより、復号の中間段階において符号化信号の後処理が可能となる。有利にも、複素数値係数は符号化信号の周波数またはスペクトル成分を表すので、周波数ベースの後処理を直接実行することができる。さらに、デコーダ40は、従来のmp3デコーダ10よりも複素数値化されており、合成フィルタバンクを必要としない。また、デコーダ40は、ODFT表示が2倍オーバーサンプリングされているので、時間領域のエイリアシングは問題とならない。
以上の実施形態では、複素数値係数に1つ以上のDFTを適用した。別の実施形態では、別の変換を使用してもよい。例えば、エンコーダにおいて奇周波数変調変換、例えば、奇周波数変調離散余弦変換(DCT)、すなわちDCTタイプIVを使用した場合、デコーダでは対応する奇周波数変調変換、例えば、奇周波数変調DFTが使用される。よって、デコーダ40では、奇周波数変調逆離散フーリエ変換を逆ODFTの替わりに使用してもよい。特に式[12]、[13]を参照して、奇周波数変調すなわち回転は(k+1/2)の項により表されている。ここで、1/2は、サンプルの半分だけ周波数領域で変換サンプリングをシフトする。奇周波数変調離散フーリエ変換は次のように定義される:
Figure 2007520748
ここで、φは任意の値をとる。
奇周波数変調変換を用いることは本質的なことではない。例えば、デコーダで同様の変調逆変換を用いることを条件として、エンコーダで偶周波数変調変換(例えば、DCTタイプI変換)を使用してもよい。エンコーダとデコーダで同等の変調核を使用する条件で、他の周波数変調(核)を使用してもよい。
別の実施形態(図示せず)において、逆ODFT部は、一度にグラニュール全体のそれぞれの複素数値係数に作用するのではなく、関連するサブバンドに応じて、より小さな一連の逆ODFTを複素数値係数に適用するように構成されている。よって、mp3係数の場合、逆ODFT部は、それぞれ36サブバンドサンプルを含む32個の複素数値サブバンド領域信号成分を生成する。複素数値係数が通常窓、スタート窓、またはストップ窓に対応する場合、逆ODFT部は18個の複素数値係数を取り、36個の複素数値サブバンド領域サンプルを生成する。複素数値係数が短い窓に対応する場合、逆ODFT部は6個の複素数値係数のセット3つを入力として取り、12個の複素数値サブバンド領域サンプルのセット3つを生成する。このような実施形態では、後処理部と逆ODFT部の間に、複素数値係数にエイリアシングを実行するエイリアシング部を含め、アンチエイリアシング部50とエンコーダのアンチエイリアシングにより生じたアンチエイリアシングに対抗する、または実質的に対抗することが好ましい。逆ODFT部の後、複素指数変調合成フィルタバンクに複素数値サブバンドサンプルを送る。この合成フィルタバンクの実数値出力成分のみを使用して、デコーダの出力信号を供給する。例により、従来の余弦変調フィルタバンクと同様の式であって、余弦関数を同等の複素指数関数で置き換えた式を用いて、複素指数変調合成フィルタバンクを実施してもよい。さらに、実数値出力のみを使用するので、オプションとして、複素数値サブバンドサンプルの実数値部分に従来の余弦変調フィルタバンクを使い、その複素数値サブバンドサンプルの虚部に対応する(余弦変調フィルタバンクと同じ式を使用するが、余弦変調が正弦変調と置き換えられた)正弦変調フィルタバンクを用いることもできる。
図3のデコーダ40において、アンチエイリアシング部50は、一般的には従来のアンチエイリアシングバタフライである従来のアンチエイリアシング手段を含んでもよい。このようなバタフライは、係数に重みつけする実数値を用いて、重みつけするこのようなアンチエイリアシングバタフライの例は、米国特許公報第5,559,834号(Edler)と、B.Edler「デシメーションによるカスケードフィルタバンクのサブバンド中のエイリアシングリダクション」(Electronics Letters, Vol. 28, No. 12, pp. 1104-1106, 4th June 1992)に記載されている。このようなバタフライは、多相フィルタバンクのクリティカルなダウンサンプリングにより生じるエイリアシングを減らす。
例示により、図4は、アップサンプリング後の、ダウンサンプリングされた多相フィルタバンクの第1と第2の隣接するサブバンドフィルタ(図示せず)の模式化した応答R1、R2を示している。例えば、サブバンドフィルタと関連するそれぞれのサブバンド信号にMDCTを適用することにより得られた値AとBを有する2つのスペクトル成分も示されている。エイリアシングの結果として、値Aを有するスペクトル成分に対応する周波数に、値qBを有する追加的スペクトル成分があり、値Bを有するスペクトル成分に対応する周波数に値rAを有する追加的スペクトルがあることが分かる。よって、ダウンサンプリングにより、値Aを有するスペクトル成分に対応する周波数のスペクトル成分の値はA+qBで与えられ、値Bを有するスペクトル成分に対応する周波数のスペクトル成分の値はB+rAで与えられる。qとrの値は、それぞれ値BとAを有するスペクトル成分の周波数におけるサブバンドフィルタのトランスファー関数により決まる。値AとBを有するスペクトル成分の実際の値は、次のように計算できる:
Figure 2007520748
ここで、A、A′、B、B′はそれぞれのスペクトル成分値、すなわち大きさを表す。式[20]は、図5に示すように、アンチエイリアシングバタフライとして概略的に表される。従来、rとqの値は実数値である(すなわち、複素数値成分は有さない)。
スペクトル成分(例えば、図4のA+qB)と対応する鏡映スペクトル成分(例えば、図4のB+rA)との間の位相差が約180°(すなわちπ)である場合、またはその倍数である場合、実数値を使用することにより、アンチエイリアシングバタフライは、スペクトル係数の大きさへのエイリアシングの効果を補償することができる。結果として、実数値アンチエイリアシングバタフライは、通常窓、スタート窓、またはストップ窓が指定された(解析フィルタバンクのサブバンド領域サンプルから得られる)MDCTまたはMDST係数を処理するために、特に好適である。しかし、短い窓が指定された場合、鏡映スペクトル成分間の位相差は、サブバンドの境界付近のnの倍数で適当に近似できない。よって、通常窓、スタート窓、及びストップ窓が適用される場合には、従来のアンチエイリアシング部50のみが有用である。このように、mp3標準規格においては、アンチエイリアシングはこれらタイプの窓にのみ適用される。
ここで、複素数値アンチエイリアシングバタフライを用いることにより上記の問題を軽減する、本発明の別の実施形態を図6を参照して説明する。図6は、複素数値アンチエイリアシングバタフライをしようするデコーダ140を示すブロック図である。ここで図6を参照して、デコーダ140は一般的にデコーダ40と同様であり、同じ構成要素は同じ数字で示した。しかし、デコーダ140は、複素数値係数に複素数値の重み、すなわち乗数をかけることにより、複素数値係数にアンチエイリアシングを実行するように構成された複素数値アンチエイリアシング部170を含む。アンチエイリアシング部170は、重みすなわち乗数rとqの値が複素数値である、図4に示した一般的なタイプのアンチエイリアシングバタフライを有していてもよい。複素数値アンチエイリアシング部170に供給される核複素数値係数の実部は、遅延部152により適当に遅延されたそれぞれのMDCT係数を有し、その複素数値係数の虚部は、MDST部148により供給される対応するMDST係数すなわち直角位相(quadrature)成分を有する。デコーダ40とは逆に、(便利にも、エイリアシング部142により)複素数値係数の実部を供給するために実質的に使用される従来のエイリアシングがMDCT係数に実行される。
複素数値係数に複素数値アンチエイリアシングを実行した後、位相差フィルタ補正部154に送られる。係数のこれ以降の処理は、図3を参照して説明した通りである。
重みrとqに好適な複素数値は実験的に決めてもよい。例えば、rとqを最初に推定するため、各MDCT周波数ビンに関して、mp3エンコーダでよくあるタイプの(すなわち、多相解析フィルタバンクと、解析フィルタバンクにより生成されたサブバンド信号にMDCTを実行する手段を有する)従来のmp3ハイブリッドフィルタバンク(図示せず)に、既知の振幅のシヌソイド信号を供給する。各シヌソイド信号の周波数は、それぞれのMDCT周波数ビンの中心周波数として選択される。通常窓、スタート窓、ストップ窓の場合、中心周波数は次のように計算できる:
Figure 2007520748
ここで、k=0...575であり、fはサンプリング周波数であり、分母1152は変換長Nと一致している。よって、式[21]から576個の周波数を計算して、各MDCTビンに対して1つの周波数を求める。
短い窓タイプの場合、中心周波数は次のように計算できる:
Figure 2007520748
ここで、k=0...191であり、fはサンプリング周波数であり、分母384は変換長Nと一致している。よって、式[22]から192個の周波数を計算して、各MDCTビンに対して1つの周波数を求める。
ハイブリッドフィルタバンクにより生成されるそれぞれのMDCT係数すなわち周波数ラインは、その後、例えば図3に示したIMDCT部144、重なり−加法部146、及びMDST部148を用いて処理され、対応するMDST係数が生成される。よって、各シヌソイド信号に対して、それぞれの複素数値係数が得られる。各シヌソイドの周波数成分は1つだけなので、各シヌソイドに対して2つだけの複素数値係数が生成される。一方はそれぞれのシヌソイド自体を表し(すなわち、周波数と振幅でそれぞれのシヌソイドに対応する)、他方はフィルタバンクにより生じたエイリアシングの結果として出てきた鏡映成分を表す。シヌソイド成分の振幅をAとすると、鏡映成分の振幅はrAである。Aは既知なので、rを容易に計算することができる。重みqは同様に計算することができる。このプロセスを各シヌソイドに対して繰り返し、鏡映周波数帯域の各セットに対してrとqのそれぞれの値を求める。式[21]と[22]から、rとqの値は窓タイプによっても変化することが分かる。従来の非線形最適化アルゴリズムを用いて、上で計算したrとqの値を最適化することが好ましい。
本発明はMPEG−1レイヤーIIIデータ信号やMDCTに限定されるものではない。これに関して、「グラニュール(granule)」という用語は基本的にはmp3の用語であるが、当業者は、mp3以外の実施形態において、ここで使用した「グラニュール」という用語を等価な周波数ラインすなわち係数のグループ化として解釈することが容易にできるであろう(一般的には、「フレーム」という用語が「グラニュール」と等価である)。
さらに別の例により、図8は、本発明のさらに別の態様を実施する、MPEG−1レイヤーIまたはレイヤーIIのデコーダ240を示すブロック図である。背景として、図7は、MPEG−1レイヤーI/IIデコーダを示す、簡略化したブロック図であり、該デコーダは、受信したMPEG−1レイヤーI/IIビットストリームに含まれるスペクトル値を復号して32個のサブバンド信号を生成する構成要素130を有する。サブバンド信号は合成サブバンドフィルタバンクを有136に送られる。この合成サブバンドフィルタバンク136は、対応する時間領域オーディオ出力信号x(n)を生成する。
図8において、デコーダ240は、受信したデータ信号、すなわちMPEG−1レイヤーI/IIビットストリームを含むスペクトル値を復号して、複数のサブバンド信号またはサブバンド信号成分を生成する構成要素またはモジュール212を含む。受信したデータ信号がMPEG−1レイヤーI/IIビットストリームを含む場合、各フレームに対して32個のサブバンド信号が生成される。サブバンド信号は合成サブバンドフィルタバンク236に送られる。この合成サブバンドフィルタバンク236は、複数のデータサンプルを有する対応する時間領域信号x(n)を生成する。受信データ信号がMPEG−1レイヤーI/IIビットストリームを含む場合、フィルタバンク236は、32バンド余弦変調合成フィルタバンクを有する。時間領域信号x(n)は、次に解析サブバンドフィルタバンク237に送られる。この解析サブバンドフィルタバンク237は、複数のサブバンド信号または信号成分を生成する。受信データ信号がMPEG−1レイヤーI/IIビットストリームを含む場合、フィルタバンク237は、32バンドフィルタバンクを有し、各フレームに対して32個のサブバンド信号を生成する。さらに、解析フィルタバンク237の変調は、合成フィルタバンク236の変調と直交する。よって、受信データ信号がMPEG−1レイヤーI/IIビットストリームを含む場合、解析フィルタバンク237は、正弦変調フィルタバンクを有する。結果として、解析フィルタバンク237により生成される各サブバンド信号を複素数値サブバンド信号の虚部として使用することができる。対応する実部は、デコーダ212により生成された対応するサブバンド信号により供給される。
複素数値サブバンド信号は、時間領域に変換する前に、処理または調節しやすい。よって、デコーダ240は、必要に応じて、1つ以上の複素数値サブバンド信号を調節する処理部256をさらに含んでいる。複素数値サブバンド信号は周波数領域成分であるから、後処理は、有利にも、符号化された信号の1つ以上の周波数成分に直接実行されてもよい。
複素数値サブバンド信号は、複素指数変調サブバンド係数を有し、複素指数変調合成フィルタバンク239を用いて時間領域に変換できる。この合成フィルタバンク239の実数値出力成分のみが必要となる(図8にデータ信号x′(n)として示した)。
さらに、一般的に、本発明はここに説明した実施形態に限定されず、これらの実施形態は、本発明の範囲から逸脱することなく修正または変更することができる。
従来のスペクトラルバンドレプリケーション(SBR)拡張デコーダを示すブロック図である。 従来のMPEG−1レイヤーIIIデコーダを示すブロック図である。 本発明の一態様を実施するデコーダを示す図である。 アップサンプル後のダウンサンプルフィルタバンクの隣接する2つのサブバンドフィルタの応答を模式的に示す図である。 アンチエイリアシングバタフライを示す概略図である。 本発明の一態様を実施するデコーダの別の実施形態を示す図である。 従来のMPEG−1レイヤーI/IIデコーダを示す簡略化したブロック図である。 本発明の一態様を実施するデコーダのさらに別の実施形態を示す図である。

Claims (27)

  1. デコーダであって、
    第1の変換手段の積を有する複数の第1のスペクトル係数を受信信号から回復する手段と、
    前記第1のスペクトル係数を1つ以上の時間領域信号成分に変換する逆変換手段と、
    前記1つ以上の時間領域信号成分を複数の第2のスペクトル係数に変換する第2の変換手段と、を有し、
    前記第2の変換手段の変調は対応する変調周波数において前記第1の変換手段の変調と直交し、
    前記デコーダは、それぞれの第2のスペクトル係数とともに前記1つ以上の第1のスペクトル係数を処理する手段をさらに有することを特徴とするデコーダ。
  2. 請求項1に記載のデコーダであって、
    前記回復する手段は、第1の周波数変換の積を有する第1のスペクトル係数を回復するため、受信したデータ信号を復号して逆量子化する手段を有し、
    前記逆変換手段は、前記時間領域信号成分を生成するために、前記第1のスペクトル係数に1つ以上の逆周波数変換を実行する手段を有し、
    第2の変換手段は、前記第2のスペクトル係数を生成するために、前記時間領域信号成分に1つ以上の第2の順方向周波数変換を実行する手段を有し、
    前記第1の順方向周波数変換は、対応する変調周波数において、前記第2の順方向周波数変換と直交することを特徴とするデコーダ。
  3. 請求項2に記載のデコーダであって、
    前記第1のスペクトル係数は、変換すべきデータサンプルにおいて50%の重なりを使用するクリティカルにサンプルされた順方向周波数変換の出力を含むことを特徴とするデコーダ。
  4. 請求項2または3に記載のデコーダであって、
    前記第1の順方向周波数変換と前記第2の順方向周波数変換のうち一方は、修正離散余弦変換(MDCT)を含み、他方は修正離散正弦変換(MDST)を含むことを特徴とするデコーダ。
  5. 請求項4に記載のデコーダであって、
    前記第1の順方向周波数変換は、修正離散余弦変換(MDCT)を含み、前記逆周波数変換は逆修正離散余弦変換(IMDCT)を含み、前記第2の順方向周波数変換は修正離散正弦変換(MDST)を含むことを特徴とするデコーダ。
  6. 請求項2ないし5いずれか一項に記載のデコーダであって、
    前記1つ以上の第2の順方向周波数変換の前に、前記時間領域信号成分に1つ以上の窓及び重なり−加法動作を実行することを特徴とするデコーダ。
  7. 請求項6に記載のデコーダであって、
    各第1のスペクトル係数がそれぞれ対応する第2のスペクトル係数と同期するように、前記第1のスペクトル係数を遅延させる手段をさらに含むことを特徴とするデコーダ。
  8. 請求項2ないし7いずれか一項に記載のデコーダであって、
    エイリアシングされた第1のスペクトル係数を生成するために前記第1のスペクトル係数にエイリアシングを導入する手段をさらに含み、前記1つ以上の逆周波数変換は前記エイリアシングされた第1のスペクトル係数に実行されることを特徴とするデコーダ。
  9. 請求項8に記載のデコーダであって、
    前記第2のスペクトル係数にエイリアシングリダクションを実行する手段をさらに有することを特徴とするデコーダ。
  10. 請求項8に記載のデコーダであって、
    前記第2のスペクトル係数とそれぞれのエイリアスシングされた第1のスペクトル係数に複素数値エイリアシングリダクションを実行する手段をさらに含み、
    前記複素数値エイリアシングリダクション手段は、前記エイリアシングされた第1の周波数成分と対応する第2の周波数成分とに複素数値の重みを与えるように構成された1つ以上のアンチエイリアシングバタフライを有することを特徴とするデコーダ。
  11. 請求項2ないし10いずれか一項に記載のデコーダであって、
    各第1のスペクトル係数とそれぞれの第2のスペクトル係数は、共に複素数値スペクトル係数を含み、
    デコーダは、複数のデータサンプルを生成するために前記複素数値スペクトル係数に1つ以上の複素数値逆周波数変換を実行する手段と、
    複数の窓データサンプルを生成するために前記データサンプルに1つ以上のタイプの窓関数を適用する手段と、
    前記窓データサンプルから出力信号を構成する手段と、をさらに含むことを特徴とするデコーダ。
  12. 請求項11に記載のデコーダであって、
    前記受信されたデータ信号から回復された第1のスペクトル係数の各グラニュールについてそれぞれの複素数値スペクトル係数のセットが生成され、
    少なくとも第1のタイプの窓関数に関して、前記複素数値逆周波数変換手段は全ての複素数値スペクトル係数のそれぞれのセットに単一の逆周波数変換を実行するように構成されていることを特徴とするデコーダ。
  13. 請求項11に記載のデコーダであって、
    前記出力信号構成手段は、前記出力信号を生成するため、前記窓データサンプルに、1つ以上の重なり−加法動作を適用することを特徴とするデコーダ。
  14. 請求項11ないし13いずれか一項に記載のデコーダであって、
    少なくとも前記第1のタイプの窓関数に関して、前記窓関数適用手段は、複素数値スペクトル係数のそれぞれのセットに関して生成された全てのデータサンプルに、単一の窓関数を適用するように構成されていることを特徴とするデコーダ。
  15. 請求項11ないし14いずれか一項に記載のデコーダであって、
    前記少なくとも第1のタイプの窓関数は、MPEG−1レイヤーIIIタイプ0、タイプ1、及びタイプ3の窓関数の長さを調節したものを含むことを特徴とするデコーダ。
  16. 請求項11ないし15いずれか一項に記載のデコーダであって、
    少なくとも第2のタイプの窓関数に関して、前記複素数値逆周波数変換手段は、複素数値スペクトル係数のそれぞれのサブセットであって1セットの複素数値周波数成分はすべてそのサブセットの1つに属するサブセットに、それぞれの逆周波数変換を実行するように構成されていることを特徴とするデコーダ。
  17. 請求項16に記載のデコーダであって、
    少なくとも前記第2のタイプの窓関数に関して、前記窓関数適用手段は、複素数値スペクトル係数のそれぞれのサブセットに関して生成された全てのデータサンプルに、単一の窓関数を適用するように構成されていることを特徴とするデコーダ。
  18. 請求項16または17に記載のデコーダであって、
    前記少なくとも第2のタイプの窓関数は、MPEG−1レイヤーIIIタイプ2窓関数の長さ調整されたものを含み、各セットの複素数値スペクトル係数は3つのそれぞれのサブセットのうちの1つに属することを特徴とするデコーダ。
  19. 請求項11に記載のデコーダであって、
    複素数値スペクトル係数のそれぞれのセットは、それぞれの周波数サブバンドに関連し、
    少なくとも第1のタイプの窓関数に関して、前記複素数値逆周波数変換手段は各セットの複素数値スペクトル係数にそれぞれの逆周波数変換を実行するように構成され、
    少なくとも第2のタイプの窓関数に関して、前記複素数値逆周波数変換手段は、複素数値スペクトル係数のそれぞれのサブセットであって1セットの複素数値周波数成分はすべてそのサブセットの1つに属するサブセットに、それぞれの逆周波数変換を実行するように構成されていることを特徴とするデコーダ。
  20. 請求項19に記載のデコーダであって、
    前記出力信号構成手段は複素指数変調合成フィルタバンクを有し、その実数値出力成分が前記出力信号を有することを特徴とするデコーダ。
  21. 請求項11ないし20いずれか一項に記載のデコーダであって、
    前記複素数値逆周波数変換は、奇周波数変調(odd-frequency modulated)逆離散フーリエ変換(DFT)を有することを特徴とするデコーダ。
  22. 請求項21に記載のデコーダであって、
    前記複素数値逆周波数変換は、奇時間(odd-time)奇周波数変調(odd-frequency modulated)逆離散フーリエ変換(ODFT)を有することを特徴とするデコーダ。
  23. 請求項11ないし22いずれか一項に記載のデコーダであって、
    明細書の式[5]と式[6]に従って複素数値スペクトル係数の位相を調整する手段をさらに含むことを特徴とするデコーダ。
  24. 請求項1に記載のデコーダであって、
    前記逆変換手段は合成サブバンドフィルタバンクを有し、第2の順方向変換手段は解析サブバンドフィルタバンクを有することを特徴とするデコーダ。
  25. 請求項24に記載のデコーダであって、
    前記第1の変換手段は解析フィルタバンクを有し、前記第1の順方向変換手段と第2の順方向変換手段のうちの一方は余弦変調され、他方は正弦変調されることを特徴とするデコーダ。
  26. 請求項24または25に記載のデコーダであって、
    前記第1と第2のスペクトル係数から時間領域出力信号を生成するように構成された、複素指数変調合成フィルタバンクをさらに有することを特徴とするデコーダ。
  27. データ信号を復号する方法であって、
    前記方法は、第1の変換手段の積を含む複数の第1のスペクトル係数を受信信号から回復する段階と、
    逆変換手段により、前記第1のスペクトル係数を1つ以上の時間領域信号成分に変換する段階と、
    第2の変換手段により、前記1つ以上の時間領域信号成分を複数の第2のスペクトル係数に変換する段階と、を有し、
    前記第2の変換手段の変調は対応する変調周波数において前記第1の変換手段の変調と直交し、
    前記方法は、それぞれの第2のスペクトル係数とともに前記1つ以上の第1のスペクトル係数を処理する段階をさらに有することを特徴とする方法。
JP2006550384A 2004-01-28 2005-01-13 複素値データを用いたオーディオ信号の復号 Pending JP2007520748A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP04100297 2004-01-28
PCT/IB2005/050149 WO2005073959A1 (en) 2004-01-28 2005-01-13 Audio signal decoding using complex-valued data

Publications (1)

Publication Number Publication Date
JP2007520748A true JP2007520748A (ja) 2007-07-26

Family

ID=34814359

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006550384A Pending JP2007520748A (ja) 2004-01-28 2005-01-13 複素値データを用いたオーディオ信号の復号

Country Status (6)

Country Link
US (1) US20080249765A1 (ja)
EP (1) EP1711938A1 (ja)
JP (1) JP2007520748A (ja)
KR (1) KR20070001115A (ja)
CN (1) CN1914669A (ja)
WO (1) WO2005073959A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021039801A (ja) * 2020-12-11 2021-03-11 株式会社東芝 計算装置
JP2021119417A (ja) * 2010-04-09 2021-08-12 ドルビー・インターナショナル・アーベー デコーダシステム、復号方法及びコンピュータプログラム
JP2022093455A (ja) * 2020-12-11 2022-06-23 株式会社東芝 計算装置

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102006047197B3 (de) * 2006-07-31 2008-01-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Verarbeiten eines reellen Subband-Signals zur Reduktion von Aliasing-Effekten
EP4325723A3 (en) 2006-10-25 2024-04-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating time-domain audio samples
KR20080073925A (ko) 2007-02-07 2008-08-12 삼성전자주식회사 파라메트릭 부호화된 오디오 신호를 복호화하는 방법 및장치
KR20080073926A (ko) * 2007-02-07 2008-08-12 삼성전자주식회사 오디오 신호를 복호화하는 장치에서 이퀄라이저를 구현하는방법 및 이를 위한 장치
US8548815B2 (en) * 2007-09-19 2013-10-01 Qualcomm Incorporated Efficient design of MDCT / IMDCT filterbanks for speech and audio coding applications
US8631060B2 (en) 2007-12-13 2014-01-14 Qualcomm Incorporated Fast algorithms for computation of 5-point DCT-II, DCT-IV, and DST-IV, and architectures
EP2347412B1 (en) * 2008-07-18 2012-10-03 Dolby Laboratories Licensing Corporation Method and system for frequency domain postfiltering of encoded audio data in a decoder
CN102132342B (zh) * 2008-07-29 2014-05-28 法国电信 一种通过内插滤波器更新编码器的方法
TWI559680B (zh) 2009-02-18 2016-11-21 杜比國際公司 低延遲調變濾波器組及用以設計該低延遲調變濾波器組之方法
US8392200B2 (en) * 2009-04-14 2013-03-05 Qualcomm Incorporated Low complexity spectral band replication (SBR) filterbanks
JP5299327B2 (ja) * 2010-03-17 2013-09-25 ソニー株式会社 音声処理装置、音声処理方法、およびプログラム
PL3779979T3 (pl) * 2010-04-13 2024-01-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Sposób dekodowania audio do przetwarzania sygnałów audio stereo z wykorzystaniem zmiennego kierunku predykcji
TWI419473B (zh) * 2010-06-01 2013-12-11 Etron Technology Inc 產生時脈資料回復訊號相位鎖住指標的電路及其方法
BR122021003887B1 (pt) 2010-08-12 2021-08-24 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E. V. Reamostrar sinais de saída de codecs de áudio com base em qmf
KR101424372B1 (ko) * 2011-02-14 2014-08-01 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 랩핑 변환을 이용한 정보 신호 표현
PT3239978T (pt) 2011-02-14 2019-04-02 Fraunhofer Ges Forschung Codificação e descodificação de posições de pulso de faixas de um sinal de áudio
PL2676268T3 (pl) 2011-02-14 2015-05-29 Fraunhofer Ges Forschung Urządzenie i sposób przetwarzania zdekodowanego sygnału audio w domenie widmowej
AR085794A1 (es) 2011-02-14 2013-10-30 Fraunhofer Ges Forschung Prediccion lineal basada en esquema de codificacion utilizando conformacion de ruido de dominio espectral
PT2676270T (pt) 2011-02-14 2017-05-02 Fraunhofer Ges Forschung Codificação de uma parte de um sinal de áudio utilizando uma deteção de transiente e um resultado de qualidade
JP5762620B2 (ja) 2011-03-28 2015-08-12 ドルビー ラボラトリーズ ライセンシング コーポレイション 低周波数エフェクトチャネルのための複雑さが低減された変換
CN103918029B (zh) 2011-11-11 2016-01-20 杜比国际公司 使用过采样谱带复制的上采样
TWI575962B (zh) * 2012-02-24 2017-03-21 杜比國際公司 部份複數處理之重疊濾波器組中的低延遲實數至複數轉換
EP2950308B1 (en) * 2013-01-22 2020-02-19 Panasonic Corporation Bandwidth expansion parameter-generator, encoder, decoder, bandwidth expansion parameter-generating method, encoding method, and decoding method
CN105378835B (zh) 2013-02-20 2019-10-01 弗劳恩霍夫应用研究促进协会 使用依赖瞬态位置的重叠对音频信号编码或译码的设备及方法
WO2014145244A1 (en) 2013-03-15 2014-09-18 Olive Medical Corporation Comprehensive fixed pattern noise cancellation
GB2514595B (en) * 2013-05-30 2017-10-18 Imp Innovations Ltd Method and apparatus for estimating frequency domain representation of signals
EP2916319A1 (en) * 2014-03-07 2015-09-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for encoding of information
US9667292B2 (en) * 2015-06-26 2017-05-30 Intel Corporation Method of processing signals, data processing system, and transceiver device
US9787289B2 (en) * 2015-07-06 2017-10-10 Xilinx, Inc. M-path filter with outer and inner channelizers for passband bandwidth adjustment
EP3410605A1 (en) 2017-06-02 2018-12-05 Intel IP Corporation Communication device and method for radio communication

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW429700B (en) * 1997-02-26 2001-04-11 Sony Corp Information encoding method and apparatus, information decoding method and apparatus and information recording medium
TW384434B (en) * 1997-03-31 2000-03-11 Sony Corp Encoding method, device therefor, decoding method, device therefor and recording medium
US5890125A (en) * 1997-07-16 1999-03-30 Dolby Laboratories Licensing Corporation Method and apparatus for encoding and decoding multiple audio channels at low bit rates using adaptive selection of encoding method
US6496795B1 (en) * 1999-05-05 2002-12-17 Microsoft Corporation Modulated complex lapped transform for integrated signal enhancement and coding
US6363338B1 (en) * 1999-04-12 2002-03-26 Dolby Laboratories Licensing Corporation Quantization in perceptual audio coders with compensation for synthesis filter noise spreading
JP2002245027A (ja) * 2001-02-15 2002-08-30 Seiko Epson Corp フィルタリング処理方法およびフィルタリング処理装置
US6963842B2 (en) * 2001-09-05 2005-11-08 Creative Technology Ltd. Efficient system and method for converting between different transform-domain signal representations
US6980933B2 (en) * 2004-01-27 2005-12-27 Dolby Laboratories Licensing Corporation Coding techniques using estimated spectral magnitude and phase derived from MDCT coefficients

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021119417A (ja) * 2010-04-09 2021-08-12 ドルビー・インターナショナル・アーベー デコーダシステム、復号方法及びコンピュータプログラム
US11217259B2 (en) 2010-04-09 2022-01-04 Dolby International Ab Audio upmixer operable in prediction or non-prediction mode
JP2022001963A (ja) * 2010-04-09 2022-01-06 ドルビー・インターナショナル・アーベー デコーダシステム、復号方法及びコンピュータプログラム
JP7193603B2 (ja) 2010-04-09 2022-12-20 ドルビー・インターナショナル・アーベー デコーダシステム、復号方法及びコンピュータプログラム
US11810582B2 (en) 2010-04-09 2023-11-07 Dolby International Ab MDCT-based complex prediction stereo coding
JP7451659B2 (ja) 2010-04-09 2024-03-18 ドルビー・インターナショナル・アーベー デコーダシステム、デコーディング方法及びコンピュータプログラム
JP2021039801A (ja) * 2020-12-11 2021-03-11 株式会社東芝 計算装置
JP7072041B2 (ja) 2020-12-11 2022-05-19 株式会社東芝 計算装置
JP2022093455A (ja) * 2020-12-11 2022-06-23 株式会社東芝 計算装置
JP7254993B2 (ja) 2020-12-11 2023-04-10 株式会社東芝 計算装置

Also Published As

Publication number Publication date
EP1711938A1 (en) 2006-10-18
US20080249765A1 (en) 2008-10-09
CN1914669A (zh) 2007-02-14
KR20070001115A (ko) 2007-01-03
WO2005073959A1 (en) 2005-08-11

Similar Documents

Publication Publication Date Title
JP2007520748A (ja) 複素値データを用いたオーディオ信号の復号
CA3076203C (en) Improved harmonic transposition
TWI357065B (en) Apparatus and method for generating audio subband
TWI405185B (zh) 用於5點離散餘弦轉換-ii(dct-ii),離散餘弦轉換-iv(dct-iv)及離散正弦轉換-iv(dst-iv)之計算的快速演算法與結構
US7805314B2 (en) Method and apparatus to quantize/dequantize frequency amplitude data and method and apparatus to audio encode/decode using the method and apparatus to quantize/dequantize frequency amplitude data
KR100776235B1 (ko) 변환 표시로의 변환 또는 변환 표시의 역변환을 위한 장치및 방법
CA2879823C (en) Device, method and computer program for freely selectable frequency shifts in the subband domain
JP3814611B2 (ja) 時間離散オーディオサンプル値を処理する方法と装置
CA3162808C (en) Improved harmonic transposition
EP2250642B1 (en) Method and apparatus for transforming between different filter bank domains
AU2020201239B2 (en) Improved Harmonic Transposition
US20170270939A1 (en) Efficient Sample Rate Conversion
JPH09127985A (ja) 信号符号化方法及び装置
JPH09127987A (ja) 信号符号化方法及び装置
JPH09127998A (ja) 信号量子化方法及び信号符号化装置
WO2005055203A1 (en) Audio signal coding
AU2023282303B2 (en) Improved Harmonic Transposition
RU2643662C2 (ru) Устройство и способ для обработки звукового сигнала с использованием комбинирования в диапазоне перекрытия
JPH09127994A (ja) 信号符号化方法及び装置
JP2004518164A (ja) オーディオ信号又はスピーチ信号を符号化するパラメトリック・エンコーダ及び方法
Bosi et al. Time to Frequency Mapping Part I: The PQMF
FR2980009A1 (fr) Calcul optimise d'une transformee de type mdct