JP2007515672A - Audio signal encoding - Google Patents

Audio signal encoding Download PDF

Info

Publication number
JP2007515672A
JP2007515672A JP2006542091A JP2006542091A JP2007515672A JP 2007515672 A JP2007515672 A JP 2007515672A JP 2006542091 A JP2006542091 A JP 2006542091A JP 2006542091 A JP2006542091 A JP 2006542091A JP 2007515672 A JP2007515672 A JP 2007515672A
Authority
JP
Japan
Prior art keywords
frequency
sample values
type
window function
granule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006542091A
Other languages
Japanese (ja)
Inventor
ヘー ペー スハイエルス,エリク
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV, Koninklijke Philips Electronics NV filed Critical Koninklijke Philips NV
Publication of JP2007515672A publication Critical patent/JP2007515672A/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/14Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
    • G06F17/147Discrete orthonormal transforms, e.g. discrete cosine transform, discrete sine transform, and variations therefrom, e.g. modified discrete cosine transform, integer transforms approximating the discrete cosine transform
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Discrete Mathematics (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本発明の一つの側面はMPEG-1レイヤーIIIのデータ信号のためのデコーダを提供する。好ましい実施形態では、当該デコーダは0型、1型および3型のMP3ウィンドウ関数についてはある個別のグラニュールの576個の周波数ラインのすべてに対して単一の逆MDCTを実行し、2型のウィンドウ関数に対しては192個の周波数ラインの3つの集合に対して3つの逆MDCTを実行する。「長い」逆MDCTの使用によって、複数の「短い」逆MDCTおよび合成フィルタバンクを有するハイブリッドフィルタバンクの十分な近似が与えられることが見出された。結果として、出力信号はフィルタバンクを必要とせずに構築されうる。本発明のもう一つの側面はMPEG-1レイヤーIII型のデータ信号を生成するエンコーダを提供する。ここでは「長い」MDCTを前記ハイブリッドフィルタバンクを置き換えるのに使用する。結果として、MPEG-1レイヤーIII型のデータ信号はフィルタバンクを必要とせずに構築されうる。One aspect of the present invention provides a decoder for MPEG-1 Layer III data signals. In the preferred embodiment, the decoder performs a single inverse MDCT for all 576 frequency lines of a particular granule for type 0, type 1 and type 3 MP3 window functions, For the window function, three inverse MDCTs are performed on three sets of 192 frequency lines. It has been found that the use of “long” inverse MDCT provides a sufficient approximation of a hybrid filter bank with multiple “short” inverse MDCT and synthesis filter banks. As a result, the output signal can be constructed without the need for a filter bank. Another aspect of the present invention provides an encoder for generating an MPEG-1 layer III type data signal. Here, a “long” MDCT is used to replace the hybrid filter bank. As a result, an MPEG-1 layer III type data signal can be constructed without the need for a filter bank.

Description

本発明はデータ信号のエンコードおよびデコードに関する。本発明はそれに限るものではないが特に、MPEG-1レイヤーIIIデータ信号のエンコードおよびデコードのための装置に関する。   The present invention relates to encoding and decoding of data signals. In particular, but not exclusively, the present invention relates to an apparatus for encoding and decoding MPEG-1 layer III data signals.

MPEG-1レイヤーIII(一般にMP3として知られる)は広く使われているオーディオコーデックである。MP3のための業界標準はISO/IEC JTC1/SC29/WG11 MPEG, IS11172-3, Information Technology―Coding of Moving Pictures and Associated Audio for Digital Storage Media at up to about 1.5 Mbit/s, Part3: Audio, MPEG-1, 1992において記載されている。この規格は国際標準化機構(ISO)(www.iso.ch)から入手可能であり、ここに参照によって組み込まれる。   MPEG-1 Layer III (commonly known as MP3) is a widely used audio codec. Industry standards for MP3 are ISO / IEC JTC1 / SC29 / WG11 MPEG, IS11172-3, Information Technology-Coding of Moving Pictures and Associated Audio for Digital Storage Media at up to about 1.5 Mbit / s, Part 3: Audio, MPEG- 1, 1992. This standard is available from the International Organization for Standardization (ISO) (www.iso.ch) and is incorporated herein by reference.

図1は典型的な従来のMPEG-1レイヤーIIIエンコーダ10の簡略化したブロック図を呈示しており、本発明の理解の助けになるエンコーダ10の構成要素のみを示している。エンコーダ10は、1152個のオーディオ標本値の系列すなわちフレームからなるPCM入力信号を受領するよう構成されている。その入力信号は(多相)分解フィルタバンク12に供給され、そこで一様間隔で重なりを持つ32個の周波数帯域にフィルタリングされ、32個のダウンサンプリングされたサブバンド信号成分を生成する。各サブバンド信号成分は36個のサブバンド標本値を有する。   FIG. 1 presents a simplified block diagram of a typical conventional MPEG-1 layer III encoder 10, showing only the components of the encoder 10 that aid in understanding the present invention. The encoder 10 is configured to receive a PCM input signal consisting of a sequence or frame of 1152 audio sample values. The input signal is fed to a (polyphase) decomposition filter bank 12 where it is filtered into 32 frequency bands with overlapping at even intervals to produce 32 downsampled subband signal components. Each subband signal component has 36 subband sample values.

各サブバンド信号成分に関し、ウィンドウ付き(順)MDCT(Modified Discrete Cosine Transform[修正離散コサイン変換])がMDCTユニット14によって実行される。可変の時間区分を受け入れるために4つのウィンドウ型が使われる。信号の(準)静的部分については、いわゆる通常(normal)ウィンドウを使うことができる。他方、信号の非静的部分については、いわゆる短い(short)ウィンドウのシーケンスを使うことができる。2つの遷移的なウィンドウ型、いわゆる開始(start)ウィンドウおよび終止(stop)ウィンドウが、通常ウィンドウから短いウィンドウへ、短いウィンドウから通常ウィンドウへの切り換え時の不連続を防止するために定義されている。通常ウィンドウ、開始ウィンドウあるいは終止ウィンドウについては、MDCTは36個の入力(すなわち36個のサブバンド標本値)に対して実行されて18個の出力MDCT係数を生成する。この係数は一般に周波数ラインと称される。短いウィンドウについてはMDCTは12個の入力からなる3つの集合(すなわち、12個のサブバンド標本値からなる3つの集合)に対して実行され、6つの出力MDCT係数すなわち周波数ラインからなる3つの集合を生成する。576個のMDCT係数の集合はグラニュール(granule)として知られている。エンコード処理の重なりをもつ性質の結果、1152個の入力標本値からなる一般的なMP3フレームに対して2つのグラニュールが生成される。576個の入力標本値ごとに、全部で18×32=576個のMDCT係数すなわち周波数ラインが生成される。   For each subband signal component, a windowed (forward) MDCT (Modified Discrete Cosine Transform) is performed by the MDCT unit 14. Four window types are used to accept variable time segments. For the (quasi) static part of the signal, a so-called normal window can be used. On the other hand, for non-static parts of the signal, a so-called short window sequence can be used. Two transitional window types, the so-called start window and stop window, are defined to prevent discontinuities when switching from a normal window to a short window and from a short window to a normal window . For a normal window, start window, or end window, MDCT is performed on 36 inputs (ie, 36 subband sample values) to produce 18 output MDCT coefficients. This coefficient is generally called a frequency line. For short windows, MDCT is performed on 3 sets of 12 inputs (ie, 3 sets of 12 subband sample values) and 3 sets of 6 output MDCT coefficients or frequency lines. Is generated. A set of 576 MDCT coefficients is known as a granule. As a result of the overlapping nature of the encoding process, two granules are generated for a typical MP3 frame consisting of 1152 input sample values. For every 576 input sample values, a total of 18 × 32 = 576 MDCT coefficients or frequency lines are generated.

通常ウィンドウ、開始ウィンドウ、終止ウィンドウの場合、MDCT周波数ラインは、フィルタバンク12の部分的に重なり合う諸フィルタをダウンサンプリングすることによって引き起こされるエイリアシングの効果を軽減するために、エイリアシング除去バタフライ16に与えられる。最終的に、量子化・符号化ユニット18が周波数ラインの適切な量子化および符号化を実行して所定のビットストリームフォーマットでの出力信号を生成する。量子化および符号化は、典型的には音響心理学的モデルによって操られるビット割り当てアルゴリズムを実行するビット割り当てユニット20の制御のもとで実行される。   For normal windows, start windows, and stop windows, MDCT frequency lines are provided to the antialiasing butterfly 16 to mitigate the effects of aliasing caused by downsampling partially overlapping filters in the filter bank 12. . Finally, the quantization / encoding unit 18 performs appropriate quantization and encoding of the frequency lines to generate an output signal in a predetermined bitstream format. Quantization and encoding are performed under the control of a bit allocation unit 20 that executes a bit allocation algorithm that is typically manipulated by a psychoacoustic model.

図2は、従来式のMPEG-1レイヤーIIIデコーダ30の簡略化したブロック図を呈示しており、本発明の理解の助けになる構成要素のみを示している。デコーダ30は前記所定のビットストリームフォーマットの入力信号を受け取るよう構成されている。デコード・逆量子化ユニット32はビットストリームのデコードおよび逆量子化を実行して周波数ラインすなわちMDCT係数を生成する。エンコーダ10によって生成された576個のMDCT周波数ラインの各集合に対してそれぞれ576個の周波数ラインが再生される。   FIG. 2 presents a simplified block diagram of a conventional MPEG-1 layer III decoder 30, showing only the components that aid in understanding the present invention. The decoder 30 is configured to receive an input signal in the predetermined bit stream format. The decoding / inverse quantization unit 32 performs decoding and inverse quantization of the bit stream to generate frequency lines, that is, MDCT coefficients. For each set of 576 MDCT frequency lines generated by the encoder 10, 576 frequency lines are reproduced.

周波数ラインは、短いウィンドウ型の場合、各グラニュール内で周波数ラインを並べ替える並べ替えユニット34に与えられる。通常ウィンドウ、開始ウィンドウまたは終止ウィンドウの場合は、周波数ラインはエイリアシングバタフライ36に与えられる。これは前記エイリアシング除去バタフライによって実行されたエイリアシング除去操作の逆を実行するものである。   In the case of a short window type, the frequency lines are provided to a reordering unit 34 that reorders the frequency lines within each granule. In the case of a normal window, a start window or an end window, the frequency line is provided to the aliasing butterfly 36. This is the reverse of the anti-aliasing operation performed by the anti-aliasing butterfly.

IMDCTユニット38は、周波数ラインに対してIMDCT(Inverse Modified Discrete Cosine Transform[逆修正離散コサイン変換])を実行し、それぞれ36のサブバンド標本値からなる32個のサブバンド信号成分を生成する。通常ウィンドウ、開始ウィンドウまたは終止ウィンドウのMDCTに対応する周波数ラインについて、IMDCTユニット38は18の周波数ラインを入力として受け取り、36個のサブバンド標本値を生成する。短いウィンドウのMDCTに対応する周波数ラインについては、IMDCTユニット38は6つの周波数ラインからなる3つの集合を入力として受け取り、12個のサブバンド標本値からなる3つの集合を生成する。   The IMDCT unit 38 performs IMDCT (Inverse Modified Discrete Cosine Transform) on the frequency line and generates 32 subband signal components each consisting of 36 subband sample values. For frequency lines corresponding to MDCT in the normal window, start window, or end window, IMDCT unit 38 receives 18 frequency lines as input and generates 36 subband sample values. For frequency lines corresponding to the short window MDCT, the IMDCT unit 38 receives as input three sets of six frequency lines and generates three sets of twelve subband sample values.

ウィンドウ処理および重なり・加算ユニット40は、サブバンド標本値に対してウィンドウ処理操作ならびに標準的な重なりおよび加算操作を実行する。どのウィンドウ型を使うべきかについての情報はビットストリームの関連付けられたサイド情報内で伝えられる。最終的に、サブバンド標本値は(多相)合成フィルタバンク42に与えられる。これは因子32によるサンプリング解除を行ってPCM標本値からなる出力信号を生成することをも含んでいる。   Window processing and overlap / add unit 40 performs window processing operations and standard overlap and addition operations on the subband sample values. Information about which window type to use is conveyed in the associated side information of the bitstream. Finally, the subband sample values are provided to the (polyphase) synthesis filter bank 42. This also includes de-sampling by factor 32 to generate an output signal consisting of PCM sample values.

フィルタバンク12、42は、コサイン変調されてより高周波の周波数帯を形成する原始型の低域通過フィルタを有する。サブバンドフィルタバンクとMDCTユニットとを直列にした組み合わせは、一部はフィルタバンクからなり一部は変換からなるので、ハイブリッドフィルタバンクとして知られている。エンコーダ10では、分解フィルタバンク12およびMDCTユニット14は一緒になってハイブリッド分解フィルタバンクを構成し、一方、デコーダ30ではIMDCTユニット38と合成フィルタバンク42が一緒になってハイブリッド合成フィルタバンクを構成する。ハイブリッドフィルタバンクの使用は、それに伴う計算上の、したがって実装上の複雑さの観点においてMP3の認識された弱点である。したがって、計算上の負荷がより少ないMP3エンコーダおよび/またはデコーダを提供することが望ましい。   The filter banks 12 and 42 have primitive low-pass filters that are cosine modulated to form higher frequency bands. A combination of a subband filter bank and an MDCT unit in series is known as a hybrid filter bank because a part is a filter bank and a part is a conversion. In the encoder 10, the decomposition filter bank 12 and the MDCT unit 14 together constitute a hybrid decomposition filter bank, while in the decoder 30, the IMDCT unit 38 and the synthesis filter bank 42 together constitute a hybrid synthesis filter bank. . The use of a hybrid filter bank is a recognized weakness of MP3 in terms of the associated computational and therefore implementation complexity. Therefore, it is desirable to provide an MP3 encoder and / or decoder that has a lower computational burden.

したがって、本発明の第一の側面は、データ信号をサブバンドフィルタバンクに提供することによって、および結果として得られる各サブバンド信号に対してそれぞれの順周波数変換を実行することによってエンコードされたデータ信号のためのデコーダであって、当該デコーダが、受領したデータ信号をデコードおよび逆量子化して周波数ラインからなる複数のグラニュールを生成する手段と、各グラニュールに対して一つまたは複数の逆周波数変換を実行して複数のデータ標本値を生成するための手段と、前記データ標本値に一つまたは複数の型のウィンドウ関数を適用して複数のウィンドウ処理されたデータ標本値を生成する手段とを有しており、少なくともある第一の型のウィンドウ関数に関しては前記逆周波数変換手段が各グラニュールのすべての周波数ラインに対して単一の逆周波数変換を実行するよう構成されており、当該デコーダがさらに前記ウィンドウ処理されたデータ標本値から出力信号を構築する手段を含んでいることを特徴とするデコーダを提供する。   Accordingly, a first aspect of the present invention provides encoded data by providing a data signal to a subband filter bank and performing a respective forward frequency transform on each resulting subband signal. A decoder for the signal, the decoder decoding and inverse quantizing the received data signal to generate a plurality of granules comprising frequency lines, and one or more inverses for each granule Means for generating a plurality of data sample values by performing frequency transformation; and means for generating a plurality of windowed data sample values by applying one or more types of window functions to the data sample values And at least for the first type of window function, the inverse frequency transforming means includes The decoder is configured to perform a single inverse frequency transform on all frequency lines of the network, the decoder further comprising means for constructing an output signal from the windowed data sample values A feature decoder is provided.

本発明の第二の側面は、データ信号をサブバンドフィルタバンクに提供することによって、および結果として得られる各サブバンド信号に対してそれぞれの順周波数変換を実行することによってエンコードされたデータ信号をデコードする方法であって、当該方法が、受領したデータ信号をデコードおよび逆量子化して周波数ラインからなる複数のグラニュールを生成し、各グラニュールに対して一つまたは複数の逆周波数変換を実行して複数のデータ標本値を生成し、前記データ標本値に一つまたは複数の型のウィンドウ関数を適用して複数のウィンドウ処理されたデータ標本値を生成し、前記ウィンドウ処理されたデータ標本値から出力信号を構築することを有しており、少なくともある第一の型のウィンドウ関数に関しては各グラニュール内のすべての周波数ラインに対して単一の逆周波数変換が実行されることを特徴とする方法を提供する。   A second aspect of the present invention provides an encoded data signal by providing the data signal to a subband filter bank and performing a respective forward frequency transform on each resulting subband signal. A decoding method that decodes and inverse quantizes a received data signal to generate multiple granules of frequency lines and performs one or more inverse frequency transforms on each granule Generating a plurality of data sample values, applying one or more types of window functions to the data sample values to generate a plurality of windowed data sample values, and the windowed data sample values And constructing an output signal from each granule, at least for some first type window functions. Provides a method characterized in that a single inverse frequency transform is performed on all frequency lines within Le.

本発明の第一および第二の側面はそれぞれ、フィルタバンクの必要なしに出力信号を生成できるようにする。好ましい諸実施形態では、エンコードされたデータ信号はMPEG-1レイヤーIIIデータ信号であり、順周波数変換および逆周波数変換はそれぞれ修正離散コサイン変換(MDCT)および逆修正離散コサイン変換(IMDCT)である。   The first and second aspects of the present invention each allow the output signal to be generated without the need for a filter bank. In preferred embodiments, the encoded data signal is an MPEG-1 layer III data signal, and the forward frequency transform and inverse frequency transform are a modified discrete cosine transform (MDCT) and an inverse modified discrete cosine transform (IMDCT), respectively.

好ましい諸実施形態では、順周波数変換は修正離散コサイン変換(MDCT)であり、エンコードされたデータ信号はMPEG-1レイヤーIIIデータ信号である。   In preferred embodiments, the forward frequency transform is a modified discrete cosine transform (MDCT) and the encoded data signal is an MPEG-1 layer III data signal.

本発明の第三の側面は、複数のデータ標本値からなる入力信号のためのエンコーダであって、当該エンコーダが前記データ標本値に一つまたは複数の型のウィンドウ関数を適用して複数のウィンドウ処理されたデータ標本値を生成する手段と、前記ウィンドウ処理されたデータ標本値に対して一つまたは複数の修正離散コサイン変換(MDCT)を実行して周波数ラインからなる複数のグラニュールを生成する手段と、各グラニュールをエンコードおよび量子化してMPEG-1レイヤーIII型のデータ信号を生成する手段とを有しており、少なくともある第一の型のウィンドウ関数に関しては、前記MDCT手段が、ある個別のグラニュールを生成するのに関連する前記受領されたデータ信号のウィンドウ処理されたデータ標本値すべてに対して単一のMDCTを実行するよう構成されていることを特徴とするエンコーダを提供する。   A third aspect of the present invention is an encoder for an input signal composed of a plurality of data sample values, wherein the encoder applies one or a plurality of types of window functions to the data sample values. Means for generating processed data sample values and performing one or more modified discrete cosine transforms (MDCT) on the windowed data sample values to generate a plurality of granules comprising frequency lines; And means for encoding and quantizing each granule to generate an MPEG-1 layer III type data signal, at least for a first type of window function, said MDCT means Perform a single MDCT on all windowed data sample values of the received data signal associated with generating individual granules Providing an encoder which is characterized in that it is so that configuration.

本発明の第四の側面は、複数のデータ標本値からなる入力信号をエンコードする方法であって、当該方法が、前記データ標本値に一つまたは複数の型のウィンドウ関数を適用して複数のウィンドウ処理されたデータ標本値を生成し、前記ウィンドウ処理されたデータ標本値に対して一つまたは複数の修正離散コサイン変換(MDCT)を実行して周波数ラインからなる複数のグラニュールを生成し、各グラニュールをエンコードおよび量子化してMPEG-1レイヤーIII型のデータ信号を生成することを有しており、少なくともある第一の型のウィンドウ関数に関しては、ある個別のグラニュールを生成するのに関連する前記受領されたデータ信号のウィンドウ処理されたデータ標本値すべてに対して単一のMDCTが実行されることを特徴とする方法を提供する。   According to a fourth aspect of the present invention, there is provided a method for encoding an input signal composed of a plurality of data sample values, the method applying a plurality of types of window functions to the data sample values. Generating windowed data sample values, performing one or more modified discrete cosine transforms (MDCT) on the windowed data sample values to generate a plurality of granules comprising frequency lines; Each granule is encoded and quantized to produce an MPEG-1 Layer III type data signal, at least for some first type window functions, to produce a particular granule. Providing a method wherein a single MDCT is performed on all windowed data sample values of the received data signal concerned .

本発明の第三および第四の側面は、MPEG-1レイヤーIII型のデータ信号をフィルタバンクを使うことなく生成することを可能にする。   The third and fourth aspects of the present invention make it possible to generate an MPEG-1 layer III type data signal without using a filter bank.

本発明の第五の側面は、データ信号をエンコードおよびデコードするためのシステムすなわちコーデックであって、本発明の第三の側面のエンコーダおよび本発明の第一の側面のデコーダを有するシステムを提供する。   A fifth aspect of the present invention provides a system or codec for encoding and decoding a data signal, comprising a system according to the third aspect of the present invention and a decoder according to the first aspect of the present invention. .

本発明の各側面の好ましい特徴は従属請求項において述べられる。   Preferred features of each aspect of the invention are set out in the dependent claims.

本発明のさらなる有利な側面は、特定の実施形態についての以下の記述を見て付属の図面を参照すれば通常の当業者には明らかとなるであろう。   Further advantageous aspects of the present invention will become apparent to those of ordinary skill in the art upon reviewing the following description of specific embodiments and referring to the accompanying drawings.

本発明のある実施形態について、これから例として、付属の図面を参照しつつ説明する。   An embodiment of the present invention will now be described by way of example with reference to the accompanying drawings.

従来式のMPEG-1レイヤーIII(MP3)システムでは、典型的なデータフレームは、それぞれ576個の周波数ラインすなわちMDCT係数をもつ2つのグラニュールを有する。上述したように、従来式のMP3エンコードによれば、この576の周波数ラインはそれぞれ、32個のサブバンドのそれぞれについて18の周波数ラインからなる集合を有する。短いウィンドウ型を使うときには、18の周波数ラインからなる各集合は6つの周波数ラインからなる3つの集合から構成される。図1のエンコーダ10では、変換はハイブリッドフィルタバンク12、14によって実行される。要求されるウィンドウ型に依存して、MDCTユニット14は、各サブバンドに関して一つまたは複数のMDCTを実行する。MDCTユニット14によって実行されるMDCTは、各MDCTが一時には当該フレームデータのそれぞれの(比較的小さな)部分に対してのみ実行されるという点で「短い」MDCTであると言われうる。通常ウィンドウ、開始ウィンドウまたは終止ウィンドウ型については、あるサブバンドの36個の入力標本値に対して単一のMDCTが実行されて18の周波数ラインが生成される。短いウィンドウ型については、あるサブバンドの12の入力標本値からなる各集合に対して対応する3つのMDCT変換が実行されてそれぞれ6つの周波数ラインからなる集合が生成される。これに対応して、従来式のMP3デコーダ30では、IMDCTユニット38によって実行される逆MDCTは、各逆MDCTが当該データフレームに関して生成されたデコードおよび逆量子化された周波数ラインのそれぞれの部分のみに実行されるので、「短い」逆MDCTであると言われうる。通常ウィンドウ、開始ウィンドウまたは終止ウィンドウの型については、あるサブバンドの18の周波数ラインに対して単一の逆MDCTが実行されて、36の時間領域標本値を生成する。短いウィンドウ型については、あるサブバンドの6つの周波数ラインからなる各集合に対してそれぞれ3つの逆MDCT変換が実行されて12個の時間領域標本値の各集合が生成される。   In a conventional MPEG-1 Layer III (MP3) system, a typical data frame has two granules, each with 576 frequency lines or MDCT coefficients. As described above, according to conventional MP3 encoding, each of the 576 frequency lines has a set of 18 frequency lines for each of the 32 subbands. When using a short window type, each set of 18 frequency lines consists of 3 sets of 6 frequency lines. In the encoder 10 of FIG. 1, the conversion is performed by the hybrid filter banks 12, 14. Depending on the required window type, MDCT unit 14 performs one or more MDCTs for each subband. The MDCT performed by the MDCT unit 14 may be said to be a “short” MDCT in that each MDCT is performed only on each (relatively small) portion of the frame data at a time. For the normal window, start window, or stop window type, a single MDCT is performed on 36 input sample values in a subband to generate 18 frequency lines. For the short window type, three MDCT transformations corresponding to each set of 12 input sample values of a certain subband are executed to generate a set of 6 frequency lines. Correspondingly, in the conventional MP3 decoder 30, the inverse MDCT performed by the IMDCT unit 38 is only the respective portions of the decoded and inverse quantized frequency lines where each inverse MDCT is generated for the data frame. Can be said to be a “short” inverse MDCT. For normal window, start window, or stop window types, a single inverse MDCT is performed on 18 frequency lines of a subband to produce 36 time-domain sample values. For the short window type, three inverse MDCT transforms are performed on each set of six frequency lines of a subband to generate each set of 12 time domain sample values.

これに対し、本発明のある側面では、あるデータグラニュール全体に関して生成された前記デコードおよび逆量子化された周波数ラインすなわちMDCT係数に対し、一つまたは複数の「長い」逆MDCTが実行されるようなMP3データのデコード方法が提供される。576の周波数ラインすなわちMDCT係数からなるグラニュールについては、通常ウィンドウ、開始ウィンドウまたは終止ウィンドウ型が要求されるときには、576の周波数ラインすべてに対して単一の「長い」逆MDCTが実行されて1152個の時間領域標本値が生成され、他方、短いウィンドウ型については、192の周波数ラインからなる対応する集合に対して3つの「長い」逆MDCTが実行されて、それぞれ384個の時間領域標本値からなる集合が生成される。いずれの場合にも、一つまたは複数の逆MDCTは、各サブバンドに関連付けられた各周波数ラインに対して実行されるというよりは、あるグラニュール全体の周波数ラインすべてに対して実行される。周波数ラインの若干の前処理を用い、ならびに適切なウィンドウ処理および重なり・加算操作を用いることで、「長い」逆MDCTの出力を使って所望のPCM出力信号の知覚的に近い近似を提供することができ、それによりデコーダにおけるフィルタバンクの必要をなくすことが見出される。同様の原理はエンコード処理に際しても適用でき、それによりエンコーダにおけるフィルタバンクの必要もなくなる。これについて以下により詳細に述べる。   In contrast, in one aspect of the invention, one or more “long” inverse MDCTs are performed on the decoded and dequantized frequency lines or MDCT coefficients generated for an entire data granule. A method for decoding such MP3 data is provided. For granules with 576 frequency lines or MDCT coefficients, when a normal window, start window or end window type is required, a single “long” inverse MDCT is performed on all 576 frequency lines and 1152 Time domain sample values are generated, while for the short window type, three “long” inverse MDCTs are performed on the corresponding set of 192 frequency lines, each with 384 time domain sample values. A set of is generated. In any case, one or more inverse MDCTs are performed for all frequency lines of a granule, rather than for each frequency line associated with each subband. Provide a perceptually close approximation of the desired PCM output signal using the output of the “long” inverse MDCT, with some preprocessing of the frequency line, and with appropriate windowing and overlap / add operations Can be found, thereby eliminating the need for a filter bank in the decoder. A similar principle can be applied during the encoding process, thereby eliminating the need for a filter bank in the encoder. This will be described in more detail below.

本発明に到達するにあたり、以下の観察がなされた:理想的なフィルタバンクは矩形で重なりのない通過帯域からなる。MP3で使われるフィルタバンクが理想的であれば、前記ハイブリッドフィルタバンクは上述した単一の「長い」MDCTによって全く精確に近似できる。フィルタバンクとエイリアシング除去バタフライとの組み合わせは、理想的なフィルタバンクの比較的良好な近似を与える。よって、エイリアシング除去バタフライと組み合わせたハイブリッドフィルタバンクは、単一の「長い」MDCTによって置き換えることができる。こうした観察から、全体としてのエンコードおよびデコード処理は、より詳細には各ハイブリッドフィルタバンクの動作は、コサイン変調された変換によって近似されうると結論づけられる。具体的には、全体としてのエンコードおよびデコード処理はMDCTによって近似されうると想定される。   In arriving at the present invention, the following observations were made: An ideal filter bank consists of rectangular and non-overlapping passbands. If the filter bank used in MP3 is ideal, the hybrid filter bank can be approximated quite accurately by the single “long” MDCT described above. The combination of filter bank and anti-aliasing butterfly gives a relatively good approximation of the ideal filter bank. Thus, a hybrid filter bank combined with an anti-aliasing butterfly can be replaced by a single “long” MDCT. From these observations, it can be concluded that the overall encoding and decoding process, more specifically, the operation of each hybrid filter bank can be approximated by a cosine modulated transform. Specifically, it is assumed that the overall encoding and decoding process can be approximated by MDCT.

この想定が正しければ、すなわち、ハイブリッドフィルタバンクがMDCTとして近似できるとすれば、デルタパルスに対する応答はコサイン波形を有することになる。(順)MDCTについての解析的な表現は次のようになる:   If this assumption is correct, that is, if the hybrid filter bank can be approximated as MDCT, the response to the delta pulse will have a cosine waveform. (Order) The analytical expression for MDCT is as follows:

Figure 2007515672
ここで、nは時間の添え字であり、従来式のMP3エンコーダについてはサブバンド標本値の添え字を表す。Nは変換長すなわち変換サイズである。kは周波数の添え字である。x[n]は時間領域信号で、従来式のMP3エンコーダでは、サブバンド標本値からなるサブバンド時間領域信号である。c[k]は周波数領域のMDCTスペクトルである。
Figure 2007515672
Here, n is a time index, and for a conventional MP3 encoder, a subband sample value index. N is a conversion length, that is, a conversion size. k is a subscript of frequency. x [n] is a time-domain signal. In the conventional MP3 encoder, it is a sub-band time-domain signal composed of sub-band sample values. c [k] is the MDCT spectrum in the frequency domain.

デルタパルスは(ウィンドウ処理に関係なく)次のように記述できる。   A delta pulse can be written as follows (regardless of windowing):

Figure 2007515672
[2]を[1]に代入すると次式が得られる。
Figure 2007515672
Substituting [2] into [1] yields:

Figure 2007515672
図3は、デルタパルスについてエイリアシング除去バタフライ後のハイブリッド分解フィルタバンクの結果を図的に示している。図3に示されているスペクトルが、奇数番目の、すなわち交番のもしくは一つおきのサブバンドに対応する波形が反転された(−1を乗じられた)コサイン型の波形を有することが見て取れる。これは、反転交番サブバンド成分をもつことが知られているハイブリッドフィルタバンクの出力と共通する特徴である。実際、エンコーダ10における分解フィルタバンク12によって引き起こされた周波数反転を補償するために、デコーダ30における合成フィルタバンク42の一つおきのサブバンドについて、一つおきの入力値が反転される(すなわち−1を乗じられる)。結果として、隣接するサブバンドの間の位相差は約180度になる、すなわち−1が乗じられる。このことは次の論文においてより詳細に記載されている:B. Edler, Aliasing reduction in sub-bands of cascaded filter banks with decimation, Electronics Letters, 4th June 1992, Vol. 28, No. 12。
Figure 2007515672
FIG. 3 graphically illustrates the result of the hybrid decomposition filter bank after the aliasing butterfly for the delta pulse. It can be seen that the spectrum shown in FIG. 3 has a cosine waveform that is inverted (multiplied by −1) in the waveform corresponding to the odd, ie alternating or every other subband. This is a feature in common with the output of a hybrid filter bank known to have inverted alternating subband components. In fact, every other input value is inverted for every other subband of the synthesis filter bank 42 in the decoder 30 to compensate for the frequency inversion caused by the decomposition filter bank 12 in the encoder 10 (ie, − 1). As a result, the phase difference between adjacent subbands is approximately 180 degrees, ie multiplied by -1. This is described in more detail in the following paper: B. Edler, Aliasing reduction in sub-bands of cascaded filter banks with decimation, Electronics Letters, 4th June 1992, Vol. 28, No. 12.

図4は、前記デルタパルスのエイリアシング除去バタフライ後のハイブリッドフィルタバンクのスペクトルで、反転されたサブバンド成分が該反転を補償するために−1倍されたあとのものを図的に示している。補償後、c[k]はわずかにひずんだコサイン関数を有している。図4において見て取れるひずみは、分解フィルタバンクにおけるダウンサンプリングに起因し、エイリアシング除去バタフライによって部分的にしか補償されなかったエイリアシングによって、および分解フィルタバンクが理想的な線形位相特性を有していないという事実によって引き起こされている。よって、MDCT係数の若干の前処理を用いれば、ハイブリッドフィルタバンクの動作はMDCTによって近似されうる。のちにより詳細に述べるように、好ましい諸実施形態においては、デコーダ30のハイブリッド合成フィルタバンク38、42の動作に代わるものとして、一つまたは複数の「長い」MDCTが使用される。同様に、エンコーダ10のハイブリッド分解フィルタバンク12、14の動作に代わるものとして一つまたは複数の「長い」MDCTが使用されうる。   FIG. 4 graphically illustrates the spectrum of the hybrid filter bank after the delta pulse antialiasing butterfly, after the inverted subband components have been multiplied by −1 to compensate for the inversion. After compensation, c [k] has a slightly distorted cosine function. The distortion seen in FIG. 4 is due to downsampling in the decomposition filter bank, due to aliasing that was only partially compensated by the anti-aliasing butterfly, and the fact that the decomposition filter bank does not have ideal linear phase characteristics Is caused by. Therefore, the operation of the hybrid filter bank can be approximated by MDCT if some preprocessing of MDCT coefficients is used. As will be described in more detail later, in preferred embodiments, one or more “long” MDCTs are used as an alternative to the operation of the hybrid synthesis filterbanks 38, 42 of the decoder 30. Similarly, one or more “long” MDCTs may be used as an alternative to the operation of the hybrid decomposition filter banks 12, 14 of the encoder 10.

本発明のある側面を具現する、MPEG-1レイヤーIIIのデータ信号および同様にエンコードされたデータ信号をデコードするための装置が図6に示されており、全体として60として指示されている。本発明の理解のために必要な構成要素のみが示されている。デコード装置すなわちデコーダ60は、MPEG-1レイヤーIIIビットストリームの形のデータ信号または同様にエンコードされたデータ信号を受け取るよう構成されたデコード・逆量子化ユニット62を有する。該デコード・逆量子化ユニット62は、複数の周波数ラインすなわちMDCT係数を復元するために、受領されたビットストリームの適切なデコード(典型的にはMP3によって規定されるハフマン復号)および再量子化を実行する。ビットストリームがMP3対応データを有するとき、デコード・逆量子化ユニット62は標準的なMP3デコードおよび再量子化を実行しうる。典型的には、1152個の入力オーディオ標本値を有するフレームについて、576の周波数ラインからなる二つのグラニュールがユニット62によって復元される(ウィンドウ処理において実行される重なり・加算操作のため、実効的には576個の入力標本値が576個のMDCT係数を与えることになり、よってシステムは臨界サンプリングである)。   An apparatus for decoding an MPEG-1 Layer III data signal and a similarly encoded data signal embodying an aspect of the present invention is shown in FIG. Only the components necessary for an understanding of the invention are shown. The decoding device or decoder 60 has a decoding and dequantizing unit 62 configured to receive a data signal in the form of an MPEG-1 layer III bitstream or a similarly encoded data signal. The decoding and dequantizing unit 62 performs appropriate decoding (typically Huffman decoding defined by MP3) and requantization of the received bitstream to recover multiple frequency lines or MDCT coefficients. Execute. When the bitstream has MP3 compatible data, the decode and dequantize unit 62 may perform standard MP3 decoding and requantization. Typically, for a frame having 1152 input audio sample values, two granules of 576 frequency lines are restored by unit 62 (because of the overlap / add operations performed in the windowing process) Would give 576 input sample values and 576 MDCT coefficients, so the system is critical sampling).

デコーダ60は、前記デコード・逆量子化ユニット62によって生成された周波数ラインを必要に応じて並べ替えるための並べ替えユニット64を含んでいる。並べ替えは、エンコーダによって通常実行される並べ替えを打ち消すものである。これはのちにより詳細に説明する。並べ替えユニット62は、各フレームに関連付けられたサイド情報からどのような種類の並べ替えが必要とされているかを決定できる。   The decoder 60 includes a rearrangement unit 64 for rearranging the frequency lines generated by the decoding / inverse quantization unit 62 as necessary. The reordering cancels the reordering normally performed by the encoder. This will be described in more detail later. The rearrangement unit 62 can determine what kind of rearrangement is required from the side information associated with each frame.

逆MDCT(IMDCT)ユニット68は、前記並べ替えられた周波数ラインに対して一つまたは複数の逆MDCTを実行するために設けられている。上記したように、IMDCTユニット68は、同時に周波数ラインのあるグラニュール全体に対して作用して、グラニュール内の全周波数ラインに対して単一の逆MDCTを実行するか(通常ウィンドウ、開始ウィンドウまたは終止ウィンドウ型が要求されるとき)、複数の逆MDCTをグラニュール内の全周波数ラインの対応する数の部分集合に対して実行するか(短いウィンドウ型が要求されるとき)するよう構成される。一つのグラニュールが576の周波数ラインからなるMP3ビットストリームについては、IMDCTユニット68は、通常ウィンドウ、開始ウィンドウまたは終止ウィンドウについてはグラニュール全体に対して単一の逆MDCTを実行して1152個の時間領域標本値を生じ、192の周波数ラインからなる部分集合3つのうちのそれぞれに対して3つの逆MDCTを実行して384個の時間領域標本値からなる3つの個別シーケンスまたは集合を生じる。IMDCTユニット68の出力は複数(今の例では1152個)の復元された信号成分すなわち標本値を有し、これがPCM出力信号を構築するために使われうる。   An inverse MDCT (IMDCT) unit 68 is provided for performing one or more inverse MDCTs on the rearranged frequency lines. As described above, the IMDCT unit 68 operates on the entire granule with a frequency line at the same time, and performs a single inverse MDCT for all frequency lines in the granule (normal window, start window). Configured to perform multiple inverse MDCTs on a corresponding number of subsets of all frequency lines in the granule (when a short window type is required). The For MP3 bitstreams where one granule consists of 576 frequency lines, the IMDCT unit 68 performs a single inverse MDCT on the whole granule for normal, start or end windows, and 1152 Generate time domain sample values and perform three inverse MDCTs on each of the three subsets of 192 frequency lines to generate three individual sequences or sets of 384 time domain sample values. The output of the IMDCT unit 68 has a plurality (1152 in this example) of recovered signal components or sample values, which can be used to construct a PCM output signal.

PCM出力信号を構築するために、ウィンドウ処理および重なり・加算操作が、IMDCTユニット68によって生成された信号標本値に対して実行される。よって、デコーダ60はさらにウィンドウ処理および重なり・加算ユニット70を含んでいる。その動作についてはのちにより詳細に記載する。   To construct the PCM output signal, windowing and overlap / add operations are performed on the signal sample values generated by the IMDCT unit 68. Therefore, the decoder 60 further includes a window processing and overlap / add unit 70. The operation will be described in more detail later.

従来式のMP3デコーダ30の合成フィルタバンク42は、エンコーダ10の分解フィルタバンク12の周波数反転を補償するために交互のサブバンド信号成分すなわちサブバンド・チャネルを反転させることを注意しておく。したがって、標準的なMP3対応データをデコードするために意図されたデコーダ60の実施形態では、デコーダ60は関連するMDCT係数、交互のサブバンド信号成分すなわちチャネルを反転させる、すなわち−1倍する反転ユニット66を含んでいる。反転ユニット66は図6では並べ替えユニット64とIMDCTユニット68の間に示されているが、代替的にデコード・逆量子化ユニット62と並べ替えユニット64の間などそれ以外の場所にあってもよい。   Note that the synthesis filter bank 42 of the conventional MP3 decoder 30 inverts alternating subband signal components or subband channels to compensate for the frequency inversion of the decomposition filter bank 12 of the encoder 10. Thus, in an embodiment of a decoder 60 intended to decode standard MP3-compliant data, the decoder 60 inverts the associated MDCT coefficients, alternating subband signal components or channels, i.e., an inverting unit that multiplies by -1. 66. The inversion unit 66 is shown between the rearrangement unit 64 and the IMDCT unit 68 in FIG. 6, but may alternatively be located elsewhere, such as between the decode / inverse quantization unit 62 and the rearrangement unit 64. Good.

分解フィルタバンク12が重なり合うサブバンドを有していたことも注意しておく。この効果は、通常は、エンコーダ10に通常含まれるエイリアシング除去バタフライ16によって軽減される。   Note also that the decomposition filter bank 12 had overlapping subbands. This effect is usually mitigated by the antialiasing butterfly 16 normally included in the encoder 10.

並べ替えユニット64ならびにウィンドウ処理および重なり・加算ユニット70についてよりよく理解できるよう、従来式のMP3ウィンドウ処理についてこれからより詳細に述べる。MP3内では4つの異なるウィンドウ型(および付随する長さ)が規定されている。すなわち、「通常」「開始」「短い」「終止」である。特定の型のウィンドウあるいは異なるウィンドウ型のシーケンスは、一つまたは複数のウィンドウが適用されるべきデータ部分の特性に適合するよう選択される。たとえば、短いウィンドウ型は通例、オーディオ信号中の過渡成分に対応するデータ部分に適用される。所与のデータフレームに関連付けられたサイド情報は、どのウィンドウ型が当該グラニュールと一緒に用いられるべきかを指示する。要求されるウィンドウ型はMDCTの(よって逆MDCTの)長さすなわちサイズと、ウィンドウ処理/重なり・加算操作の両方に影響する。   In order to better understand the rearrangement unit 64 and the window processing and overlap / add unit 70, conventional MP3 window processing will now be described in more detail. Within MP3, four different window types (and associated lengths) are defined. That is, “normal”, “start”, “short”, and “end”. A particular type of window or a sequence of different window types is selected to match the characteristics of the data portion to which one or more windows are to be applied. For example, the short window type is typically applied to the data portion corresponding to the transient component in the audio signal. The side information associated with a given data frame indicates which window type should be used with the granule. The required window type affects both the length or size of the MDCT (and thus the inverse MDCT) and the windowing / overlap / add operation.

MP3については、ウィンドウ関数z(n)は次のように書ける。   For MP3, the window function z (n) can be written as

通常型のウィンドウ(0型)については:   For normal windows (type 0):

Figure 2007515672
開始型のウィンドウ(1型)については:
Figure 2007515672
For the opening window (type 1):

Figure 2007515672
短い型のウィンドウ(2型)については、3つの短いウィンドウが同時に符号化される:
Figure 2007515672
For short type windows (type 2), three short windows are encoded simultaneously:

Figure 2007515672
終止型のウィンドウ(3型)については:
Figure 2007515672
For closing windows (type 3):

Figure 2007515672
式[4]、[5]、[6]、[7]のウィンドウ関数のそれぞれは、二つ以上のウィンドウの適用に関わることもあるにもかかわらず、通常は単一のウィンドウ関数と見なされる。関数[4]、[5]、[7]から、ウィンドウ長が36(すなわち36点のウィンドウ)で、よって添え字nは0から35の範囲であることが見て取れるであろう。関数[6]については、3つの短い12点ウィンドウの組み合わされた長さは36であり、よってp=0から2についてnが0から11の範囲で動くようになっている。よって、各ウィンドウ型の全体としての長さはサブバンド信号成分の大きさ(36個のサブバンド標本値)に対応している。
Figure 2007515672
Each of the window functions in equations [4], [5], [6], and [7] is usually considered a single window function, even though it may involve the application of more than one window . From functions [4], [5], and [7], it can be seen that the window length is 36 (ie, a 36-point window), and thus the subscript n is in the range of 0 to 35. For function [6], the combined length of the three short 12-point windows is 36, so that for p = 0 to 2, n moves from 0 to 11. Therefore, the overall length of each window type corresponds to the size of the subband signal component (36 subband sample values).

エンコーダ10における2型ウィンドウ、すなわち短いウィンドウのシーケンスについては、576個のMDCT係数(32個のサブバンド×3つのウィンドウ×6個のMDCT係数)からなる各グラニュールは、より効率的なエンコードができるよう並べられる。よって、デコーダでは、エンコーダによって実行された並べ替えを打ち消すための対応する並べ替えが行われる。従来型のMP3デコーダ30では、グラニュールのMDCT係数または周波数ラインは粒度の小さい順に、周波数ラインに基づいて、次いでウィンドウ添え字、そしてサブバンドに基づいて並べ替えられる。このことは図5で図解されている。これはグラニュール50の一部の構造を示している。ここで、各周波数ラインすなわちMDCT係数は0から575のそれぞれの周波数ライン添え字を付与されうる。最上の、すなわち最も粗い粒度では、周波数ラインは、該周波数ラインがどのサブバンドに属するかを表す0から31の範囲のサブバンド添え字に従って並べられる。各サブバンド内では、周波数ラインは、周波数ラインにどのウィンドウが適用されるべきかを示す、0から2の範囲のウィンドウ添え字に従って並べられる。各ウィンドウ内では、周波数ラインは、該周波数ラインがMDCTに与えられる順序を示す、0から5の範囲の周波数ライン副添え字に従って並べられる。よって、グラニュール50における第一の周波数ライン(すなわち、最低周波数ライン添え字(=0)をもつ周波数ライン)は、副添え字0、ウィンドウ添え字0、サブバンド添え字0をもつ周波数ラインであり、二番目の周波数ライン(周波数ライン添え字=1)は副添え字1、ウィンドウ添え字0およびサブバンド添え字0をもつ、といった具合に続き、グラニュール50の最後の周波数ラインは、最高周波数ライン添え字575をもつもので、副添え字5、ウィンドウ添え字2およびサブバンド添え字31を有する。   For a type 2 window in the encoder 10, ie, a short window sequence, each granule of 576 MDCT coefficients (32 subbands × 3 windows × 6 MDCT coefficients) is encoded more efficiently. Arranged as possible. Thus, the decoder performs a corresponding reordering to cancel the reordering performed by the encoder. In a conventional MP3 decoder 30, the granule MDCT coefficients or frequency lines are sorted in ascending order of granularity based on frequency lines, then window subscripts, and subbands. This is illustrated in FIG. This shows a partial structure of the granule 50. Here, each frequency line, that is, the MDCT coefficient, can be given a frequency line subscript from 0 to 575. At the highest or coarsest granularity, the frequency lines are arranged according to subband subscripts ranging from 0 to 31 representing which subband the frequency line belongs to. Within each subband, the frequency lines are arranged according to a window index ranging from 0 to 2, indicating which window should be applied to the frequency line. Within each window, the frequency lines are arranged according to a frequency line subscript ranging from 0 to 5, indicating the order in which the frequency lines are given to the MDCT. Thus, the first frequency line in granule 50 (ie, the frequency line with the lowest frequency line subscript (= 0)) is the frequency line with sub-subscript 0, window subscript 0, and subband subscript 0. Yes, the second frequency line (frequency line subscript = 1) has subscript 1, window subscript 0, subband subscript 0, etc., and the last frequency line of granule 50 is the highest It has a frequency line subscript 575 and has a subscript 5, a window subscript 2 and a subband subscript 31.

デコーダ60では、並べ替えユニット64は、従来式のデコーダについて上記したのとは異なる仕方で、あるグラニュールの周波数ラインを並べ替えるよう構成されている。「短い」ウィンドウ(2型)については、並べ替えユニット64は周波数ラインを粒度の小さい順に、周波数ラインに従って、次いでサブバンドに、そして最後にはウィンドウに従って並べ替える。このことは図7で図解されている。図7からは、グラニュール50′内では周波数ラインは最上レベルでウィンドウ添え字に従って、次いでサブバンド添え字に従って、それから周波数帯副添え字に従って並べられていることが見て取れる。   In the decoder 60, the rearrangement unit 64 is configured to rearrange the frequency lines of a granule in a manner different from that described above for the conventional decoder. For “short” windows (type 2), the reordering unit 64 reorders the frequency lines in order of increasing granularity according to frequency lines, then into subbands, and finally according to windows. This is illustrated in FIG. From FIG. 7, it can be seen that in the granule 50 ', the frequency lines are arranged at the top level according to the window subscript, then according to the subband subscript, and then according to the frequency band subscript.

ウィンドウ処理および重なり・加算ユニット70ならびにIMDCTユニット68によるPCM出力信号の構築についてこれから述べる。以下の例では、もとのPCM信号は1152個のオーディオ標本値からなるフレームを有しており、各フレームは576の周波数ライン(すなわちMDCT係数)の二つのグラニュールに変換されるものとする。よって、IMDCTユニット68は576個のMDCT係数からなるグラニュールに対して作用して1152個の標本値を含む信号を生成し、該信号は次いでウィンドウ処理および重なり・加算ユニット70に与えられる。   The construction of the PCM output signal by the window processing and overlap / add unit 70 and the IMDCT unit 68 will now be described. In the following example, the original PCM signal has a frame consisting of 1152 audio sample values, and each frame is converted to two granules of 576 frequency lines (ie, MDCT coefficients). . Thus, the IMDCT unit 68 operates on a granule of 576 MDCT coefficients to generate a signal containing 1152 sample values, which is then provided to the windowing and overlap / add unit 70.

MDCT係数のl番目の集合すなわちグラニュールはXl(k)と書かれる。ここで、k=0, ..., 575である。MDCT係数のl番目の集合(lは1から始まる)をデコードしたのちにウィンドウ処理および重なり・加算ユニット70によって生成された出力信号は次のように(重なり・加算を用いて)記述される: The l-th set of MDCT coefficients, or granules, is written as X l (k). Here, k = 0,. After decoding the l-th set of MDCT coefficients (l starts from 1), the output signal generated by the windowing and overlap / add unit 70 is described as follows (using overlap / add):

Figure 2007515672
ここで、添え字n=0, ..., 1151で、yl-1(n)はl−1番目の集合をデコードしたのちの出力信号であり、xl(n)はMDCT係数Xl(k)に対して作用するIMDCTユニット68によって生成された信号である。出力信号y0(n)はすべてのnについて0に初期化される。
Figure 2007515672
Here, subscripts n = 0, ..., 1151, y l-1 (n) is the output signal after decoding the l−1th set, and x l (n) is the MDCT coefficient X l A signal generated by the IMDCT unit 68 acting on (k). The output signal y 0 (n) is initialized to 0 for all n.

信号xl(n)の生成は指定されたウィンドウ型に依存する。l番目のグラニュールについてのウィンドウ型が0、1または3であるとき、IMDCTユニット68はXl(k)によって与えられる576個の入力係数に対して逆MDCTを実行して、1152個の点を含む一時信号xtmp(n)を生成する。これは次の式[9]によって記述される: The generation of the signal x l (n) depends on the specified window type. When the window type for the l th granule is 0, 1 or 3, the IMDCT unit 68 performs an inverse MDCT on the 576 input coefficients given by X l (k) to yield 1152 points. Generate a temporary signal x tmp (n) containing This is described by the following equation [9]:

Figure 2007515672
ここで、n=0, ..., N−1でN=1152である。
Figure 2007515672
Here, n = 0,..., N−1 and N = 1115.

l番目の集合のウィンドウ型が2(すなわち「短い」ウィンドウ)のとき、IMDCTユニット68は、それぞれXl(k)によって与えられる192個の入力係数の対応する集合に対して3つの逆MDCTを実行して、それぞれ384個の点を含むxtmp,0(n)、xtmp,1(n)およびxtmp,2(n)で表される3つの一時信号を生成する。これは次の式[10]によって記述される: When the window type of the l-th set is 2 (ie, a “short” window), the IMDCT unit 68 calculates three inverse MDCTs for the corresponding set of 192 input coefficients, each given by X l (k). Run to generate three temporary signals represented by x tmp, 0 (n), x tmp, 1 (n) and x tmp, 2 (n) each containing 384 points. This is described by the following equation [10]:

Figure 2007515672
ここで、p=0, ..., 2、n=0,...,N−1でN=384である。
Figure 2007515672
Here, p = 0,..., 2, n = 0,.

ウィンドウ処理および重なり・加算ユニット70に実効的に与えられるのは、一時信号xtmp(n)、xtmp,p(n)である。 The temporary signals x tmp (n) and x tmp, p (n) are effectively given to the window processing and overlap / add unit 70.

l番目の集合のウィンドウ型が0のとき、ウィンドウ処理および重なり・加算ユニット70は信号xl(n)を次のように計算する: When the window type of the l-th set is 0, the windowing and overlap / add unit 70 calculates the signal x l (n) as follows:

Figure 2007515672
ここで、[11]における分母1152はIMDCT変換長Nに対応する。
Figure 2007515672
Here, the denominator 1152 in [11] corresponds to the IMDCT transform length N.

l番目の集合のウィンドウ型が1のとき、ウィンドウ処理および重なり・加算ユニット70は信号xl(n)を次のように計算する: When the window type of the l-th set is 1, the windowing and overlap / add unit 70 calculates the signal x l (n) as follows:

Figure 2007515672
ここで、[12]における分母1152はIMDCT変換長Nに対応し、分母384はN/3に対応し、576はN/2に対応する。
Figure 2007515672
Here, the denominator 1152 in [12] corresponds to the IMDCT transform length N, the denominator 384 corresponds to N / 3, and 576 corresponds to N / 2.

l番目の集合のウィンドウ型が2のとき、ウィンドウ処理および重なり・加算ユニット70は信号xl(n)を、まず次の3つの一時信号を計算することにより計算する: When the window type of the l-th set is 2, the windowing and overlap / add unit 70 calculates the signal x l (n) by first calculating the following three temporary signals:

Figure 2007515672
ここで、分母384はIMDCT変換長Nに対応する。
Figure 2007515672
Here, the denominator 384 corresponds to the IMDCT transform length N.

次いで信号xl(n)は次のように構築される: The signal x l (n) is then constructed as follows:

Figure 2007515672
l番目の集合のウィンドウ型が3のとき、ウィンドウ処理および重なり・加算ユニット70は信号xl(n)を次のように計算する:
Figure 2007515672
When the window type of the l-th set is 3, the windowing and overlap / add unit 70 calculates the signal x l (n) as follows:

Figure 2007515672
ここで、分母1152はIMDCT変換長Nに対応し、分母384はN/3に対応する。
Figure 2007515672
Here, the denominator 1152 corresponds to the IMDCT conversion length N, and the denominator 384 corresponds to N / 3.

式[11]、[12]、[13]、[15]は次の一般型になっていることが見て取れるであろう:
xl(n)=z(n)xtmp(n) [16]
ここでxl(n)がウィンドウ処理された信号、xtmp(n)がウィンドウ処理されていない信号、z(n)がウィンドウ関数である。式[11]、[12]、[13]、[15]のウィンドウ関数z(n)がそれぞれ式[4]、[5]、[6]、[7]で記述されたウィンドウ関数z(n)と概して同様であることが注目される。しかし、式[11]、[12]、[13]、[15]におけるウィンドウ関数z(n)のそれぞれのウィンドウ長は、それぞれの変換長Nに従ってより長くなっており、それぞれの分母は対応して大きくなっている。式[11]、[12]、[13]、[15]のウィンドウ関数z(n)は、それぞれ式[4]、[5]、[6]、[7]で記述されるウィンドウ関数z(n)のアップサンプリングされたバージョンをなしていると言うことができる。そのアップサンプリングの程度はそれぞれの変換長/ウィンドウ長Nに依存する。また、適用時には二つ以上のウィンドウの適用に関わることもあるにもかかわらず、式[11]、[12]、[13]、[15]のウィンドウ関数がそれぞれ単一のウィンドウ関数であることも注目されるであろう。
You can see that equations [11], [12], [13], and [15] have the following general form:
x l (n) = z (n) x tmp (n) [16]
Here, x l (n) is a windowed signal, x tmp (n) is a non-windowed signal, and z (n) is a window function. The window functions z (n) of the equations [11], [12], [13], and [15] are described by the equations [4], [5], [6], and [7], respectively. Note that it is generally similar to However, the window lengths of the window functions z (n) in equations [11], [12], [13], and [15] are longer according to the respective conversion lengths N, and the respective denominators correspond. Is getting bigger. The window functions z (n) of the equations [11], [12], [13], and [15] are the window functions z () described by the equations [4], [5], [6], and [7], respectively. It can be said that it is an upsampled version of n). The degree of upsampling depends on the respective conversion length / window length N. In addition, the window functions in equations [11], [12], [13], and [15] must each be a single window function, even though it may involve the application of two or more windows when applied. Will also be noted.

さらに、ウィンドウ処理および重なり・加算ユニット70は、指定されたウィンドウ型の一つだけの適用を行う。すなわち、あるグラニュール全体の標本値に対して一つのウィンドウ関数のみを適用する。これは、各サブバンドに関してウィンドウ関数が適用される従来式のデコーダ30と対照的である。   In addition, the window processing and overlap / add unit 70 applies only one of the specified window types. That is, only one window function is applied to the sample value of an entire granule. This is in contrast to a conventional decoder 30 where a window function is applied for each subband.

ウィンドウ処理および重なり・加算ユニット70によって生成されたPCM出力信号は、MP3規格に完全に対応するのでも、ビット忠実(bit-true)でもないにもかかわらず、高品質オーディオ信号をなすことが見出されている。特に、若干の位相ひずみおよびエイリアシングが存在するため、MP3対応信号と比較すると比較的小さなスペクトルひずみおよび時間領域ひずみを生じる。しかし、こうしたひずみすなわちアーチファクトは、オーディオ信号の人間による知覚に対して著しい悪影響はもたないことが見出される。実効的には、デコーダ60においては、ハイブリッド合成フィルタバンクは若干のスペクトルエイリアシングで「長い」位相ひずみ逆MDCTによって置き換えられる。多数の「短い」MDCTおよび合成フィルタバンクの必要をなくすことによって、デコーダ60の計算上の複雑さは著しく軽減される。例として、典型的な最適化をした従来式MP3デコーダは、出力標本値1つあたり約22.11回の乗算および26.73回の加算を必要とする。対応する最適化をしたデコーダ60が必要とするのは、出力標本値1つあたり、たったの8回の乗算および20.5回の加算のみである。結果として、デコーダ60はより高いデコード効率をもたらし、これはより少ない電力消費、あるいはより低いDSP要求へとつながる。デコーダ60の複雑さは、エイリアシングバタフライが必須ではないことにおいてさらに軽減される(デコーダ30内でのその存在は、合成フィルタバンク42がPCM出力信号を再構築するのを助けるためなので)。   The PCM output signal generated by the windowing and overlap / add unit 70 is found to be a high quality audio signal, even though it is not fully compliant with the MP3 standard or bit-true. Has been issued. In particular, due to the presence of some phase distortion and aliasing, relatively small spectral and time domain distortions are produced compared to MP3-compatible signals. However, it is found that such distortions or artifacts do not have a significant adverse effect on the human perception of the audio signal. Effectively, in the decoder 60, the hybrid synthesis filter bank is replaced by “long” phase distortion inverse MDCT with some spectral aliasing. By eliminating the need for multiple “short” MDCTs and synthesis filter banks, the computational complexity of decoder 60 is significantly reduced. As an example, a typical MP3 decoder with typical optimization requires approximately 22.11 multiplications and 26.73 additions per output sample value. The corresponding optimized decoder 60 requires only 8 multiplications and 20.5 additions per output sample value. As a result, the decoder 60 provides higher decoding efficiency, which leads to less power consumption or lower DSP requirements. The complexity of the decoder 60 is further reduced in that an aliasing butterfly is not essential (since its presence in the decoder 30 helps the synthesis filter bank 42 reconstruct the PCM output signal).

上記した本発明の原理はMP3型のエンコーダにも等しく適用されうる。よって、本発明のさらなる側面は、オーディオ信号をエンコードしてMPEG-1レイヤーIII型信号またはビットストリームを生成するための装置を提供する。このビットストリームはMP3対応ではあるものの標準的なMP3ビットストリームではないことを注意しておく――結果として得られるデコード信号は位相応答およびエイリアシングにおいてMP3規格からは異なる。本質的には、「長い」位相ひずみMDCTが従来式エンコーダ10の分解ハイブリッドフィルタバンク12、14を置き換えるのに使われる。図8は、本発明のこの側面を具現するエンコーダ80の簡略化されたブロック図を示している。エンコーダ80は、受け取ったPCM入力標本値に対してウィンドウ処理を実行するウィンドウ処理ユニット82を含んでいる。ウィンドウ処理機能は式[4]、[5]、[6]、[7]で記載したものと同様であるが、ウィンドウ長は必要とされるMDCT変換サイズに応じて異なってくる。通常ウィンドウ、開始ウィンドウまたは終止ウィンドウ型について、MDCTユニット84は受け取ったフレームの1152個の入力標本値すべてに対して「長い」MDCTを実行する。短いウィンドウについては、MDCTユニット84は3つの「長い」MDCTを384個の入力標本値からなる3つの対応する集合に対して実行して192の周波数ラインからなる各集合を生成する。エンコーダ80は従来式のMP3量子化・符号化ユニット86およびビット割り当てユニット88を含みうる。MDCTユニット84と量子化・符号化ユニット86の間に、交互の、すなわち一つおきのサブバンドを反転させるための反転ユニット85を設けてもよい。   The principle of the present invention described above can be equally applied to an MP3 type encoder. Thus, a further aspect of the invention provides an apparatus for encoding an audio signal to generate an MPEG-1 layer III type signal or bitstream. Note that this bitstream is MP3 capable but not a standard MP3 bitstream-the resulting decoded signal differs from the MP3 standard in phase response and aliasing. In essence, a “long” phase distortion MDCT is used to replace the resolving hybrid filter banks 12, 14 of the conventional encoder 10. FIG. 8 shows a simplified block diagram of an encoder 80 that embodies this aspect of the invention. The encoder 80 includes a window processing unit 82 that performs window processing on the received PCM input sample values. The window processing function is the same as that described in equations [4], [5], [6], and [7], but the window length varies depending on the required MDCT conversion size. For a normal window, start window, or end window type, MDCT unit 84 performs a “long” MDCT on all 1152 input sample values of the received frame. For short windows, MDCT unit 84 performs three “long” MDCTs on three corresponding sets of 384 input sample values to generate each set of 192 frequency lines. The encoder 80 may include a conventional MP3 quantization and encoding unit 86 and a bit allocation unit 88. An inversion unit 85 may be provided between the MDCT unit 84 and the quantization / encoding unit 86 to invert alternate, that is, every other subband.

デコーダ60における反転ユニット66の役割は、従来式MP3エンコーダにおいて生じる交互のサブバンドの内在的反転を補償するためであったことは理解されるであろう。したがって、エンコーダ80における反転ユニット85の役割は、従来式のエンコーダ10において通常生じる交互のサブバンドの反転を生成することである。しかし、交互のサブバンドの反転は本質的ではなく、よって代替的な実施形態では反転ユニット66、85は省いてもよい。   It will be appreciated that the role of inversion unit 66 in decoder 60 was to compensate for the inherent inversion of alternating subbands that occurs in conventional MP3 encoders. Thus, the role of the inversion unit 85 in the encoder 80 is to generate alternating subband inversions that normally occur in the conventional encoder 10. However, the inversion of alternating subbands is not essential and thus inversion embodiments the inversion units 66, 85 may be omitted.

デコーダ60は標準的なMPEG-1レイヤーIII対応データのみならずたとえばエンコーダ80によって生成される非標準的なMPEG-1レイヤーIII型データのデコードができることは理解されるであろう。   It will be understood that the decoder 60 is capable of decoding not only standard MPEG-1 layer III data but also non-standard MPEG-1 layer III type data generated by the encoder 80, for example.

本発明はMPEG-1レイヤーIIIデータ信号やMDCTに限定されない。たとえば、本発明の第一の側面を具現するデコーダは、エンコードされていないデータ信号(必ずではないが特にオーディオ信号)をサブバンドフィルタバンクに提供し、結果として得られる各サブバンド信号に対してその後それぞれの順周波数変換が実行されるようにするエンコーダ、すなわちハイブリッドフィルタバンクによって生成されるエンコードされたデータ信号に作用するよう構成されてもよい。その後の量子化およびエンコードは、対応する逆量子化およびデコードがデコーダ側で実行される限り、必ずしもMP3に従っていなくてもよい。同様に、順周波数変換は、互換の逆周波数変換がデコーダ側によって用いられる限り、必ずしもMDCTを含まなくてもよい。これに関連し、「グラニュール」の用語は主としてMP3用語であるが、当業者は非MP3の実施形態のコンテキストにおいてここで用いられている「グラニュール」の用語が、周波数ラインすなわち係数についてのいかなる同等なグループ化として解釈されてもよいことをすぐ理解することであろう(一般には「フレーム」の用語が「グラニュール」の対応物である)。   The present invention is not limited to MPEG-1 layer III data signals or MDCT. For example, a decoder embodying the first aspect of the present invention provides an unencoded data signal (not necessarily an audio signal in particular) to a subband filter bank and for each resulting subband signal. It may be configured to act on the encoded data signal generated by the encoder, i.e. the hybrid filter bank, which then performs the respective forward frequency transform. Subsequent quantization and encoding may not necessarily follow MP3 as long as the corresponding inverse quantization and decoding is performed at the decoder side. Similarly, the forward frequency transform does not necessarily include MDCT as long as a compatible inverse frequency transform is used by the decoder side. In this context, the term “granule” is primarily an MP3 term, but those skilled in the art will recognize that the term “granule” as used herein in the context of a non-MP3 embodiment is a frequency line or coefficient. It will be readily understood that it may be interpreted as any equivalent grouping (generally the term “frame” is the counterpart of “granule”).

サブバンドフィルタバンクおよび周波数変換は臨界サンプリングであり、ウィンドウ関数どうしが50%の重なりをもち(よって変換は時間領域エイリアシング消去[Time Domain Aliasing Cancellation (TDAC)]の性質を示す)、より好ましくは実数値であることが好ましいが、本質的ではない。また、エンコーダ側で変換されたサブバンドに対して、たとえばエイリアシング除去バタフライによってエイリアシング低減が実行されることが好ましいが、本質的ではない。   Subband filter banks and frequency transforms are critical sampling, and the window functions have 50% overlap (so the transforms exhibit the nature of Time Domain Aliasing Cancellation (TDAC)), more preferably A numerical value is preferred but not essential. Further, although it is preferable that aliasing reduction is performed on the subband converted on the encoder side, for example, by an aliasing removal butterfly, it is not essential.

以上の記述はモノラル信号に関しているが、本発明はステレオあるいはマルチチャンネルエンコードおよびデコードに対しても、それぞれの個別チャンネルを上記した仕方で処理することによって容易に適用されうる。   Although the above description relates to monaural signals, the present invention can be readily applied to stereo or multi-channel encoding and decoding by processing each individual channel in the manner described above.

本発明を具現するエンコーダおよびデコーダは、たとえばコンピュータプログラムコード、ハードウェアまたはそれぞれの組み合わせを使うなどして、いかなる好都合な仕方で実装されてもよい。   Encoders and decoders embodying the invention may be implemented in any convenient manner, for example using computer program code, hardware or a combination of each.

本発明はここに記載された実施形態に限定されるものではない。ここに記載された実施形態は本発明の範囲から外れることなく修正または変形しうるものである。
The present invention is not limited to the embodiments described herein. The embodiments described herein can be modified or modified without departing from the scope of the present invention.

従来式MPEG-1レイヤーIIIエンコーダのブロック図である。It is a block diagram of a conventional MPEG-1 layer III encoder. 従来式MPEG-1レイヤーIIIデコーダのブロック図である。It is a block diagram of a conventional MPEG-1 layer III decoder. MPEG-1レイヤーIIIハイブリッド分解フィルタバンクから得られる、デルタパルスに対するMDCT係数のグラフ表現を示す図である。FIG. 6 is a diagram showing a graphical representation of MDCT coefficients for delta pulses, obtained from an MPEG-1 layer III hybrid decomposition filter bank. 図3のMDCT係数で奇数番目サブバンドを反転(−1倍)した後のグラフ表現を示す図である。It is a figure which shows the graph expression after inverting (-1 time) the odd-numbered subband with the MDCT coefficient of FIG. 従来式のMPEG-1レイヤーIIIデコーダにおいて、並べ替え後の短いウィンドウについてのMDCT係数の順序を示す図である。FIG. 5 is a diagram illustrating the order of MDCT coefficients for a short window after rearrangement in a conventional MPEG-1 layer III decoder. 本発明のある側面を具現する、MPEG-1レイヤーIII信号のデコーダのブロック図である。FIG. 3 is a block diagram of an MPEG-1 layer III signal decoder embodying an aspect of the present invention. 図6のデコード装置において、並べ替え後の短いウィンドウについてのMDCT係数の順序を示す図である。FIG. 7 is a diagram illustrating the order of MDCT coefficients for a short window after rearrangement in the decoding device of FIG. 6. 本発明の第三の側面を具現するMPEG-1レイヤーIII型信号を生成するためのエンコーダのブロック図である。FIG. 6 is a block diagram of an encoder for generating an MPEG-1 layer III type signal embodying a third aspect of the present invention.

Claims (25)

データ信号をサブバンドフィルタバンクに提供することによって、および結果として得られる各サブバンド信号に対してそれぞれの順周波数変換を実行することによってエンコードされたデータ信号のためのデコーダであって、当該デコーダが、受領したデータ信号をデコードおよび逆量子化して周波数ラインの複数のグラニュールを生成する手段と、各グラニュールに対して一つまたは複数の逆周波数変換を実行して複数のデータ標本値を生成するための手段と、前記データ標本値に一つまたは複数の型のウィンドウ関数を適用して複数のウィンドウ処理されたデータ標本値を生成する手段とを有しており、少なくともある第一の型のウィンドウ関数に関しては前記逆周波数変換手段が各グラニュールのすべての周波数ラインに対して単一の逆周波数変換を実行するよう構成されており、当該デコーダがさらに前記ウィンドウ処理されたデータ標本値から出力信号を構築する手段を含んでいることを特徴とするデコーダ。   A decoder for a data signal encoded by providing a data signal to a subband filter bank and performing a respective forward frequency transform on each resulting subband signal, the decoder Means for decoding and inverse quantizing the received data signal to generate multiple granules of frequency lines, and performing one or more inverse frequency transforms on each granule to obtain multiple data sample values Means for generating and means for generating a plurality of windowed data sample values by applying one or more types of window functions to the data sample values, wherein at least a first For a type window function, the inverse frequency transform means is single for all frequency lines of each granule. Is configured to perform inverse frequency transform, the decoder being characterized in that includes means for constructing an output signal from the decoder further said windowed data samples values. 前記サブバンドフィルタバンクが臨界サンプリングされたサブバンドフィルタバンクであることを特徴とする、請求項1記載のデコーダ。   The decoder of claim 1, wherein the subband filter bank is a critically sampled subband filter bank. 前記データ信号のエンコードがさらに前記サブバンド信号に対するエイリアシング軽減を実行することを含んでいることを特徴とする、請求項1または2記載のデコーダ。   The decoder according to claim 1 or 2, wherein the encoding of the data signal further comprises performing aliasing mitigation on the subband signal. 前記順周波数変換が臨界サンプリングされる変換であることを特徴とする、請求項1ないし3のうちいずれか一項記載のデコーダ。   4. The decoder according to claim 1, wherein the forward frequency transform is a critically sampled transform. 前記ウィンドウ関数が前記データ標本値に関して50%重なり合うことを特徴とする、請求項4記載のデコーダ。   5. Decoder according to claim 4, characterized in that the window functions overlap 50% with respect to the data sample values. 前記出力信号構築手段が前記出力信号を生成するために前記ウィンドウ処理されたデータ信号に一つまたは複数の重なり・加算操作を適用することを特徴とする、請求項5記載のデコーダ。   6. The decoder according to claim 5, wherein the output signal construction means applies one or more overlap / add operations to the windowed data signal to generate the output signal. 前記順周波数変換が修正離散コサイン変換(MDCT)であり、前記逆周波数変換が逆修正離散コサイン変換(IMDCT)であることを特徴とする、請求項1ないし6のうちいずれか一項記載のデコーダ。   7. A decoder according to claim 1, wherein the forward frequency transform is a modified discrete cosine transform (MDCT) and the inverse frequency transform is an inverse modified discrete cosine transform (IMDCT). . 少なくとも前記第一の型のウィンドウ関数に関して、前記ウィンドウ関数適用手段がある個別グラニュールに関して生成されたデータ標本値すべてに単一のウィンドウ関数を適用するよう構成されていることを特徴とする、請求項1ないし7のうちいずれか一項記載のデコーダ。   At least for the first type of window function, the window function applying means is configured to apply a single window function to all data sample values generated for an individual granule. Item 8. The decoder according to any one of Items 1 to 7. 前記少なくとも第一の型のウィンドウ関数がMPEG-1レイヤーIIIの0型、1型および3型のウィンドウ関数の長さ調整したバージョンを含むことを特徴とする、請求項1ないし8のうちいずれか一項記載のデコーダ。   9. The method of claim 1, wherein the at least first type window function includes length-adjusted versions of MPEG-1, Layer III type 0, type 1, and type 3 window functions. The decoder according to one item. 少なくともある第二の型のウィンドウ関数に関して、前記逆周波数変換手段が、あるグラニュールの周波数ラインの個別の集合に対してそれぞれの逆周波数変換を実行するよう構成されており、前記グラニュールの周波数ラインの全部が前記集合のいずれかに属していることを特徴とする、請求項1ないし9のうちいずれか一項記載のデコーダ。   For at least a second type of window function, the inverse frequency transforming means is configured to perform respective inverse frequency transforms on a separate set of frequency lines of a granule, the frequency of the granule 10. Decoder according to any one of the preceding claims, characterized in that all of the lines belong to one of the sets. 少なくとも前記第二の型のウィンドウ関数に関して、前記ウィンドウ関数適用手段が、周波数ラインの個別の集合に関して生成された全データ標本値に単一のウィンドウ関数を適用するよう構成されていることを特徴とする、請求項10記載のデコーダ。   For at least the second type of window function, the window function applying means is configured to apply a single window function to all data sample values generated for a distinct set of frequency lines. The decoder according to claim 10. 前記少なくとも第二の型のウィンドウ関数がMPEG-1レイヤーIIIの2型のウィンドウ関数の長さ調整したバージョンを含み、前記グラニュールの周波数ラインが3つの集合のうちのいずれかに属することを特徴とする、請求項10または11記載のデコーダ。   The at least second type window function includes a length-adjusted version of an MPEG-1 layer III type 2 window function, and the granule frequency line belongs to one of three sets. The decoder according to claim 10 or 11. あるグラニュール内の各周波数ラインが複数の周波数サブバンドのうちの個別の一つに関連付けられており、当該デコーダがさらに、前記少なくとも第二の型のウィンドウ関数が適用されるべきときにグラニュール内の周波数ラインを並べ替える手段を含んでおり、該並べ替え手段が前記周波数ラインの並べ替えを、粒度の大きい順に、該周波数ラインがどの集合に属するか、どの周波数サブバンドと関連付けられているかに従って、それから周波数ライン順に行うことを特徴とする、請求項1ないし12のうちいずれか一項記載のデコーダ。   When each frequency line in a granule is associated with a distinct one of a plurality of frequency subbands, the decoder further includes a granule when the at least second type of window function is to be applied. Means for rearranging frequency lines within the frequency line, wherein the rearrangement means sorts the frequency lines into which set the frequency lines belong to and in which frequency subbands are associated in descending order of granularity. 13. The decoder according to claim 1, wherein the decoding is performed in the order of frequency lines. 一つおきの周波数サブバンドに関連付けられた周波数ラインを反転させる手段をさらに含んでいることを特徴とする、請求項1ないし13のうちいずれか一項記載のデコーダ。   14. Decoder according to any one of the preceding claims, further comprising means for inverting frequency lines associated with every other frequency subband. 請求項14記載のデコーダであって、請求項13に従属する場合であって、前記反転手段が前記並べ替え手段と前記逆周波数変換手段の間に設けられることを特徴とするデコーダ。   15. The decoder according to claim 14, wherein the decoder is dependent on claim 13, and the inverting means is provided between the rearranging means and the inverse frequency converting means. データ信号をサブバンドフィルタバンクに提供することによって、および結果として得られる各サブバンド信号に対してそれぞれの順周波数変換を実行することによってエンコードされたデータ信号をデコードする方法であって、当該方法が、受領したデータ信号をデコードおよび逆量子化して周波数ラインの複数のグラニュールを生成し、各グラニュールに対して一つまたは複数の逆周波数変換を実行して複数のデータ標本値を生成し、前記データ標本値に一つまたは複数の型のウィンドウ関数を適用して複数のウィンドウ処理されたデータ標本値を生成し、前記ウィンドウ処理されたデータ標本値から出力信号を構築することを有しており、少なくともある第一の型のウィンドウ関数に関しては各グラニュール内のすべての周波数ラインに対して単一の逆周波数変換が実行されることを特徴とする方法。   A method of decoding an encoded data signal by providing a data signal to a subband filter bank and performing a respective forward frequency transform on each resulting subband signal, the method Decodes and dequantizes the received data signal to generate multiple granules of frequency lines, and performs one or more inverse frequency transforms on each granule to generate multiple data sample values. Applying one or more types of window functions to the data sample values to generate a plurality of windowed data sample values and constructing an output signal from the windowed data sample values All frequency lines in each granule, at least for some first type of window function Method characterized in that a single inverse frequency transform is performed for. 複数のデータ標本値を有する入力信号のためのエンコーダであって、当該エンコーダが前記データ標本値に一つまたは複数の型のウィンドウ関数を適用して複数のウィンドウ処理されたデータ標本値を生成する手段と、前記ウィンドウ処理されたデータ標本値に対して一つまたは複数の修正離散コサイン変換(MDCT)を実行して周波数ラインの複数のグラニュールを生成する手段と、各グラニュールをエンコードおよび量子化してMPEG-1レイヤーIII型のデータ信号を生成する手段とを有しており、少なくともある第一の型のウィンドウ関数に関しては、前記MDCT手段が、ある個別のグラニュールが生成されるのに関連する前記受領されたデータ信号のウィンドウ処理されたデータ標本値すべてに対して単一のMDCTを実行するよう構成されていることを特徴とするエンコーダ。   An encoder for an input signal having a plurality of data sample values, wherein the encoder applies one or more types of window functions to the data sample values to generate a plurality of windowed data sample values Means for performing one or more modified discrete cosine transforms (MDCT) on the windowed data sample values to generate a plurality of granules of frequency lines; and encoding and quantizing each granule Means for generating MPEG-1 layer III type data signals, and for at least a first type of window function, the MDCT means generates a particular granule. Is configured to perform a single MDCT on all windowed data sample values of the associated received data signal Encoder characterized. 少なくとも前記第一の型のウィンドウ関数に関して、前記ウィンドウ関数適用手段が、ある個別グラニュールが生成されるのに関連する前記受領された個々のデータ信号のウィンドウ処理されたデータ標本値すべてに単一のウィンドウ関数を適用するよう構成されていることを特徴とする、請求項17記載のエンコーダ。   For at least the first type of window function, the window function applying means is singular for all windowed data sample values of the received individual data signals associated with the generation of an individual granule. The encoder according to claim 17, wherein the encoder is configured to apply the following window function. 前記少なくとも第一の型のウィンドウ関数がMPEG-1レイヤーIIIの0型、1型および3型のウィンドウ関数の長さ調整したバージョンを含むことを特徴とする、請求項17または18記載のエンコーダ。   19. Encoder according to claim 17 or 18, characterized in that the at least first type window function comprises length-adjusted versions of MPEG-1, Layer III type 0, type 1 and type 3 window functions. 少なくともある第二の型のウィンドウ関数に関して、前記MDCT手段が、ある個別グラニュールが生成されるのに関連するウィンドウ処理されたデータ標本値の個別の集合に対してそれぞれのMDCTを実行するよう構成されており、ある個別グラニュールが生成されるのに関連する前記ウィンドウ処理されたデータ標本値の全部が前記集合のいずれかに属していることを特徴とする、請求項17ないし19のうちいずれか一項記載のエンコーダ。   For at least a second type of window function, the MDCT means is configured to perform each MDCT on a separate set of windowed data sample values associated with a particular granule being generated. 20. Any of the set of windowed data samples associated with the generation of an individual granule belongs to any of the sets An encoder according to claim 1. 少なくとも前記第二の型のウィンドウ関数に関して、前記ウィンドウ関数適用手段が、個別の集合のウィンドウ処理された全データ標本値に単一のウィンドウ関数を適用するよう構成されていることを特徴とする、請求項20記載のエンコーダ。   At least for the second type of window function, the window function applying means is adapted to apply a single window function to all the windowed data sample values of a separate set, The encoder according to claim 20. 前記少なくとも第二の型のウィンドウ関数がMPEG-1レイヤーIIIの2型のウィンドウ関数の長さ調整したバージョンを含み、ある個別グラニュールが生成されるのに関連するウィンドウ処理されたデータ標本値が3つの集合のうちのいずれかに属することを特徴とする、請求項20または21記載のエンコーダ。   The at least second type window function includes a length-adjusted version of the MPEG-1 Layer III type 2 window function, and the windowed data sample value associated with the generation of an individual granule is The encoder according to claim 20 or 21, wherein the encoder belongs to one of three sets. あるグラニュール内の各周波数ラインが複数の周波数サブバンドのうちの個別の一つに関連付けられており、当該エンコーダが一つおきの周波数サブバンドに関連付けられた周波数ラインを反転させる手段を含んでいることを特徴とする、請求項17ないし22のうちいずれか一項記載のエンコーダ。   Each frequency line in a granule is associated with an individual one of a plurality of frequency subbands, and the encoder includes means for inverting the frequency lines associated with every other frequency subband. An encoder according to any one of claims 17 to 22, characterized in that 複数のデータ標本値を有する入力信号をエンコードする方法であって、当該方法が、前記データ標本値に一つまたは複数の型のウィンドウ関数を適用して複数のウィンドウ処理されたデータ標本値を生成し、前記ウィンドウ処理されたデータ標本値に対して一つまたは複数の修正離散コサイン変換(MDCT)を実行して周波数ラインの複数のグラニュールを生成し、各グラニュールをエンコードおよび量子化してMPEG-1レイヤーIII型のデータ信号を生成することを有しており、少なくともある第一の型のウィンドウ関数に関しては、ある個別のグラニュールが生成されるのに関連する前記受領されたデータ信号のウィンドウ処理されたデータ標本値すべてに対して単一のMDCTが実行されることを特徴とする方法。   A method of encoding an input signal having a plurality of data sample values, the method applying one or more types of window functions to the data sample values to generate a plurality of windowed data sample values And performing one or more modified discrete cosine transforms (MDCT) on the windowed data sample values to generate a plurality of granules of frequency lines, and encoding and quantizing each granule to generate MPEG -1 layer III type data signal, and at least for some first type window function, the received data signal associated with the generation of a particular granule A method wherein a single MDCT is performed on all windowed data sample values. 請求項17記載のエンコーダおよび請求項1記載のデコーダを有することを特徴とする、データ信号をエンコードおよびデコードするシステム。   A system for encoding and decoding a data signal comprising the encoder according to claim 17 and the decoder according to claim 1.
JP2006542091A 2003-12-04 2004-11-30 Audio signal encoding Pending JP2007515672A (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP03104535 2003-12-04
PCT/IB2004/052602 WO2005055203A1 (en) 2003-12-04 2004-11-30 Audio signal coding

Publications (1)

Publication Number Publication Date
JP2007515672A true JP2007515672A (en) 2007-06-14

Family

ID=34639327

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006542091A Pending JP2007515672A (en) 2003-12-04 2004-11-30 Audio signal encoding

Country Status (5)

Country Link
EP (1) EP1692686A1 (en)
JP (1) JP2007515672A (en)
KR (1) KR20060131767A (en)
CN (1) CN1890712A (en)
WO (1) WO2005055203A1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018511827A (en) * 2015-03-09 2018-04-26 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ Audio encoder for encoding multi-channel signals and audio decoder for decoding encoded audio signals
JP2021196562A (en) * 2020-06-17 2021-12-27 Toa株式会社 Acoustic communication system, acoustic transmission device, acoustic reception device, program, and acoustic signal transmission method

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102243872A (en) * 2010-05-10 2011-11-16 炬力集成电路设计有限公司 Method and system for encoding and decoding digital audio signals
CN104380376B (en) 2012-06-14 2017-03-15 杜比国际公司 Solution code system, reconstructing method and equipment, coded system, method and apparatus and audio publishing system

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1397798B1 (en) * 2001-06-08 2006-04-12 STMicroelectronics Asia Pacific Pte Ltd. Unified filter bank for audio coding

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022088470A (en) * 2015-03-09 2022-06-14 フラウンホッファー-ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ Audio encoder for encoding multichannel signal and audio decoder for decoding encoded audio signal
JP7077290B2 (en) 2015-03-09 2022-05-30 フラウンホッファー-ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ An audio encoder for encoding multi-channel signals and an audio decoder for decoding encoded audio signals
US10395661B2 (en) 2015-03-09 2019-08-27 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
JP2020038374A (en) * 2015-03-09 2020-03-12 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ Audio encoder for encoding multichannel signal and audio decoder for decoding encoded audio signal
US10777208B2 (en) 2015-03-09 2020-09-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
US11107483B2 (en) 2015-03-09 2021-08-31 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
US10388287B2 (en) 2015-03-09 2019-08-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
JP7469350B2 (en) 2015-03-09 2024-04-16 フラウンホッファー-ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ Audio Encoder for Encoding a Multi-Channel Signal and Audio Decoder for Decoding the Encoded Audio Signal - Patent application
US11741973B2 (en) 2015-03-09 2023-08-29 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
JP2018511827A (en) * 2015-03-09 2018-04-26 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ Audio encoder for encoding multi-channel signals and audio decoder for decoding encoded audio signals
US11238874B2 (en) 2015-03-09 2022-02-01 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
US11881225B2 (en) 2015-03-09 2024-01-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
JP7385531B2 (en) 2020-06-17 2023-11-22 Toa株式会社 Acoustic communication system, acoustic transmitting device, acoustic receiving device, program and acoustic signal transmitting method
JP2021196562A (en) * 2020-06-17 2021-12-27 Toa株式会社 Acoustic communication system, acoustic transmission device, acoustic reception device, program, and acoustic signal transmission method

Also Published As

Publication number Publication date
KR20060131767A (en) 2006-12-20
EP1692686A1 (en) 2006-08-23
WO2005055203A1 (en) 2005-06-16
CN1890712A (en) 2007-01-03

Similar Documents

Publication Publication Date Title
JP4081447B2 (en) Apparatus and method for encoding time-discrete audio signal and apparatus and method for decoding encoded audio data
EP1964111B1 (en) Device and method for postprocessing spectral values and encoder and decoder for audio signals
EP2308045B1 (en) Compression of audio scale-factors by two-dimensional transformation
US7275036B2 (en) Apparatus and method for coding a time-discrete audio signal to obtain coded audio data and for decoding coded audio data
US8260620B2 (en) Device for perceptual weighting in audio encoding/decoding
EP3246919B1 (en) Improved harmonic transposition
KR100331166B1 (en) Methods and devices for encoding audio signals and methods and devices for decoding a bit stream
JP4567238B2 (en) Encoding method, decoding method, encoder, and decoder
US6735339B1 (en) Multi-stage encoding of signal components that are classified according to component value
WO2005073959A1 (en) Audio signal decoding using complex-valued data
JP2008519290A (en) Audio signal encoding and decoding using complex-valued filter banks
JP2004531151A (en) Method and apparatus for processing time discrete audio sample values
EP3985666B1 (en) Improved harmonic transposition
JP2007515672A (en) Audio signal encoding
AU2020201239B2 (en) Improved Harmonic Transposition
US20170206905A1 (en) Method, medium and apparatus for encoding and/or decoding signal based on a psychoacoustic model
JP2001083995A (en) Sub band encoding/decoding method
JP4024784B2 (en) Audio decoding device
Edler Aliasing reduction for gain control with critically sampled filter banks
AU2013211560B2 (en) Improved harmonic transposition