JP2007515672A - Audio signal encoding - Google Patents
Audio signal encoding Download PDFInfo
- Publication number
- JP2007515672A JP2007515672A JP2006542091A JP2006542091A JP2007515672A JP 2007515672 A JP2007515672 A JP 2007515672A JP 2006542091 A JP2006542091 A JP 2006542091A JP 2006542091 A JP2006542091 A JP 2006542091A JP 2007515672 A JP2007515672 A JP 2007515672A
- Authority
- JP
- Japan
- Prior art keywords
- frequency
- sample values
- type
- window function
- granule
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000005236 sound signal Effects 0.000 title description 6
- 239000008187 granular material Substances 0.000 claims abstract description 64
- 230000006870 function Effects 0.000 claims abstract description 59
- 238000000034 method Methods 0.000 claims description 18
- 230000008707 rearrangement Effects 0.000 claims description 10
- 238000010276 construction Methods 0.000 claims description 2
- 230000001419 dependent effect Effects 0.000 claims description 2
- 230000001131 transforming effect Effects 0.000 claims description 2
- 230000000116 mitigating effect Effects 0.000 claims 1
- 230000015572 biosynthetic process Effects 0.000 abstract description 10
- 238000003786 synthesis reaction Methods 0.000 abstract description 10
- 238000000354 decomposition reaction Methods 0.000 description 11
- 238000013139 quantization Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 238000006243 chemical reaction Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 5
- 238000007792 addition Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/14—Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
- G06F17/147—Discrete orthonormal transforms, e.g. discrete cosine transform, discrete sine transform, and variations therefrom, e.g. modified discrete cosine transform, integer transforms approximating the discrete cosine transform
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Discrete Mathematics (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本発明の一つの側面はMPEG-1レイヤーIIIのデータ信号のためのデコーダを提供する。好ましい実施形態では、当該デコーダは0型、1型および3型のMP3ウィンドウ関数についてはある個別のグラニュールの576個の周波数ラインのすべてに対して単一の逆MDCTを実行し、2型のウィンドウ関数に対しては192個の周波数ラインの3つの集合に対して3つの逆MDCTを実行する。「長い」逆MDCTの使用によって、複数の「短い」逆MDCTおよび合成フィルタバンクを有するハイブリッドフィルタバンクの十分な近似が与えられることが見出された。結果として、出力信号はフィルタバンクを必要とせずに構築されうる。本発明のもう一つの側面はMPEG-1レイヤーIII型のデータ信号を生成するエンコーダを提供する。ここでは「長い」MDCTを前記ハイブリッドフィルタバンクを置き換えるのに使用する。結果として、MPEG-1レイヤーIII型のデータ信号はフィルタバンクを必要とせずに構築されうる。One aspect of the present invention provides a decoder for MPEG-1 Layer III data signals. In the preferred embodiment, the decoder performs a single inverse MDCT for all 576 frequency lines of a particular granule for type 0, type 1 and type 3 MP3 window functions, For the window function, three inverse MDCTs are performed on three sets of 192 frequency lines. It has been found that the use of “long” inverse MDCT provides a sufficient approximation of a hybrid filter bank with multiple “short” inverse MDCT and synthesis filter banks. As a result, the output signal can be constructed without the need for a filter bank. Another aspect of the present invention provides an encoder for generating an MPEG-1 layer III type data signal. Here, a “long” MDCT is used to replace the hybrid filter bank. As a result, an MPEG-1 layer III type data signal can be constructed without the need for a filter bank.
Description
本発明はデータ信号のエンコードおよびデコードに関する。本発明はそれに限るものではないが特に、MPEG-1レイヤーIIIデータ信号のエンコードおよびデコードのための装置に関する。 The present invention relates to encoding and decoding of data signals. In particular, but not exclusively, the present invention relates to an apparatus for encoding and decoding MPEG-1 layer III data signals.
MPEG-1レイヤーIII(一般にMP3として知られる)は広く使われているオーディオコーデックである。MP3のための業界標準はISO/IEC JTC1/SC29/WG11 MPEG, IS11172-3, Information Technology―Coding of Moving Pictures and Associated Audio for Digital Storage Media at up to about 1.5 Mbit/s, Part3: Audio, MPEG-1, 1992において記載されている。この規格は国際標準化機構(ISO)(www.iso.ch)から入手可能であり、ここに参照によって組み込まれる。 MPEG-1 Layer III (commonly known as MP3) is a widely used audio codec. Industry standards for MP3 are ISO / IEC JTC1 / SC29 / WG11 MPEG, IS11172-3, Information Technology-Coding of Moving Pictures and Associated Audio for Digital Storage Media at up to about 1.5 Mbit / s, Part 3: Audio, MPEG- 1, 1992. This standard is available from the International Organization for Standardization (ISO) (www.iso.ch) and is incorporated herein by reference.
図1は典型的な従来のMPEG-1レイヤーIIIエンコーダ10の簡略化したブロック図を呈示しており、本発明の理解の助けになるエンコーダ10の構成要素のみを示している。エンコーダ10は、1152個のオーディオ標本値の系列すなわちフレームからなるPCM入力信号を受領するよう構成されている。その入力信号は(多相)分解フィルタバンク12に供給され、そこで一様間隔で重なりを持つ32個の周波数帯域にフィルタリングされ、32個のダウンサンプリングされたサブバンド信号成分を生成する。各サブバンド信号成分は36個のサブバンド標本値を有する。
FIG. 1 presents a simplified block diagram of a typical conventional MPEG-1 layer III
各サブバンド信号成分に関し、ウィンドウ付き(順)MDCT(Modified Discrete Cosine Transform[修正離散コサイン変換])がMDCTユニット14によって実行される。可変の時間区分を受け入れるために4つのウィンドウ型が使われる。信号の(準)静的部分については、いわゆる通常(normal)ウィンドウを使うことができる。他方、信号の非静的部分については、いわゆる短い(short)ウィンドウのシーケンスを使うことができる。2つの遷移的なウィンドウ型、いわゆる開始(start)ウィンドウおよび終止(stop)ウィンドウが、通常ウィンドウから短いウィンドウへ、短いウィンドウから通常ウィンドウへの切り換え時の不連続を防止するために定義されている。通常ウィンドウ、開始ウィンドウあるいは終止ウィンドウについては、MDCTは36個の入力(すなわち36個のサブバンド標本値)に対して実行されて18個の出力MDCT係数を生成する。この係数は一般に周波数ラインと称される。短いウィンドウについてはMDCTは12個の入力からなる3つの集合(すなわち、12個のサブバンド標本値からなる3つの集合)に対して実行され、6つの出力MDCT係数すなわち周波数ラインからなる3つの集合を生成する。576個のMDCT係数の集合はグラニュール(granule)として知られている。エンコード処理の重なりをもつ性質の結果、1152個の入力標本値からなる一般的なMP3フレームに対して2つのグラニュールが生成される。576個の入力標本値ごとに、全部で18×32=576個のMDCT係数すなわち周波数ラインが生成される。
For each subband signal component, a windowed (forward) MDCT (Modified Discrete Cosine Transform) is performed by the
通常ウィンドウ、開始ウィンドウ、終止ウィンドウの場合、MDCT周波数ラインは、フィルタバンク12の部分的に重なり合う諸フィルタをダウンサンプリングすることによって引き起こされるエイリアシングの効果を軽減するために、エイリアシング除去バタフライ16に与えられる。最終的に、量子化・符号化ユニット18が周波数ラインの適切な量子化および符号化を実行して所定のビットストリームフォーマットでの出力信号を生成する。量子化および符号化は、典型的には音響心理学的モデルによって操られるビット割り当てアルゴリズムを実行するビット割り当てユニット20の制御のもとで実行される。
For normal windows, start windows, and stop windows, MDCT frequency lines are provided to the
図2は、従来式のMPEG-1レイヤーIIIデコーダ30の簡略化したブロック図を呈示しており、本発明の理解の助けになる構成要素のみを示している。デコーダ30は前記所定のビットストリームフォーマットの入力信号を受け取るよう構成されている。デコード・逆量子化ユニット32はビットストリームのデコードおよび逆量子化を実行して周波数ラインすなわちMDCT係数を生成する。エンコーダ10によって生成された576個のMDCT周波数ラインの各集合に対してそれぞれ576個の周波数ラインが再生される。
FIG. 2 presents a simplified block diagram of a conventional MPEG-1 layer III
周波数ラインは、短いウィンドウ型の場合、各グラニュール内で周波数ラインを並べ替える並べ替えユニット34に与えられる。通常ウィンドウ、開始ウィンドウまたは終止ウィンドウの場合は、周波数ラインはエイリアシングバタフライ36に与えられる。これは前記エイリアシング除去バタフライによって実行されたエイリアシング除去操作の逆を実行するものである。
In the case of a short window type, the frequency lines are provided to a reordering
IMDCTユニット38は、周波数ラインに対してIMDCT(Inverse Modified Discrete Cosine Transform[逆修正離散コサイン変換])を実行し、それぞれ36のサブバンド標本値からなる32個のサブバンド信号成分を生成する。通常ウィンドウ、開始ウィンドウまたは終止ウィンドウのMDCTに対応する周波数ラインについて、IMDCTユニット38は18の周波数ラインを入力として受け取り、36個のサブバンド標本値を生成する。短いウィンドウのMDCTに対応する周波数ラインについては、IMDCTユニット38は6つの周波数ラインからなる3つの集合を入力として受け取り、12個のサブバンド標本値からなる3つの集合を生成する。 The IMDCT unit 38 performs IMDCT (Inverse Modified Discrete Cosine Transform) on the frequency line and generates 32 subband signal components each consisting of 36 subband sample values. For frequency lines corresponding to MDCT in the normal window, start window, or end window, IMDCT unit 38 receives 18 frequency lines as input and generates 36 subband sample values. For frequency lines corresponding to the short window MDCT, the IMDCT unit 38 receives as input three sets of six frequency lines and generates three sets of twelve subband sample values.
ウィンドウ処理および重なり・加算ユニット40は、サブバンド標本値に対してウィンドウ処理操作ならびに標準的な重なりおよび加算操作を実行する。どのウィンドウ型を使うべきかについての情報はビットストリームの関連付けられたサイド情報内で伝えられる。最終的に、サブバンド標本値は(多相)合成フィルタバンク42に与えられる。これは因子32によるサンプリング解除を行ってPCM標本値からなる出力信号を生成することをも含んでいる。
Window processing and overlap / add
フィルタバンク12、42は、コサイン変調されてより高周波の周波数帯を形成する原始型の低域通過フィルタを有する。サブバンドフィルタバンクとMDCTユニットとを直列にした組み合わせは、一部はフィルタバンクからなり一部は変換からなるので、ハイブリッドフィルタバンクとして知られている。エンコーダ10では、分解フィルタバンク12およびMDCTユニット14は一緒になってハイブリッド分解フィルタバンクを構成し、一方、デコーダ30ではIMDCTユニット38と合成フィルタバンク42が一緒になってハイブリッド合成フィルタバンクを構成する。ハイブリッドフィルタバンクの使用は、それに伴う計算上の、したがって実装上の複雑さの観点においてMP3の認識された弱点である。したがって、計算上の負荷がより少ないMP3エンコーダおよび/またはデコーダを提供することが望ましい。
The
したがって、本発明の第一の側面は、データ信号をサブバンドフィルタバンクに提供することによって、および結果として得られる各サブバンド信号に対してそれぞれの順周波数変換を実行することによってエンコードされたデータ信号のためのデコーダであって、当該デコーダが、受領したデータ信号をデコードおよび逆量子化して周波数ラインからなる複数のグラニュールを生成する手段と、各グラニュールに対して一つまたは複数の逆周波数変換を実行して複数のデータ標本値を生成するための手段と、前記データ標本値に一つまたは複数の型のウィンドウ関数を適用して複数のウィンドウ処理されたデータ標本値を生成する手段とを有しており、少なくともある第一の型のウィンドウ関数に関しては前記逆周波数変換手段が各グラニュールのすべての周波数ラインに対して単一の逆周波数変換を実行するよう構成されており、当該デコーダがさらに前記ウィンドウ処理されたデータ標本値から出力信号を構築する手段を含んでいることを特徴とするデコーダを提供する。 Accordingly, a first aspect of the present invention provides encoded data by providing a data signal to a subband filter bank and performing a respective forward frequency transform on each resulting subband signal. A decoder for the signal, the decoder decoding and inverse quantizing the received data signal to generate a plurality of granules comprising frequency lines, and one or more inverses for each granule Means for generating a plurality of data sample values by performing frequency transformation; and means for generating a plurality of windowed data sample values by applying one or more types of window functions to the data sample values And at least for the first type of window function, the inverse frequency transforming means includes The decoder is configured to perform a single inverse frequency transform on all frequency lines of the network, the decoder further comprising means for constructing an output signal from the windowed data sample values A feature decoder is provided.
本発明の第二の側面は、データ信号をサブバンドフィルタバンクに提供することによって、および結果として得られる各サブバンド信号に対してそれぞれの順周波数変換を実行することによってエンコードされたデータ信号をデコードする方法であって、当該方法が、受領したデータ信号をデコードおよび逆量子化して周波数ラインからなる複数のグラニュールを生成し、各グラニュールに対して一つまたは複数の逆周波数変換を実行して複数のデータ標本値を生成し、前記データ標本値に一つまたは複数の型のウィンドウ関数を適用して複数のウィンドウ処理されたデータ標本値を生成し、前記ウィンドウ処理されたデータ標本値から出力信号を構築することを有しており、少なくともある第一の型のウィンドウ関数に関しては各グラニュール内のすべての周波数ラインに対して単一の逆周波数変換が実行されることを特徴とする方法を提供する。 A second aspect of the present invention provides an encoded data signal by providing the data signal to a subband filter bank and performing a respective forward frequency transform on each resulting subband signal. A decoding method that decodes and inverse quantizes a received data signal to generate multiple granules of frequency lines and performs one or more inverse frequency transforms on each granule Generating a plurality of data sample values, applying one or more types of window functions to the data sample values to generate a plurality of windowed data sample values, and the windowed data sample values And constructing an output signal from each granule, at least for some first type window functions. Provides a method characterized in that a single inverse frequency transform is performed on all frequency lines within Le.
本発明の第一および第二の側面はそれぞれ、フィルタバンクの必要なしに出力信号を生成できるようにする。好ましい諸実施形態では、エンコードされたデータ信号はMPEG-1レイヤーIIIデータ信号であり、順周波数変換および逆周波数変換はそれぞれ修正離散コサイン変換(MDCT)および逆修正離散コサイン変換(IMDCT)である。 The first and second aspects of the present invention each allow the output signal to be generated without the need for a filter bank. In preferred embodiments, the encoded data signal is an MPEG-1 layer III data signal, and the forward frequency transform and inverse frequency transform are a modified discrete cosine transform (MDCT) and an inverse modified discrete cosine transform (IMDCT), respectively.
好ましい諸実施形態では、順周波数変換は修正離散コサイン変換(MDCT)であり、エンコードされたデータ信号はMPEG-1レイヤーIIIデータ信号である。 In preferred embodiments, the forward frequency transform is a modified discrete cosine transform (MDCT) and the encoded data signal is an MPEG-1 layer III data signal.
本発明の第三の側面は、複数のデータ標本値からなる入力信号のためのエンコーダであって、当該エンコーダが前記データ標本値に一つまたは複数の型のウィンドウ関数を適用して複数のウィンドウ処理されたデータ標本値を生成する手段と、前記ウィンドウ処理されたデータ標本値に対して一つまたは複数の修正離散コサイン変換(MDCT)を実行して周波数ラインからなる複数のグラニュールを生成する手段と、各グラニュールをエンコードおよび量子化してMPEG-1レイヤーIII型のデータ信号を生成する手段とを有しており、少なくともある第一の型のウィンドウ関数に関しては、前記MDCT手段が、ある個別のグラニュールを生成するのに関連する前記受領されたデータ信号のウィンドウ処理されたデータ標本値すべてに対して単一のMDCTを実行するよう構成されていることを特徴とするエンコーダを提供する。 A third aspect of the present invention is an encoder for an input signal composed of a plurality of data sample values, wherein the encoder applies one or a plurality of types of window functions to the data sample values. Means for generating processed data sample values and performing one or more modified discrete cosine transforms (MDCT) on the windowed data sample values to generate a plurality of granules comprising frequency lines; And means for encoding and quantizing each granule to generate an MPEG-1 layer III type data signal, at least for a first type of window function, said MDCT means Perform a single MDCT on all windowed data sample values of the received data signal associated with generating individual granules Providing an encoder which is characterized in that it is so that configuration.
本発明の第四の側面は、複数のデータ標本値からなる入力信号をエンコードする方法であって、当該方法が、前記データ標本値に一つまたは複数の型のウィンドウ関数を適用して複数のウィンドウ処理されたデータ標本値を生成し、前記ウィンドウ処理されたデータ標本値に対して一つまたは複数の修正離散コサイン変換(MDCT)を実行して周波数ラインからなる複数のグラニュールを生成し、各グラニュールをエンコードおよび量子化してMPEG-1レイヤーIII型のデータ信号を生成することを有しており、少なくともある第一の型のウィンドウ関数に関しては、ある個別のグラニュールを生成するのに関連する前記受領されたデータ信号のウィンドウ処理されたデータ標本値すべてに対して単一のMDCTが実行されることを特徴とする方法を提供する。 According to a fourth aspect of the present invention, there is provided a method for encoding an input signal composed of a plurality of data sample values, the method applying a plurality of types of window functions to the data sample values. Generating windowed data sample values, performing one or more modified discrete cosine transforms (MDCT) on the windowed data sample values to generate a plurality of granules comprising frequency lines; Each granule is encoded and quantized to produce an MPEG-1 Layer III type data signal, at least for some first type window functions, to produce a particular granule. Providing a method wherein a single MDCT is performed on all windowed data sample values of the received data signal concerned .
本発明の第三および第四の側面は、MPEG-1レイヤーIII型のデータ信号をフィルタバンクを使うことなく生成することを可能にする。 The third and fourth aspects of the present invention make it possible to generate an MPEG-1 layer III type data signal without using a filter bank.
本発明の第五の側面は、データ信号をエンコードおよびデコードするためのシステムすなわちコーデックであって、本発明の第三の側面のエンコーダおよび本発明の第一の側面のデコーダを有するシステムを提供する。 A fifth aspect of the present invention provides a system or codec for encoding and decoding a data signal, comprising a system according to the third aspect of the present invention and a decoder according to the first aspect of the present invention. .
本発明の各側面の好ましい特徴は従属請求項において述べられる。 Preferred features of each aspect of the invention are set out in the dependent claims.
本発明のさらなる有利な側面は、特定の実施形態についての以下の記述を見て付属の図面を参照すれば通常の当業者には明らかとなるであろう。 Further advantageous aspects of the present invention will become apparent to those of ordinary skill in the art upon reviewing the following description of specific embodiments and referring to the accompanying drawings.
本発明のある実施形態について、これから例として、付属の図面を参照しつつ説明する。 An embodiment of the present invention will now be described by way of example with reference to the accompanying drawings.
従来式のMPEG-1レイヤーIII(MP3)システムでは、典型的なデータフレームは、それぞれ576個の周波数ラインすなわちMDCT係数をもつ2つのグラニュールを有する。上述したように、従来式のMP3エンコードによれば、この576の周波数ラインはそれぞれ、32個のサブバンドのそれぞれについて18の周波数ラインからなる集合を有する。短いウィンドウ型を使うときには、18の周波数ラインからなる各集合は6つの周波数ラインからなる3つの集合から構成される。図1のエンコーダ10では、変換はハイブリッドフィルタバンク12、14によって実行される。要求されるウィンドウ型に依存して、MDCTユニット14は、各サブバンドに関して一つまたは複数のMDCTを実行する。MDCTユニット14によって実行されるMDCTは、各MDCTが一時には当該フレームデータのそれぞれの(比較的小さな)部分に対してのみ実行されるという点で「短い」MDCTであると言われうる。通常ウィンドウ、開始ウィンドウまたは終止ウィンドウ型については、あるサブバンドの36個の入力標本値に対して単一のMDCTが実行されて18の周波数ラインが生成される。短いウィンドウ型については、あるサブバンドの12の入力標本値からなる各集合に対して対応する3つのMDCT変換が実行されてそれぞれ6つの周波数ラインからなる集合が生成される。これに対応して、従来式のMP3デコーダ30では、IMDCTユニット38によって実行される逆MDCTは、各逆MDCTが当該データフレームに関して生成されたデコードおよび逆量子化された周波数ラインのそれぞれの部分のみに実行されるので、「短い」逆MDCTであると言われうる。通常ウィンドウ、開始ウィンドウまたは終止ウィンドウの型については、あるサブバンドの18の周波数ラインに対して単一の逆MDCTが実行されて、36の時間領域標本値を生成する。短いウィンドウ型については、あるサブバンドの6つの周波数ラインからなる各集合に対してそれぞれ3つの逆MDCT変換が実行されて12個の時間領域標本値の各集合が生成される。
In a conventional MPEG-1 Layer III (MP3) system, a typical data frame has two granules, each with 576 frequency lines or MDCT coefficients. As described above, according to conventional MP3 encoding, each of the 576 frequency lines has a set of 18 frequency lines for each of the 32 subbands. When using a short window type, each set of 18 frequency lines consists of 3 sets of 6 frequency lines. In the
これに対し、本発明のある側面では、あるデータグラニュール全体に関して生成された前記デコードおよび逆量子化された周波数ラインすなわちMDCT係数に対し、一つまたは複数の「長い」逆MDCTが実行されるようなMP3データのデコード方法が提供される。576の周波数ラインすなわちMDCT係数からなるグラニュールについては、通常ウィンドウ、開始ウィンドウまたは終止ウィンドウ型が要求されるときには、576の周波数ラインすべてに対して単一の「長い」逆MDCTが実行されて1152個の時間領域標本値が生成され、他方、短いウィンドウ型については、192の周波数ラインからなる対応する集合に対して3つの「長い」逆MDCTが実行されて、それぞれ384個の時間領域標本値からなる集合が生成される。いずれの場合にも、一つまたは複数の逆MDCTは、各サブバンドに関連付けられた各周波数ラインに対して実行されるというよりは、あるグラニュール全体の周波数ラインすべてに対して実行される。周波数ラインの若干の前処理を用い、ならびに適切なウィンドウ処理および重なり・加算操作を用いることで、「長い」逆MDCTの出力を使って所望のPCM出力信号の知覚的に近い近似を提供することができ、それによりデコーダにおけるフィルタバンクの必要をなくすことが見出される。同様の原理はエンコード処理に際しても適用でき、それによりエンコーダにおけるフィルタバンクの必要もなくなる。これについて以下により詳細に述べる。 In contrast, in one aspect of the invention, one or more “long” inverse MDCTs are performed on the decoded and dequantized frequency lines or MDCT coefficients generated for an entire data granule. A method for decoding such MP3 data is provided. For granules with 576 frequency lines or MDCT coefficients, when a normal window, start window or end window type is required, a single “long” inverse MDCT is performed on all 576 frequency lines and 1152 Time domain sample values are generated, while for the short window type, three “long” inverse MDCTs are performed on the corresponding set of 192 frequency lines, each with 384 time domain sample values. A set of is generated. In any case, one or more inverse MDCTs are performed for all frequency lines of a granule, rather than for each frequency line associated with each subband. Provide a perceptually close approximation of the desired PCM output signal using the output of the “long” inverse MDCT, with some preprocessing of the frequency line, and with appropriate windowing and overlap / add operations Can be found, thereby eliminating the need for a filter bank in the decoder. A similar principle can be applied during the encoding process, thereby eliminating the need for a filter bank in the encoder. This will be described in more detail below.
本発明に到達するにあたり、以下の観察がなされた:理想的なフィルタバンクは矩形で重なりのない通過帯域からなる。MP3で使われるフィルタバンクが理想的であれば、前記ハイブリッドフィルタバンクは上述した単一の「長い」MDCTによって全く精確に近似できる。フィルタバンクとエイリアシング除去バタフライとの組み合わせは、理想的なフィルタバンクの比較的良好な近似を与える。よって、エイリアシング除去バタフライと組み合わせたハイブリッドフィルタバンクは、単一の「長い」MDCTによって置き換えることができる。こうした観察から、全体としてのエンコードおよびデコード処理は、より詳細には各ハイブリッドフィルタバンクの動作は、コサイン変調された変換によって近似されうると結論づけられる。具体的には、全体としてのエンコードおよびデコード処理はMDCTによって近似されうると想定される。 In arriving at the present invention, the following observations were made: An ideal filter bank consists of rectangular and non-overlapping passbands. If the filter bank used in MP3 is ideal, the hybrid filter bank can be approximated quite accurately by the single “long” MDCT described above. The combination of filter bank and anti-aliasing butterfly gives a relatively good approximation of the ideal filter bank. Thus, a hybrid filter bank combined with an anti-aliasing butterfly can be replaced by a single “long” MDCT. From these observations, it can be concluded that the overall encoding and decoding process, more specifically, the operation of each hybrid filter bank can be approximated by a cosine modulated transform. Specifically, it is assumed that the overall encoding and decoding process can be approximated by MDCT.
この想定が正しければ、すなわち、ハイブリッドフィルタバンクがMDCTとして近似できるとすれば、デルタパルスに対する応答はコサイン波形を有することになる。(順)MDCTについての解析的な表現は次のようになる: If this assumption is correct, that is, if the hybrid filter bank can be approximated as MDCT, the response to the delta pulse will have a cosine waveform. (Order) The analytical expression for MDCT is as follows:
デルタパルスは(ウィンドウ処理に関係なく)次のように記述できる。 A delta pulse can be written as follows (regardless of windowing):
図4は、前記デルタパルスのエイリアシング除去バタフライ後のハイブリッドフィルタバンクのスペクトルで、反転されたサブバンド成分が該反転を補償するために−1倍されたあとのものを図的に示している。補償後、c[k]はわずかにひずんだコサイン関数を有している。図4において見て取れるひずみは、分解フィルタバンクにおけるダウンサンプリングに起因し、エイリアシング除去バタフライによって部分的にしか補償されなかったエイリアシングによって、および分解フィルタバンクが理想的な線形位相特性を有していないという事実によって引き起こされている。よって、MDCT係数の若干の前処理を用いれば、ハイブリッドフィルタバンクの動作はMDCTによって近似されうる。のちにより詳細に述べるように、好ましい諸実施形態においては、デコーダ30のハイブリッド合成フィルタバンク38、42の動作に代わるものとして、一つまたは複数の「長い」MDCTが使用される。同様に、エンコーダ10のハイブリッド分解フィルタバンク12、14の動作に代わるものとして一つまたは複数の「長い」MDCTが使用されうる。
FIG. 4 graphically illustrates the spectrum of the hybrid filter bank after the delta pulse antialiasing butterfly, after the inverted subband components have been multiplied by −1 to compensate for the inversion. After compensation, c [k] has a slightly distorted cosine function. The distortion seen in FIG. 4 is due to downsampling in the decomposition filter bank, due to aliasing that was only partially compensated by the anti-aliasing butterfly, and the fact that the decomposition filter bank does not have ideal linear phase characteristics Is caused by. Therefore, the operation of the hybrid filter bank can be approximated by MDCT if some preprocessing of MDCT coefficients is used. As will be described in more detail later, in preferred embodiments, one or more “long” MDCTs are used as an alternative to the operation of the
本発明のある側面を具現する、MPEG-1レイヤーIIIのデータ信号および同様にエンコードされたデータ信号をデコードするための装置が図6に示されており、全体として60として指示されている。本発明の理解のために必要な構成要素のみが示されている。デコード装置すなわちデコーダ60は、MPEG-1レイヤーIIIビットストリームの形のデータ信号または同様にエンコードされたデータ信号を受け取るよう構成されたデコード・逆量子化ユニット62を有する。該デコード・逆量子化ユニット62は、複数の周波数ラインすなわちMDCT係数を復元するために、受領されたビットストリームの適切なデコード(典型的にはMP3によって規定されるハフマン復号)および再量子化を実行する。ビットストリームがMP3対応データを有するとき、デコード・逆量子化ユニット62は標準的なMP3デコードおよび再量子化を実行しうる。典型的には、1152個の入力オーディオ標本値を有するフレームについて、576の周波数ラインからなる二つのグラニュールがユニット62によって復元される(ウィンドウ処理において実行される重なり・加算操作のため、実効的には576個の入力標本値が576個のMDCT係数を与えることになり、よってシステムは臨界サンプリングである)。
An apparatus for decoding an MPEG-1 Layer III data signal and a similarly encoded data signal embodying an aspect of the present invention is shown in FIG. Only the components necessary for an understanding of the invention are shown. The decoding device or
デコーダ60は、前記デコード・逆量子化ユニット62によって生成された周波数ラインを必要に応じて並べ替えるための並べ替えユニット64を含んでいる。並べ替えは、エンコーダによって通常実行される並べ替えを打ち消すものである。これはのちにより詳細に説明する。並べ替えユニット62は、各フレームに関連付けられたサイド情報からどのような種類の並べ替えが必要とされているかを決定できる。
The
逆MDCT(IMDCT)ユニット68は、前記並べ替えられた周波数ラインに対して一つまたは複数の逆MDCTを実行するために設けられている。上記したように、IMDCTユニット68は、同時に周波数ラインのあるグラニュール全体に対して作用して、グラニュール内の全周波数ラインに対して単一の逆MDCTを実行するか(通常ウィンドウ、開始ウィンドウまたは終止ウィンドウ型が要求されるとき)、複数の逆MDCTをグラニュール内の全周波数ラインの対応する数の部分集合に対して実行するか(短いウィンドウ型が要求されるとき)するよう構成される。一つのグラニュールが576の周波数ラインからなるMP3ビットストリームについては、IMDCTユニット68は、通常ウィンドウ、開始ウィンドウまたは終止ウィンドウについてはグラニュール全体に対して単一の逆MDCTを実行して1152個の時間領域標本値を生じ、192の周波数ラインからなる部分集合3つのうちのそれぞれに対して3つの逆MDCTを実行して384個の時間領域標本値からなる3つの個別シーケンスまたは集合を生じる。IMDCTユニット68の出力は複数(今の例では1152個)の復元された信号成分すなわち標本値を有し、これがPCM出力信号を構築するために使われうる。
An inverse MDCT (IMDCT)
PCM出力信号を構築するために、ウィンドウ処理および重なり・加算操作が、IMDCTユニット68によって生成された信号標本値に対して実行される。よって、デコーダ60はさらにウィンドウ処理および重なり・加算ユニット70を含んでいる。その動作についてはのちにより詳細に記載する。
To construct the PCM output signal, windowing and overlap / add operations are performed on the signal sample values generated by the
従来式のMP3デコーダ30の合成フィルタバンク42は、エンコーダ10の分解フィルタバンク12の周波数反転を補償するために交互のサブバンド信号成分すなわちサブバンド・チャネルを反転させることを注意しておく。したがって、標準的なMP3対応データをデコードするために意図されたデコーダ60の実施形態では、デコーダ60は関連するMDCT係数、交互のサブバンド信号成分すなわちチャネルを反転させる、すなわち−1倍する反転ユニット66を含んでいる。反転ユニット66は図6では並べ替えユニット64とIMDCTユニット68の間に示されているが、代替的にデコード・逆量子化ユニット62と並べ替えユニット64の間などそれ以外の場所にあってもよい。
Note that the
分解フィルタバンク12が重なり合うサブバンドを有していたことも注意しておく。この効果は、通常は、エンコーダ10に通常含まれるエイリアシング除去バタフライ16によって軽減される。
Note also that the
並べ替えユニット64ならびにウィンドウ処理および重なり・加算ユニット70についてよりよく理解できるよう、従来式のMP3ウィンドウ処理についてこれからより詳細に述べる。MP3内では4つの異なるウィンドウ型(および付随する長さ)が規定されている。すなわち、「通常」「開始」「短い」「終止」である。特定の型のウィンドウあるいは異なるウィンドウ型のシーケンスは、一つまたは複数のウィンドウが適用されるべきデータ部分の特性に適合するよう選択される。たとえば、短いウィンドウ型は通例、オーディオ信号中の過渡成分に対応するデータ部分に適用される。所与のデータフレームに関連付けられたサイド情報は、どのウィンドウ型が当該グラニュールと一緒に用いられるべきかを指示する。要求されるウィンドウ型はMDCTの(よって逆MDCTの)長さすなわちサイズと、ウィンドウ処理/重なり・加算操作の両方に影響する。
In order to better understand the
MP3については、ウィンドウ関数z(n)は次のように書ける。 For MP3, the window function z (n) can be written as
通常型のウィンドウ(0型)については: For normal windows (type 0):
エンコーダ10における2型ウィンドウ、すなわち短いウィンドウのシーケンスについては、576個のMDCT係数(32個のサブバンド×3つのウィンドウ×6個のMDCT係数)からなる各グラニュールは、より効率的なエンコードができるよう並べられる。よって、デコーダでは、エンコーダによって実行された並べ替えを打ち消すための対応する並べ替えが行われる。従来型のMP3デコーダ30では、グラニュールのMDCT係数または周波数ラインは粒度の小さい順に、周波数ラインに基づいて、次いでウィンドウ添え字、そしてサブバンドに基づいて並べ替えられる。このことは図5で図解されている。これはグラニュール50の一部の構造を示している。ここで、各周波数ラインすなわちMDCT係数は0から575のそれぞれの周波数ライン添え字を付与されうる。最上の、すなわち最も粗い粒度では、周波数ラインは、該周波数ラインがどのサブバンドに属するかを表す0から31の範囲のサブバンド添え字に従って並べられる。各サブバンド内では、周波数ラインは、周波数ラインにどのウィンドウが適用されるべきかを示す、0から2の範囲のウィンドウ添え字に従って並べられる。各ウィンドウ内では、周波数ラインは、該周波数ラインがMDCTに与えられる順序を示す、0から5の範囲の周波数ライン副添え字に従って並べられる。よって、グラニュール50における第一の周波数ライン(すなわち、最低周波数ライン添え字(=0)をもつ周波数ライン)は、副添え字0、ウィンドウ添え字0、サブバンド添え字0をもつ周波数ラインであり、二番目の周波数ライン(周波数ライン添え字=1)は副添え字1、ウィンドウ添え字0およびサブバンド添え字0をもつ、といった具合に続き、グラニュール50の最後の周波数ラインは、最高周波数ライン添え字575をもつもので、副添え字5、ウィンドウ添え字2およびサブバンド添え字31を有する。
For a
デコーダ60では、並べ替えユニット64は、従来式のデコーダについて上記したのとは異なる仕方で、あるグラニュールの周波数ラインを並べ替えるよう構成されている。「短い」ウィンドウ(2型)については、並べ替えユニット64は周波数ラインを粒度の小さい順に、周波数ラインに従って、次いでサブバンドに、そして最後にはウィンドウに従って並べ替える。このことは図7で図解されている。図7からは、グラニュール50′内では周波数ラインは最上レベルでウィンドウ添え字に従って、次いでサブバンド添え字に従って、それから周波数帯副添え字に従って並べられていることが見て取れる。
In the
ウィンドウ処理および重なり・加算ユニット70ならびにIMDCTユニット68によるPCM出力信号の構築についてこれから述べる。以下の例では、もとのPCM信号は1152個のオーディオ標本値からなるフレームを有しており、各フレームは576の周波数ライン(すなわちMDCT係数)の二つのグラニュールに変換されるものとする。よって、IMDCTユニット68は576個のMDCT係数からなるグラニュールに対して作用して1152個の標本値を含む信号を生成し、該信号は次いでウィンドウ処理および重なり・加算ユニット70に与えられる。
The construction of the PCM output signal by the window processing and overlap / add
MDCT係数のl番目の集合すなわちグラニュールはXl(k)と書かれる。ここで、k=0, ..., 575である。MDCT係数のl番目の集合(lは1から始まる)をデコードしたのちにウィンドウ処理および重なり・加算ユニット70によって生成された出力信号は次のように(重なり・加算を用いて)記述される:
The l-th set of MDCT coefficients, or granules, is written as X l (k). Here, k = 0,. After decoding the l-th set of MDCT coefficients (l starts from 1), the output signal generated by the windowing and overlap / add
信号xl(n)の生成は指定されたウィンドウ型に依存する。l番目のグラニュールについてのウィンドウ型が0、1または3であるとき、IMDCTユニット68はXl(k)によって与えられる576個の入力係数に対して逆MDCTを実行して、1152個の点を含む一時信号xtmp(n)を生成する。これは次の式[9]によって記述される:
The generation of the signal x l (n) depends on the specified window type. When the window type for the l th granule is 0, 1 or 3, the
l番目の集合のウィンドウ型が2(すなわち「短い」ウィンドウ)のとき、IMDCTユニット68は、それぞれXl(k)によって与えられる192個の入力係数の対応する集合に対して3つの逆MDCTを実行して、それぞれ384個の点を含むxtmp,0(n)、xtmp,1(n)およびxtmp,2(n)で表される3つの一時信号を生成する。これは次の式[10]によって記述される:
When the window type of the l-th set is 2 (ie, a “short” window), the
ウィンドウ処理および重なり・加算ユニット70に実効的に与えられるのは、一時信号xtmp(n)、xtmp,p(n)である。
The temporary signals x tmp (n) and x tmp, p (n) are effectively given to the window processing and overlap / add
l番目の集合のウィンドウ型が0のとき、ウィンドウ処理および重なり・加算ユニット70は信号xl(n)を次のように計算する:
When the window type of the l-th set is 0, the windowing and overlap / add
l番目の集合のウィンドウ型が1のとき、ウィンドウ処理および重なり・加算ユニット70は信号xl(n)を次のように計算する:
When the window type of the l-th set is 1, the windowing and overlap / add
l番目の集合のウィンドウ型が2のとき、ウィンドウ処理および重なり・加算ユニット70は信号xl(n)を、まず次の3つの一時信号を計算することにより計算する:
When the window type of the l-th set is 2, the windowing and overlap / add
次いで信号xl(n)は次のように構築される: The signal x l (n) is then constructed as follows:
式[11]、[12]、[13]、[15]は次の一般型になっていることが見て取れるであろう:
xl(n)=z(n)xtmp(n) [16]
ここでxl(n)がウィンドウ処理された信号、xtmp(n)がウィンドウ処理されていない信号、z(n)がウィンドウ関数である。式[11]、[12]、[13]、[15]のウィンドウ関数z(n)がそれぞれ式[4]、[5]、[6]、[7]で記述されたウィンドウ関数z(n)と概して同様であることが注目される。しかし、式[11]、[12]、[13]、[15]におけるウィンドウ関数z(n)のそれぞれのウィンドウ長は、それぞれの変換長Nに従ってより長くなっており、それぞれの分母は対応して大きくなっている。式[11]、[12]、[13]、[15]のウィンドウ関数z(n)は、それぞれ式[4]、[5]、[6]、[7]で記述されるウィンドウ関数z(n)のアップサンプリングされたバージョンをなしていると言うことができる。そのアップサンプリングの程度はそれぞれの変換長/ウィンドウ長Nに依存する。また、適用時には二つ以上のウィンドウの適用に関わることもあるにもかかわらず、式[11]、[12]、[13]、[15]のウィンドウ関数がそれぞれ単一のウィンドウ関数であることも注目されるであろう。
You can see that equations [11], [12], [13], and [15] have the following general form:
x l (n) = z (n) x tmp (n) [16]
Here, x l (n) is a windowed signal, x tmp (n) is a non-windowed signal, and z (n) is a window function. The window functions z (n) of the equations [11], [12], [13], and [15] are described by the equations [4], [5], [6], and [7], respectively. Note that it is generally similar to However, the window lengths of the window functions z (n) in equations [11], [12], [13], and [15] are longer according to the respective conversion lengths N, and the respective denominators correspond. Is getting bigger. The window functions z (n) of the equations [11], [12], [13], and [15] are the window functions z () described by the equations [4], [5], [6], and [7], respectively. It can be said that it is an upsampled version of n). The degree of upsampling depends on the respective conversion length / window length N. In addition, the window functions in equations [11], [12], [13], and [15] must each be a single window function, even though it may involve the application of two or more windows when applied. Will also be noted.
さらに、ウィンドウ処理および重なり・加算ユニット70は、指定されたウィンドウ型の一つだけの適用を行う。すなわち、あるグラニュール全体の標本値に対して一つのウィンドウ関数のみを適用する。これは、各サブバンドに関してウィンドウ関数が適用される従来式のデコーダ30と対照的である。
In addition, the window processing and overlap / add
ウィンドウ処理および重なり・加算ユニット70によって生成されたPCM出力信号は、MP3規格に完全に対応するのでも、ビット忠実(bit-true)でもないにもかかわらず、高品質オーディオ信号をなすことが見出されている。特に、若干の位相ひずみおよびエイリアシングが存在するため、MP3対応信号と比較すると比較的小さなスペクトルひずみおよび時間領域ひずみを生じる。しかし、こうしたひずみすなわちアーチファクトは、オーディオ信号の人間による知覚に対して著しい悪影響はもたないことが見出される。実効的には、デコーダ60においては、ハイブリッド合成フィルタバンクは若干のスペクトルエイリアシングで「長い」位相ひずみ逆MDCTによって置き換えられる。多数の「短い」MDCTおよび合成フィルタバンクの必要をなくすことによって、デコーダ60の計算上の複雑さは著しく軽減される。例として、典型的な最適化をした従来式MP3デコーダは、出力標本値1つあたり約22.11回の乗算および26.73回の加算を必要とする。対応する最適化をしたデコーダ60が必要とするのは、出力標本値1つあたり、たったの8回の乗算および20.5回の加算のみである。結果として、デコーダ60はより高いデコード効率をもたらし、これはより少ない電力消費、あるいはより低いDSP要求へとつながる。デコーダ60の複雑さは、エイリアシングバタフライが必須ではないことにおいてさらに軽減される(デコーダ30内でのその存在は、合成フィルタバンク42がPCM出力信号を再構築するのを助けるためなので)。
The PCM output signal generated by the windowing and overlap / add
上記した本発明の原理はMP3型のエンコーダにも等しく適用されうる。よって、本発明のさらなる側面は、オーディオ信号をエンコードしてMPEG-1レイヤーIII型信号またはビットストリームを生成するための装置を提供する。このビットストリームはMP3対応ではあるものの標準的なMP3ビットストリームではないことを注意しておく――結果として得られるデコード信号は位相応答およびエイリアシングにおいてMP3規格からは異なる。本質的には、「長い」位相ひずみMDCTが従来式エンコーダ10の分解ハイブリッドフィルタバンク12、14を置き換えるのに使われる。図8は、本発明のこの側面を具現するエンコーダ80の簡略化されたブロック図を示している。エンコーダ80は、受け取ったPCM入力標本値に対してウィンドウ処理を実行するウィンドウ処理ユニット82を含んでいる。ウィンドウ処理機能は式[4]、[5]、[6]、[7]で記載したものと同様であるが、ウィンドウ長は必要とされるMDCT変換サイズに応じて異なってくる。通常ウィンドウ、開始ウィンドウまたは終止ウィンドウ型について、MDCTユニット84は受け取ったフレームの1152個の入力標本値すべてに対して「長い」MDCTを実行する。短いウィンドウについては、MDCTユニット84は3つの「長い」MDCTを384個の入力標本値からなる3つの対応する集合に対して実行して192の周波数ラインからなる各集合を生成する。エンコーダ80は従来式のMP3量子化・符号化ユニット86およびビット割り当てユニット88を含みうる。MDCTユニット84と量子化・符号化ユニット86の間に、交互の、すなわち一つおきのサブバンドを反転させるための反転ユニット85を設けてもよい。
The principle of the present invention described above can be equally applied to an MP3 type encoder. Thus, a further aspect of the invention provides an apparatus for encoding an audio signal to generate an MPEG-1 layer III type signal or bitstream. Note that this bitstream is MP3 capable but not a standard MP3 bitstream-the resulting decoded signal differs from the MP3 standard in phase response and aliasing. In essence, a “long” phase distortion MDCT is used to replace the resolving
デコーダ60における反転ユニット66の役割は、従来式MP3エンコーダにおいて生じる交互のサブバンドの内在的反転を補償するためであったことは理解されるであろう。したがって、エンコーダ80における反転ユニット85の役割は、従来式のエンコーダ10において通常生じる交互のサブバンドの反転を生成することである。しかし、交互のサブバンドの反転は本質的ではなく、よって代替的な実施形態では反転ユニット66、85は省いてもよい。
It will be appreciated that the role of
デコーダ60は標準的なMPEG-1レイヤーIII対応データのみならずたとえばエンコーダ80によって生成される非標準的なMPEG-1レイヤーIII型データのデコードができることは理解されるであろう。
It will be understood that the
本発明はMPEG-1レイヤーIIIデータ信号やMDCTに限定されない。たとえば、本発明の第一の側面を具現するデコーダは、エンコードされていないデータ信号(必ずではないが特にオーディオ信号)をサブバンドフィルタバンクに提供し、結果として得られる各サブバンド信号に対してその後それぞれの順周波数変換が実行されるようにするエンコーダ、すなわちハイブリッドフィルタバンクによって生成されるエンコードされたデータ信号に作用するよう構成されてもよい。その後の量子化およびエンコードは、対応する逆量子化およびデコードがデコーダ側で実行される限り、必ずしもMP3に従っていなくてもよい。同様に、順周波数変換は、互換の逆周波数変換がデコーダ側によって用いられる限り、必ずしもMDCTを含まなくてもよい。これに関連し、「グラニュール」の用語は主としてMP3用語であるが、当業者は非MP3の実施形態のコンテキストにおいてここで用いられている「グラニュール」の用語が、周波数ラインすなわち係数についてのいかなる同等なグループ化として解釈されてもよいことをすぐ理解することであろう(一般には「フレーム」の用語が「グラニュール」の対応物である)。 The present invention is not limited to MPEG-1 layer III data signals or MDCT. For example, a decoder embodying the first aspect of the present invention provides an unencoded data signal (not necessarily an audio signal in particular) to a subband filter bank and for each resulting subband signal. It may be configured to act on the encoded data signal generated by the encoder, i.e. the hybrid filter bank, which then performs the respective forward frequency transform. Subsequent quantization and encoding may not necessarily follow MP3 as long as the corresponding inverse quantization and decoding is performed at the decoder side. Similarly, the forward frequency transform does not necessarily include MDCT as long as a compatible inverse frequency transform is used by the decoder side. In this context, the term “granule” is primarily an MP3 term, but those skilled in the art will recognize that the term “granule” as used herein in the context of a non-MP3 embodiment is a frequency line or coefficient. It will be readily understood that it may be interpreted as any equivalent grouping (generally the term “frame” is the counterpart of “granule”).
サブバンドフィルタバンクおよび周波数変換は臨界サンプリングであり、ウィンドウ関数どうしが50%の重なりをもち(よって変換は時間領域エイリアシング消去[Time Domain Aliasing Cancellation (TDAC)]の性質を示す)、より好ましくは実数値であることが好ましいが、本質的ではない。また、エンコーダ側で変換されたサブバンドに対して、たとえばエイリアシング除去バタフライによってエイリアシング低減が実行されることが好ましいが、本質的ではない。 Subband filter banks and frequency transforms are critical sampling, and the window functions have 50% overlap (so the transforms exhibit the nature of Time Domain Aliasing Cancellation (TDAC)), more preferably A numerical value is preferred but not essential. Further, although it is preferable that aliasing reduction is performed on the subband converted on the encoder side, for example, by an aliasing removal butterfly, it is not essential.
以上の記述はモノラル信号に関しているが、本発明はステレオあるいはマルチチャンネルエンコードおよびデコードに対しても、それぞれの個別チャンネルを上記した仕方で処理することによって容易に適用されうる。 Although the above description relates to monaural signals, the present invention can be readily applied to stereo or multi-channel encoding and decoding by processing each individual channel in the manner described above.
本発明を具現するエンコーダおよびデコーダは、たとえばコンピュータプログラムコード、ハードウェアまたはそれぞれの組み合わせを使うなどして、いかなる好都合な仕方で実装されてもよい。 Encoders and decoders embodying the invention may be implemented in any convenient manner, for example using computer program code, hardware or a combination of each.
本発明はここに記載された実施形態に限定されるものではない。ここに記載された実施形態は本発明の範囲から外れることなく修正または変形しうるものである。
The present invention is not limited to the embodiments described herein. The embodiments described herein can be modified or modified without departing from the scope of the present invention.
Claims (25)
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP03104535 | 2003-12-04 | ||
PCT/IB2004/052602 WO2005055203A1 (en) | 2003-12-04 | 2004-11-30 | Audio signal coding |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007515672A true JP2007515672A (en) | 2007-06-14 |
Family
ID=34639327
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006542091A Pending JP2007515672A (en) | 2003-12-04 | 2004-11-30 | Audio signal encoding |
Country Status (5)
Country | Link |
---|---|
EP (1) | EP1692686A1 (en) |
JP (1) | JP2007515672A (en) |
KR (1) | KR20060131767A (en) |
CN (1) | CN1890712A (en) |
WO (1) | WO2005055203A1 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018511827A (en) * | 2015-03-09 | 2018-04-26 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | Audio encoder for encoding multi-channel signals and audio decoder for decoding encoded audio signals |
JP2021196562A (en) * | 2020-06-17 | 2021-12-27 | Toa株式会社 | Acoustic communication system, acoustic transmission device, acoustic reception device, program, and acoustic signal transmission method |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102243872A (en) * | 2010-05-10 | 2011-11-16 | 炬力集成电路设计有限公司 | Method and system for encoding and decoding digital audio signals |
CN104380376B (en) | 2012-06-14 | 2017-03-15 | 杜比国际公司 | Solution code system, reconstructing method and equipment, coded system, method and apparatus and audio publishing system |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1397798B1 (en) * | 2001-06-08 | 2006-04-12 | STMicroelectronics Asia Pacific Pte Ltd. | Unified filter bank for audio coding |
-
2004
- 2004-11-30 KR KR1020067010745A patent/KR20060131767A/en not_active Application Discontinuation
- 2004-11-30 WO PCT/IB2004/052602 patent/WO2005055203A1/en not_active Application Discontinuation
- 2004-11-30 JP JP2006542091A patent/JP2007515672A/en active Pending
- 2004-11-30 EP EP04799284A patent/EP1692686A1/en not_active Withdrawn
- 2004-11-30 CN CNA200480035931XA patent/CN1890712A/en active Pending
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022088470A (en) * | 2015-03-09 | 2022-06-14 | フラウンホッファー-ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | Audio encoder for encoding multichannel signal and audio decoder for decoding encoded audio signal |
JP7077290B2 (en) | 2015-03-09 | 2022-05-30 | フラウンホッファー-ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | An audio encoder for encoding multi-channel signals and an audio decoder for decoding encoded audio signals |
US10395661B2 (en) | 2015-03-09 | 2019-08-27 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal |
JP2020038374A (en) * | 2015-03-09 | 2020-03-12 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | Audio encoder for encoding multichannel signal and audio decoder for decoding encoded audio signal |
US10777208B2 (en) | 2015-03-09 | 2020-09-15 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal |
US11107483B2 (en) | 2015-03-09 | 2021-08-31 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal |
US10388287B2 (en) | 2015-03-09 | 2019-08-20 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal |
JP7469350B2 (en) | 2015-03-09 | 2024-04-16 | フラウンホッファー-ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | Audio Encoder for Encoding a Multi-Channel Signal and Audio Decoder for Decoding the Encoded Audio Signal - Patent application |
US11741973B2 (en) | 2015-03-09 | 2023-08-29 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal |
JP2018511827A (en) * | 2015-03-09 | 2018-04-26 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | Audio encoder for encoding multi-channel signals and audio decoder for decoding encoded audio signals |
US11238874B2 (en) | 2015-03-09 | 2022-02-01 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal |
US11881225B2 (en) | 2015-03-09 | 2024-01-23 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal |
JP7385531B2 (en) | 2020-06-17 | 2023-11-22 | Toa株式会社 | Acoustic communication system, acoustic transmitting device, acoustic receiving device, program and acoustic signal transmitting method |
JP2021196562A (en) * | 2020-06-17 | 2021-12-27 | Toa株式会社 | Acoustic communication system, acoustic transmission device, acoustic reception device, program, and acoustic signal transmission method |
Also Published As
Publication number | Publication date |
---|---|
KR20060131767A (en) | 2006-12-20 |
EP1692686A1 (en) | 2006-08-23 |
WO2005055203A1 (en) | 2005-06-16 |
CN1890712A (en) | 2007-01-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4081447B2 (en) | Apparatus and method for encoding time-discrete audio signal and apparatus and method for decoding encoded audio data | |
EP1964111B1 (en) | Device and method for postprocessing spectral values and encoder and decoder for audio signals | |
EP2308045B1 (en) | Compression of audio scale-factors by two-dimensional transformation | |
US7275036B2 (en) | Apparatus and method for coding a time-discrete audio signal to obtain coded audio data and for decoding coded audio data | |
US8260620B2 (en) | Device for perceptual weighting in audio encoding/decoding | |
EP3246919B1 (en) | Improved harmonic transposition | |
KR100331166B1 (en) | Methods and devices for encoding audio signals and methods and devices for decoding a bit stream | |
JP4567238B2 (en) | Encoding method, decoding method, encoder, and decoder | |
US6735339B1 (en) | Multi-stage encoding of signal components that are classified according to component value | |
WO2005073959A1 (en) | Audio signal decoding using complex-valued data | |
JP2008519290A (en) | Audio signal encoding and decoding using complex-valued filter banks | |
JP2004531151A (en) | Method and apparatus for processing time discrete audio sample values | |
EP3985666B1 (en) | Improved harmonic transposition | |
JP2007515672A (en) | Audio signal encoding | |
AU2020201239B2 (en) | Improved Harmonic Transposition | |
US20170206905A1 (en) | Method, medium and apparatus for encoding and/or decoding signal based on a psychoacoustic model | |
JP2001083995A (en) | Sub band encoding/decoding method | |
JP4024784B2 (en) | Audio decoding device | |
Edler | Aliasing reduction for gain control with critically sampled filter banks | |
AU2013211560B2 (en) | Improved harmonic transposition |