JP2011059685A - Method for detecting audio signal that has basic layer and enhancement layer - Google Patents

Method for detecting audio signal that has basic layer and enhancement layer Download PDF

Info

Publication number
JP2011059685A
JP2011059685A JP2010196542A JP2010196542A JP2011059685A JP 2011059685 A JP2011059685 A JP 2011059685A JP 2010196542 A JP2010196542 A JP 2010196542A JP 2010196542 A JP2010196542 A JP 2010196542A JP 2011059685 A JP2011059685 A JP 2011059685A
Authority
JP
Japan
Prior art keywords
signal
base layer
decoder
decoding
layer portion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010196542A
Other languages
Japanese (ja)
Other versions
JP5808092B2 (en
JP2011059685A5 (en
Inventor
Peter Jax
ヤクス ペーター
Sven Kordon
コルドン スヴェン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thomson Licensing SAS
Original Assignee
Thomson Licensing SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thomson Licensing SAS filed Critical Thomson Licensing SAS
Publication of JP2011059685A publication Critical patent/JP2011059685A/en
Publication of JP2011059685A5 publication Critical patent/JP2011059685A5/ja
Application granted granted Critical
Publication of JP5808092B2 publication Critical patent/JP5808092B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/173Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide an efficient method for reducing the power necessary for a dual-layer audio signal. <P>SOLUTION: The audio signal may have a BL and an EL, wherein the EL represents additional information for enhancing the quality of the BL audio content. Decoding of such a dual-layer signal normally includes a step (21) of partially decoding the BL data. Frequency bins of the BL are restored (22), the restored frequency bins are mapped to an MDCT domain (23), they are added to the decoded EL, and inverse integer MDCT is performed. A low-complexity method for decoding includes the steps of reverse-mapping the decoded EL data (45), adding the reversely mapped EL data to the partially decoded BL data (42) and filtering the sum by using an inverse BL filter bank. <P>COPYRIGHT: (C)2011,JPO&INPIT

Description

本発明は、基本層及び拡張層を有する音声信号を検出する方法に関する。   The present invention relates to a method for detecting an audio signal having a base layer and an enhancement layer.

音声信号は、集合的に二重層と表される基本層及び拡張層を有し、前記基本層は符号化された音声コンテンツの限られた品質の版を表し、前記拡張層は音声コンテンツの品質を高める符号化された追加情報を表す。例えば、ビット・ストリームは、例えばMP3(MPEG−1 レイヤIII)ビット・ストリームのような低ビット・レート層、及び基本品質を拡張品質に拡張する追加層を有しうる。原則的に、1より多い追加層が用いられてもよい。該追加層のうちの最も高いものは、元のPCM(パルス符号変調)サンプルのビット単位で正確な(bit-exact)再現を可能にしてもよい。   The audio signal has a base layer and an enhancement layer, collectively referred to as a double layer, wherein the base layer represents a limited quality version of the encoded audio content, and the enhancement layer is the quality of the audio content. Represents encoded additional information that enhances. For example, the bit stream may have a low bit rate layer such as an MP3 (MPEG-1 Layer III) bit stream and an additional layer that extends the basic quality to an extended quality. In principle, more than one additional layer may be used. The highest of the additional layers may enable bit-exact reproduction in bit units of the original PCM (pulse code modulation) sample.

このような二重層信号の符号化は、通常、基本層を符号化し、それにより入力信号の特定の情報を省略し、次に符号化された基本層を少なくとも部分的に再構成して予測信号を得ることにより行われる。更に、予測信号と完全な品質の入力信号との間の差分信号が、決定され符号化される。符号化された差分信号は、次に拡張層として機能する。   Such double layer signal encoding usually encodes the base layer, thereby omitting certain information in the input signal, and then at least partially reconstructing the encoded base layer to produce a predicted signal. Is done by Furthermore, the difference signal between the predicted signal and the full quality input signal is determined and encoded. The encoded difference signal then functions as an enhancement layer.

図1は、組み込み型可逆音声コーデックの符号器を示す。上の信号経路では、入力信号は基本層のビット・ストリームを符号化するために用いられる。基本層符号器は、例えばMP3に準拠してよい。基本層コーデックは、拡張層信号経路で用いられるMDCTフィルタ・バンク13に等しくない時間−周波数分解のためのフィルタ・バンク11を用いる。例であるMP3の場合には、基本層フィルタ・バンク11は、ハイブリッド・フィルタ・バンクであり、32帯域の多相フィルタ・バンクを有し、その後段に各サブ帯域に独立MDCT分析ブロックを有する。第2の信号経路では、入力信号は、信号の完全な可逆MDCT分解を実施する整数MDCTブロック13に供給される。整数値のMDCT周波数ビンは、拡張層情報の可逆符号化の基礎である。   FIG. 1 shows an encoder of an embedded lossless speech codec. In the upper signal path, the input signal is used to encode the base layer bit stream. The base layer encoder may be compliant with MP3, for example. The base layer codec uses a filter bank 11 for time-frequency decomposition that is not equal to the MDCT filter bank 13 used in the enhancement layer signal path. In the case of the example MP3, the base layer filter bank 11 is a hybrid filter bank, having a 32-band polyphase filter bank, and having an independent MDCT analysis block in each sub-band in the subsequent stage. . In the second signal path, the input signal is fed to an integer MDCT block 13 that performs a complete reversible MDCT decomposition of the signal. Integer MDCT frequency bins are the basis for lossless encoding of enhancement layer information.

ハイブリッド基本層フィルタ・バンク11は拡張層の整数MDCTフィルタ・バンク13とは異なるので、予測信号を得るためにマッピング処理が必要である。この目的のために、(ハイブリッド・フィルタ・バンク11の領域内の)基本層周波数ビンは、部分的復号化により復元され16、次にMDCT領域にマッピングされる。マッピング17は、例えばEP2064700A1(PD060080)に記載されたように効率的な方法で実行されてもよい。マッピングされた基本層情報は、次に整数値MDCT係数から減算される14。残りの係数s14は、可逆拡張層を送信するために必要なビット・レートを最小化するために、エントロピ符号器15に供給される。   Since the hybrid base layer filter bank 11 is different from the enhancement layer integer MDCT filter bank 13, a mapping process is required to obtain a prediction signal. For this purpose, the base layer frequency bins (in the region of the hybrid filter bank 11) are recovered by partial decoding 16 and then mapped to the MDCT region. The mapping 17 may be performed in an efficient manner, for example as described in EP2064700A1 (PD060080). The mapped base layer information is then subtracted 14 from the integer value MDCT coefficients. The remaining coefficient s14 is supplied to the entropy encoder 15 to minimize the bit rate required to transmit the lossless enhancement layer.

このような二重層信号の復号化は、通常、図2に示されるような手順を用いる。上側の信号経路では、基本層情報は、周波数ビン情報を復元するために部分的に復号化される21。このとき時間領域への合成フィルタリングは実行されない。何故なら、これは基本層信号を復号化するためにのみ必要だからである。次に、正確に同一の処理が符号器内で行われる。つまり、基本層情報の周波数ビンは復元され(復号化され)22、復元された周波数ビンのMDCT領域へのマッピングが実行される23。並行して、下側の信号経路は拡張ビット・ストリームを復号化する。エントロピ復号器24の出力s24は、符号器の減算ブロック14により計算されたように、MDCT領域内の基本層の残余誤りs14と同一である。誤り残余s24は、基本層情報からマッピングされた係数s23に加算され25、その和は逆整数MDCTブロック26に供給される。逆整数MDCTブロックの出力信号は、符号器に供給された元の入力信号と(ビット単位で)完全に同一である。   Such a decoding of a double layer signal usually uses a procedure as shown in FIG. In the upper signal path, the base layer information is partially decoded 21 to recover the frequency bin information 21. At this time, the synthesis filtering to the time domain is not executed. This is necessary only for decoding the base layer signal. Next, exactly the same processing is performed in the encoder. That is, the frequency bin of the base layer information is restored (decoded) 22 and mapping of the restored frequency bin to the MDCT region is performed 23. In parallel, the lower signal path decodes the extended bit stream. The output s24 of the entropy decoder 24 is identical to the base layer residual error s14 in the MDCT domain, as calculated by the encoder subtraction block 14. The error residue s24 is added to the coefficient s23 mapped from the base layer information 25, and the sum is supplied to the inverse integer MDCT block 26. The output signal of the inverse integer MDCT block is completely identical (in bits) to the original input signal supplied to the encoder.

図4に、「IntMDCT‐A Link Between Perceptual and Lossless Audio Coding」、2002年、IEEE、R.Geiger、J.Herre、J.Koller、K.-H.Brandenburgと同様の例を示す。   FIG. 4 shows an example similar to “IntMDCT-A Link Between Perceptual and Lossless Audio Coding”, 2002, IEEE, R. Geiger, J. Herre, J. Koller, K.-H. Brandenburg.

音声復号器は、小型の携帯型のバッテリ駆動式装置内にしばしば実装される。従って、一般に、電力を節約する方法で、符号化された音声信号の復号化を実行することが望ましい。プロセッサに基づく復号器の実施形態では、これは、プロセッサが実行する必要のある処理サイクル数を低減することと等価である。   Speech decoders are often implemented in small portable battery-powered devices. Therefore, it is generally desirable to perform decoding of the encoded speech signal in a manner that saves power. In processor-based decoder embodiments, this is equivalent to reducing the number of processing cycles that the processor needs to execute.

本発明は、二重層音声信号のために必要な電力を低減する効率的な解決策を提供する。   The present invention provides an efficient solution that reduces the power required for a dual layer audio signal.

本発明のある一般的態様によると、基本層部分と拡張層部分とを有する音声信号を復号化する方法が提供される。該拡張層部分は、フィルタ・バンク領域のマッピングを用いて該基本層信号部分から予測される。当該方法は、前記符号化された基本層部分を部分的に復号化する段階、前記フィルタ・バンク領域のマッピングの簡易反転に従って、前記拡張層部分を逆マッピングする段階、該逆マッピングされた拡張層部分を前記部分的に復号化された基本層部分に加算する段階、及び逆基本層フィルタ・バンクを用いて、該加算する段階の出力信号を合成フィルタリングする段階、を有する。   According to one general aspect of the invention, a method is provided for decoding an audio signal having a base layer portion and an enhancement layer portion. The enhancement layer portion is predicted from the base layer signal portion using filter bank region mapping. The method includes partially decoding the encoded base layer portion, de-mapping the enhancement layer portion according to a simple inversion of the mapping of the filter bank region, the inverse-mapped enhancement layer Adding a portion to the partially decoded base layer portion, and synthetic filtering the output signal of the adding step using an inverse base layer filter bank.

本発明の別の一般的態様によると、基本層信号部分と拡張層信号部分とを有する音声信号を復号化する復号器が提供される。該拡張層部分は、フィルタ・バンク領域のマッピングを用いて該基本層信号部分から予測される。当該復号器は、前記符号化された基本層部分を部分的に復号化する部分復号器、前記フィルタ・バンク領域のマッピングの簡易反転に従って、前記拡張層部分を逆マッピングする第1のマッパー、該逆マッピングされた拡張層部分を前記部分的に復号化された基本層部分に加算する第1の加算器、及び該加算された出力信号を合成フィルタリングし、逆基本層フィルタ・バンクとして動作する第1の合成フィルタ、を有する。   According to another general aspect of the invention, a decoder is provided for decoding an audio signal having a base layer signal portion and an enhancement layer signal portion. The enhancement layer portion is predicted from the base layer signal portion using filter bank region mapping. The decoder comprises: a partial decoder for partially decoding the encoded base layer portion; a first mapper for inverse mapping the enhancement layer portion according to a simple inversion of the mapping of the filter bank region; A first adder that adds the inverse-mapped enhancement layer portion to the partially decoded base layer portion, and a first filter that performs synthetic filtering on the added output signal and operates as an inverse base layer filter bank 1 synthesis filter.

本発明の一態様によると、基本層信号部分と拡張層信号部分とを有する音声信号を復号化する方法が提供される。該基本層信号部分及び該拡張層信号部分は、異なるフィルタ種類から得られ、異なるフィルタ・バンク領域にあり、該拡張層信号部分は、フィルタ・バンク領域のマッピングを用い次にエントロピ符号化されて、該基本層信号部分から予測される。当該方法は、前記符号化された基本層部分を部分的に復号化する段階、前記拡張層部分をエントロピ復号化する段階、前記フィルタ・バンク領域のマッピングの簡易反転に従って、前記エントロピ復号化された拡張層部分を逆マッピングする段階、該逆マッピングされた拡張層部分を前記部分的に復号化された基本層部分に加算する段階、及び逆基本層フィルタ・バンクを用いて、該加算する段階の出力信号を合成フィルタリングする段階、を有する。   According to one aspect of the invention, a method is provided for decoding an audio signal having a base layer signal portion and an enhancement layer signal portion. The base layer signal portion and the enhancement layer signal portion are obtained from different filter types and are in different filter bank regions, and the enhancement layer signal portion is then entropy encoded using filter bank region mapping. , Predicted from the base layer signal portion. The method includes: partially decoding the encoded base layer portion; entropy decoding the enhancement layer portion; and performing entropy decoding according to simple inversion of the mapping of the filter bank region. Inverse mapping the enhancement layer portion, adding the inverse-mapped enhancement layer portion to the partially decoded base layer portion, and adding using an inverse base layer filter bank Synthesizing and filtering the output signal.

本発明の別の態様によると、基本層部分と拡張層部分とを有する音声信号を復号化する復号器が提供される。該基本層部分及び該拡張層部分は、異なるフィルタ・バンク領域にあり、該拡張層部分は、フィルタ・バンク領域のマッピングを用い次にエントロピ符号化されて、該基本層部分から予測される。当該復号器は、前記基本層部分を部分的に復号化する部分復号器、前記拡張層部分をエントロピ復号化するエントロピ復号器、前記フィルタ・バンク領域のマッピングの簡易反転に従って、前記エントロピ復号化された拡張層信号を逆マッピングする第1のマッピング要素、該逆マッピングされた拡張層を前記部分的に復号化された基本層に加算する第1の加算器、及び該加算された出力信号をフィルタリングし、逆基本層フィルタ・バンクとして動作する第1の合成フィルタ、を有する。   According to another aspect of the invention, a decoder is provided for decoding an audio signal having a base layer portion and an enhancement layer portion. The base layer portion and the enhancement layer portion are in different filter bank regions, and the enhancement layer portion is then entropy encoded using the filter bank region mapping and predicted from the base layer portion. The decoder is a partial decoder that partially decodes the base layer part, an entropy decoder that entropy decodes the enhancement layer part, and is entropy decoded according to simple inversion of the mapping of the filter bank region. A first mapping element for inverse mapping the enhanced enhancement layer signal, a first adder for adding the inversely mapped enhancement layer to the partially decoded base layer, and filtering the summed output signal And a first synthesis filter that operates as an inverse base layer filter bank.

一実施形態では、前記基本層部分は周波数ビンを有し、前記基本層信号を部分的に復号化する段階は、該周波数ビンを復元する段階を有する。   In one embodiment, the base layer portion has frequency bins, and partially decoding the base layer signal comprises restoring the frequency bin.

留意すべき点は、フィルタ・バンク領域のマッピングの単純な反転は、元のフィルタ・バンク領域のマッピングよりも低い精度で実行される逆処理を意味する。低い精度は、数値の丸め込み、及びより効率的な実施のためのフィルタリング機能の単純化を表してもよい。   It should be noted that a simple inversion of the filter bank area mapping implies an inverse process that is performed with less accuracy than the original filter bank area mapping. Low accuracy may represent rounding of numbers and simplification of the filtering function for more efficient implementation.

本発明の1つの利点は、本発明が既存の符号化フォーマットに適用可能であること、如何なる特別なフォーマットも必要ないことである。   One advantage of the present invention is that the present invention is applicable to existing encoding formats and does not require any special format.

本発明の実施例の更なる利点は、従属請求項、以下の説明及び図面に示される。   Further advantages of embodiments of the invention are indicated in the dependent claims, the following description and the drawings.

本発明の例である実施例は、添付の図面を参照して説明される。
組み込み型可逆音声コーデックの符号器を示す。 符号化された二重層音声データのビット単位で正確な音声復号器である。 拡張された低複雑度復号器の構造である。 ビット単位で正確な復号器の相対的な計算の複雑性である。 拡張された低複雑度復号器の相対的な計算の複雑性である。 ビット単位で正確な復号化部と低複雑度復号化部とを有する柔軟な復号器の構造である。 ソース音声信号の例であるパワー・スペクトル、従来の復号化された音声信号と拡張された復号化された音声信号、及び対応する誤りスペクトルである。
Exemplary embodiments of the invention will now be described with reference to the accompanying drawings.
An encoder for an embedded lossless speech codec is shown. It is an accurate speech decoder in bit units of encoded double layer speech data. It is the structure of an extended low complexity decoder. It is the relative computational complexity of a decoder that is accurate in bits. It is the relative computational complexity of the extended low complexity decoder. It is a flexible decoder structure having an accurate decoding unit and a low complexity decoding unit in bit units. An example of a source speech signal is a power spectrum, a conventional decoded speech signal and an extended decoded speech signal, and a corresponding error spectrum.

本発明の以下の例である実施形態は、MPEG−1 LayerIII(MP3)を参照して説明される。しかしながら、本発明は、フィルタ・バンクによる同様の音声符号化フォーマットの実施形態で、特にフィルタ・バンクの領域マッピングが必要な場合に、用いられてもよい。   The following example embodiment of the present invention is described with reference to MPEG-1 Layer III (MP3). However, the present invention may be used with embodiments of similar speech coding formats with filter banks, especially when region mapping of filter banks is required.

図3は、本発明の一態様による復号化手法のブロック図を示す。入力信号Inは、如何なる種類のデータ源から、例えば任意の記憶素子からのファイルの読み取りから、又は無線若しくは有線データ・ブロードキャスト若しくはユニキャストのための受信機から得られてもよい。入力信号Inは、基本層部分を拡張層部分から分離するために、例えばファイルI/O処理により予め処理される。次に、基本層信号は、部分基本層復号器41に入力される。部分基本層復号器41は、基本層フィルタ・バンク領域で基本層信号s41を生成する。   FIG. 3 shows a block diagram of a decoding technique according to one aspect of the present invention. The input signal In may be obtained from any kind of data source, for example from reading a file from any storage element, or from a receiver for wireless or wired data broadcast or unicast. The input signal In is processed in advance by, for example, file I / O processing in order to separate the base layer portion from the extension layer portion. Next, the base layer signal is input to the partial base layer decoder 41. The partial base layer decoder 41 generates a base layer signal s41 in the base layer filter bank region.

部分基本層復号器41は、部分復号化のみを実行する。つまり時間領域への如何なる逆変換も行わない。従来の基本層復号器では、この基本層フィルタ・バンク領域の信号s41は、時間領域信号を得るために逆基本層フィルタ・バンク43に直接入力されるだろう。これに対し、拡張復号器は、基本層と拡張層信号の和が逆基本層フィルタ・バンク43に入力される前に、拡張データを加算する加算器42を有する。有利なことに、フィルタ・バンク43は、従来のMP3基本層の復号化に関しては同様であってもよい。拡張データは、拡張層から逆マッパー45により生成される。逆マッパー45は、拡張層のMDCT領域からのデータを基本層のフィルタ・バンク領域にマッピングする。入力データはしばしばエントロピ符号化されるので、拡張層データは、本発明の一実施形態ではエントロピ復号器44から得られる。入力データが別に符号化されるか又は全く符号化されない場合、エントロピ復号器44は、対応する復号器により置き換えられるか又はそれぞれスキップされてもよい。   The partial base layer decoder 41 performs only partial decoding. That is, no reverse transformation to the time domain is performed. In a conventional base layer decoder, this base layer filter bank domain signal s41 would be input directly to the inverse base layer filter bank 43 to obtain a time domain signal. On the other hand, the extension decoder has an adder 42 for adding extension data before the sum of the base layer and the enhancement layer signal is input to the inverse base layer filter bank 43. Advantageously, the filter bank 43 may be similar for conventional MP3 base layer decoding. The extension data is generated by the inverse mapper 45 from the extension layer. The inverse mapper 45 maps the data from the MDCT area of the enhancement layer to the filter bank area of the base layer. Because input data is often entropy encoded, enhancement layer data is obtained from entropy decoder 44 in one embodiment of the invention. If the input data is encoded separately or not encoded at all, the entropy decoder 44 may be replaced by a corresponding decoder or skipped respectively.

従来のビット単位で正確な完全な可逆復号器と比べると、図2に関して上述されたように、信号フローは低複雑度復号器の一部で変更されている。周波数ビンを基本層コーデックのフィルタ・バンク領域から拡張層コーデックのMDCT領域にマッピングする代わりに、マッピングは逆方向に行われる。拡張層復号器は、MDCT領域からMP3基本層コーデックの領域への逆マッピング45を用いる。従って、マッピングの出力(つまりマッピングされた誤り残余)は、基本層の復号化された周波数ビンに直接加算される42。従って、基本層コーデックの合成フィルタ・バンク(FB)を用いることにより、拡張された時間領域信号を得ることが可能である。   Compared to a conventional bit-wise exact complete lossless decoder, the signal flow has been modified in some of the low complexity decoders as described above with respect to FIG. Instead of mapping frequency bins from the filter bank region of the base layer codec to the MDCT region of the enhancement layer codec, the mapping is done in the reverse direction. The enhancement layer decoder uses an inverse mapping 45 from the MDCT domain to the MP3 base layer codec domain. Accordingly, the mapping output (ie, mapped error residual) is directly added 42 to the base layer decoded frequency bins 42. Therefore, it is possible to obtain an extended time-domain signal by using the synthesis filter bank (FB) of the base layer codec.

拡張された復号器の1つの利点は、ビット単位で正確な復号器と比べて、復号化のために用いる電力が有意に少なく、一方で同様の品質の音声出力信号を生成することである図4は、ビット単位で正確な従来の復号器のブロックの相対的な計算の複雑性を示す。計算の複雑性は、概して電力消費と等価である。何故なら、計算の複雑性は計算を実行する1又は複数の処理要素の、例えばプロセッサの処理サイクル数に対応するからである。発明者らの測定及び計算により次のことが明らかになった。部分基本層復号器は、従来の復号器の総電力消費の約8%を消費し、拡張層エントロピ復号器は、従来の復号器の総電力消費の約19%を消費する。マッピング・ブロック及び逆整数MDCTブロックは、総電力消費のそれぞれ35%及び38%と比較的高い率を必要とする。加算器は、他のブロックと比較して、比較的単純な構造を有し、実質的に如何なる電力も必要としない。従って、部分基本層復号器、拡張層エントロピ復号器、マッピング・ブロック及び逆整数MDCTブロックの総電力消費は、合計で最大100%になる。   One advantage of an enhanced decoder is that it uses significantly less power for decoding compared to a bit-wise accurate decoder, while producing a speech output signal of similar quality. 4 indicates the relative computational complexity of a conventional decoder block that is accurate in bits. The computational complexity is generally equivalent to power consumption. This is because the computational complexity corresponds to the number of processing cycles of one or more processing elements performing the calculation, for example the processor. The following things became clear from the measurement and calculation by the inventors. The partial base layer decoder consumes about 8% of the total power consumption of the conventional decoder, and the enhancement layer entropy decoder consumes about 19% of the total power consumption of the conventional decoder. Mapping blocks and inverse integer MDCT blocks require relatively high rates of 35% and 38% of total power consumption, respectively. The adder has a relatively simple structure compared to other blocks and does not require substantially any power. Therefore, the total power consumption of the partial base layer decoder, enhancement layer entropy decoder, mapping block and inverse integer MDCT block is up to 100% in total.

図5は、従来の復号器に対する、拡張二重層復号器のブロックの計算の複雑性を示す。比較が示すように、両方の実施形態とも、同一の部分基本層復号器及びエントロピ復号器を用い、総電力消費の約8%及び19%を消費する。しかしながら、電力消費の主な低減は、従来のマッパーの代わりに逆マッパー45を用いることにより、及び逆整数MDCTフィルタ・バンクの代わりに逆基本層フィルタ・バンク43を用いることにより得られる。逆マッパー45は、従来の復号器の総電力消費の約10%のみを消費し、総電力の35%を消費するマッピング・ブロックを置き換える。従って、この対策により(35%−10%=)25%の節約が得られる。更に、逆基本層フィルタ・バンク43は、従来の総電力消費の約8%のみを必要とし、38%を使用していた逆整数MDCTブロックを置き換える。この対策は、総電力消費の(38%−8%=)30%の節約をもたらす。加算器は、MDCT領域の信号部分の代わりに基本層フィルタ・バンク領域の信号部分を加算するので、僅かに異なる。加算器は、特定のデータ・フォーマット又は計算動作に従う必要がないので、複雑性が低減されうる。しかしながら、加算器は、依然として実質的に如何なる電力も必要としない。従って、拡張復号器の総電力消費は、55%だけ低減され、従来の復号器の電力消費の45%まで低減された。これは、本発明の拡張復号器を、低電力用途に、例えばバッテリ式装置に望ましくする。   FIG. 5 illustrates the computational complexity of the block of an enhanced double layer decoder relative to a conventional decoder. As the comparison shows, both embodiments use the same partial base layer decoder and entropy decoder and consume about 8% and 19% of the total power consumption. However, the main reduction in power consumption is obtained by using the inverse mapper 45 instead of the conventional mapper and by using the inverse base layer filter bank 43 instead of the inverse integer MDCT filter bank. The inverse mapper 45 consumes only about 10% of the total power consumption of a conventional decoder and replaces the mapping block that consumes 35% of the total power. Therefore, this measure can save 25% (35% -10% =). Furthermore, the inverse base layer filter bank 43 only requires about 8% of the total power consumption of the prior art, replacing the inverse integer MDCT block that used 38%. This measure results in a saving of (38% -8% =) 30% of the total power consumption. The adder is slightly different because it adds the signal portion of the base layer filter bank region instead of the signal portion of the MDCT region. The adder does not need to follow a specific data format or calculation operation, so complexity can be reduced. However, the adder still requires virtually no power. Thus, the total power consumption of the extended decoder has been reduced by 55%, down to 45% of the power consumption of the conventional decoder. This makes the extended decoder of the present invention desirable for low power applications, such as battery powered devices.

計算の複雑性の観点から、新たな手法は2つの利点を有する。   From the point of view of computational complexity, the new approach has two advantages.

第一に、逆マッパー45における逆マッピングは、図2に示された順マッピングより遙かに低い信号対歪み比(signal-to-distortion ratio:SDR)を有しうる。遙かに低い精度の要件の理由は、マッピングへの入力が誤り残余であることである。逆マッピング手順により生成される如何なる歪みも、低電力残余信号に直接加算される。従って、逆マッピングの絶対的な歪みは順マッピングの場合と同程度の大きさになりうるが、SDR要件は、入力信号の電力の低減と同じくらい遙かに低くなりうる。実際には、逆マッパー45は、順マッピングの場合に必要な50dBの代わりに、約20dBのマッピング精度を有すれば十分である。低いSDR要件のため、逆マッピング45の計算の複雑性は、順マッピングよりも遙かに低い。   First, the inverse mapping in the inverse mapper 45 may have a signal-to-distortion ratio (SDR) that is much lower than the forward mapping shown in FIG. The reason for the much lower accuracy requirement is that the input to the mapping is an error residue. Any distortion produced by the inverse mapping procedure is added directly to the low power residual signal. Thus, the absolute distortion of the inverse mapping can be as large as in the forward mapping, but the SDR requirement can be as low as the power reduction of the input signal. In practice, it is sufficient for the inverse mapper 45 to have a mapping accuracy of about 20 dB instead of the 50 dB required for forward mapping. Due to the low SDR requirement, the computational complexity of inverse mapping 45 is much lower than forward mapping.

第二に、更に、複雑性の少ない逆フィルタ・バンク43の基本層コーデックの手順が用いられうる。上述の例では、MP3コーデックの合成フィルタ・バンクが用いられうる。該合成フィルタ・バンクは、逆整数MDCTの約38%の代わりに、可逆復号器の全体の複雑性の約8%のみしか必要としない。逆基本層フィルタ・バンク43は、従来の逆整数MDCTより有意に少ない処理を実行する。   Second, the base layer codec procedure of the inverse filter bank 43 with less complexity can also be used. In the above example, an MP3 codec synthesis filter bank may be used. The synthesis filter bank requires only about 8% of the overall complexity of the lossless decoder, instead of about 38% of the inverse integer MDCT. Inverse base layer filter bank 43 performs significantly less processing than conventional inverse integer MDCT.

上述のように、逆マッパー45で実行されるような、フィルタ・バンク領域のマッピングの単純な反転は、元のフィルタ・バンク領域のマッピングよりも低い精度で実行される逆処理を意味する。低い精度は、数値の丸め込み、及びより効率的な実施のためのフィルタリング機能の単純化を表してもよい。例えば、1又は複数の段階をスキップすること、又はより短い位相補正フィルタを使用することである。更なる例は、EP2064700A1で与えられる。   As described above, a simple inversion of the filter bank area mapping, as performed by the inverse mapper 45, implies an inverse process performed with less accuracy than the original filter bank area mapping. Low accuracy may represent rounding of numbers and simplification of the filtering function for more efficient implementation. For example, skip one or more steps, or use a shorter phase correction filter. A further example is given in EP2064700A1.

纏めると、拡張された信号フローは、新たな準可逆復号化構造をもたらす。該準可逆復号化構造は、実装が容易で、単純な基本層復号器よりも有意に良好な音声品質を得るのに適している。これは、誤り残余信号の逆マッピングにおいて、拡張層からの情報を用いることにより達成される。   In summary, the extended signal flow results in a new quasi-reversible decoding structure. The quasi lossless decoding structure is easy to implement and is suitable for obtaining significantly better speech quality than a simple base layer decoder. This is achieved by using information from the enhancement layer in the inverse mapping of the error residual signal.

異なる処理のため、拡張された低複雑度復号器の出力信号は、元の入力信号とビット単位で同一ではない。しかしながら、本発明の低複雑度拡張された復号器は、出力信号で、元の入力信号の全周波数部分を提供する。有利なことに、信号間に可聴の差異はない。従って、品質の観点から、低複雑度復号器は、ビット単位の復号器に十分に匹敵する。   Due to the different processing, the output signal of the extended low complexity decoder is not identical bit by bit with the original input signal. However, the low complexity extended decoder of the present invention provides the full frequency portion of the original input signal at the output signal. Advantageously, there is no audible difference between the signals. Thus, from a quality standpoint, a low complexity decoder is sufficiently comparable to a bit-wise decoder.

歪みのより詳細な分析は、次のことを明らかにする。逆マッピングは、実際に3個の信号成分、つまり順及び逆マッピングのMP3基本層の量子化誤り、整数MDCTの量子化誤り、及び累積量子化誤り又は歪みをそれぞれ基本層フィルタ・バンク領域に変換する。これらの誤りの種類では、次のことが適用できる。   A more detailed analysis of the distortion reveals: Inverse mapping actually converts the three signal components, ie, forward and reverse mapping MP3 base layer quantization error, integer MDCT quantization error, and cumulative quantization error or distortion into base layer filter bank regions, respectively. To do. For these error types, the following applies.

MP3基本層の量子化誤りは、単独で捕らえられた場合、MP3基本層の復号化された周波数成分を完全に補完する。つまり、この誤りの種類のみを考慮すると、本発明の低複雑度復号化は、周波数スペクトルに関する限り、入力信号の完全な再構成をもたらす。   The MP3 base layer quantization error, when captured alone, completely complements the decoded frequency component of the MP3 base layer. That is, considering only this type of error, the low complexity decoding of the present invention results in a complete reconstruction of the input signal as far as the frequency spectrum is concerned.

整数MDCTの量子化誤りは、整数MDCT分析フィルタから必然的に生じる。これは、スペクトル的には平坦であり、無相関である。本発明の復号化では、この誤りは、結果として生じる時間領域信号に約2.6/12(LSB^2))の分散を有する、実質的に固定した、付加的な白色ガウス雑音をもたらす。この誤りの種類の影響は、PCMワード幅の減少、例えば16ビット/サンプルから15にビット/サンプルへの減少に匹敵する。標準的な良好なレベルの音声コンテンツでは、この誤り種類は聞こえないので無視できる。   Integer MDCT quantization errors necessarily arise from integer MDCT analysis filters. This is spectrally flat and uncorrelated. In the decoding of the present invention, this error results in a substantially fixed, additional white Gaussian noise with a variance of about 2.6 / 12 (LSB ^ 2)) in the resulting time domain signal. The effect of this error type is comparable to a reduction in PCM word width, eg from 16 bits / sample to 15 bits / sample. With standard good level audio content, this error type is inaudible and can be ignored.

マッピング誤りは、信号に依存し、約50−60dBの信号対雑音比(signal-to-noise-ratio:SNR)を有する線形及び非線形の歪みを含む。つまり、誤り電力は、信号電力と共に、約50−60dBの一定の距離を有し、変化する。   Mapping errors depend on the signal and include linear and non-linear distortion with a signal-to-noise-ratio (SNR) of about 50-60 dB. That is, the error power varies with the signal power with a constant distance of about 50-60 dB.

纏めると、本発明の低複雑度復号器の出力信号は、ビット単位で正確な拡張層復号器の出力信号に匹敵し、基本層復号器の出力信号よりも遙かに良好な音声品質を有する。一方で、要求される計算量は、従来のビット単位で正確な拡張層復号器よりも遙かに低い。例えば、低複雑度復号器は、128kbit/sの標準的なビット・レートを有する従来のMP3の場合の20dBと比べて50−60dBのSNRを提供する。主観的に、質の向上の程度は、基本層のMP3ビット・レートに依存する。特に、共通の低及び中ビット・レートでは、大きく向上される。   In summary, the output signal of the low complexity decoder of the present invention is comparable to the output signal of the enhancement layer decoder accurate in bit units, and has a much better voice quality than the output signal of the base layer decoder. . On the other hand, the required amount of calculation is much lower than the conventional enhancement layer decoder in bit units. For example, a low complexity decoder provides an SNR of 50-60 dB compared to 20 dB for a conventional MP3 with a standard bit rate of 128 kbit / s. Subjectively, the degree of quality improvement depends on the MP3 bit rate of the base layer. In particular, the common low and medium bit rates are greatly improved.

図7は、例であるソース音声信号の例であるパワー・スペクトルp、従来の復号化された音声信号pと拡張された復号化された音声信号p、及び対応する変化(誤り)スペクトルe、eである。ビット単位で正確な復号器は、入力信号pと同一の十分な品質の音声信号を提供する。通常のMP3プレーヤの出力信号のような従来の方法で復号化された基本層音声信号pでは、高い周波数部分は切り取られる。標準的に、遮断周波数fCを超えるスペクトル部分は、音声品質に少ない影響しか与えず、従って(基本層)符号器で除去される。従って、従来のMP3信号の誤りeは、高い周波数では特に高い。実際の遮断周波数fは、現在の信号エネルギに依存して僅かに変化しうる。しかしながら、少なくとも特定の音声状況では、これらの周波数部分は、多くの人々に少なくとも部分的に知覚でき、それらの欠失は音声品質を有意に低下させうる。 FIG. 7 shows an example power spectrum p S , an example source speech signal, a conventional decoded speech signal p C and an extended decoded speech signal p E , and corresponding changes (errors). The spectra e C and e E. A bit-accurate decoder provides a speech signal of sufficient quality that is identical to the input signal p S. In the base layer audio signal p C decoded by a conventional method such as an output signal of a normal MP3 player, a high frequency part is cut off. Typically, the part of the spectrum above the cut-off frequency fC has little impact on speech quality and is therefore removed by the (base layer) encoder. Therefore, the error e C of the conventional MP3 signal is particularly high at high frequencies. The actual cut-off frequency f C can vary slightly depending on the current signal energy. However, at least in certain speech situations, these frequency portions can be at least partially perceived by many people, and their deletion can significantly reduce speech quality.

これに対し、本発明の低複雑度二重層復号器の出力信号pは、入力信号pからの逸脱が少なく、入力信号pの全ての周波数成分を有する。従って、入力信号の誤り信号eは、非常に低いパワーを有し、全周波数範囲に渡り遙かに一定である。留意すべき点は、図7は、例である短期間のスペクトルを示し、縦(パワー)軸に対数目盛を用いていること、誤りパワーは一般的に入力信号及び出力信号の信号パワーに依存すること、更に復号化された音声信号の実際のパワーp、pは最小値と最大値の間pC,min−pC,max及びpE,min−pE,maxでそれぞれ変化すること、しかし少なくとも遮断周波数fを遙かに下回る元の信号pと概して同一であることである。図7は差異を明確にするために誇張された方法で示されているが、pE,min−pE,maxの範囲は、pC,min−pC,maxの範囲よりも元のpにもっと近い。これは、pの音声品質がもっと良好であることを意味する。 In contrast, the output signal p E of low complexity bilayer decoder of the present invention has less deviation from the input signal p S, having all of the frequency components of the input signal p S. Accordingly, the error signal e E of the input signal has very low power and is much constant over the entire frequency range. It should be noted that FIG. 7 shows an example of a short-term spectrum, using a logarithmic scale on the vertical (power) axis, and error power generally depends on the signal power of the input signal and output signal And the actual powers p C and p E of the decoded speech signal vary between the minimum and maximum values at p C, min −p C, max and p E, min −p E, max , respectively. But at least generally the same as the original signal p S which is well below the cut-off frequency f C. Although FIG. 7 is shown in an exaggerated manner to clarify the difference , the range of p E, min −p E, max is the original p than the range of p C, min −p C, max. Closer to S. This means that the voice quality of the p E is more favorable.

新たな復号化手法は、計算能力の低い装置又は限られた電力供給しか有さない装置、例えばバッテリ式装置で特に有益である。低複雑度復号化機能の使用をより分かり易く使い易くするために、完全な可逆(ビット単位で正確な)復号化と低複雑度準可逆復号化との間の自動切り替えが適用されうる。以下の例がある。   The new decoding technique is particularly beneficial for devices with low computational power or devices with limited power supply, such as battery powered devices. In order to make the use of the low complexity decoding function easier to understand and easier to use, an automatic switch between fully lossless (bit-wise accurate) decoding and low complexity quasi-reversible decoding can be applied. There are the following examples.

電源に依存した自動切り替え復号化モード:
装置がバッテリ式のとき、準可逆モードが用いられる。装置がより信頼性の高い電源、例えば幹線電圧に接続されているとき、ビット単位で正確な可逆モードが用いられる。切り替えは、電源検出器に応答して自動的に行われうる。
Automatic switching decoding mode depending on power supply:
When the device is battery powered, a quasi-reversible mode is used. When the device is connected to a more reliable power source, such as a mains voltage, a precise reversible mode on a bit-by-bit basis is used. The switching can be done automatically in response to the power detector.

総プロセッサ負荷に依存した自動切り替え復号化モード:
他の実行ファイルを通じて高い負荷がプロセッサに課されているとき、準可逆モードが用いられる。或いは、プロセッサの負荷が低いとき、ビット単位で正確な可逆モードが用いられる。切り替えは、処理負荷検出器に応答して自動的に行われうる。
Automatic switching decoding mode depending on total processor load:
A quasi-reversible mode is used when the processor is heavily loaded through other executables. Alternatively, when the processor load is low, an accurate lossless mode is used on a bit-by-bit basis. The switching can be done automatically in response to the processing load detector.

要求される信号出力に依存した自動切り替え復号化モード:
低品質の出力、例えばアナログ線レベルの出力が要求されるとき、準可逆モードが用いられる。高品質の出力、例えばデジタルSPDIF出力が要求されるとき、ビット単位で正確な可逆モードが用いられる。切り替えは、出力種類検出器に応答して自動的に行われうる。
Automatic switching decoding mode depending on the required signal output:
The quasi-reversible mode is used when low quality output, for example, analog line level output is required. When high quality output is required, for example digital SPDIF output, an accurate lossless mode is used on a bit-by-bit basis. The switching can be done automatically in response to the output type detector.

上述の例は、閾(電圧閾、処理負荷閾)及び対応する検出器を利用してもよい。例えば、節電モードを有効化する条件は、復号化方法の1又は複数の段階を実行する少なくとも1つの処理要素の処理負荷が閾を超えることであってもよい。2以上の異なる条件の種々の組み合わせが可能である。例えば高処理負荷と低電力供給である。   The above examples may utilize thresholds (voltage thresholds, processing load thresholds) and corresponding detectors. For example, the condition for enabling the power saving mode may be that the processing load of at least one processing element that executes one or more stages of the decoding method exceeds a threshold. Various combinations of two or more different conditions are possible. For example, high processing load and low power supply.

図6は、現在の動作条件に依存して自動切り替え復号化モードを用いる例である復号器を示す。機械的又は電子的電源検出器、又は電子的電圧閾検出器、処理負荷閾検出器等は、スイッチ50を制御するために用いられる制御信号Ctrを供給する。スイッチ50は、図3に示されたような本発明の準可逆低複雑度復号化モードを用いる省電力モードを有効にするか、又は図2に示されたような従来のビット単位で正確な可逆復号化モードを用いる全電力モードを有効にする。   FIG. 6 shows a decoder that is an example of using the automatic switching decoding mode depending on the current operating conditions. A mechanical or electronic power detector, or an electronic voltage threshold detector, a processing load threshold detector, etc. provides a control signal Ctr that is used to control the switch 50. The switch 50 enables a power saving mode using the quasi-reversible low complexity decoding mode of the present invention as shown in FIG. 3, or is accurate in conventional bit units as shown in FIG. Enable full power mode using lossless decoding mode.

節電モードでは、スイッチ50は、逆マッパー34、第1の加算器42及び逆基本層フィルタ・バンク43を有効にする。更に、節電モードでは、スイッチ50は、マッパー47、第2の加算器48及び逆整数MDCT49を無効にする。これに対し、全電力モードでは、スイッチ50は、マッパー47、第2の加算器48及び逆整数MDCT49を有効にし、逆マッパー45、第1の加算器42及び逆基本層フィルタ・バンク43を無効にする。部分基本総復号器41及び拡張層エントロピ復号器44は、両方のモードで用いられる。マッパー47は、図2に示されるように、周波数ビンの復元及びMDCT領域への実際のマッピングを実行してもよい。第1及び/又は第2の加算器42、48は実際には如何なる電力も必要としないので、それらの無効化又は有効化は不必要であってもよい。   In the power saving mode, the switch 50 enables the inverse mapper 34, the first adder 42 and the inverse base layer filter bank 43. Further, in the power saving mode, the switch 50 disables the mapper 47, the second adder 48, and the inverse integer MDCT 49. In contrast, in full power mode, switch 50 enables mapper 47, second adder 48 and inverse integer MDCT 49, and disables inverse mapper 45, first adder 42 and inverse base layer filter bank 43. To. The partial basic total decoder 41 and the enhancement layer entropy decoder 44 are used in both modes. Mapper 47 may perform frequency bin reconstruction and actual mapping to the MDCT domain, as shown in FIG. Since the first and / or second adders 42, 48 do not actually require any power, their disabling or enabling may be unnecessary.

原理上は、1より多い拡張層も用いられるので、階層的な多層構造が存在する。その場合には、本発明は、階層構造内の如何なる2つの連続する層に適用されてもよい。2つの層の一方は他方を予測するために機能し、フィルタ・バンク領域のマッピングは予測のために用いられる。   In principle, since more than one extension layer is also used, there is a hierarchical multilayer structure. In that case, the present invention may be applied to any two consecutive layers in the hierarchical structure. One of the two layers serves to predict the other, and the filter bank area mapping is used for prediction.

留意すべき点は、加算器42、48のように簡単に示されたが、当業者に明らかなように加算器以外のより高度な重畳要素が用いられてもよいことである。それらの全ては本発明の精神と範囲に包含される。   It should be noted that although shown simply as adders 42, 48, more sophisticated superposition elements other than adders may be used as will be apparent to those skilled in the art. All of which are within the spirit and scope of the present invention.

本発明の基本的な新規な特徴は本発明の好適な実施形態に適用されるとして示され説明され指摘されたが、記載された装置及び方法の中で種々の省略及び代用及び変更が開示された装置の携帯及び詳細において及びそれらの動作において、本発明の精神から逸脱することなく当業者により行われてもよいことが理解されるだろう。本発明はMP3に関して記載されたが、当業者は本願明細書に記載された方法及び装置が種々の種類の二重層音声復号化に適用されてもよいことを理解するだろう。明示的に意図されることは、実質的に同一の方法で実質的に同一の機能を実行して同一の結果を達成する要素の全ての組み合わせが、本発明の範囲に包含されることである。ある記載された実施形態から他の実施形態への要素の代用も。完全に意図され考慮されたものである。   While the basic novel features of the present invention have been shown, described and pointed out as applied to the preferred embodiment of the present invention, various omissions and substitutions and modifications within the described apparatus and method are disclosed. It will be appreciated that the carrying and details of such devices and their operation may be made by those skilled in the art without departing from the spirit of the invention. Although the present invention has been described with respect to MP3, those skilled in the art will appreciate that the methods and apparatus described herein may be applied to various types of double layer speech decoding. It is expressly intended that all combinations of elements that perform substantially the same function in substantially the same way to achieve the same result are included within the scope of the invention. . Substitution of elements from one described embodiment to another. It is completely intended and considered.

本発明は単なる例として記載され、詳細の変更が本発明の範囲から逸脱することなくなされ得ることが理解されるだろう。 本願明細書に開示された各特長及び(必要に応じて)請求項及び図面は、独立に又は如何なる適切な組み合わせで提供されてもよい。特徴は、必要に応じてハードウェア、ソフトウェア、又はそれらの組み合わせで実施されてもよい。適切な場合、接続は無線又は有線で実施されてもよく、必ずしも直接又は専用接続でなくてもよい。参照符号等は、同一の又は対応する要素を全体を通じて指定する。 請求項内の参照符合は、単に説明のためであり、請求項の範囲を制限するものではない。   It will be understood that the present invention has been described by way of example only and modifications of detail can be made without departing from the scope of the invention. Each feature disclosed in the specification and (where appropriate) the claims and drawings may be provided independently or in any appropriate combination. Features may be implemented in hardware, software, or a combination thereof as desired. Where appropriate, the connection may be implemented wirelessly or wired, and not necessarily a direct or dedicated connection. Reference numerals and the like designate the same or corresponding elements throughout. Reference signs in the claims are merely explanatory and do not limit the scope of the claims.

10 基本層符号器
11 基本層フィルタ・バンク
12 基本層エントロピ符号器
13 整数MDCT
14 減算
15 エントロピ符号器
16 周波数ビンの復元
17 MDCT領域へのマッピング
21 部分基本層復号器
22 周波数ビンの復元
23 MDCT領域へのマッピング
24 エントロピ復号器
25 加算
26 逆整数MDCT
41 部分基本層復号器
42 加算器
43 逆基本層フィルタ・バンク
44 ELエントロピ復号器
45 逆マッピング
47 マッピング
48 加算器
49 逆整数MDCT
50 スイッチ
10 Base Layer Encoder 11 Base Layer Filter Bank 12 Base Layer Entropy Encoder 13 Integer MDCT
14 Subtraction 15 Entropy Encoder 16 Reconstruction of Frequency Bin 17 Mapping to MDCT Domain 21 Partial Base Layer Decoder 22 Reconstruction of Frequency Bin 23 Mapping to MDCT Domain 24 Entropy Decoder 25 Addition 26 Inverse Integer MDCT
41 Partial Base Layer Decoder 42 Adder 43 Inverse Base Layer Filter Bank 44 EL Entropy Decoder 45 Inverse Mapping 47 Mapping 48 Adder 49 Inverse Integer MDCT
50 switches

Claims (19)

基本層部分と拡張層部分とを有する音声信号を復号化する方法であって、
該基本層部分及び該拡張層部分は、異なるフィルタ・バンク領域にあり、
該拡張層部分は、フィルタ・バンク領域のマッピングを用い次にエントロピ符号化されて、該基本層部分から予測され、
当該方法は、
−前記符号化された基本層部分を部分的に復号化する段階、
−前記拡張層部分をエントロピ復号化する段階、
−簡易反転は低減された処理精度を表し、前記フィルタ・バンク領域のマッピングの該簡易反転に従って、前記エントロピ復号化された拡張層部分を逆マッピングする段階、
−該逆マッピングされた拡張層部分を前記部分的に復号化された基本層部分に加算する段階、及び
−逆基本層フィルタ・バンクを用いて、該加算する段階の出力信号を合成フィルタリングする段階、
を有する方法。
A method for decoding an audio signal having a base layer portion and an enhancement layer portion, comprising:
The base layer portion and the enhancement layer portion are in different filter bank regions;
The enhancement layer portion is then entropy encoded using filter bank region mapping and predicted from the base layer portion;
The method is
-Partially decoding the encoded base layer portion;
-Entropy decoding the enhancement layer portion;
-Simple inversion represents reduced processing accuracy, and inverse mapping the entropy decoded enhancement layer portion according to the simple inversion of the filter bank region mapping;
Adding the inverse-mapped enhancement layer portion to the partially decoded base layer portion; and synthetic filtering the output signal of the adding step using an inverse base layer filter bank. ,
Having a method.
前記基本層部分は周波数ビンを有し、
前記基本層信号を部分的に復号化する段階は、該周波数ビンを復元する段階を有する、
ことを特徴とする請求項1に記載の方法。
The base layer portion has frequency bins;
Partially decoding the base layer signal comprises restoring the frequency bins;
The method according to claim 1.
前記基本層信号を部分的に復号化する段階は、時間領域への逆変換を実行しない、
ことを特徴とする請求項1又は2に記載の方法。
Partially decoding the base layer signal does not perform an inverse transform to the time domain;
The method according to claim 1 or 2, characterized in that
前記合成フィルタリングする段階から、元の信号と同一の周波数スペクトルを有するが該元の信号のビット単位で正確な複製ではない信号が得られる、
ことを特徴とする請求項1乃至3の何れか一項に記載の方法。
From the synthetic filtering, a signal is obtained that has the same frequency spectrum as the original signal, but is not an exact replica in bit units of the original signal.
4. A method according to any one of claims 1 to 3, characterized in that
前記エントロピ復号化された拡張層部分を逆マッピングする段階、前記逆マッピングされた拡張層を前記部分的に復号化された基本層部分に加算する段階、及び合成フィルタリングする段階は、簡易復号化モードと称され、
当該方法は、
−前記部分的に復号化された基本層信号は前記基本層フィルタ・バンク領域からMDCT領域へマッピングされ、結果として生じたMDCT領域信号は前記エントロピ復号化された拡張層信号に加算され、全てのスペクトル周波数ビンが得られ、逆整数MDCTが該全てのスペクトル周波数ビンに実行され、可逆符号化された信号が得られる、可逆復号化モードを提供する段階、及び
−前記簡易復号化モードと前記可逆復号化モードの間を切り替える段階、
を更に有する請求項1乃至4の何れか一項に記載の方法。
Decoding the entropy-decoded enhancement layer portion, adding the inverse-mapped enhancement layer to the partially decoded base layer portion, and synthesizing filtering include simple decoding mode Called
The method is
The partially decoded base layer signal is mapped from the base layer filter bank region to the MDCT region, and the resulting MDCT region signal is added to the entropy decoded enhancement layer signal, Providing a lossless decoding mode in which spectral frequency bins are obtained and an inverse integer MDCT is performed on all the spectral frequency bins to obtain a lossless encoded signal; and-the simplified decoding mode and the lossless Switching between decryption modes,
The method according to any one of claims 1 to 4, further comprising:
−省電力モードを有効化又は無効化する条件を検出する段階、及び
−該条件が検出されると、自動的に、省電力モードを有効化する条件が検出された場合に前記簡易復号化モードに切り替えるか、省電力モードを無効化する条件が検出された場合に可逆復号化モードに切り替える段階、
を更に有する請求項5に記載の方法。
-Detecting a condition for enabling or disabling the power saving mode; and-when the condition is detected, the simple decoding mode is automatically detected when the condition for enabling the power saving mode is detected. Or switching to lossless decoding mode when a condition to disable power saving mode is detected,
The method of claim 5 further comprising:
省電力モードを有効化する条件は、バッテリから電力が供給されること又は低電力しか利用可能でないことを有する、
ことを特徴とする請求項6に記載の方法。
The conditions for enabling the power saving mode include that power is supplied from the battery or that only low power is available,
The method according to claim 6.
節電モードを有効化する条件は、当該方法の1又は複数の段階を実行する少なくとも1つの処理要素の処理負荷が閾を超えることを有する、
ことを特徴とする請求項6又は7に記載の方法。
The condition for enabling the power saving mode has that the processing load of at least one processing element that performs one or more stages of the method exceeds a threshold,
The method according to claim 6 or 7, characterized in that
前記可逆復号化モードの可逆復号化された信号は、前記符号器の元の信号のビット単位で正確な表現である、
ことを特徴とする請求項5乃至8の何れか一項に記載の方法。
The lossless decoded signal of the lossless decoding mode is an accurate representation in bit units of the original signal of the encoder,
9. A method according to any one of claims 5 to 8, characterized in that
前記低減された精度は、数値の丸め込み又はフィルタリング機能の簡略化を表す、
ことを特徴とする請求項1乃至9の何れか一項に記載の方法。
The reduced accuracy represents a rounding of numbers or a simplification of the filtering function,
10. A method according to any one of the preceding claims, characterized in that
前記基本層信号はMP3フォーマットの音声信号である、
ことを特徴とする請求項1乃至10の何れか一項に記載の方法。
The base layer signal is an MP3 format audio signal.
11. A method according to any one of the preceding claims, characterized in that
基本層部分と拡張層部分とを有する音声信号を復号化する復号器であって、
該基本層部分及び該拡張層部分は、異なるフィルタ・バンク領域にあり、
該拡張層部分は、フィルタ・バンク領域のマッピングを用い次にエントロピ符号化されて、該基本層部分から予測され、
当該復号器は、
−前記基本層部分を部分的に復号化する部分復号器、
−前記拡張層部分をエントロピ復号化するエントロピ復号器、
−簡易反転は低減された処理精度を表し、前記フィルタ・バンク領域のマッピングの該簡易反転に従って、前記エントロピ復号化された拡張層信号を逆マッピングする第1のマッピング要素、
−該逆マッピングされた拡張層を前記部分的に復号化された基本層に加算する第1の加算器、及び
−該第1の加算器の出力信号をフィルタリングし、逆基本層フィルタ・バンクとして動作する第1の合成フィルタ、
を有する復号器。
A decoder for decoding an audio signal having a base layer portion and an enhancement layer portion,
The base layer portion and the enhancement layer portion are in different filter bank regions;
The enhancement layer portion is then entropy encoded using filter bank region mapping and predicted from the base layer portion;
The decoder is
A partial decoder for partially decoding the base layer part;
An entropy decoder for entropy decoding the enhancement layer portion;
-A simple inversion represents a reduced processing accuracy, a first mapping element for inverse mapping the entropy decoded enhancement layer signal according to the simple inversion of the mapping of the filter bank region;
A first adder for adding the inverse-mapped enhancement layer to the partially decoded base layer; and- filtering the output signal of the first adder as an inverse base layer filter bank A first synthesis filter that operates;
A decoder.
前記基本層部分は周波数ビンを有し、
前記部分復号器は、該周波数ビンを復元する、
ことを特徴とする請求項12に記載の復号器。
The base layer portion has frequency bins;
The partial decoder recovers the frequency bin;
The decoder according to claim 12, wherein:
前記部分復号器は、時間領域への逆変換を実行しない、
ことを特徴とする請求項12に記載の復号器。
The partial decoder does not perform an inverse transform to the time domain;
The decoder according to claim 12, wherein:
前記第1の合成フィルタから、符号化前の元の信号と同一の周波数スペクトルを有するが該元の信号のビット単位で正確な複製ではない信号が得られる、
ことを特徴とする請求項12乃至14の何れか一項に記載の復号器。
From the first synthesis filter, a signal is obtained that has the same frequency spectrum as the original signal before encoding, but is not an exact replica in bit units of the original signal.
15. The decoder according to any one of claims 12 to 14, characterized by:
前記マッピング要素、前記加算器、及び前記合成フィルタは、簡易復号化のためのユニットを表し、
当該復号器は、
−前記部分的に復号化された基本層信号を前記フィルタ・バンク領域からMDCT領域へマッピングする第2のマッピング要素と、結果として生じたMDCT領域信号を前記エントロピ復号化された拡張層信号に加算する第2の加算ユニットとを有して元のソース周波数ビンが得られ、該元のソース周波数ビンをフィルタリングする逆整数MDCTフィルタ・バンクを有して可逆復号化された信号が得られる、可逆復号化モードを提供する第2の可逆復号器、及び
−前記簡易復号化のためのユニットと前記可逆復号器との間を切り替える切り替え要素、
を更に有する請求項12乃至15の何れか一項に記載の復号器。
The mapping element, the adder, and the synthesis filter represent a unit for simple decoding,
The decoder is
A second mapping element for mapping the partially decoded base layer signal from the filter bank region to the MDCT region, and adding the resulting MDCT region signal to the entropy decoded enhancement layer signal And a second summing unit to obtain an original source frequency bin, and an inverse integer MDCT filter bank for filtering the original source frequency bin to obtain a lossless decoded signal. A second lossless decoder that provides a decoding mode; and a switching element that switches between the unit for the simple decoding and the lossless decoder;
The decoder according to claim 12, further comprising:
−省電力モードを有効化又は無効化する条件を検出する検出器、及び
−自動的に、省電力モードを有効化する条件が検出されると前記簡易復号化モードに切り替えるか、省電力モードを無効化する条件が検出された場合に可逆復号化モードに切り替えるスイッチ、
を更に有する請求項16に記載の復号器。
A detector for detecting a condition for enabling or disabling the power saving mode, and automatically switching to the simple decoding mode when the condition for enabling the power saving mode is detected, or switching the power saving mode to A switch to switch to lossless decoding mode when a condition to disable is detected,
The decoder of claim 16 further comprising:
前記基本層信号はMP3フォーマットの音声信号である、
ことを特徴とする請求項12乃至17の何れか一項に記載の復号器。
The base layer signal is an MP3 format audio signal.
A decoder according to any one of claims 12 to 17, characterized in that
前記低減された精度は、数値の丸め込み又はフィルタリング機能の簡略化を表す、
ことを特徴とする請求項12乃至18の何れか一項に記載の復号器。
The reduced accuracy represents a rounding of numbers or a simplification of the filtering function,
The decoder according to any one of claims 12 to 18, characterized in that:
JP2010196542A 2009-09-04 2010-09-02 Method for detecting an audio signal having a base layer and an enhancement layer Expired - Fee Related JP5808092B2 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP09305810.5 2009-09-04
EP09305810A EP2306456A1 (en) 2009-09-04 2009-09-04 Method for decoding an audio signal that has a base layer and an enhancement layer

Publications (3)

Publication Number Publication Date
JP2011059685A true JP2011059685A (en) 2011-03-24
JP2011059685A5 JP2011059685A5 (en) 2014-09-11
JP5808092B2 JP5808092B2 (en) 2015-11-10

Family

ID=41697778

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010196542A Expired - Fee Related JP5808092B2 (en) 2009-09-04 2010-09-02 Method for detecting an audio signal having a base layer and an enhancement layer

Country Status (7)

Country Link
US (1) US8566083B2 (en)
EP (2) EP2306456A1 (en)
JP (1) JP5808092B2 (en)
KR (1) KR20110025616A (en)
CN (1) CN102013255B (en)
AT (1) ATE534989T1 (en)
BR (1) BRPI1002734A2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9838701B2 (en) 2011-08-03 2017-12-05 Mediatek Inc. Method and video decoder for decoding scalable video stream using inter-layer racing scheme
EP2922057A1 (en) * 2014-03-21 2015-09-23 Thomson Licensing Method for compressing a Higher Order Ambisonics (HOA) signal, method for decompressing a compressed HOA signal, apparatus for compressing a HOA signal, and apparatus for decompressing a compressed HOA signal
US9659578B2 (en) * 2014-11-27 2017-05-23 Tata Consultancy Services Ltd. Computer implemented system and method for identifying significant speech frames within speech signals
CN111862996B (en) * 2020-07-14 2024-03-08 北京百瑞互联技术股份有限公司 Method, system and storage medium for balancing load of audio coder and decoder

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08123488A (en) * 1994-10-24 1996-05-17 Sony Corp High-efficiency encoding method, high-efficiency code recording method, high-efficiency code transmitting method, high-efficiency encoding device, and high-efficiency code decoding method
JP2001521648A (en) * 1997-06-10 2001-11-06 コーディング テクノロジーズ スウェーデン アクチボラゲット Enhanced primitive coding using spectral band duplication
WO2005104094A1 (en) * 2004-04-23 2005-11-03 Matsushita Electric Industrial Co., Ltd. Coding equipment
JP2007509362A (en) * 2003-10-10 2007-04-12 エージェンシー フォー サイエンス,テクノロジー アンド リサーチ Method for encoding a digital signal into a scalable bitstream and method for decoding a scalable bitstream
JP2009520237A (en) * 2005-12-19 2009-05-21 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション Improved collating and decorrelating transforms for multiple description coding systems
JP2010504544A (en) * 2006-09-20 2010-02-12 トムソン ライセンシング Method and apparatus for transcoding audio signals
JP2012515362A (en) * 2009-01-16 2012-07-05 ドルビー インターナショナル アーベー Improved harmonic conversion by cross products

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6208959B1 (en) * 1997-12-15 2001-03-27 Telefonaktibolaget Lm Ericsson (Publ) Mapping of digital data symbols onto one or more formant frequencies for transmission over a coded voice channel
US7082220B2 (en) * 2001-01-25 2006-07-25 Sony Corporation Data processing apparatus
JP4362261B2 (en) * 2002-01-17 2009-11-11 日本電気通信システム株式会社 Speech code control method
DE10236694A1 (en) * 2002-08-09 2004-02-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Equipment for scalable coding and decoding of spectral values of signal containing audio and/or video information by splitting signal binary spectral values into two partial scaling layers
KR100917464B1 (en) * 2003-03-07 2009-09-14 삼성전자주식회사 Method and apparatus for encoding/decoding digital data using bandwidth extension technology
EP1736965B1 (en) 2004-04-28 2008-07-30 Matsushita Electric Industrial Co., Ltd. Hierarchy encoding apparatus and hierarchy encoding method
CN101111997B (en) * 2004-11-29 2012-09-05 新加坡国立大学 Device and method for decoding audio frequency data representing audio editing
US7835904B2 (en) * 2006-03-03 2010-11-16 Microsoft Corp. Perceptual, scalable audio compression
US8386271B2 (en) * 2008-03-25 2013-02-26 Microsoft Corporation Lossless and near lossless scalable audio codec

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08123488A (en) * 1994-10-24 1996-05-17 Sony Corp High-efficiency encoding method, high-efficiency code recording method, high-efficiency code transmitting method, high-efficiency encoding device, and high-efficiency code decoding method
JP2001521648A (en) * 1997-06-10 2001-11-06 コーディング テクノロジーズ スウェーデン アクチボラゲット Enhanced primitive coding using spectral band duplication
JP2007509362A (en) * 2003-10-10 2007-04-12 エージェンシー フォー サイエンス,テクノロジー アンド リサーチ Method for encoding a digital signal into a scalable bitstream and method for decoding a scalable bitstream
WO2005104094A1 (en) * 2004-04-23 2005-11-03 Matsushita Electric Industrial Co., Ltd. Coding equipment
JP2009520237A (en) * 2005-12-19 2009-05-21 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション Improved collating and decorrelating transforms for multiple description coding systems
JP2010504544A (en) * 2006-09-20 2010-02-12 トムソン ライセンシング Method and apparatus for transcoding audio signals
JP2012515362A (en) * 2009-01-16 2012-07-05 ドルビー インターナショナル アーベー Improved harmonic conversion by cross products

Also Published As

Publication number Publication date
BRPI1002734A2 (en) 2012-09-04
EP2306454B1 (en) 2011-11-23
ATE534989T1 (en) 2011-12-15
JP5808092B2 (en) 2015-11-10
US20110060596A1 (en) 2011-03-10
KR20110025616A (en) 2011-03-10
EP2306456A1 (en) 2011-04-06
CN102013255B (en) 2014-02-19
EP2306454A1 (en) 2011-04-06
US8566083B2 (en) 2013-10-22
CN102013255A (en) 2011-04-13

Similar Documents

Publication Publication Date Title
KR101807836B1 (en) Apparatus and method for decoding and encoding an audio signal using adaptive spectral tile selection
JP4521170B2 (en) Innovation in pure lossless audio compression
JP4756818B2 (en) Mixed lossless audio compression
JP6013646B2 (en) Audio processing system
JP3592473B2 (en) Perceptual noise shaping in the time domain by LPC prediction in the frequency domain
JP4081447B2 (en) Apparatus and method for encoding time-discrete audio signal and apparatus and method for decoding encoded audio data
JP6364518B2 (en) Audio signal encoding and decoding method and audio signal encoding and decoding apparatus
ES2526320T3 (en) Hiding intermittent mono reception of FM stereo radio receivers
JP2019215545A (en) Systems and methods of communicating redundant frame information
CA2727883A1 (en) Audio encoding/decoding scheme having a switchable bypass
JP2011164638A (en) Unified lossy and lossless audio compression
JP5808092B2 (en) Method for detecting an audio signal having a base layer and an enhancement layer
JP2008096567A (en) Audio encoding device and audio encoding method, and program
JP2004184975A (en) Audio decoding method and apparatus for reconstructing high-frequency component with less computation
KR20140026279A (en) Apparatus and method for encoding audio signal, apparatus and method for decoding audio signal
ES2898281T3 (en) Bandwidth control in encoders and/or decoders
JP2011059685A5 (en)
KR101387808B1 (en) Apparatus for high quality multiple audio object coding and decoding using residual coding with variable bitrate
JP4649351B2 (en) Digital data decoding device
WO2011114192A1 (en) Method and apparatus for audio coding
JP2005004119A (en) Sound signal encoding device and sound signal decoding device
JP2008026372A (en) Encoding rule conversion method and device for encoded data
JP2007304258A (en) Audio signal coding device and method, its decoding device and method, and program

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130531

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130531

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140603

A524 Written submission of copy of amendment under article 19 pct

Free format text: JAPANESE INTERMEDIATE CODE: A524

Effective date: 20140730

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150120

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150331

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150811

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150908

R150 Certificate of patent or registration of utility model

Ref document number: 5808092

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees