JP2006504993A - Digital audio encoding method and apparatus using improved psychoacoustic model - Google Patents

Digital audio encoding method and apparatus using improved psychoacoustic model Download PDF

Info

Publication number
JP2006504993A
JP2006504993A JP2004548132A JP2004548132A JP2006504993A JP 2006504993 A JP2006504993 A JP 2006504993A JP 2004548132 A JP2004548132 A JP 2004548132A JP 2004548132 A JP2004548132 A JP 2004548132A JP 2006504993 A JP2006504993 A JP 2006504993A
Authority
JP
Japan
Prior art keywords
window
spectrum
cmdct
unit
short
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2004548132A
Other languages
Japanese (ja)
Inventor
マシュー,マニュ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR10-2002-0075407A external-priority patent/KR100467617B1/en
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of JP2006504993A publication Critical patent/JP2006504993A/en
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本発明は、改善された心理音響モデルを使用したデジタルオーディオ符号化方法に関わり、本発明によるオーディオデータ符号化方法は、入力オーディオ信号の特性によってウィンドウタイプを決定するステップと、決定されたウィンドウタイプによって、入力オーディオ信号からCMDCTスペクトルを生成するステップと、決定されたウィンドウタイプを利用して、入力オーディオ信号からFFTスペクトルを生成するステップと、生成されたCMDCTスペクトル及びFFTスペクトルを利用して、心理音響モデルの分析を行うステップとを含む。The present invention relates to a digital audio encoding method using an improved psychoacoustic model, and the audio data encoding method according to the present invention includes a step of determining a window type according to characteristics of an input audio signal, and a determined window type. To generate a CMDCT spectrum from the input audio signal, to generate an FFT spectrum from the input audio signal using the determined window type, and to generate a psychology using the generated CMDCT spectrum and FFT spectrum. Analyzing the acoustic model.

Description

本発明は、デジタルオーディオ符号化のための符号化方法及びその装置に関わり、特に、改善された心理音響モデルを使用して、音質の低下なしに符号化方法及びその装置にかかる計算量を減少させ、複雑度を低下させるための符号化方法及び装置に関する。   The present invention relates to an encoding method and apparatus for digital audio encoding, and more particularly, to use an improved psychoacoustic model to reduce the amount of calculation required for the encoding method and apparatus without deterioration in sound quality. And an encoding method and apparatus for reducing complexity.

MPEGオーディオ符号化器は、符号化中に生成された量子化ノイズを聴取者に知覚させず、高い圧縮率を実現する。MPEGで標準案を定めたMPEG−1オーディオ符号器は、オーディオ信号を32kbpsから448kbpsのビット率で符号化する。MPEG−1オーディオ規格は、符号化のための3個の異なるアルゴリズムを有する。   The MPEG audio encoder realizes a high compression rate without making the listener perceive the quantization noise generated during encoding. An MPEG-1 audio encoder that defines a standard proposal in MPEG encodes an audio signal at a bit rate of 32 kbps to 448 kbps. The MPEG-1 audio standard has three different algorithms for encoding.

MPEG−1符号化器は、レイヤ1、2、3という3つのモードを有している。レイヤ1は、最も基本的なアルゴリズムを具現し、レイヤ2及び3は、レイヤ1が改善されたものである。高いレイヤであるほど、高品質と高圧縮率とが実現される一方、ハードウェアの規模は大きくなる。   The MPEG-1 encoder has three modes of layers 1, 2, and 3. Layer 1 implements the most basic algorithm, and layers 2 and 3 are improvements of layer 1. The higher the layer, the higher the quality and the higher the compression ratio, while the larger the hardware scale.

MPEGオーディオ符号化器は、信号の知覚的重複性を低下させるために、人間の聴覚特性をよく反映する心理音響モデルを使用する。MPEGで標準案を定めたMPEG1とMPEG2とは、人間の知覚特性を反映し、知覚的重複性を除去して、符号化後にも良好な音質が維持されるように、心理音響モデルを利用する知覚符号化方式を採択している。   MPEG audio encoders use psychoacoustic models that well reflect human auditory characteristics to reduce the perceptual redundancy of signals. MPEG1 and MPEG2, which set the standard in MPEG, use a psychoacoustic model to reflect human perception characteristics, eliminate perceptual redundancy, and maintain good sound quality after encoding. The perceptual encoding method is adopted.

知覚符号化方式は、人間の心理音響モデルを分析して適用した技法であって、最小可聴限界とマスキング効果とを利用する。マスキング効果は、大きい音によって、ある臨界値以下の小さな音が区分される現象を称し、このように、同時間に存在する信号間のマスキングを周波数マスキングともいう。このとき、周波数帯域によってマスキングされた音の臨界値も変わる。   The perceptual encoding method is a technique applied by analyzing a human psychoacoustic model, and uses a minimum audible limit and a masking effect. The masking effect refers to a phenomenon in which a small sound below a certain critical value is classified by a loud sound. Thus, masking between signals existing at the same time is also referred to as frequency masking. At this time, the critical value of the sound masked by the frequency band also changes.

心理音響モデルを使用して、フィルタバンクの各サブバンドで聞けない最大ノイズモデルを決定できるが、このそれぞれのサブバンドでのノイズレベル、すなわち、マスキング臨界値を使用して、各サブバンドに対する信号対マスク率(SMR:Signal to Mask Ratio)値を求めることが可能である。   The psychoacoustic model can be used to determine the maximum noise model that cannot be heard in each subband of the filter bank, but the noise level in this respective subband, i.e. the masking critical value, is used to determine the signal for each subband. It is possible to obtain a signal to mask ratio (SMR) value.

心理音響モデルを使用した符号化方法は、譲受人がMotorola,Incであり、発明の名称が“System and method of encoding and decoding a layered bitstream by re−applying psycoacoustic analysis in the decoder”である米国特許第6,092,041号明細書に開示されている。   The encoding method using the psychoacoustic model is the assignee of Motorola, Inc., and the title of the invention is “System and method of encoding and layered bitstream by re-applying pycoscoustics in the United States”. This is disclosed in US Pat. No. 6,092,041.

図1は、一般的なMPEGオーディオ符号化器を示す図である。ここでは、MPEGオーディオ符号化器のうち、MPEG−1レイヤ3、すなわち、MP3オーディオ符号化器を例として説明する。   FIG. 1 is a diagram illustrating a general MPEG audio encoder. Here, an MPEG-1 layer 3, that is, an MP3 audio encoder will be described as an example among MPEG audio encoders.

MP3オーディオ符号化器は、フィルタバンク110、変形離散余弦変換部(MDCT)120、高速フーリエ変換部(FFT)130、心理音響符号化部140、量子化及びハフマンエンコーディング部150、ビットストリームフォーマッティング部160を含む。   The MP3 audio encoder includes a filter bank 110, a modified discrete cosine transform unit (MDCT) 120, a fast Fourier transform unit (FFT) 130, a psychoacoustic encoder 140, a quantization and Huffman encoding unit 150, and a bit stream formatting unit 160. including.

フィルタバンク110は、オーディオ信号の統計的な重複性を除去するために入力された、時間領域のオーディオ信号を32個の周波数領域のサブバンドに細分する。   The filter bank 110 subdivides the input time-domain audio signal into 32 frequency-domain subbands to remove statistical duplication of the audio signal.

MDCT部120は、周波数分解能を向上させるために、心理音響モデル部140から入力されたウィンドウスイッチング情報を利用して、フィルタバンク110から分割されたサブバンドをさらに精密な周波数帯域に分割する。例えば、心理音響モデル部140から入力されたウィンドウスイッチング情報がロングウィンドウを表示する場合には、36ポイントのMDCTを使用して、32個のサブバンドよりさらに細密に周波数帯域を分割し、ウィンドウスイッチング情報がショートウィンドウを表示する場合には、12ポイントのMDCTを使用して、32個のサブバンドよりさらに細密に周波数帯域を分割する。
FFT部130は、入力されたオーディオ信号を周波数領域のスペクトルに変換して心理音響モデル部140に出力する。
The MDCT unit 120 uses the window switching information input from the psychoacoustic model unit 140 to divide the subbands divided from the filter bank 110 into more precise frequency bands in order to improve the frequency resolution. For example, when the window switching information input from the psychoacoustic model unit 140 displays a long window, 36-point MDCT is used to divide the frequency band more finely than 32 subbands, and to perform window switching. When the information displays a short window, the 12-point MDCT is used to divide the frequency band more finely than 32 subbands.
The FFT unit 130 converts the input audio signal into a frequency domain spectrum and outputs the spectrum to the psychoacoustic model unit 140.

心理音響モデル部140は、人間の聴覚特性による知覚的な重複性を除去するために、FFT部130から出力された周波数スペクトルを利用して、それぞれのサブバンドに対する耳に聞こえないノイズレベルであるマスキング臨界値、すなわち、SMRを決定する。心理音響モデル部140で決定されたSMR値は、量子化及びハフマン符号化部120に入力される。   The psychoacoustic model unit 140 uses the frequency spectrum output from the FFT unit 130 to remove perceptual redundancy due to human auditory characteristics, and is a noise level that is inaudible to each subband. The masking critical value, ie SMR, is determined. The SMR value determined by the psychoacoustic model unit 140 is input to the quantization and Huffman coding unit 120.

また、心理音響モデル部140は、知覚エネルギーを計算してウィンドウスイッチング如何を決定し、ウィンドウスイッチング情報をMDCT部120に出力する。   The psychoacoustic model unit 140 calculates perceptual energy to determine whether window switching is performed, and outputs window switching information to the MDCT unit 120.

量子化及びハフマン符号化部150では、心理音響モデル部140から入力されたSMR値に基づいて、MDCT部120から入力されたMDCTが行われた周波数領域のデータについて、知覚的重複性を除去するためのビット割当てとオーディオ符号化のための量子化過程とを行う。   Based on the SMR value input from the psychoacoustic model unit 140, the quantization and Huffman encoding unit 150 removes perceptual redundancy from the frequency domain data input from the MDCT unit 120 and subjected to MDCT. Bit allocation and quantization process for audio encoding.

ビットストリームフォーマッティング部160は、量子化及びハフマン符号化部150から入力された符号化されたオーディオ信号を、MPEGで定めたビットストリームでフォーマッティングして出力する。   The bit stream formatting unit 160 formats and outputs the encoded audio signal input from the quantization and Huffman encoding unit 150 with a bit stream defined by MPEG.

前述されたように、図1に示された従来の心理音響モデルでは、マスキング臨界値を計算するために、入力オーディオ信号から得られたFFTスペクトルを使用する。しかし、フィルタバンクは、アリアシングを起こし、これらアリアシングが発生した成分から得られた値が量子化ステップで使われるため、心理音響モデルでFFTスペクトルに基づいてSMRを求め、これを量子化ステップで使用する場合、最適の結果を得られないという問題点がある。   As described above, the conventional psychoacoustic model shown in FIG. 1 uses the FFT spectrum obtained from the input audio signal to calculate the masking critical value. However, the filter bank causes aliasing, and values obtained from these aliasing components are used in the quantization step. Therefore, the psychoacoustic model obtains the SMR based on the FFT spectrum, and the quantization step When using with, there is a problem that an optimum result cannot be obtained.

本発明は、前記問題点を解決するためのものであって、変形された心理音響モデルを使用して、従来のMPEGオーディオ符号化器に比べて、出力オーディオストリームの音質を向上させ、デジタルオーディオ符号化ステップの計算量を減少させることが可能なデジタルオーディオ符号化方法及び装置を提供することを目的とする。   The present invention is to solve the above-mentioned problems, and uses a modified psychoacoustic model to improve the sound quality of an output audio stream as compared with a conventional MPEG audio encoder, and It is an object of the present invention to provide a digital audio encoding method and apparatus capable of reducing the calculation amount of the encoding step.

前記課題を解決するために、本発明によるデジタルオーディオ符号化方法は、入力オーディオ信号の特性によってウィンドウタイプを決定するステップと、前記決定されたウィンドウタイプによって前記入力オーディオ信号からCMDCT(Complex Modified Discrete Cosine Transform)スペクトルを生成するステップと、前記決定されたウィンドウタイプを利用して、前記入力オーディオ信号からFFTスペクトルを生成するステップと、前記生成されたCMDCTスペクトル及びFFTスペクトルを利用して、心理音響モデルの分析を行うステップとを含むことを特徴とする。   In order to solve the above problems, a digital audio encoding method according to the present invention includes a step of determining a window type according to characteristics of an input audio signal, and a CMDCT (Complex Modified Discrete Cosine) from the input audio signal according to the determined window type. A transform spectrum), a FFT spectrum is generated from the input audio signal using the determined window type, and a psychoacoustic model is generated using the generated CMDCT spectrum and FFT spectrum. And a step of performing the analysis.

前記課題を達成するための本発明によるさらに望ましいデジタルオーディオ符号化方法は、決定されたウィンドウタイプがロングウィンドウである場合、ロングウィンドウを適用して、ロングCMDCTスペクトルを生成し、ショートウィンドウを適用して、ショートFFTスペクトルを生成し、生成されたロングCMDCTスペクトル及びショートFFTスペクトルに基づいて、心理音響モデルの分析を行うことを特徴とする。   In order to achieve the above object, a more preferable digital audio encoding method according to the present invention applies a long window to generate a long CMDCT spectrum and applies a short window when the determined window type is a long window. Then, a short FFT spectrum is generated, and a psychoacoustic model is analyzed based on the generated long CMDCT spectrum and short FFT spectrum.

前記課題を解決するために、本発明によるデジタルオーディオ符号化装置は、入力オーディオ信号の特性によってウィンドウタイプを決定するウィンドウスイッチング部と、前記ウィンドウスイッチング部で決定されたウィンドウタイプによって、前記入力オーディオ信号からCMDCTスペクトルを生成するCMDCT部と、前記ウィンドウスイッチング部で決定されたウィンドウタイプを利用して、前記入力オーディオ信号からFFTスペクトルを生成するFFT部と、前記CMDCT部で生成されたCMDCTスペクトル及び前記FFT部で生成されたFFTスペクトルを利用して、心理音響モデルの分析を行う心理音響モデル部と、を含むことを特徴とする。   In order to solve the above problems, a digital audio encoding apparatus according to the present invention includes a window switching unit that determines a window type according to characteristics of an input audio signal, and the input audio signal according to the window type determined by the window switching unit. A CMDCT unit for generating a CMDCT spectrum from the input signal, an FFT unit for generating an FFT spectrum from the input audio signal using a window type determined by the window switching unit, a CMDCT spectrum generated by the CMDCT unit, and the And a psychoacoustic model unit that analyzes a psychoacoustic model using the FFT spectrum generated by the FFT unit.

前記課題を達成するための本発明によるさらに望ましいデジタルオーディオ符号化装置は、ウィンドウスイッチング部で決定されたウィンドウタイプがロングウィンドウである場合、前記CMDCT部は、ロングウィンドウを適用して、ロングCMDCTスペクトルを生成し、前記FFT部は、ショートウィンドウを適用して、ショートFFTスペクトルを生成し、前記心理音響モデル部は、前記CMDCT部で生成されたロングCMDCTスペクトル及び前記FFT部で生成されたショートFFTスペクトルに基づいて、心理音響モデルの分析を行うことを特徴とする。   According to another aspect of the present invention, there is provided a digital audio encoding apparatus according to the present invention, wherein when the window type determined by the window switching unit is a long window, the CMDCT unit applies a long window to generate a long CMDCT spectrum. The FFT unit applies a short window to generate a short FFT spectrum, and the psychoacoustic model unit generates a long CMDCT spectrum generated by the CMDCT unit and a short FFT generated by the FFT unit. A psychoacoustic model is analyzed based on the spectrum.

前記課題を解決するために、本発明によるデジタルオーディオ符号化方法は、入力オーディオ信号からCMDCTスペクトルを生成するステップと、生成されたCMDCTスペクトルを利用して、心理音響モデルの分析を行うステップとを含むことを特徴とする。   In order to solve the above problems, a digital audio encoding method according to the present invention includes a step of generating a CMDCT spectrum from an input audio signal, and a step of analyzing a psychoacoustic model using the generated CMDCT spectrum. It is characterized by including.

前記課題を達成するための、本発明によるさらに望ましいデジタルオーディオ符号化方法は、入力オーディオ信号について、ロングウィンドウ及びショートウィンドウを適用してCMDCTを行い、ロングCMDCTスペクトル及びショートCMDCTスペクトルを生成するステップをさらに含むことを特徴とする。   In order to achieve the above object, a more preferable digital audio encoding method according to the present invention performs a CMDCT by applying a long window and a short window to an input audio signal to generate a long CMDCT spectrum and a short CMDCT spectrum. It is further characterized by including.

前記課題を達成するための、本発明によるさらに望ましいデジタルオーディオ符号化方法は、生成されたロングCMDCTスペクトル及びショートCMDCTスペクトルを使用して、心理音響モデルの分析を行うことを特徴とする。   In order to achieve the above object, a more desirable digital audio encoding method according to the present invention is characterized in that a psychoacoustic model is analyzed using the generated long CMDCT spectrum and short CMDCT spectrum.

前記課題を達成するための、本発明によるさらに望ましいデジタルオーディオ符号化方法は、決定されたウィンドウタイプがロングウィンドウである場合には、心理音響モデルの分析結果に基づいて、ロングMDCTスペクトルについて量子化及び符号化を行い、決定されたウィンドウタイプがショートウィンドウである場合には、心理音響モデルの分析結果に基づいて、ショートMDCTスペクトルについて量子化及び符号化を行うことを特徴とする。   In order to achieve the above object, a more preferable digital audio encoding method according to the present invention is to quantize a long MDCT spectrum based on an analysis result of a psychoacoustic model when the determined window type is a long window. When the window type determined is a short window, the short MDCT spectrum is quantized and encoded based on the analysis result of the psychoacoustic model.

前記課題を解決するために、本発明によるデジタルオーディオ符号化装置は、入力オーディオ信号からCMDCTスペクトルを生成するCMDCT部と、前記CMDCT部で生成されたCMDCTスペクトルを利用して、心理音響モデルの分析を行う心理音響モデル部とを含むことを特徴とする。   In order to solve the above problems, a digital audio encoding apparatus according to the present invention analyzes a psychoacoustic model using a CMDCT unit that generates a CMDCT spectrum from an input audio signal, and a CMDCT spectrum generated by the CMDCT unit. And a psychoacoustic model unit for performing the above.

前記課題を達成するための、本発明によるさらに望ましいデジタルオーディオ符号化装置では、前記CMDCT部は、前記入力オーディオ信号について、ロングウィンドウ及びショートウィンドウを適用してCMDCTを行い、ロングCMDCTスペクトル及びショートCMDCTスペクトルを生成することを特徴とする。   In a more preferable digital audio encoding apparatus according to the present invention for achieving the above object, the CMDCT unit performs CMDCT on the input audio signal by applying a long window and a short window, and performs a long CMDCT spectrum and a short CMDCT. A spectrum is generated.

前記課題を達成するための、本発明によるさらに望ましいデジタルオーディオ符号化装置では、前記心理音響モデル部は、前記CMDCT部で生成されたロングCMDCTスペクトル及びショートCMDCTスペクトルを使用して、心理音響モデルの分析を行うことを特徴とする。   In a more desirable digital audio encoding device according to the present invention for achieving the above-mentioned object, the psychoacoustic model unit uses a long CMDCT spectrum and a short CMDCT spectrum generated by the CMDCT unit to generate a psychoacoustic model. It is characterized by performing an analysis.

前記課題を達成するための、本発明によるさらに望ましいデジタルオーディオ符号化装置は、量子化及び符号化部をさらに含み、量子化及び符号化部は、決定されたウィンドウタイプがロングウィンドウである場合には、心理音響モデルの分析結果に基づいて、ロングMDCTスペクトルについて量子化及び符号化を行い、決定されたウィンドウタイプがショートウィンドウである場合には、心理音響モデルの分析結果に基づいて、ショートMDCTスペクトルについて量子化及び符号化を行うことを特徴とする。   According to another aspect of the present invention, there is provided a digital audio encoding apparatus further including a quantization and encoding unit, wherein the quantization and encoding unit is a long window when the determined window type is a long window. Performs quantization and encoding on the long MDCT spectrum based on the analysis result of the psychoacoustic model. When the determined window type is a short window, the short MDCT is calculated based on the analysis result of the psychoacoustic model. The spectrum is quantized and encoded.

MPEGオーディオ符号化器は、非常に多くの計算量を要求するため、リアルタイム処理に適用し難い。出力オーディオの音質を低下させることによって、エンコーディングアルゴリズムを単純化することが可能である。しかし、音質を低下させずに計算量を減少させることは、非常に難しいことである。   The MPEG audio encoder requires a very large amount of calculation and is difficult to apply to real-time processing. By reducing the sound quality of the output audio, it is possible to simplify the encoding algorithm. However, it is very difficult to reduce the calculation amount without deteriorating the sound quality.

また、従来のMPEGオーディオ符号化器で使われるフィルタバンクは、アリアシングを発生する。これらアリアシングが発生した成分から得られた値が量子化ステップで使われるため、これらアリアシングが発生したスペクトルに心理音響モデルを適用することが望ましい。   Also, the filter bank used in the conventional MPEG audio encoder generates aliasing. Since values obtained from these aliasing components are used in the quantization step, it is desirable to apply a psychoacoustic model to the spectrum in which these aliasings have occurred.

また、後述する式(2)に表されたように、MDCTスペクトルは、周波数2π(k+0.5)/N,k=0,1,...N/2−1でのサイズ及び位相値を与える。したがって、これら周波数でのスペクトルを計算して、心理音響モデルを適用することが望ましい。   In addition, as expressed in Equation (2) described later, the MDCT spectrum has a frequency of 2π (k + 0.5) / N, k = 0, 1,. . . Give the size and phase value at N / 2-1. Therefore, it is desirable to apply a psychoacoustic model by calculating the spectrum at these frequencies.

また、フィルタバンクの出力に対してCMDCTを適用して入力信号のスペクトルを計算し、これにより、心理音響モデルを適用することによって、従来のMPEGオーディオ符号化器に比べて、FFT変換に必要な計算量を減らすか、またはFFT変換過程を省略することが可能である。   Also, the CMDCT is applied to the output of the filter bank to calculate the spectrum of the input signal, thereby applying the psychoacoustic model, which is necessary for the FFT conversion as compared with the conventional MPEG audio encoder. It is possible to reduce the calculation amount or to omit the FFT conversion process.

本発明は、前記のような点に着眼したものであって、本発明によるオーディオ符号化方法及び装置は、出力されるMPEGオーディオストリームの音質を低下させずに、MPEGオーディオ符号化プロセッサの複雑さをも減少させることが可能である。   The present invention focuses on the above points, and the audio encoding method and apparatus according to the present invention does not deteriorate the sound quality of the output MPEG audio stream, and the complexity of the MPEG audio encoding processor. Can also be reduced.

以下では、式(1)ないし(4)を参照して、本発明に使われるアルゴリズムを詳細に説明する。   Hereinafter, the algorithm used in the present invention will be described in detail with reference to equations (1) to (4).

フィルタバンクは、入力信号をπ/32の解像度で入力信号を分割する。後述するように、フィルタバンクの出力値にCMDCTを適用することによって、入力信号のスペクトルを計算することが可能である。このとき、変換長さは、フィルタバンクの出力値を使用せず、入力信号にCMDCTを直接適用した場合よりはるかに短い。フィルタバンクの出力に、このような短い長さの変換値を使用することは、長い長さの変換値を使用する場合より計算量を減らすことができるという長所がある。   The filter bank divides the input signal with a resolution of π / 32. As will be described later, it is possible to calculate the spectrum of the input signal by applying CMDCT to the output value of the filter bank. At this time, the conversion length is much shorter than when the CMDCT is directly applied to the input signal without using the output value of the filter bank. Using such a short length conversion value for the output of the filter bank has an advantage that the amount of calculation can be reduced as compared with the case of using a long length conversion value.

CMDCTは、次の式(1)によって計算されうる。   The CMDCT can be calculated by the following equation (1).

Figure 2006504993

ここで、k=0,1,2,...N/2−1である。
Figure 2006504993

Here, k = 0, 1, 2,. . . N / 2-1.

この場合、X(k)は、MDCTであり、X(K)は、MDST(Modified Discrete Sine Transform)である。次の誘導式は、CMDCTとFFTとの関係を説明する。 In this case, X C (k) is MDCT, and X S (K) is MDST (Modified Discrete Sine Transform). The following inductive equation explains the relationship between CMDCT and FFT.

Figure 2006504993

ここで、
Figure 2006504993

here,

Figure 2006504993

であり、k=0,1,...N/2−1である。また、MDSTは、MDCTと同様に、
Figure 2006504993

And k = 0, 1,. . . N / 2-1. MDST is similar to MDCT,

Figure 2006504993

ここで、k=0,1,....N/2−1である。
Figure 2006504993

Here, k = 0, 1,. . . . N / 2-1.

また、次の式(4)のように、   Also, as in the following formula (4),

Figure 2006504993

をCMDCTの共役複素数とすれば、
Figure 2006504993

Is a conjugated complex number of CMDCT,

Figure 2006504993

ここで、
Figure 2006504993

here,

Figure 2006504993

であり、k=0,1,2,...N/2−1である。
Figure 2006504993

And k = 0, 1, 2,. . . N / 2-1.

前記式(4)から分かるように、CMDCTの共役複素数は、DFTスペクトルの周波数間、すなわち、2π(K+0.5)/N,k=0,1,...N/2−1の周波数でスペクトルを計算する。   As can be seen from the equation (4), the conjugate complex number of the CMDCT is between the frequencies of the DFT spectrum, that is, 2π (K + 0.5) / N, k = 0, 1,. . . Calculate the spectrum at a frequency of N / 2-1.

CMDCTの位相は、X’(k)の位相がシフトされたものであり、このような位相シフトは、MPEG−1レイヤ3の心理音響モデルでの非予測度の計算に影響を及ぼさない。   The phase of CMDCT is obtained by shifting the phase of X ′ (k), and such a phase shift does not affect the calculation of unpredictability in the MPEG-1 layer 3 psychoacoustic model.

本発明による心理音響モデルでは、このような点を考慮して、心理音響モデル分析を行う時、FFTスペクトルの代わりにCMDCTスペクトルを使用するか、またはロングFFTスペクトルまたはショートFFTスペクトルの代わりにロングCMDCTスペクトルまたはショートCMDCTスペクトルを使用する。これにより、FFT変換にかかる計算量を減少させることが可能である。   In the psychoacoustic model according to the present invention, the CMDCT spectrum is used instead of the FFT spectrum or the long CMDCT is used instead of the long FFT spectrum or the short FFT spectrum when performing the psychoacoustic model analysis. Use spectrum or short CMDCT spectrum. Thereby, it is possible to reduce the calculation amount concerning FFT conversion.

以下では、実施形態に基づいて、本発明を詳細に説明する。   Below, based on embodiment, this invention is demonstrated in detail.

図2は、本発明の一実施形態によるオーディオ符号化装置を示すブロック図である。   FIG. 2 is a block diagram illustrating an audio encoding device according to an embodiment of the present invention.

フィルタバンク210は、入力オーディオ信号の統計的な重複性を除去するために、入力された時間領域のオーディオ信号を周波数領域のサブバンドに分割する。本実施形態では、π/32の帯域幅を有する32個のサブバンドに分割する。本実施形態では、32多相フィルタバンクを使用したが、選択的にサブバンド符号化が可能な他のフィルタを使用することもある。   The filter bank 210 divides the input time domain audio signal into frequency domain subbands in order to remove statistical duplication of the input audio signal. In this embodiment, it is divided into 32 subbands having a bandwidth of π / 32. In this embodiment, 32 polyphase filter banks are used, but other filters capable of selectively performing subband coding may be used.

ウィンドウスイッチング部220は、入力オーディオ信号の特性に基づいて、CMDCT部230及びFFT部240で使われるウィンドウタイプを決定し、決定されたウィンドウタイプについての情報をCMDCT部230及びFFT部240に入力する。   The window switching unit 220 determines a window type used by the CMDCT unit 230 and the FFT unit 240 based on the characteristics of the input audio signal, and inputs information about the determined window type to the CMDCT unit 230 and the FFT unit 240. .

ウィンドウタイプには、ショートウィンドウとロングウィンドウとがある。MPEG−1レイヤ3では、ロングウィンドウ、スタートウィンドウ、ショートウィンドウ、ストップウィンドウを規定している。このとき、スタートウィンドウまたはストップウィンドウは、ロングウィンドウからショートウィンドウにスイッチングするために使われる。本実施形態では、MPEG−1に規定されたウィンドウタイプを例として説明したが、選択的に他のウィンドウタイプによって、ウィンドウスイッチングアルゴリズムを行うこともある。本発明によるウィンドウスイッチングアルゴリズムについての詳細な説明は、図3及び4を参照して後述する。   Window types include short windows and long windows. In MPEG-1 layer 3, a long window, a start window, a short window, and a stop window are defined. At this time, the start window or stop window is used to switch from the long window to the short window. In the present embodiment, the window type defined in MPEG-1 has been described as an example. However, a window switching algorithm may be selectively performed according to another window type. A detailed description of the window switching algorithm according to the present invention will be described later with reference to FIGS.

CMDCT部230は、ウィンドウスイッチング部220から入力されたウィンドウタイプ情報に基づいて、フィルタバンク210の出力データにロングウィンドウまたはショートウィンドウを適用してCMDCTを行う。   The CMDCT unit 230 performs CMDCT by applying a long window or a short window to the output data of the filter bank 210 based on the window type information input from the window switching unit 220.

CMDCT部230で計算されたCMDCTの実数値、すなわち、MDCT値は、量子化及び符号化部260に入力される。また、CMDCT部230では、計算されたサブバンドスペクトルを加算して全体スペクトルを計算し、計算された全体スペクトルを心理音響モデル部250に伝送する。サブバンドスペクトルから全体スペクトルを求める過程は、図5と関連して後述する。   The CMDCT real value calculated by the CMDCT unit 230, that is, the MDCT value is input to the quantization and encoding unit 260. In addition, the CMDCT unit 230 calculates the entire spectrum by adding the calculated subband spectra, and transmits the calculated entire spectrum to the psychoacoustic model unit 250. The process of obtaining the entire spectrum from the subband spectrum will be described later with reference to FIG.

選択的に、MDCTの速い実行のために、LAMEアルゴリズムが使用されうる。LAMEアルゴリズムで、MDCTは、次の式(1)を展開することによって最適化される。計算に関連した三角法による係数の対称性を利用することによって、同じ係数による連続する乗算演算は、加算演算に代替される。これは、244回の乗算及び324回の加算で演算カウントを減少させ、36ポイントMDCTについて約70%ほどのMDCT時間を節減する。このアルゴリズムは、MDSTについても適用されうる。   Optionally, the LAME algorithm can be used for fast execution of MDCT. With the LAME algorithm, MDCT is optimized by developing the following equation (1). By taking advantage of the symmetry of the trigonometric coefficients associated with the computation, successive multiplication operations with the same coefficients are replaced with addition operations. This reduces the operation count with 244 multiplications and 324 additions, saving about 70% MDCT time for 36 points MDCT. This algorithm can also be applied for MDST.

FFT部240は、ウィンドウスイッチング部220からのウィンドウタイプ情報に基づいて、入力オーディオ信号についてロングウィンドウまたはショートウィンドウを使用して、FFTを行い、計算されたロングFFTスペクトルまたはショートFFTスペクトルを心理音響モデル部250に出力する。このとき、CMDCT部230で使われるウィンドウタイプがロングウィンドウである場合には、FFT部240ではショートウィンドウを使用する。すなわち、CMDCT部230の出力がロングCMDCTスペクトルである場合、FFT部240の出力は、ショートFFTスペクトルとなる。同様に、CMDCT部230の出力がショートCMDCTスペクトルである場合、FFT部240の出力は、ロングFFTスペクトルとなる。   The FFT unit 240 performs FFT on the input audio signal using the long window or the short window based on the window type information from the window switching unit 220, and uses the calculated long FFT spectrum or short FFT spectrum as a psychoacoustic model. Output to the unit 250. At this time, if the window type used in the CMDCT unit 230 is a long window, the FFT unit 240 uses a short window. That is, when the output of the CMDCT unit 230 is a long CMDCT spectrum, the output of the FFT unit 240 is a short FFT spectrum. Similarly, when the output of the CMDCT unit 230 is a short CMDCT spectrum, the output of the FFT unit 240 is a long FFT spectrum.

心理音響モデル部250は、CMDCT部230からのCMDCTスペクトル及びFFT部240からのFFTスペクトルを組合わせて心理音響モデルで使われる非予測度を計算する。   The psychoacoustic model unit 250 calculates the non-prediction degree used in the psychoacoustic model by combining the CMDCT spectrum from the CMDCT unit 230 and the FFT spectrum from the FFT unit 240.

例えば、CMDCTでロングウィンドウが使われる場合、ロングスペクトルは、ロングMDCTとロングMDSTの結果値を使用して計算され、ショートスペクトルは、FFTを使用して計算される。ここで、ロングスペクトルの場合、CMDCT部230で計算されたCMDCTスペクトルを使用することは、式(3)及び式(4)から分かるように、FFT及びMDCTのサイズは類似しているという点を利用したものである。   For example, when a long window is used in CMDCT, the long spectrum is calculated using the result values of long MDCT and long MDST, and the short spectrum is calculated using FFT. Here, in the case of a long spectrum, using the CMDCT spectrum calculated by the CMDCT unit 230 indicates that the sizes of FFT and MDCT are similar, as can be seen from Equation (3) and Equation (4). It is used.

また、CMDCTでショートウィンドウが使われる場合、ショートスペクトルは、ショートMDCTとショートMDSTの結果値を使用して計算され、ロングスペクトルは、FFTスペクトルを使用して計算される。   When a short window is used in CMDCT, the short spectrum is calculated using the result values of the short MDCT and the short MDST, and the long spectrum is calculated using the FFT spectrum.

一方、CMDCT部230で計算されたCMDCTスペクトルは、ロングウィンドウが適用された場合には、1152(32サブバンド36サブ−サブバンド)の長さ、ショートウィンドウが適用された場合には、384(32サブバンド12サブ−サブバンド)の長さを有する。一方、心理音響モデル部250は、長さが1024または256のスペクトルを必要とする。   On the other hand, the CMDCT spectrum calculated by the CMDCT unit 230 has a length of 1152 (32 subbands 36 sub-subbands) when a long window is applied, and 384 ( 32 subbands 12 sub-subbands). On the other hand, the psychoacoustic model unit 250 requires a spectrum having a length of 1024 or 256.

したがって、CMDCTスペクトルは、心理音響モデル分析が行われる前に線形マッピングによって、1152(または384)の長さから1024(または256)の長さに再サンプリングされる。   Thus, the CMDCT spectrum is resampled from a length of 1152 (or 384) to a length of 1024 (or 256) by linear mapping before psychoacoustic model analysis is performed.

また、心理音響モデル部250では、計算された非予測度を使用して、SMR値を求め、これを量子化及び符号化部260に出力する。   In addition, the psychoacoustic model unit 250 obtains an SMR value using the calculated non-prediction degree, and outputs this to the quantization and encoding unit 260.

量子化及び符号化部260は、スケールファクタを決定し、心理音響モデル部250で計算されたSMR値に基づいて、量子化係数を決定する。決定された量子化係数に基づいて、量子化を行い、量子化されたデータについてハフマン符号化を行う。   The quantization and encoding unit 260 determines a scale factor, and determines a quantization coefficient based on the SMR value calculated by the psychoacoustic model unit 250. Quantization is performed based on the determined quantization coefficient, and Huffman coding is performed on the quantized data.

ビットストリームフォーマット部270は、量子化及び符号化部260から入力されたデータを特定フォーマットに変換して出力する。前記オーディオ符号化装置がMPEGオーディオ符号化装置である場合には、MPEG標準で定めたフォーマットに変換して出力する。   The bit stream format unit 270 converts the data input from the quantization and encoding unit 260 into a specific format and outputs the data. If the audio encoding device is an MPEG audio encoding device, it is converted into a format defined by the MPEG standard and output.

図3は、図2のウィンドウスイッチング部220で使われるフィルタバンクの出力に基づいたウィンドウスイッチングアルゴリズムに使われる遷移信号検出方式を示す図である。   FIG. 3 is a diagram illustrating a transition signal detection method used in the window switching algorithm based on the output of the filter bank used in the window switching unit 220 of FIG.

MPEGで標準化されたMPEGオーディオ規格によれば、実際ウィンドウタイプは、現在フレームのウィンドウタイプと次のフレームのウィンドウスイッチングフラグとに基づいて決定される。心理音響モデルは、知覚エントロピーに基づいて、ウィンドウスイッチングフラグを決定する。そのため、心理音響モデルは、フィルタバンク及びMDCTで処理されるフレームより少なくとも一つの以前フレームについて行うことが必要であった。   According to the MPEG audio standard standardized by MPEG, the actual window type is determined based on the window type of the current frame and the window switching flag of the next frame. The psychoacoustic model determines a window switching flag based on perceptual entropy. Therefore, the psychoacoustic model needs to be performed on at least one previous frame than the frame processed by the filter bank and MDCT.

一方、本発明による心理音響モデルは、前述したように、CMDCTスペクトルを使用する。したがって、ウィンドウタイプは、CMDCTが適用される前に決定されねばならない。また、このような理由で、ウィンドウスイッチングフラグは、フィルタバンクの出力から決定され、フィルタバンク及びウィンドウスイッチングは、量子化及び心理音響モデルに比べて1フレーム前のフレームについて行われる。   On the other hand, the psychoacoustic model according to the present invention uses the CMDCT spectrum as described above. Therefore, the window type must be determined before CMDCT is applied. For this reason, the window switching flag is determined from the output of the filter bank, and the filter bank and window switching are performed for a frame one frame before the quantization and psychoacoustic model.

図3に示されたように、フィルタバンクからの入力信号は、3個の時間帯域と2個の周波数帯域、すなわち、総6個の帯域に分割される。図3で、横軸は、各フレーム当り36個のサンプル、すなわち、それぞれ12個のサンプルを有する3個の時間帯域に分けられる。縦軸は、各フレーム当り32個のサブバンド、すなわち、それぞれ16個のサブバンドを有する2個の周波数帯域に分けられる。ここで、36個のサンプルと32個のサブバンドとは、1152個のサンプルの入力に対応する。   As shown in FIG. 3, the input signal from the filter bank is divided into three time bands and two frequency bands, that is, a total of six bands. In FIG. 3, the horizontal axis is divided into 36 samples per frame, i.e. 3 time bands each having 12 samples. The vertical axis is divided into 32 subbands per frame, i.e. 2 frequency bands each having 16 subbands. Here, 36 samples and 32 subbands correspond to an input of 1152 samples.

斜線部分は、遷移検出のために使われる部分であるが、説明の便宜のために、各斜線部分を(1)、(2)、(3)及び(4)とする。各領域に対するエネルギーをE1、E2、E3、及びE4とする場合、領域(1)及び(2)間のエネルギー比E1/E2と、領域(3)及び(4)間のエネルギー比E3/E4とは、遷移如何を表示する遷移表示子である。   The hatched portions are portions used for transition detection. For convenience of explanation, the hatched portions are (1), (2), (3), and (4). When the energy for each region is E1, E2, E3, and E4, the energy ratio E1 / E2 between regions (1) and (2) and the energy ratio E3 / E4 between regions (3) and (4) Is a transition indicator for displaying the transition status.

非遷移信号の場合、遷移表示子の値は、一定範囲内にある。したがって、遷移表示子が一定範囲を逸脱する場合、ウィンドウスイッチングアルゴリズムは、ショートウィンドウが必要であるということを表示する。   In the case of a non-transition signal, the value of the transition indicator is within a certain range. Thus, if the transition indicator deviates from a certain range, the window switching algorithm indicates that a short window is required.

図4は、図2に示されたウィンドウスイッチング部220で行われるウィンドウスイッチングアルゴリズム方式を示すフローチャートである。   FIG. 4 is a flowchart illustrating a window switching algorithm method performed by the window switching unit 220 illustrated in FIG.

ステップ410では、32個のサブバンドと、各サブバンド当り36個の出力サンプルとを有する1フレームのフィルタバンクの出力が入力される。   In step 410, the output of a 1-frame filter bank having 32 subbands and 36 output samples per subband is input.

ステップ420では、図3に示されたように、それぞれ12個のサンプル値を有する3個の時間帯域と16個の周波数帯域を有する周波数帯域とに分割される。   In step 420, as shown in FIG. 3, the data is divided into 3 time bands each having 12 sample values and 16 frequency bands.

ステップ430では、遷移信号を検出するために使われるバンドのエネルギーE1、E2、E3及びE4が計算される。   In step 430, the band energies E1, E2, E3 and E4 used to detect the transition signal are calculated.

ステップ430では、入力信号の遷移如何を判断するために、計算された周辺バンドのエネルギーが比較される。すなわち、E1/E2及びE3/E4が計算される。   In step 430, the calculated peripheral band energy is compared to determine whether the input signal transitions. That is, E1 / E2 and E3 / E4 are calculated.

ステップ440では、計算された周辺バンドのエネルギー比に基づいて、入力信号の遷移如何を決定する。入力信号に遷移がある場合には、ショートウィンドウを表示するためのウィンドウスイッチングフラッグが生成され、遷移がない場合には、ロングウィンドウを表示するためのウィンドウスイッチングフラッグが生成される。   In step 440, the transition of the input signal is determined based on the calculated energy ratio of the surrounding bands. When there is a transition in the input signal, a window switching flag for displaying a short window is generated, and when there is no transition, a window switching flag for displaying a long window is generated.

ステップ450では、ステップ440で生成されたウィンドウスイッチングフラグと以前フレームで使われたウィンドウとに基づいて、実際適用されるウィンドウタイプを決定する。適用されるウィンドウタイプは、MPEG−1標準で使われている“ショート”、“ロングストップ”、“ロングスタート”、または“ロング”のうち何れか一つでありうる。   In step 450, a window type to be actually applied is determined based on the window switching flag generated in step 440 and the window used in the previous frame. The applied window type may be any one of “short”, “long stop”, “long start”, and “long” used in the MPEG-1 standard.

図5は、本発明によるサブバンドスペクトルから全体スペクトルを求める方法を示す図である。以下では、図5を参照して、サブバンドフィルタバンクの出力から計算されたスペクトルから信号スペクトルを近似的に計算するための方法を説明する。   FIG. 5 is a diagram illustrating a method for obtaining an entire spectrum from a subband spectrum according to the present invention. In the following, with reference to FIG. 5, a method for approximately calculating the signal spectrum from the spectrum calculated from the output of the subband filter bank will be described.

図5に示されたように、入力信号は、分析フィルタ、H(Z),H(Z),H(Z),...HM−1(Z)によってフィルタリングされ、ダウンサンプリングされる。以後、ダウンサンプリングされていた信号、y(n),y(n),y(n),...yM−1(n)は、アップサンプリングされ、合成フィルタ、G(Z),G(Z),G(Z),...GM−1(Z)によってフィルタリングされ、信号を再構成するために加算される。 As shown in FIG. 5, the input signal is input to analysis filters H 0 (Z), H 1 (Z), H 2 (Z),. . . Filtered and downsampled by H M-1 (Z). Thereafter, the down-sampled signals y 0 (n), y 1 (n), y 2 (n),. . . y M-1 (n) is upsampled and synthesized filters G 0 (Z), G 1 (Z), G 2 (Z),. . . Filtered by G M-1 (Z) and added to reconstruct the signal.

このような過程は、周波数領域での、スペクトルを反復し、対応するフィルタの周波数応答に乗算した後、全ての帯域のスペクトルを加算する過程に対応する。したがって、このフィルタが理想的な場合、それぞれの帯域に対するY(k)を何れも加算したスペクトルと同一になり、結果的に、入力FFTスペクトルを得ることができる。また、これらフィルタが理想的なフィルタに近接した場合にも、近似的なスペクトルを得ることができるが、本発明による心理音響モデルでは、これを利用する。 Such a process corresponds to the process of repeating the spectrum in the frequency domain, multiplying the frequency response of the corresponding filter, and then adding the spectra of all bands. Therefore, when this filter is ideal, the spectrum is the same as the spectrum obtained by adding Y m (k) for each band, and as a result, an input FFT spectrum can be obtained. Moreover, even when these filters are close to the ideal filter, an approximate spectrum can be obtained, but this is used in the psychoacoustic model according to the present invention.

実験結果、使われるフィルタが理想的なバンドパスフィルタではない場合にも、MPEG−1レイヤ3に使われるフィルタバンクである場合、前記方法によって得られたスペクトルは、実際スペクトルと類似しているという実験結果を得た。   As a result of the experiment, even when the filter used is not an ideal bandpass filter, if it is a filter bank used for MPEG-1 layer 3, the spectrum obtained by the above method is similar to the actual spectrum. Experimental results are obtained.

このように、入力信号のスペクトルは、全ての帯域でのCMDCTスペクトルを加算することによって得ることができる。CMDCTを使用して得られたスペクトルは、1152ポイントである一方、心理音響モデルに必要なスペクトルは、1024ポイントである。したがって、CMDCTスペクトルは、簡単な線形マッピングを使用して再サンプリングされた後、心理音響モデルで使用されうる。   Thus, the spectrum of the input signal can be obtained by adding the CMDCT spectrum in all bands. The spectrum obtained using CMDCT is 1152 points, while the spectrum required for the psychoacoustic model is 1024 points. Thus, the CMDCT spectrum can be used in a psychoacoustic model after being resampled using a simple linear mapping.

図6は、本発明のさらに他の実施形態によるオーディオ符号化方法を示すフローチャートである。   FIG. 6 is a flowchart illustrating an audio encoding method according to another embodiment of the present invention.

ステップ610では、フィルタバンクでオーディオ信号を入力され、入力されたオーディオ信号の統計的な重複性を除去するために、入力された時間領域のオーディオ信号を周波数領域のサブバンドに分割する。   In step 610, the audio signal is input through the filter bank, and the input time-domain audio signal is divided into frequency-domain subbands in order to remove statistical duplication of the input audio signal.

ステップ620では、入力オーディオ信号の特性に基づいて、ウィンドウタイプを決定する。入力信号が遷移信号である場合には、ステップ630に進み、入力信号が遷移信号ではない場合には、ステップ640に進む。   In step 620, a window type is determined based on the characteristics of the input audio signal. If the input signal is a transition signal, the process proceeds to step 630. If the input signal is not a transition signal, the process proceeds to step 640.

ステップ630では、ステップ610で処理されたオーディオデータについて、ショートウィンドウを適用してショートCMDCTを行い、それと同時に、ロングウィンドウを適用してロングFFTを行う。この結果、ショートCMDCTスペクトル及びロングFFTスペクトルを得る。   In step 630, a short window is applied to the audio data processed in step 610 to perform short CMDCT, and at the same time, a long window is applied to perform long FFT. As a result, a short CMDCT spectrum and a long FFT spectrum are obtained.

ステップ640では、ステップ610で処理されたオーディオデータについて、ロングウィンドウを適用してロングCMDCTを行い、それと同時に、ショートウィンドウを適用してショートFFTを行う。この結果、ロングCMDCTスペクトル及びショートFFTスペクトルを得る。   In step 640, a long window is applied to the audio data processed in step 610 to perform a long CMDCT, and at the same time, a short window is applied to perform a short FFT. As a result, a long CMDCT spectrum and a short FFT spectrum are obtained.

ステップ650では、ステップ620で決定されたウィンドウタイプがショートウィンドウである場合には、ステップ630で得られたショートCMDCTスペクトル及びロングFFTスペクトルを利用して、心理音響モデルで使われる非予測度を計算し、ステップ620で決定されたウィンドウタイプがロングウィンドウである場合には、ステップ640で得られたロングCMDCTスペクトル及びショートFFTスペクトルを利用して、非予測度を計算する。また、計算された非予測度に基づいて、SMR値を計算する。   In step 650, when the window type determined in step 620 is a short window, the non-prediction degree used in the psychoacoustic model is calculated using the short CMDCT spectrum and the long FFT spectrum obtained in step 630. If the window type determined in step 620 is a long window, the non-prediction degree is calculated using the long CMDCT spectrum and the short FFT spectrum obtained in step 640. Further, the SMR value is calculated based on the calculated non-prediction degree.

ステップ660では、ステップ610で得られたオーディオデータについて、ステップ650で計算されたSMR値によって量子化を行い、量子化されたデータについてハフマン符号化を行う。   In step 660, the audio data obtained in step 610 is quantized using the SMR value calculated in step 650, and the quantized data is subjected to Huffman coding.

ステップ670では、ステップ660で符号化されたデータを特定フォーマットに変換して出力する。前記オーディオ符号化方法がMPEGオーディオ符号化方法である場合には、MPEG標準で定めたフォーマットに変換して出力する。   In step 670, the data encoded in step 660 is converted into a specific format and output. If the audio encoding method is an MPEG audio encoding method, the audio encoding method is converted into a format defined by the MPEG standard and output.

図7は、本発明のさらに他の実施形態によるオーディオ符号化器を説明する図である。図7に示されたオーディオ符号化器は、フィルタバンク部710、ウィンドウスイッチング部720、CMDCT部730、心理音響モデル部740、量子化及び符号化部750及びビットストリームフォーマッティング部760で形成される。   FIG. 7 is a diagram illustrating an audio encoder according to still another embodiment of the present invention. The audio encoder shown in FIG. 7 includes a filter bank unit 710, a window switching unit 720, a CMDCT unit 730, a psychoacoustic model unit 740, a quantization and coding unit 750, and a bit stream formatting unit 760.

ここで、フィルタバンク部710、量子化及び符号化部750、及びビットストリームフォーマッティング部760は、図2のフィルタバンク部210、量子化及び符号化部260及びビットストリームフォーマッティング部270と類似した機能を行うので、説明の簡単のために、詳細な説明は省略する。   Here, the filter bank unit 710, the quantization and encoding unit 750, and the bit stream formatting unit 760 have functions similar to the filter bank unit 210, the quantization and encoding unit 260, and the bit stream formatting unit 270 of FIG. For the sake of simplicity, detailed description is omitted.

ウィンドウスイッチング部720は、入力オーディオ信号の特性に基づいて、CMDCT部730で使われるウィンドウタイプを決定し、決定されたウィンドウタイプ情報をCMDCT部730に伝送する。   The window switching unit 720 determines a window type used in the CMDCT unit 730 based on the characteristics of the input audio signal, and transmits the determined window type information to the CMDCT unit 730.

CMDCT部730は、ロングCMDCTスペクトル及びショートCMDCTスペクトルを共に計算する。本実施形態では、心理音響モデル部740で使われるロングCMDCTスペクトルは、36ポイントCMDCTを行い、これを何れも加算した後、1152長さのスペクトルを1024長さのスペクトルに再サンプリングすることによって得られる。また、心理音響モデル部740で使われるショートCMDCTスペクトルは、12ポイントCMDCTを行い、これを何れも加算した後、その結果である384長さのスペクトルを256長さのスペクトルに再サンプリングすることによって得られる。   The CMDCT unit 730 calculates both a long CMDCT spectrum and a short CMDCT spectrum. In this embodiment, the long CMDCT spectrum used in the psychoacoustic model unit 740 is obtained by performing 36-point CMDCT, adding all of them, and re-sampling the 1152-length spectrum to the 1024-length spectrum. It is done. In addition, the short CMDCT spectrum used in the psychoacoustic model unit 740 is obtained by performing 12-point CMDCT, adding all of them, and then re-sampling the resulting 384-length spectrum into a 256-length spectrum. can get.

CMDCT部730は、計算されたロングCMDCTスペクトル及びショートCMDCTスペクトルを心理音響モデル部740に出力する。また、CMDCT部730は、ウィンドウスイッチング部720から入力されたウィンドウタイプがロングウィンドウである場合には、ロングMDCTスペクトルを量子化及び符号化部750に入力し、入力されたウィンドウタイプがショートウィンドウである場合には、ショートMDCTスペクトルを量子化及び符号化部750に入力する。   The CMDCT unit 730 outputs the calculated long CMDCT spectrum and short CMDCT spectrum to the psychoacoustic model unit 740. The CMDCT unit 730 inputs a long MDCT spectrum to the quantization and encoding unit 750 when the window type input from the window switching unit 720 is a long window, and the input window type is a short window. In some cases, the short MDCT spectrum is input to the quantization and encoding unit 750.

心理音響モデル部740は、CMDCT部730から伝送されたロングスペクトル及びショートスペクトルによって非予測度を計算し、計算された非予測度に基づいて、SMR値を計算して、量子化及び符号化部750に伝送する。   The psychoacoustic model unit 740 calculates a non-prediction degree based on the long spectrum and the short spectrum transmitted from the CMDCT unit 730, calculates an SMR value based on the calculated non-prediction degree, and performs a quantization and encoding unit. 750.

量子化及び符号化部750は、CMDCT部730から伝送されたロングMDCTスペクトル及びショートMDCTスペクトルと、心理音響モデル部から入力されたSMR情報に基づいて、スケールファクタ及び量子化係数を決定する。決定された量子化係数に基づいて、量子化を行い、量子化されたデータについてハフマン符号化を行う。   The quantization and coding unit 750 determines a scale factor and a quantization coefficient based on the long MDCT spectrum and the short MDCT spectrum transmitted from the CMDCT unit 730 and the SMR information input from the psychoacoustic model unit. Quantization is performed based on the determined quantization coefficient, and Huffman coding is performed on the quantized data.

ビットストリームフォーマッティング部760は、量子化及び符号化部750から入力されたデータを特定フォーマットに変換して出力する。前記オーディオ符号化装置がMPEGオーディオ符号化装置である場合には、MPEG標準で定めたフォーマットに変換して出力する。   The bit stream formatting unit 760 converts the data input from the quantization and encoding unit 750 into a specific format and outputs the data. If the audio encoding device is an MPEG audio encoding device, it is converted into a format defined by the MPEG standard and output.

図8は、本発明のさらに他の実施形態によるオーディオ符号化方法を示すフローチャートである。   FIG. 8 is a flowchart illustrating an audio encoding method according to another embodiment of the present invention.

ステップ810では、フィルタバンクでオーディオ信号を入力され、入力されたオーディオ信号の統計的な重複性を除去するために、入力された時間領域のオーディオ信号を周波数領域のサブバンドに分割する。   In step 810, an audio signal is input through a filter bank, and the input time-domain audio signal is divided into frequency-domain subbands in order to remove statistical redundancy of the input audio signal.

ステップ820では、入力オーディオ信号の特性に基づいて、ウィンドウタイプを決定する。   In step 820, the window type is determined based on the characteristics of the input audio signal.

ステップ830では、ステップ810で処理されたオーディオデータについて、ショートウィンドウを適用してショートCMDCTを行い、それと同時に、ロングウィンドウを適用してロングCMDCTを行う。この結果、ショートCMDCTスペクトル及びロングCMDCTスペクトルを得る。   In step 830, short CMDCT is performed on the audio data processed in step 810 by applying a short window, and at the same time, long CMDCT is performed by applying a long window. As a result, a short CMDCT spectrum and a long CMDCT spectrum are obtained.

ステップ840では、ステップ830で得られたショートCMDCTスペクトル及びロングCMDCTスペクトルを利用して、心理音響モデルで使われる非予測度を計算する。また、計算された非予測度に基づいて、SMR値を計算する。   In step 840, the non-prediction level used in the psychoacoustic model is calculated using the short CMDCT spectrum and the long CMDCT spectrum obtained in step 830. Further, the SMR value is calculated based on the calculated non-prediction degree.

ステップ850では、ステップ820で決定されたウィンドウタイプがロングウィンドウである場合には、ステップ830で得られたスペクトルのうち、ロングMDCT値を入力されて、これについて、ステップ840で計算されたSMR値によって量子化を行い、量子化されたデータについてハフマン符号化を行う。   In step 850, if the window type determined in step 820 is a long window, the long MDCT value of the spectrum obtained in step 830 is input, and the SMR value calculated in step 840 is calculated. Quantization is performed, and Huffman coding is performed on the quantized data.

ステップ860では、ステップ850で符号化されたデータを特定フォーマットに変換して出力する。前記オーディオ符号化装置がMPEGオーディオ符号化装置である場合には、MPEG標準で定めたフォーマットに変換して出力する。   In step 860, the data encoded in step 850 is converted into a specific format and output. If the audio encoding device is an MPEG audio encoding device, it is converted into a format defined by the MPEG standard and output.

本発明は、前述した実施形態に限定されず、本発明の思想内で当業者による変形が可能である。特に、本発明は、MPEG−1レイヤ3だけでなく、MDCT及び心理音響モデルを使用するMPEG−2 AAC(アドバンストオーディオコーディング)、MPEG4、WMA(ウインドウズメディアオーディオ)のような全てのオーディオ符号化装置及び方法に適用されうる。   The present invention is not limited to the above-described embodiments, and can be modified by those skilled in the art within the spirit of the present invention. In particular, the present invention applies not only to MPEG-1 layer 3, but also to all audio encoding devices such as MPEG-2 AAC (Advanced Audio Coding), MPEG4, WMA (Windows Media Audio) using MDCT and psychoacoustic models. And can be applied to methods.

本発明はまた、コンピュータ可読記録媒体にコンピュータ可読コードとして具現することが可能である。コンピュータ可読記録媒体は、コンピュータシステムによって読取られるデータが保存される全ての種類の記録装置を含む。コンピュータ可読記録媒体の例としては、ROM、RAM、CD−ROM、磁気テープ、ハードディスク、フロッピー(登録商標)ディスク、フラッシュメモリ、光データ保存装置があり、またキャリアウェーブ(例えば、インターネットを通じた伝送)状に具現されるものも含む。また、コンピュータ可読記録媒体は、ネットワークに連結されたコンピュータシステムに分散され、分散方式でコンピュータ可読コードとして保存されかつ実行されうる。   The present invention can also be embodied as computer readable code on a computer readable recording medium. Computer-readable recording media include all types of recording devices that store data read by a computer system. Examples of computer-readable recording media include ROM, RAM, CD-ROM, magnetic tape, hard disk, floppy (registered trademark) disk, flash memory, optical data storage device, and carrier wave (for example, transmission through the Internet). Including those embodied in a shape. The computer-readable recording medium may be distributed in a computer system connected to a network, and stored and executed as computer-readable code in a distributed manner.

本発明による改善された心理音響モデルを適用して、FFTスペクトルの代わりにCMDCTスペクトルを使用することによって、入力オーディオ信号に比べて、出力オーディオストリームの音質の低下なしにFFT変換にかかる計算量及びMPEGオーディオ符号化器の複雑度を低下させることが可能である。   By applying the improved psychoacoustic model according to the present invention and using the CMDCT spectrum instead of the FFT spectrum, the amount of calculation required for the FFT transform without degrading the sound quality of the output audio stream compared to the input audio signal and It is possible to reduce the complexity of the MPEG audio encoder.

従来のMPEGオーディオ符号化装置を示すブロック図である。It is a block diagram which shows the conventional MPEG audio encoding apparatus. 本発明の一実施形態によるMPEGオーディオ符号化装置を示すブロック図である。1 is a block diagram illustrating an MPEG audio encoding device according to an embodiment of the present invention. 本発明によるウィンドウスイッチングアルゴリズムに使われる遷移信号検出方式を示す図である。It is a figure which shows the transition signal detection system used for the window switching algorithm by this invention. 本発明に使われるウィンドウスイッチングアルゴリズムを示すフローチャートである。4 is a flowchart illustrating a window switching algorithm used in the present invention. 本発明によるサブバンドスペクトルから全体スペクトルを求める方式を示す図である。It is a figure which shows the system which calculates | requires the whole spectrum from the subband spectrum by this invention. 本発明の一実施形態によるMPEGオーディオ符号化方法を示すフローチャートである。3 is a flowchart illustrating an MPEG audio encoding method according to an embodiment of the present invention. 本発明の一実施形態によるMPEGオーディオ符号化装置を示すブロック図である。1 is a block diagram illustrating an MPEG audio encoding device according to an embodiment of the present invention. 本発明の一実施形態によるMPEGオーディオ符号化方法を示すフローチャートである。3 is a flowchart illustrating an MPEG audio encoding method according to an embodiment of the present invention.

Claims (41)

デジタルオーディオ符号化方法において、
(a)入力オーディオ信号の特性によってウィンドウタイプを決定するステップと、
(b)前記決定されたウィンドウタイプによって、前記入力オーディオ信号からCMDCTスペクトルを生成するステップと、
(c)前記決定されたウィンドウタイプを利用して、前記入力オーディオ信号からFFTスペクトルを生成するステップと、
(d)前記生成されたCMDCTスペクトル及びFFTスペクトルを利用して、心理音響モデル分析を行うステップとを含むことを特徴とする方法。
In the digital audio encoding method,
(A) determining the window type according to the characteristics of the input audio signal;
(B) generating a CMDCT spectrum from the input audio signal according to the determined window type;
(C) generating an FFT spectrum from the input audio signal using the determined window type;
(D) performing a psychoacoustic model analysis using the generated CMDCT spectrum and FFT spectrum.
前記(a)ステップは、(a1)前記入力オーディオ信号をフィルタリングして複数個のサブバンドに分割するステップをさらに含み、前記ウィンドウタイプを決定するステップは、前記サブバンドに分割された入力オーディオ信号について行われることを特徴とする請求項1に記載の方法。   The step (a) further includes: (a1) filtering the input audio signal to divide the input audio signal into a plurality of subbands, and determining the window type includes the input audio signal divided into the subbands. The method of claim 1, wherein the method is performed. 前記(a1)ステップは、多相フィルタバンクによって行われることを特徴とする請求項2に記載の方法。   The method of claim 2, wherein the step (a1) is performed by a polyphase filter bank. 前記(a)ステップで決定されたウィンドウタイプがロングウィンドウである場合、前記(b)ステップでは、ロングウィンドウを適用してロングCMDCTスペクトルを生成し、前記(c)ステップでは、ショートウィンドウを適用してショートFFTスペクトルを生成し、前記(d)ステップでは、前記生成されたロングCMDCTスペクトル及びショートFFTスペクトルに基づいて、心理音響モデルの分析を行うことを特徴とする請求項1に記載の方法。   When the window type determined in step (a) is a long window, a long CMDCT spectrum is generated by applying a long window in step (b), and a short window is applied in step (c). The method according to claim 1, wherein a short FFT spectrum is generated, and in step (d), a psychoacoustic model is analyzed based on the generated long CMDCT spectrum and short FFT spectrum. 前記(a)ステップで決定されたウィンドウタイプがショートウィンドウである場合、前記(b)ステップでは、ショートウィンドウを適用してショートCMDCTスペクトルを生成し、前記(c)ステップでは、ロングウィンドウを適用してロングFFTスペクトルを生成し、前記(d)ステップでは、前記生成されたショートCMDCTスペクトル及びロングFFTスペクトルに基づいて、心理音響モデルの分析を行うことを特徴とする請求項1に記載の方法。   When the window type determined in step (a) is a short window, a short CMDCT spectrum is generated by applying a short window in step (b), and a long window is applied in step (c). The method according to claim 1, wherein a long FFT spectrum is generated, and in step (d), a psychoacoustic model is analyzed based on the generated short CMDCT spectrum and long FFT spectrum. 前記(a)ステップは、入力オーディオ信号が遷移信号である場合には、ウィンドウタイプをショートウィンドウと決定し、非遷移信号である場合には、ウィンドウタイプをロングウィンドウと決定することを特徴とする請求項1に記載の方法。   In the step (a), when the input audio signal is a transition signal, the window type is determined as a short window, and when the input audio signal is a non-transition signal, the window type is determined as a long window. The method of claim 1. (e)前記(d)ステップで行われた心理音響モデルの分析結果に基づいて、量子化及び符号化を行うステップをさらに含むことを特徴とする請求項1に記載の方法。   The method according to claim 1, further comprising: (e) performing quantization and encoding based on the analysis result of the psychoacoustic model performed in the step (d). 前記心理音響モデルは、MPEG−1レイヤ3、MPEG−2
AAC、MPEG4、WMAを含むグループのうち、何れか一つで使われる心理音響モデルであることを特徴とする請求項1に記載の方法。
The psychoacoustic model includes MPEG-1 layer 3, MPEG-2
The method according to claim 1, wherein the psychoacoustic model is used in any one of a group including AAC, MPEG4, and WMA.
デジタルオーディオデータ符号化装置において、
入力オーディオ信号の特性によってウィンドウタイプを決定するウィンドウスイッチング部と、
前記ウィンドウスイッチング部で決定されたウィンドウタイプによって、前記入力オーディオ信号からCMDCTスペクトルを生成するCMDCT部と、
前記ウィンドウスイッチング部で決定されたウィンドウタイプを利用して、前記入力オーディオ信号からFFTスペクトルを生成するFFT部と、
前記CMDCT部で生成されたCMDCTスペクトル及び前記FFT部で生成されたFFTスペクトルを利用して、心理音響モデルの分析を行う心理音響モデル部とを含むことを特徴とする装置。
In a digital audio data encoding device,
A window switching unit that determines the window type according to the characteristics of the input audio signal;
A CMDCT unit for generating a CMDCT spectrum from the input audio signal according to a window type determined by the window switching unit;
An FFT unit that generates an FFT spectrum from the input audio signal using the window type determined by the window switching unit;
A psychoacoustic model unit that analyzes a psychoacoustic model using the CMDCT spectrum generated by the CMDCT unit and the FFT spectrum generated by the FFT unit.
前記符号化装置は、前記入力オーディオ信号をフィルタリングして複数個のサブバンドに分割するフィルタ部をさらに含み、前記ウィンドウスイッチング部は、前記フィルタ部の出力データに基づいて、ウィンドウタイプを決定することを特徴とする請求項9に記載の装置。   The encoding apparatus further includes a filter unit that filters the input audio signal and divides the input audio signal into a plurality of subbands, and the window switching unit determines a window type based on output data of the filter unit. The apparatus of claim 9. 前記フィルタ部は、多相フィルタバンクであることを特徴とする請求項10に記載の装置。   The apparatus of claim 10, wherein the filter unit is a polyphase filter bank. 前記ウィンドウスイッチング部で決定されたウィンドウタイプがロングウィンドウである場合、前記CMDCT部は、ロングウィンドウを適用してロングCMDCTスペクトルを生成し、前記FFT部は、ショートウィンドウを適用してショートFFTスペクトルを生成し、前記心理音響モデル部は、前記CMDCT部で生成されたロングCMDCTスペクトル及び前記FFT部で生成されたショートFFTスペクトルに基づいて、心理音響モデルの分析を行うことを特徴とする請求項9に記載の装置。   When the window type determined by the window switching unit is a long window, the CMDCT unit applies a long window to generate a long CMDCT spectrum, and the FFT unit applies a short window to generate a short FFT spectrum. The psychoacoustic model unit generates and analyzes a psychoacoustic model based on a long CMDCT spectrum generated by the CMDCT unit and a short FFT spectrum generated by the FFT unit. The device described in 1. 前記ウィンドウスイッチング部で決定されたウィンドウタイプがショートウィンドウである場合、前記CMDCT部は、ショートウィンドウを適用してショートCMDCTスペクトルを生成し、前記FFT部は、ロングウィンドウを適用してロングFFTスペクトルを生成し、前記心理音響モデル部は、前記CMDCT部で生成されたショートCMDCTスペクトル及び前記FFT部で生成されたロングFFTスペクトルに基づいて、心理音響モデルの分析を行うことを特徴とする請求項9に記載の装置。   When the window type determined by the window switching unit is a short window, the CMDCT unit applies a short window to generate a short CMDCT spectrum, and the FFT unit applies a long window to generate a long FFT spectrum. The psychoacoustic model unit generates and analyzes the psychoacoustic model based on the short CMDCT spectrum generated by the CMDCT unit and the long FFT spectrum generated by the FFT unit. The device described in 1. 前記ウィンドウスイッチング部は、入力オーディオ信号が遷移信号である場合には、ウィンドウタイプをショートウィンドウと決定し、非遷移信号である場合には、ウィンドウタイプをロングウィンドウと決定することを特徴とする請求項9に記載の装置。   The window switching unit determines a window type as a short window when the input audio signal is a transition signal, and determines a window type as a long window when the input audio signal is a non-transition signal. Item 10. The apparatus according to Item 9. 前記CMDCT部からのオーディオデータ及び前記心理音響モデル部からの結果値に基づいて、量子化及び符号化を行う量子化及び符号化部をさらに含むことを特徴とする請求項9に記載の装置。   The apparatus of claim 9, further comprising a quantization and encoding unit that performs quantization and encoding based on audio data from the CMDCT unit and a result value from the psychoacoustic model unit. 前記心理音響モデルは、MPEG−1レイヤ3、MPEG−2 AAC、MPEG4、WMAを含むグループのうち、何れか一つで使われる心理音響モデルであることを特徴とする請求項9に記載の装置。   The apparatus according to claim 9, wherein the psychoacoustic model is a psychoacoustic model used in any one of a group including MPEG-1 layer 3, MPEG-2 AAC, MPEG4, and WMA. . デジタルオーディオ符号化方法において、
(a)入力オーディオ信号からCMDCTスペクトルを生成するステップと、
(b)前記生成されたCMDCTスペクトルを利用して、心理音響モデルの分析を行うステップとを含むことを特徴とする方法。
In the digital audio encoding method,
(A) generating a CMDCT spectrum from the input audio signal;
(B) analyzing the psychoacoustic model using the generated CMDCT spectrum.
前記(a)ステップは、(a1)入力オーディオ信号について、ロングウィンドウ及びショートウィンドウを適用してCMDCTを行い、ロングCMDCTスペクトル及びショートCMDCTスペクトルを生成するステップをさらに含むことを特徴とする請求項17に記載の方法。   The step (a) further includes the step of: (a1) applying CMDCT to the input audio signal by applying a long window and a short window to generate a long CMDCT spectrum and a short CMDCT spectrum. The method described in 1. 前記(b)ステップは、前記(a1)ステップで生成されたロングCMDCTスペクトル及びショートCMDCTスペクトルを使用して、心理音響モデルの分析を行うことを特徴とする請求項18に記載の方法。   The method according to claim 18, wherein the step (b) performs an analysis of a psychoacoustic model using the long CMDCT spectrum and the short CMDCT spectrum generated in the step (a1). 前記(a)ステップは、(a2)前記入力オーディオ信号をフィルタリングして複数個のサブバンドに分割するステップをさらに含み、前記CMDCTスペクトルを生成するステップは、前記サブバンドに分割された入力オーディオ信号について行われることを特徴とする請求項17に記載の方法。   The step (a) further includes the step (a2) of filtering the input audio signal and dividing the input audio signal into a plurality of subbands, and the step of generating the CMDCT spectrum includes the input audio signal divided into the subbands. The method of claim 17, wherein the method is performed. 前記符号化方法は、(a3)前記入力オーディオ信号の特性によって、ウィンドウタイプを決定するステップをさらに含むことを特徴とする請求項17に記載の方法。   The method of claim 17, wherein the encoding method further comprises: (a3) determining a window type according to characteristics of the input audio signal. 前記(a3)ステップは、入力オーディオ信号が遷移信号である場合には、ウィンドウタイプをショートウィンドウと決定し、非遷移信号である場合には、ウィンドウタイプをロングウィンドウと決定することを特徴とする請求項21に記載の方法。   In the step (a3), when the input audio signal is a transition signal, the window type is determined as a short window, and when the input audio signal is a non-transition signal, the window type is determined as a long window. The method of claim 21. 前記(a2)ステップは、多相フィルタバンクによって行われることを特徴とする請求項20に記載の方法。   21. The method of claim 20, wherein step (a2) is performed by a polyphase filter bank. 前記(a3)ステップで決定されたウィンドウタイプがロングウィンドウである場合には、前記(b)ステップで行われた心理音響モデルの分析結果に基づいて、ロングMDCTスペクトルについて量子化及び符号化を行い、前記(a2)ステップで決定されたウィンドウタイプがショートウィンドウである場合には、前記(b)ステップで行われた心理音響モデルの分析結果に基づいて、ショートMDCTスペクトルについて量子化及び符号化を行うステップを含むことを特徴とする請求項22に記載の方法。   When the window type determined in the step (a3) is a long window, the long MDCT spectrum is quantized and encoded based on the analysis result of the psychoacoustic model performed in the step (b). When the window type determined in the step (a2) is a short window, the short MDCT spectrum is quantized and encoded based on the analysis result of the psychoacoustic model performed in the step (b). 23. The method of claim 22, comprising performing. 前記心理音響モデルは、MPEG−1レイヤ3、MPEG−2
AAC、MPEG4、WMAを含むグループのうち、何れか一つで使われる心理音響モデルであることを特徴とする請求項17に記載の方法。
The psychoacoustic model includes MPEG-1 layer 3, MPEG-2
The method according to claim 17, wherein the psychoacoustic model is used in any one of a group including AAC, MPEG4, and WMA.
デジタルオーディオ符号化装置において、
入力オーディオ信号からCMDCTスペクトルを生成するCMDCT部と、
前記CMDCT部で生成されたCMDCTスペクトルを利用して、心理音響モデルの分析を行う心理音響モデル部を含むことを特徴とする装置。
In a digital audio encoding device,
A CMDCT unit for generating a CMDCT spectrum from an input audio signal;
An apparatus comprising a psychoacoustic model unit that analyzes a psychoacoustic model using a CMDCT spectrum generated by the CMDCT unit.
前記CMDCT部は、前記入力オーディオ信号について、ロングウィンドウ及びショートウィンドウを適用してCMDCTを行い、ロングCMDCTスペクトル及びショートCMDCTスペクトルを生成することを特徴とする請求項26に記載の装置。   The apparatus of claim 26, wherein the CMDCT unit performs CMDCT on the input audio signal by applying a long window and a short window to generate a long CMDCT spectrum and a short CMDCT spectrum. 前記心理音響モデル部は、前記CMDCT部で生成されたロングCMDCTスペクトル及びショートCMDCTスペクトルを使用して、心理音響モデルの分析を行うことを特徴とする請求項27に記載の装置。   The apparatus according to claim 27, wherein the psychoacoustic model unit analyzes a psychoacoustic model using a long CMDCT spectrum and a short CMDCT spectrum generated by the CMDCT unit. 前記入力オーディオ信号をフィルタリングして複数個のサブバンドに分割するフィルタ部をさらに含み、前記CMDCT部は、前記サブバンドに分割されたデータについてCMDCTを行うことを特徴とする請求項26に記載の装置。   27. The filter of claim 26, further comprising a filter unit that filters the input audio signal and divides the input audio signal into a plurality of subbands, and the CMDCT unit performs CMDCT on the data divided into the subbands. apparatus. 前記入力オーディオ信号の特性によって、ウィンドウタイプを決定するウィンドウタイプ決定部をさらに含むことを特徴とする請求項26に記載の装置。   27. The apparatus of claim 26, further comprising a window type determination unit that determines a window type according to characteristics of the input audio signal. 前記ウィンドウタイプ決定部は、入力オーディオ信号が遷移信号である場合には、ウィンドウタイプをショートウィンドウと決定し、非遷移信号である場合には、ウィンドウタイプをロングウィンドウと決定することを特徴とする請求項30に記載の装置。   The window type determination unit determines a window type as a short window when the input audio signal is a transition signal, and determines a window type as a long window when the input audio signal is a non-transition signal. The apparatus of claim 30. 前記フィルタ部は、多相フィルタバンクであることを特徴とする請求項29に記載の装置。   30. The apparatus of claim 29, wherein the filter unit is a polyphase filter bank. 前記符号化装置は、量子化及び符号化部をさらに含み、前記量子化及び符号化部は、前記ウィンドウタイプ決定部で決定されたウィンドウタイプがロングウィンドウである場合には、前記心理音響モデル部で行われた心理音響モデルの分析結果に基づいて、ロングMDCTスペクトルについて量子化及び符号化を行い、前記ウィンドウタイプ決定部で決定されたウィンドウタイプがショートウィンドウである場合には、前記心理音響モデル部で行われた心理音響モデルの分析結果に基づいて、ショートMDCTスペクトルについて量子化及び符号化を行うことを特徴とする請求項31に記載の装置。   The encoding device further includes a quantization and encoding unit, and the quantization and encoding unit, when the window type determined by the window type determination unit is a long window, the psychoacoustic model unit In the case where the long MDCT spectrum is quantized and encoded based on the analysis result of the psychoacoustic model performed in step 1, and the window type determined by the window type determination unit is a short window, the psychoacoustic model 32. The apparatus according to claim 31, wherein the short MDCT spectrum is quantized and encoded based on the analysis result of the psychoacoustic model performed by the unit. 前記心理音響モデルは、MPEG−1レイヤ3、MPEG−2 AAC、MPEG4、WMAを含むグループのうち、何れか一つで使われる心理音響モデルであることを特徴とする請求項26に記載の装置。   27. The apparatus according to claim 26, wherein the psychoacoustic model is a psychoacoustic model used in any one of a group including MPEG-1 layer 3, MPEG-2 AAC, MPEG4, and WMA. . (a)入力オーディオ信号の特性によってウィンドウタイプを決定するステップと、
(b)前記決定されたウィンドウタイプによって、前記入力オーディオ信号からCMDCTスペクトルを生成するステップと、
(c)前記決定されたウィンドウタイプを利用して、前記入力オーディオ信号からFFTスペクトルを生成するステップと、
(d)前記生成されたCMDCTスペクトル及びFFTスペクトルを利用して、心理音響モデルの分析を行うステップとを含むデジタルオーディオ符号化方法を行うためのコンピュータプログラムコードが記録されたコンピュータで判読可能な記録媒体。
(A) determining the window type according to the characteristics of the input audio signal;
(B) generating a CMDCT spectrum from the input audio signal according to the determined window type;
(C) generating an FFT spectrum from the input audio signal using the determined window type;
(D) a computer-readable record in which computer program code for performing a digital audio encoding method including a step of analyzing a psychoacoustic model using the generated CMDCT spectrum and FFT spectrum is recorded. Medium.
前記(a)ステップは、(a1)前記入力オーディオ信号をフィルタリングして、複数個のサブバンドに分割するステップをさらに含み、前記ウィンドウタイプを決定するステップは、前記サブバンドに分割された入力オーディオ信号について行われることを特徴とする請求項35に記載の記録媒体。   The step (a) further includes the step of (a1) filtering the input audio signal to divide the input audio signal into a plurality of subbands, and the step of determining the window type includes the input audio divided into the subbands. 36. The recording medium of claim 35, wherein the recording medium is performed on a signal. 前記(a1)ステップは、多相フィルタバンクによって行われることを特徴とする請求項36に記載の記録媒体。   The recording medium according to claim 36, wherein the step (a1) is performed by a polyphase filter bank. 前記(a)ステップで決定されたウィンドウタイプがロングウィンドウである場合、前記(b)ステップでは、ロングウィンドウを適用してロングCMDCTスペクトルを生成し、前記(c)ステップでは、ショートウィンドウを適用してショートFFTスペクトルを生成し、前記(d)ステップでは、前記生成されたロングCMDCTスペクトル及びショートFFTスペクトルに基づいて、心理音響モデルの分析を行うことを特徴とする請求項35に記載の記録媒体。   When the window type determined in step (a) is a long window, a long CMDCT spectrum is generated by applying a long window in step (b), and a short window is applied in step (c). 36. The recording medium according to claim 35, wherein a short FFT spectrum is generated, and in step (d), a psychoacoustic model is analyzed based on the generated long CMDCT spectrum and short FFT spectrum. . 前記(a)ステップで決定されたウィンドウタイプがショートウィンドウである場合、前記(b)ステップでは、ショートウィンドウを適用してショートCMDCTスペクトルを生成し、前記(c)ステップでは、ロングウィンドウを適用してロングFFTスペクトルを生成し、前記(d)ステップでは、前記生成されたショートCMDCTスペクトル及びロングFFTスペクトルに基づいて、心理音響モデルの分析を行うことを特徴とする請求項35に記載の記録媒体。   When the window type determined in step (a) is a short window, a short CMDCT spectrum is generated by applying a short window in step (b), and a long window is applied in step (c). 36. The recording medium according to claim 35, wherein a long FFT spectrum is generated, and in step (d), a psychoacoustic model is analyzed based on the generated short CMDCT spectrum and long FFT spectrum. . 前記(a)ステップは、入力オーディオ信号が遷移信号である場合には、ウィンドウタイプをショートウィンドウと決定し、非遷移信号である場合には、ウィンドウタイプをロングウィンドウと決定することを特徴とする請求項35に記載の記録媒体。   In the step (a), when the input audio signal is a transition signal, the window type is determined as a short window, and when the input audio signal is a non-transition signal, the window type is determined as a long window. The recording medium according to claim 35. 前記(e)前記(d)ステップで行われた心理音響モデルの分析結果に基づいて、量子化及び符号化を行うステップをさらに含むことを特徴とする請求項35に記載の記録媒体。   36. The recording medium according to claim 35, further comprising a step of performing quantization and encoding based on the analysis result of the psychoacoustic model performed in the step (e) and the step (d).
JP2004548132A 2002-10-30 2003-10-24 Digital audio encoding method and apparatus using improved psychoacoustic model Withdrawn JP2006504993A (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US42209402P 2002-10-30 2002-10-30
KR10-2002-0075407A KR100467617B1 (en) 2002-10-30 2002-11-29 Method for encoding digital audio using advanced psychoacoustic model and apparatus thereof
PCT/KR2003/002260 WO2004040554A1 (en) 2002-10-30 2003-10-24 Method for encoding digital audio using advanced psychoacoustic model and apparatus thereof

Publications (1)

Publication Number Publication Date
JP2006504993A true JP2006504993A (en) 2006-02-09

Family

ID=32232786

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004548132A Withdrawn JP2006504993A (en) 2002-10-30 2003-10-24 Digital audio encoding method and apparatus using improved psychoacoustic model

Country Status (4)

Country Link
EP (1) EP1556856A4 (en)
JP (1) JP2006504993A (en)
AU (1) AU2003272128A1 (en)
WO (1) WO2004040554A1 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004042722A1 (en) * 2002-11-07 2004-05-21 Samsung Electronics Co., Ltd. Mpeg audio encoding method and apparatus
KR100685992B1 (en) 2004-11-10 2007-02-23 엘지전자 주식회사 Method for information outputting during channel Change in digital broadcasting receiver

Also Published As

Publication number Publication date
WO2004040554A1 (en) 2004-05-13
EP1556856A1 (en) 2005-07-27
EP1556856A4 (en) 2006-01-25
AU2003272128A1 (en) 2004-05-25

Similar Documents

Publication Publication Date Title
KR100467617B1 (en) Method for encoding digital audio using advanced psychoacoustic model and apparatus thereof
JP3762579B2 (en) Digital audio signal encoding apparatus, digital audio signal encoding method, and medium on which digital audio signal encoding program is recorded
TWI555009B (en) Apparatus and method for decoding and encoding an audio signal using adaptive spectral tile selection
KR102232486B1 (en) Method and apparatus for compressing and decompressing a higher order ambisonics representation
JP4676139B2 (en) Multi-channel audio encoding and decoding
JP5091272B2 (en) Audio quantization and inverse quantization
JP5627843B2 (en) Method and apparatus for encoding and decoding speech signals using adaptive switched temporal decomposition in the spectral domain
US8315859B2 (en) Efficient filtering with a complex modulated filterbank
JP5140730B2 (en) Low-computation spectrum analysis / synthesis using switchable time resolution
CN103765509B (en) Code device and method, decoding device and method
EP2786377B1 (en) Chroma extraction from an audio codec
TWI390502B (en) Processing of encoded signals
CN101086845A (en) Sound coding device and method and sound decoding device and method
US7921007B2 (en) Scalable audio coding
JP2021502592A (en) Equipment and methods for encoding and decoding audio signals using downsampling or interpolation of scale parameters
EP1455344A1 (en) Mask generation process and device in an audio encoder
EP1259956A1 (en) Method of and apparatus for converting an audio signal between data compression formats
JP2006504993A (en) Digital audio encoding method and apparatus using improved psychoacoustic model
JP2002132295A (en) Stereoaudio signal high-performance encoder system
US10332527B2 (en) Method and apparatus for encoding and decoding audio signal
CN116114016A (en) Audio quantizer and audio dequantizer and related methods
JP2002182695A (en) High-performance encoding method and apparatus
CN105336334B (en) Multi-channel sound signal coding method, decoding method and device
JP2000137497A (en) Device and method for encoding digital audio signal, and medium storing digital audio signal encoding program
Gunjal et al. Traditional Psychoacoustic Model and Daubechies Wavelets for Enhanced Speech Coder Performance

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061004

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20090803