WO2012091464A4 - 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법 - Google Patents

고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법 Download PDF

Info

Publication number
WO2012091464A4
WO2012091464A4 PCT/KR2011/010258 KR2011010258W WO2012091464A4 WO 2012091464 A4 WO2012091464 A4 WO 2012091464A4 KR 2011010258 W KR2011010258 W KR 2011010258W WO 2012091464 A4 WO2012091464 A4 WO 2012091464A4
Authority
WO
WIPO (PCT)
Prior art keywords
signal
input signal
energy
frequency
unit
Prior art date
Application number
PCT/KR2011/010258
Other languages
English (en)
French (fr)
Other versions
WO2012091464A1 (ko
Inventor
주기현
오은미
성호상
Original Assignee
삼성전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020100138045A external-priority patent/KR101826331B1/ko
Priority to RU2013135005/08A priority Critical patent/RU2575680C2/ru
Priority to US13/977,906 priority patent/US10152983B2/en
Priority to ES11853939.4T priority patent/ES2564504T3/es
Priority to CA2823175A priority patent/CA2823175C/en
Priority to SG2013050422A priority patent/SG191771A1/en
Priority to MX2013007489A priority patent/MX2013007489A/es
Priority to EP11853939.4A priority patent/EP2657933B1/en
Priority to MX2015015946A priority patent/MX354288B/es
Priority to JP2013547347A priority patent/JP6148983B2/ja
Priority to BR122021007425-9A priority patent/BR122021007425B1/pt
Priority to EP17179600.6A priority patent/EP3249647B1/en
Priority to CN201180068757.9A priority patent/CN103493131B/zh
Priority to BR112013016438-7A priority patent/BR112013016438B1/pt
Priority to AU2011350143A priority patent/AU2011350143B9/en
Application filed by 삼성전자 주식회사 filed Critical 삼성전자 주식회사
Publication of WO2012091464A1 publication Critical patent/WO2012091464A1/ko
Publication of WO2012091464A4 publication Critical patent/WO2012091464A4/ko
Priority to ZA2013/05689A priority patent/ZA201305689B/en
Priority to US16/215,079 priority patent/US10453466B2/en
Priority to US16/657,631 priority patent/US10811022B2/en

Links

Images

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis

Definitions

  • the present invention relates to a method and apparatus for encoding or decoding an audio signal such as a voice signal or a music signal, and more particularly, to a method and apparatus for encoding or decoding a signal corresponding to a high frequency region of an audio signal.
  • the signal corresponding to the high frequency region is less sensitive to the microstructure of the frequency than the signal corresponding to the low frequency region. Therefore, when coding efficiency is to be increased in order to overcome the restriction of bits available when coding an audio signal, many bits are assigned to a signal corresponding to a low-frequency region and encoded, while a signal corresponding to a signal corresponding to a high- Less bits are allocated and encoded.
  • SBR Spectral Band Replication
  • An encoding apparatus includes a down-sampling unit for down-sampling an input signal; A core encoding unit for performing core encoding on the downsampled input signal; A frequency converter for frequency-converting the input signal; And an enhancement encoding unit that performs bandwidth extension encoding using the basic signal of the input signal in the frequency domain.
  • an encoding apparatus including: a down-sampling unit for down-sampling an input signal; A core encoding unit for performing core encoding on the downsampled input signal; A frequency converter for frequency-converting the input signal; And an enhancement encoding unit that performs bandwidth extension encoding using the characteristics of the input signal and the base signal of the input signal in the frequency domain.
  • an encoding apparatus including a coding mode selection unit for selecting a coding mode of a bandwidth extension coding using an input signal in a frequency domain and an input signal in a time domain; And an enhancement encoding unit that performs bandwidth extension encoding using the input signal in the frequency domain and the encoding mode.
  • the extension encoder of the encoding apparatus includes a basic signal generator for generating a basic signal of an input signal in the frequency domain using a frequency spectrum of an input signal in the frequency domain; An element estimator for estimating an energy control factor using the basic signal; An energy extraction unit for extracting energy from an input signal in the frequency domain; An energy controller for controlling the extracted energy using the energy control element; And an energy quantization unit for quantizing the controlled energy.
  • the extension encoder of the encoding apparatus includes: a basic signal generator for generating a basic signal of an input signal in the frequency domain using a frequency spectrum of an input signal in the frequency domain; An element estimator for estimating an energy control factor using characteristics of the input signal and the basic signal; An energy extraction unit for extracting energy from an input signal in the frequency domain; An energy controller for controlling the extracted energy using the energy control element; And an energy quantization unit for quantizing the controlled energy.
  • an apparatus for encoding an extension of an encoding apparatus including: an energy extraction unit for extracting energy from an input signal in a frequency domain based on the encoding mode; An energy control unit for controlling energy based on the encoding mode; And an energy quantization unit for quantizing the energy based on the encoding mode.
  • the basic signal generator of the encoding apparatus includes an artificial signal generator for generating an artificial signal corresponding to a high frequency region by copying and folding a low frequency region of the input signal in the frequency domain; An envelope estimator for estimating an envelope of the basic signal using a window; And an envelope applying unit for applying the estimated envelope to the artificial signal.
  • the element estimating unit of the encoding apparatus includes a first threshold calculating unit for calculating a threshold of a high frequency region of an input signal in the frequency domain; A second threshold calculating unit for calculating a threshold of the basic signal; And an element calculation unit for calculating the energy control element using a threshold of the high frequency region of the input signal and a threshold of the basic signal.
  • a coding apparatus including: a signal classifying unit for determining a coding mode of an input signal by referring to characteristics of an input signal; A CELP coding unit for performing CELP coding on a low frequency signal of the input signal if the coding mode of the input signal is determined to be a CELP (Code Excited Linear Prediction) coding mode; A TD (Time Domain) extension encoding unit for performing an extension encoding on a high frequency signal of the input signal when CELP encoding is performed on the low frequency signal of the input signal; A frequency conversion unit for frequency-converting the input signal if the encoding mode of the input signal is determined to be the FD mode; And an FD encoding unit for performing frequency domain (FD) encoding on the frequency-converted input signal.
  • a signal classifying unit for determining a coding mode of an input signal by referring to characteristics of an input signal
  • a CELP coding unit for performing CELP coding on a low frequency signal of the input signal if the coding mode of the
  • the FD encoding unit of the encoding apparatus includes: a Norm encoding unit for extracting energy for each frequency band with respect to the transformed input signal and quantizing the extracted energy; An FPC (Factorial Pulse Coding) encoder for performing FPC coding on a value obtained by scaling the converted input signal with the quantized norm value; And a noise addition information generation unit for generating noise addition information as the FPC coding is performed, wherein the transformed input signal input to the FD coding unit is a transient frame.
  • a Norm encoding unit for extracting energy for each frequency band with respect to the transformed input signal and quantizing the extracted energy
  • An FPC (Factorial Pulse Coding) encoder for performing FPC coding on a value obtained by scaling the converted input signal with the quantized norm value
  • a noise addition information generation unit for generating noise addition information as the FPC coding is performed, wherein the transformed input signal input to the FD coding unit is a transient frame.
  • the FD encoding unit of the encoding apparatus includes: a Norm encoding unit for extracting energy for each frequency band with respect to the transformed input signal and quantizing the extracted energy; An FPC (Factorial Pulse Coding) encoder for performing FPC coding on a value obtained by scaling the converted input signal with the quantized norm value; A noise additional information generating unit for generating noise additional information according to the FPC coding; And a FD extension coding unit for performing extension coding on a high frequency signal of the transformed input signal, wherein the transformed input signal input to the FD coding unit is a stationary frame.
  • a Norm encoding unit for extracting energy for each frequency band with respect to the transformed input signal and quantizing the extracted energy
  • An FPC (Factorial Pulse Coding) encoder for performing FPC coding on a value obtained by scaling the converted input signal with the quantized norm value
  • a noise additional information generating unit for generating noise additional information according to the FPC coding
  • a FD extension coding unit
  • the FD extension coding unit of the FD coding unit of the coding apparatus may perform energy quantization by sharing the same codebook for different bit rates.
  • the bit stream according to the result of performing the FD coding on the input signal of the encoding apparatus according to another embodiment of the present invention may include the previous frame mode information.
  • a coding apparatus including: a signal classifying unit for determining a coding mode of an input signal with reference to characteristics of an input signal; An LPC encoding unit for extracting a linear prediction coefficient (LPC) from a low-frequency signal of the input signal and quantizing the extracted linear prediction coefficient; A CELP coding unit for performing CELP coding on the LPC excitation signal extracted using the linear prediction coefficient when the coding mode of the input signal is determined to be a CELP mode; A TD enhancement encoding unit for performing enhancement encoding on the high frequency signal of the input signal when CELP encoding is performed on the LPC excitation signal of the low frequency signal of the input signal; An audio encoding unit for performing audio encoding on the LPC excitation signal extracted using the linear prediction coefficient if the encoding mode of the input signal is determined to be an audio encoding mode; And an FD extension encoding unit for performing an extension encoding on the high frequency signal of the input signal when audio encoding is
  • the FD extension encoding unit of the encoding apparatus may perform energy quantization by sharing the same codebook for different bit rates.
  • a decoding apparatus including: a core decoding unit for core decoding a core-encoded input signal included in a bitstream; An up-sampling unit for up-sampling the core-decoded input signal; A frequency converter for frequency-converting the upsampled input signal; And an enhancement decoding unit that performs bandwidth extension decoding using the energy of the input signal included in the bitstream and the input signal in the frequency domain.
  • the extension decoding unit of the decoding apparatus includes an inverse quantization unit for inversely quantizing the energy of the input signal; A basic signal generator for generating a basic signal using the input signal in the frequency domain; A gain calculator for calculating a gain to be applied to the basic signal using the dequantized energy and the energy of the basic signal; And a gain applying unit for applying the calculated gain on a frequency band basis.
  • the basic signal generator of the decoding apparatus includes an artificial signal generator for generating an artificial signal corresponding to a high frequency region by copying and folding a low frequency region of an input signal in the frequency domain; An envelope estimator for estimating an envelope of the basic signal using a window included in the bitstream; And an envelope applying unit for applying the estimated envelope to the artificial signal.
  • a decoding apparatus including: a mode information checking unit for checking mode information for each of frames included in a bitstream; A CELP decoding unit for performing CELP decoding on the CELP encoded frame according to the inspection result; A TD enhancement decoding unit for generating a decoded signal for a high frequency using at least one of a result of performing the CELP decoding and an excitation signal of a low frequency signal; An FD decoding unit for performing FD decoding on the FD encoded frame according to the check result; And a frequency inverse transformer for inversely transforming the result of performing the FD decoding.
  • the FD decoding unit of the decoding apparatus includes: a Norm decoding unit for performing norm decoding with reference to norm information of the bitstream; An FPC decoding unit that performs FPC decoding based on the FPC encoding information of the bitstream; And a noise filling performing unit for performing noise filling on the result of performing the FPC decoding.
  • the FD decoding unit of the decoding apparatus includes: a Norm decoding unit for performing norm decoding with reference to norm information of the bitstream; An FPC decoding unit that performs FPC decoding based on the FPC encoding information of the bitstream; A noise filling performing unit for performing noise filling on the result of the FPC decoding; And an FD high frequency extension decoding unit for performing high frequency extension decoding using the results of performing FPC decoding and noise filling.
  • the FD decoder of the decoding apparatus may perform FPC decoding and noise filling when the upper band value of the frequency band for performing the FPC decoding is smaller than the upper band value of the frequency band for the core signal And an FD low-frequency extension encoding unit for performing an extension encoding on the result.
  • the FD high-frequency extension decoding unit of the FD decoding unit of the decoding apparatus may perform energy dequantization by sharing the same codebook for different bit rates.
  • the FD decoding unit of the decoding apparatus performs FD decoding on the FD encoded frame by referring to previous frame mode information included in the bitstream.
  • a decoding apparatus including: a mode information checking unit for checking mode information on each of frames included in a bitstream; An LPC decoding unit for performing LPC decoding on the frames included in the bitstream; A CELP decoding unit for performing CELP decoding on the CELP encoded frame according to the inspection result; A TD enhancement decoding unit for generating a decoded signal for a high frequency using at least one of a result of performing the CELP decoding and an excitation signal of a low frequency signal; An audio decoding unit for performing audio decoding on the audio encoded frame according to the inspection result; And an FD extension decoder for performing an extension decoding using the result of the audio decoding.
  • the FD extension decoding unit of the decoding apparatus may perform energy dequantization by sharing the same codebook for different bit rates.
  • an encoding method comprising: downsampling an input signal; Performing core encoding on the downsampled input signal; Frequency conversion of the input signal; And performing bandwidth extension encoding using the base signal of the input signal in the frequency domain.
  • an encoding method comprising: downsampling an input signal; Performing core encoding on the downsampled input signal; Frequency conversion of the input signal; And performing bandwidth extension encoding using the characteristics of the input signal and the base signal of the input signal in the frequency domain.
  • a coding method including: selecting a coding mode of a bandwidth extension coding using an input signal in a frequency domain and an input signal in a time domain; And performing bandwidth extension encoding using the input signal in the frequency domain and the encoding mode.
  • a decoding method comprising: core decoding a core encoded input signal included in a bitstream; Upsampling the core decoded input signal; Frequency-converting the upsampled input signal; And performing bandwidth extension decoding using the energy of the input signal included in the bitstream and the input signal in the frequency domain.
  • a coding method including: determining a coding mode of an input signal with reference to characteristics of an input signal; Performing CELP encoding on the low-frequency signal of the input signal if the coding mode of the input signal is determined to be a CELP (Code Excited Linear Prediction) coding mode; Performing CELP coding on the high-frequency signal of the input signal when the low-frequency signal of the input signal is CELP-encoded; Performing frequency conversion on the input signal if the encoding mode of the input signal is determined to be the FD mode; And performing frequency domain (FD) encoding on the frequency-converted input signal.
  • CELP Code Excited Linear Prediction
  • the step of performing the FD encoding of the encoding method according to another embodiment of the present invention may include energy quantization by sharing the same codebook for different bit rates.
  • a bit stream according to a result of performing FD encoding on the input signal may include previous frame mode information.
  • a coding method including: determining a coding mode of an input signal by referring to characteristics of an input signal; Extracting a linear prediction coefficient (LPC) from a low-frequency signal of the input signal, and quantizing the extracted linear prediction coefficient; Performing CELP encoding on the LPC excitation signal extracted using the linear prediction coefficient if the encoding mode of the input signal is determined to be a CELP mode; Performing CIE coding on the LPC excitation signal of the low frequency signal of the input signal, performing TD extension encoding on the high frequency signal of the input signal; Performing audio coding on the extracted LPC excitation signal using the linear prediction coefficient if the encoding mode of the input signal is determined to be the FD mode; And performing FD extension encoding on the high frequency signal of the input signal when FD encoding is performed on the LPC excitation signal of the low frequency signal of the input signal.
  • LPC linear prediction coefficient
  • the step of performing the FD extension encoding of the encoding method according to yet another embodiment of the present invention may be characterized in that energy quantization is performed by sharing the same codebook for different bit rates.
  • a decoding method comprising: checking mode information on each of frames included in a bitstream; Performing CELP decoding on the CELP encoded frame according to the inspection result; Generating a decoded signal for a high frequency using at least one of a result of the CELP decoding and an excitation signal of a low frequency signal; Performing FD decoding on the FD encoded frame according to the inspection result; And frequency inverse transforming the result of performing the FD decoding.
  • the FD decoding of the decoding method according to another embodiment of the present invention may perform energy dequantization by sharing the same codebook for different bit rates.
  • the step of performing the FD decoding of the decoding method according to another embodiment of the present invention may further include performing FD decoding on the FD encoded frame with reference to previous frame mode information included in the bitstream.
  • a decoding method comprising: checking mode information on each of frames included in a bitstream; Performing LPC decoding on the frames included in the bitstream; Performing CELP decoding on the CELP encoded frame according to the inspection result; Generating a decoded signal for a high frequency using at least one of a result of the CELP decoding and an excitation signal of a low frequency signal; Performing audio decoding on the audio encoded frame according to the inspection result; And performing FD extension decoding using the result of performing the audio decoding.
  • the step of performing the FD extension decoding of the decoding method according to yet another embodiment of the present invention may perform energy dequantization by sharing the same codebook for different bit rates.
  • the energy of the input signal is controlled by using the threshold of the high frequency region of the input signal and the threshold of the basic signal, Can be extended.
  • FIG. 1 is a block diagram illustrating an encoding apparatus and a decoding apparatus according to an embodiment of the present invention.
  • FIG. 2A is a block diagram illustrating an overall configuration of an encoding apparatus according to an embodiment of the present invention. Referring to FIG.
  • FIG. 2B is a block diagram illustrating the overall configuration of an encoding apparatus according to another embodiment of the present invention.
  • 2C is a diagram illustrating an FD encoding unit of an encoding apparatus according to an embodiment of the present invention.
  • FIG. 2D is a block diagram illustrating the overall configuration of an encoding apparatus according to another embodiment of the present invention.
  • FIG. 3 is a diagram illustrating a core encoding unit according to an embodiment of the present invention.
  • FIG. 4 is a diagram illustrating an extended encoding unit of an encoding apparatus according to an embodiment of the present invention.
  • FIG. 5 is a diagram illustrating an extension encoding unit of an encoding apparatus according to another embodiment of the present invention.
  • FIG. 6 is a block diagram of a basic signal generator of the extension coding unit according to an embodiment of the present invention.
  • FIG. 7 is a diagram illustrating an element estimating unit of an extension encoding unit according to an embodiment of the present invention.
  • FIG. 8 is a view for explaining the operation of the energy quantization unit according to an embodiment of the present invention.
  • FIG. 9 is a diagram illustrating a process of quantizing energy according to an embodiment of the present invention.
  • FIG. 10 is a diagram illustrating a process of generating an artificial signal according to an embodiment of the present invention.
  • 11A to 11B are views illustrating a window for envelope estimation according to an embodiment of the present invention.
  • 12A is a block diagram illustrating a decoding apparatus according to an embodiment of the present invention.
  • 12B is a block diagram illustrating a decoding apparatus according to another embodiment of the present invention.
  • 12C is a diagram illustrating an FD decoding unit of a decoding apparatus according to an embodiment of the present invention.
  • 12D is a block diagram illustrating a decoding apparatus according to another embodiment of the present invention.
  • FIG. 13 is a block diagram of an extension decoding unit of a decoding apparatus according to an embodiment of the present invention.
  • FIG. 14 is a diagram illustrating an operation of an inverse quantization unit of an enhancement decoding unit according to an embodiment of the present invention.
  • 15B is a flowchart illustrating an encoding method according to an embodiment of the present invention.
  • 15B is a flowchart illustrating an encoding method according to another embodiment of the present invention.
  • 15C is a flowchart illustrating an encoding method according to another embodiment of the present invention.
  • 16A is a flowchart illustrating a decoding method according to an embodiment of the present invention.
  • 16B is a flowchart illustrating a decoding method according to another embodiment of the present invention.
  • 16C is a flowchart illustrating a decoding method according to another embodiment of the present invention.
  • 17 is a block diagram showing the overall configuration of an encoding apparatus according to another embodiment of the present invention.
  • FIG. 18 is a diagram illustrating an operation performed by an energy quantization unit of an encoding apparatus according to another embodiment of the present invention.
  • 19 is a diagram illustrating a process of quantizing energy using an unbalanced bit allocation method according to an embodiment of the present invention.
  • 20 is a diagram illustrating a process of performing vector quantization using intra frame prediction according to an embodiment of the present invention.
  • 21 is a diagram illustrating a process of quantizing energy using a frequency weighting method according to an embodiment of the present invention.
  • 22 is a diagram illustrating a process of performing vector quantization using multi-stage split and vector quantization using intra frame prediction according to an embodiment of the present invention.
  • FIG. 23 is a diagram illustrating an operation performed by the inverse quantization unit of the decoding apparatus according to an embodiment of the present invention.
  • FIG. 24 is a diagram illustrating another structure of an encoding apparatus according to an embodiment of the present invention.
  • 25 is a diagram illustrating an example of a bit stream according to an embodiment of the present invention.
  • 26 is a diagram illustrating an example of frequency allocation for each frequency band according to an embodiment of the present invention.
  • FIG. 27 is a diagram illustrating an example of a frequency band applied in the FD coding unit or the FD decoding unit according to an embodiment of the present invention.
  • FIG. 1 is a block diagram illustrating an encoding apparatus and a decoding apparatus according to an embodiment of the present invention.
  • the encoding apparatus 101 can generate a base signal of an input signal and transmit the base signal to the decoding apparatus 102.
  • the basic signal is generated based on a low-frequency signal and may be an excitation signal for extending the high-frequency bandwidth because the envelope information of the low-frequency signal is a whitened signal.
  • the decoding apparatus 102 can recover the input signal from the basic signal. That is, the encoding apparatus 101 and the decoding apparatus 102 perform SWB BWE (Super Wide Band Bandwidth Extension).
  • the SWB BWE can generate a 6.4-16KHz signal, which is a high frequency region corresponding to the SWB, based on a decoded WB (wide band) signal of 0 to 6.4KHz, which is a low frequency region.
  • the decoded WB signal may be a signal generated through a Speech Codec in accordance with CELP (Code Excited Linear Prediction) based on Linear Prediction Domain (LPD), or a signal generated by a method of performing quantization in the frequency domain.
  • CELP Code Excited Linear Prediction
  • LPD Linear Prediction Domain
  • the quantization in the frequency domain is AAC (Advanced Audio Coding) which is performed based on a Modified Discrete Cosine Transform (MDCT).
  • MDCT Modified Discrete Cosine Transform
  • FIG. 2A is a block diagram illustrating an overall configuration of an encoding apparatus according to an embodiment of the present invention. Referring to FIG.
  • the encoding apparatus 101 may include a downsampling unit 201, a core encoding unit 202, a frequency conversion unit 203, and an enhancement encoding unit 204.
  • the downsampling unit 201 may downsample an input signal for WB (wide band) coding. Since a super wide band (SWB) signal, which is an input signal, is generally a signal having a sampling rate of 32 KHz, it is necessary to convert it to a sampling rate suitable for WB coding. For example, the downsampling unit 201 may downsample an input signal representing a 32 KHz sampling rate to 12.8 KHz.
  • WB wide band
  • the core coding unit 202 can core-code the downsampled input signal. That is, the core coding unit 202 can perform WB coding. For example, the core coding unit 202 may perform WB coding of the CELP scheme.
  • the frequency converter 203 can frequency-convert the input signal.
  • the frequency converter 203 may frequency-convert an input signal using either Fast Fourier Transform (FFT) or Modified Discrete Coding Transform (MDCT).
  • FFT Fast Fourier Transform
  • MDCT Modified Discrete Coding Transform
  • the extension coding unit 204 may perform the bandwidth extension coding using the basic signal of the input signal in the frequency domain. That is, the extension coding unit 204 can perform the SWB BWE coding based on the input signal in the frequency domain. In this case, the extension coding unit 204 does not receive the coding information as an input in Fig.
  • the extension coding unit 204 may perform the bandwidth extension coding using the characteristics of the basic signal and the input signal of the input signal in the frequency domain.
  • the extension coding unit 204 may be embodied as a block diagram as shown in FIGS. 4 and 5 according to the source of the characteristics of the input signal.
  • extension coding unit 204 The operation of the extension coding unit 204 will be described in detail with reference to FIG. 4 and FIG.
  • the upper path represents a core encoding process and the lower path represents a bandwidth extension encoding process.
  • the energy information of the input signal can be transmitted to the decoding apparatus 102 through the SWB BWE coding process.
  • FIG. 2B is a block diagram illustrating the overall configuration of an encoding apparatus according to another embodiment of the present invention.
  • the coding apparatus 101 includes a signal classifying unit 205, a CELP (Code Excited Linear Prediction) coding unit 206, a TD (Time Domain) extended coding unit 207, a frequency transforming unit 208, And a frequency domain (FD) encoding unit 209.
  • a CELP Code Excited Linear Prediction
  • TD Time Domain
  • FD frequency domain
  • the signal classifying unit 205 determines the encoding mode of the input signal by referring to the characteristics of the input signal.
  • the encoding mode according to the present embodiment can be a coding scheme.
  • the signal classifying unit 205 can determine a coding mode of the input signal in consideration of the time domain characteristic and the frequency domain characteristic of the input signal. When the characteristics of the input signal correspond to the audio signal, the signal classifying unit 205 determines that CELP encoding is to be performed on the input signal. When the characteristic of the input signal corresponds to the audio signal, the signal classifying unit 205 performs FD coding Can be determined to be performed.
  • the input signal input to the signal classifying unit 205 may be a signal down-sampled by a down-sampling unit (not shown).
  • the input signal according to the present embodiment may be a signal having a sampling rate of 12.8 kHz or 16 kHz by re-sampling a signal having a sampling rate of 32 kHz or 48 kHz. At this time, re-sampling may be down-sampling.
  • a signal having a sampling rate of 32 kHz may be a super wide band (SWB) signal, and the SWB signal may be a full band (FB) signal.
  • a signal having a sampling rate of 16 kHz may be a WB (Wide Band) signal.
  • the signal classifying unit 205 can determine the encoding mode of the low-frequency signal to be one of the CELP mode and the FD mode with reference to the characteristic of the low-frequency signal corresponding to the low-frequency region of the input signal.
  • the CELP encoding unit 206 When the encoding mode of the input signal is determined to be the CELP mode, the CELP encoding unit 206 performs CELP encoding on the low-frequency signal of the input signal. For example, the CELP encoding unit 206 extracts an excitation signal from a low-frequency signal of an input signal, and outputs the extracted excitation signal to an adaptive codebook contribution corresponding to pitch information and a fixed codebook contribution Can be quantized.
  • the CELP encoding unit 206 extracts a linear prediction coefficient (LPC) from a low-frequency signal of an input signal, quantizes the extracted linear prediction coefficient, And extracting the excitation signal using the linear prediction coefficient.
  • LPC linear prediction coefficient
  • the CELP encoding unit 206 can perform CELP encoding according to various encoding modes according to characteristics of a low-frequency signal of an input signal.
  • the CELP coding unit 206 may be a voiced coding mode, an unvoiced coding mode, a transition coding mode, or a generic coding mode It is possible to perform CELP encoding on the low-frequency signal of the input signal in any one encoding mode.
  • the TD-extension coding unit 207 When CELP encoding is performed on the low-frequency signal of the input signal, the TD-extension coding unit 207 performs extension coding on the high-frequency signal of the input signal. For example, the TD-extension coding unit 207 quantizes the linear prediction coefficients of the high-frequency signal corresponding to the high-frequency domain of the input signal. At this time, the TD extension coding unit 207 may extract the linear prediction coefficients of the high-frequency signal of the input signal and may quantize the extracted linear prediction coefficients. Further, the TD-extension coding unit 207 according to the present embodiment may generate a linear prediction coefficient of the high-frequency signal of the input signal using the excitation signal of the low-frequency signal of the input signal.
  • the TD extension coding unit 207 may be a TD high frequency extension coding unit, but is not limited thereto.
  • the frequency converter 208 frequency-converts the input signal.
  • the frequency converter 208 may use a frequency conversion scheme that overlaps an input signal with respect to frames such as Modified Discrete Cosine Transform (MDCT), but the present invention is not limited thereto.
  • MDCT Modified Discrete Cosine Transform
  • the FD encoding unit 209 performs FD encoding on the frequency-converted input signal.
  • the FD coding unit 209 can perform FD coding on the frequency spectrum converted by the frequency conversion unit 208.
  • the FD coding unit 209 will be described below in detail with reference to FIG. 2C.
  • the encoding apparatus 101 can output an encoded bit stream using an encoding method according to the above-described input signal.
  • a bitstream in which an input signal is encoded may include a header and a payload.
  • the header may include encoding mode information indicating a mode in which the input signal is encoded
  • the payload may include CELP information and TD high frequency extension information when the input signal is coded in the CELP mode, And may include prediction data and FD information when the input signal is encoded in the FD mode.
  • the encoded bitstream according to the present embodiment may further include the mode information of the previous frame in the header of the bitstream in order to prepare for the occurrence of a frame error.
  • the header of the bitstream may further include mode information of the previous frame when the encoding board of the input signal is determined to be the FD mode. This will be described in more detail below in Fig.
  • the encoding apparatus 101 since the encoding apparatus 101 according to the present embodiment is switched to use either the CELP mode or the FD mode according to the characteristics of the input signal, the encoding apparatus 101 can perform an appropriate encoding mode according to the characteristics of the input signal have. In addition, the encoding apparatus 101 according to the present embodiment can perform encoding suitable for a high bit rate environment by using the FD mode according to the determination of the signal classifying unit 205. [
  • 2C is a diagram illustrating an FD encoding unit of an encoding apparatus according to an embodiment of the present invention.
  • the FD coding unit 209 includes a Norm coding unit 2091, a FPC (Factorial Pulse Coding) coding unit 2092, a noise adding information generating unit 2093, and a FD coding unit 2094 can do.
  • the norm encoding unit 2091 extracts energy for each frequency band with respect to the input signal transformed by the frequency transforming unit 208, and quantizes the extracted energy.
  • the Norm encoding unit 2091 can scale based on the extracted energy, and the energy value to be scaled can be quantized.
  • the energy value according to the present embodiment can be obtained by using a measurement method that is proportional to energy of a frequency band such as energy, power, and the like.
  • Norm information according to a quantized result in the norm encoding unit 2091 can be included in the encoded bit stream and transmitted to the decoding apparatus 102.
  • the Norm encoding unit 2091 divides a frequency spectrum corresponding to an input signal into a predetermined number of frequency bands, extracts a frequency spectrum for each divided frequency band, quantizes the extracted energy value do. As such, the quantized value can be used to normalize the frequency spectrum.
  • the Norm encoding unit 2091 may further perform a process of encoding the quantized values.
  • the FPC encoding unit 2092 performs FPC encoding on the scaled value of the input signal with the quantized norm value. That is, the FPC encoding unit 2092 can perform FPC encoding on the spectral values normalized by the Norm encoding unit 2091.
  • the FPC encoding unit 2092 allocates the available number of bits for each divided frequency band, and performs FPC encoding according to the number of bits allocated for each frequency band with respect to the normalized spectrum value. In this case, the number of bits allocated to each frequency band may be determined according to a target bit rate.
  • the FPC encoding unit 2092 may also calculate a bit allocated for each frequency band using the Norm encoded value quantized by the Norm encoding unit 2091. [ In this case, the FPC encoding unit 2092 may perform FPC encoding on the frequency-transformed spectrum rather than the normalized spectrum.
  • the noise additional information generation unit 2093 generates noise additional information as FPC encoding is performed.
  • the noise additional information generation section 2093 refers to the FPC encoding section 2092 performing FPC encoding on the frequency spectrum, and generates an appropriate noise level.
  • the additional information generated by the noise additional information generation unit 2093 may be included in the encoded bit stream so as to be referred to when noise filling is performed at the decoding end.
  • the FD extension coding unit 2094 performs extension coding on the high-frequency signal of the input signal. More specifically, the FD extension coding unit 2094 performs high frequency extension using the low frequency spectrum.
  • the FD extension coding unit 2094 quantizes the frequency domain energy information of the high frequency signal corresponding to the high frequency region of the input signal. At this time, the FD extension coding unit 2094 divides the frequency spectrum corresponding to the input signal into a predetermined number of frequency bands, acquires the energy of the frequency spectrum for each divided frequency band, and uses MSVQ (Multi stage Vector Quantization) method. At this time, the MSVQ scheme can be multi-stage vector quantization.
  • MSVQ Multi stage Vector Quantization
  • the FD extension coding unit 2094 performs a VQ on the energy information of odd-numbered bands among a predetermined number of frequency bands, and uses the quantized values according to the result of performing the VQ to generate even- , And perform the VQ for the prediction error obtained in the next stage.
  • the present invention is not limited to this, and the FD extension coding unit 2094 may perform the VQ by collecting the energy information of the even-numbered bands and obtain the prediction error of the odd-numbered bands by using the quantized values according to the result of performing the VQ It is possible.
  • the FD-extension coding unit 2094 uses the quantized value according to the result of performing the VQ on the n-th band and the quantized value according to the result of performing the VQ on the (n + 2) 1 < / RTI > band.
  • n may be a natural number.
  • the FD extension coding unit 2094 simulates a method of generating an excitation signal in a predetermined frequency band, If the characteristics of the excitation signal and the characteristics of the original signal of the predetermined frequency band are different, the energy can be adjusted.
  • the characteristic of the excitation signal and the characteristic of the original signal according to the simulation result may be at least one of tonality and noise factor, but it is not limited thereto. Accordingly, it is possible to prevent an increase in noise when decryption is performed at the decoding end, such as real energy.
  • the FD extension coding unit 2094 may use a multi mode bandwidth extension method using various excitation signal generation methods according to the characteristics of a high frequency signal of an input signal. For example, the FD extension coding unit 2094 may use either a normal mode, a harmonic mode, or a noise mode for each frame according to the characteristics of an input signal, Lt; / RTI >
  • the FD extension coding unit 2094 can generate signals for different frequency bands according to the bit rate. That is, the high frequency bands corresponding to the high frequency signals to be subjected to the extension coding in the FD extension coding unit 2094 may be set differently according to the bit rate.
  • the FD extension coding unit 2094 is used to generate a signal corresponding to a frequency band of about 6.4 to 14.4 kHz at a bit rate of 16 kbps and a signal corresponding to a frequency band of about 8 to 16 kHz at a bit rate of 16 kbps or more . ≪ / RTI > The FD extension coding unit 2094 performs extension coding on a high frequency signal corresponding to a frequency band of about 6.4 to 14.4 kHz at a bit rate of 16 kbps and a high frequency signal corresponding to a frequency band of about 8 to 16 kHz at a bit rate of 16 kbps or more And performs extension encoding on the signal.
  • the FD extension coding unit 2094 can perform energy quantization by sharing the same codebook for different bitrates. This will be described in more detail below in Fig.
  • the FD coding unit 209 When a stationary frame is input, the FD coding unit 209 according to the present embodiment includes a Norm coding unit 2091, an FPC coding unit 2092, a noise adding information generating unit 2093, and a FD extension coding unit 2094 May be performed.
  • the FD extension coding unit 2094 may not operate in the FD coding unit 209 according to the present embodiment.
  • the Norm coding unit 2091 and the FPC coding unit 2092 of the FD coding unit 209 apply the higher band value Fcore of the frequency band for performing the FPC coding more than when the stationary frame is input .
  • the Fcore value will be described below in more detail in Fig.
  • FIG. 2D is a block diagram illustrating the overall configuration of an encoding apparatus according to another embodiment of the present invention.
  • the coding apparatus 101 includes a signal classifying unit 210, an LPC coding unit 211, a CELP coding unit 212, a TD extension coding unit 213, an audio coding unit 214, And an encoding unit 215.
  • the signal classifying unit 210 determines a coding mode of the input signal by referring to characteristics of the input signal.
  • the encoding mode according to the present embodiment can be a coding scheme.
  • the signal classifier 210 may determine the coding mode of the input signal in consideration of the time domain characteristic and the frequency domain characteristic of the input signal.
  • the signal classifying unit 205 determines that CELP encoding is to be performed on the input signal.
  • the characteristic of the input signal corresponds to the audio signal, Can be determined to be performed.
  • the LPC encoding unit 211 extracts a linear prediction coefficient (LPC) from a low-frequency signal of an input signal, and quantizes the extracted linear prediction coefficient.
  • LPC linear prediction coefficient
  • the LPC encoder 211 may use a trellis coded quantization (TCQ) scheme, a multi-stage vector quantization (MSVQ) scheme, a lattice vector quantization (LVQ)
  • TCQ trellis coded quantization
  • MSVQ multi-stage vector quantization
  • LVQ lattice vector quantization
  • the coefficients may be quantized, but are not limited thereto.
  • the LPC encoding unit 211 re-samples an input signal having a sampling rate of 32 kHz or 48 kHz to generate a linear low-frequency signal from a low-frequency signal of an input signal having a sampling rate of 12.8 kHz or 16 kHz Prediction coefficients can be extracted.
  • a signal having a sampling rate of 32 kHz may be an SWB (Super Wide Band) signal, and the SWB signal may be a full band (FB) signal.
  • a signal having a sampling rate of 16 kHz may be a WB (Wide Band) signal.
  • the LPC encoding unit 211 may further include a process of extracting an LPC excitation signal using the quantized linear prediction coefficients, but the present invention is not limited thereto.
  • the CELP encoding unit 212 When the encoding mode of the input signal is determined to be the CELP mode, the CELP encoding unit 212 performs CELP encoding on the extracted LPC excitation signal using the linear prediction coefficient. For example, the CELP encoding unit 212 can quantize the LPC excitation signal in consideration of each of the adaptive codebook contribution and the fixed codebook contribution corresponding to the pitch information. At this time, the LPC excitation signal may be generated in at least one of the CELP encoding unit 212 and the LPC encoding unit 211.
  • the CELP encoding unit 212 can perform CELP encoding according to various encoding modes according to characteristics of a low-frequency signal of an input signal.
  • the CELP coding unit 206 may be a voiced coding mode, an unvoiced coding mode, a transition coding mode, or a generic coding mode It is possible to perform CELP encoding on the low-frequency signal of the input signal in any one encoding mode.
  • the TD extension coding unit 213 When the CELP encoding is performed on the LPC excitation signal of the low frequency signal of the input signal, the TD extension coding unit 213 performs the extension coding on the high frequency signal of the input signal.
  • the TD extension coding unit 213 quantizes the linear prediction coefficients of the high-frequency signal of the input signal.
  • the TD-extension coding unit 213 may extract the linear prediction coefficient of the high-frequency signal of the input signal using the LPC excitation signal of the low-frequency signal of the input signal.
  • the TD extension coding unit 213 may be a TD high frequency extension coding unit, but is not limited thereto.
  • the audio encoding unit 214 When the encoding mode of the input signal is determined to be the audio encoding mode, the audio encoding unit 214 performs audio encoding on the LPC excitation signal extracted using the linear prediction coefficient.
  • the audio encoding unit 214 frequency-converts the LPC excitation signal extracted using the linear prediction coefficient, and quantizes the converted LPC excitation signal.
  • a frequency conversion method in which there is no overlapping region between frames such as DCT (Discrete Cosine Transform)
  • DCT Discrete Cosine Transform
  • the audio encoding unit 214 may perform quantization according to the FPC scheme or the Lattice VQ (LVQ) scheme on the frequency-converted excitation signal spectrum.
  • LVQ Lattice VQ
  • the audio encoding unit 214 may quantize the TD coding information of the adaptive codebook contribution and the fixed codebook contribution in consideration of the bit margin.
  • FD encoding unit 215 encodes the LPC excitation signal of the low frequency signal of the input signal, and then performs extension encoding on the high frequency signal of the input signal. That is, the FD extension coding unit 215 performs high frequency extension using the low frequency spectrum.
  • the FD extension coding unit 215 quantizes the frequency domain energy information of the high frequency signal corresponding to the high frequency region of the input signal.
  • the FD extension coding unit 215 generates a frequency spectrum using a frequency conversion scheme such as MDCT, divides the frequency spectrum into a predetermined number of frequency bands, acquires energy of the frequency spectrum for each of the divided frequency bands , And the MSVQ (Multi-stage Vector Quantization) scheme can be performed using the obtained energy.
  • the MSVQ scheme can be multi-stage vector quantization.
  • the FD extension coding unit 215 performs a VQ on the energy information of odd-numbered bands among a predetermined number of frequency bands, and uses the quantized values according to the result of performing the VQ to calculate an even- , And perform the VQ for the prediction error obtained in the next stage.
  • the present invention is not limited to this, and the FD extension coding unit 215 may collect the energy information of the even-numbered bands to perform the VQ and obtain the prediction error of the odd-numbered bands using the quantized values according to the result of performing the VQ It is possible.
  • the FD-extension coding unit 215 uses the quantized value according to the result of performing the VQ on the n-th band and the quantized value according to the result of performing the VQ on the (n + 2) 1 < / RTI > band.
  • n may be a natural number.
  • the FD extension coding unit 215 performs a simulation of generating an excitation signal in a predetermined frequency band in performing the VQ by collecting the energy information in the FD extension coding unit 215, If the characteristics of the excitation signal and the characteristics of the original signal of the predetermined frequency band are different, the energy can be adjusted.
  • the characteristic of the excitation signal and the characteristic of the original signal according to the simulation result may be at least one of tonality and noise factor, but it is not limited thereto. Accordingly, it is possible to prevent an increase in noise when decryption is performed at the decoding end, such as real energy.
  • the FD extension coding unit 215 may use a multi mode bandwidth extension method using various excitation signal generation methods depending on the characteristics of a high frequency signal of an input signal. For example, the FD-extension coding unit 215 may generate one of a normal mode, a harmonic mode, a transient mode, and a noise mode for each frame according to characteristics of an input signal Mode can be used to generate an excitation signal. In this case, the temporal envelope information can also be quantized together in the transition mode.
  • the FD extension coding unit 215 can generate signals for different frequency bands according to the bit rate. That is, the high frequency bands corresponding to the high frequency signals to be subjected to the extension coding in the FD extension coding unit 215 may be set differently according to the bit rate.
  • the FD extension encoding unit 215 is used to generate a signal corresponding to a frequency band of about 6.4 to 14.4 kHz at a bit rate of 16 kbps, and a signal corresponding to a frequency band of about 8 to 16 kHz at a bit rate of 16 kbps or more .
  • the FD extension coding unit 215 performs extension coding on a high frequency signal corresponding to a frequency band of about 6.4 to 14.4 kHz at a bit rate of 16 kbps and a high frequency signal corresponding to a frequency band of about 8 to 16 kHz at a bit rate of 16 kbps or more And performs extension encoding on the signal.
  • the FD extension coding unit 215 can perform energy quantization by sharing the same codebook for different bitrates. This will be described in more detail below in Fig.
  • the encoding apparatus 101 can output an encoded bit stream using an encoding method according to the above-described input signal.
  • a bitstream in which an input signal is encoded may include a header and a payload.
  • the header may include encoding mode information indicating a mode in which the input signal is encoded
  • the payload may include CELP information and TD high frequency extension information when the input signal is coded in the CELP mode, And may include prediction data, audio encoding information, and FD high frequency extension information when the input signal is encoded in the audio encoding mode.
  • the encoding mode is switched to use either the CELP mode or the audio encoding mode depending on the characteristics of the input signal, so that an appropriate encoding mode can be performed according to the characteristics of the input signal.
  • the encoding apparatus 101 according to the present embodiment can perform encoding suitable for a low bit rate environment by using the FD mode according to the determination of the signal classifying unit 210.
  • FIG. 3 is a diagram illustrating a core encoding unit according to an embodiment of the present invention.
  • the core encoding unit 202 may include a signal classifying unit 301 and an encoding unit 302.
  • the signal classifying section 301 can classify the characteristics of the downsampled input signal (12.8 KHz). That is, the signal classifying unit 301 may classify the input signal into various encoding modes according to characteristics of the input signal. For example, in the ITU-T G.718 codec, the signal classifying unit 301 may classify a speech signal into a voiced coding mode, an unvoiced coding mode, a transition coding mode, And can be classified into a generic coding mode.
  • unvoiced coding mode is designed to encode unvoiced frames and most inactive frames.
  • the encoding unit 302 may perform optimized coding according to the characteristics of the input signal classified by the signal classifying unit 301.
  • FIG. 4 is a diagram illustrating an extended encoding unit of an encoding apparatus according to an embodiment of the present invention.
  • the extension coding unit 204 includes a basic signal generation unit 401, an element estimation unit 402, an energy extraction unit 403, an energy control unit 404, and an energy quantization unit 405 .
  • the extension coding unit 204 can estimate the energy control element without receiving the coding mode.
  • the enhancement encoding unit 204 may estimate the energy control element using the encoding mode. At this time, the encoding mode can be input from the core encoding unit 202.
  • the basic signal generating unit 401 can generate a basic signal of an input signal using the frequency spectrum of the input signal in the frequency domain.
  • the basic signal means a signal for performing the SWB BWE based on the WB signal.
  • the basic signal means a signal constituting the fine structure of the low frequency region. The process of generating the basic signal will be described in more detail with reference to FIG.
  • the element estimation unit 402 may estimate an energy control factor using the basic signal. That is, the encoding apparatus 101 transmits the energy information of the input signal in order to generate the signal of the SWB region in the decoding apparatus 102. At this time, the element estimating unit 402 can estimate an energy control element, which is a parameter for controlling energy, to control energy information from a perceptual point of view. The process of estimating the energy control factor will be described in detail with reference to FIG.
  • the element estimation unit 402 can estimate the energy control element using the characteristics of the basic signal and the input signal. At this time, the characteristics of the input signal can be input from the core coding unit 202.
  • the energy extraction unit 403 can extract energy from an input signal in the frequency domain.
  • the extracted energy is transmitted to the decryption apparatus 102.
  • Energy can be extracted for each frequency band.
  • the energy control unit 404 may control the energy extracted from the input signal using the energy control element. That is, the energy controller 404 can control energy by applying an energy control element to the energy extracted for each frequency band.
  • the energy quantization unit 405 can quantize the controlled energy.
  • the energy can be converted to a dB scale and the quantization can be performed.
  • the energy quantization unit 405 obtains the global energy, which is the total energy, and scalar quantizes the difference between the global energy and the energy per frequency band and the global energy.
  • the first band can directly quantize the energy
  • the second and subsequent bands can quantize the difference from the previous band.
  • the energy quantization unit 405 may directly quantize the energy for each frequency band without using the difference value of the frequency band.
  • scalar or vector quantization can be used. The energy quantization unit 405 will be described in detail with reference to FIGS. 8 and 9. FIG.
  • FIG. 5 is a diagram illustrating an extension encoding unit of an encoding apparatus according to another embodiment of the present invention.
  • the extension coding unit 204 of FIG. 5 may further include a signal classifying unit 501, unlike FIG.
  • the element estimation unit 402 can estimate the energy control element using the characteristics of the basic signal and the input signal. At this time, the characteristics of the input signal can be input from the signal classifying unit 501, not from the core coding unit 202.
  • the signal classifying unit 501 can classify input signals according to characteristics using an input signal (32 KHz, MDCT Spectrum). Specifically, the signal classifying unit 501 may classify the input signal into various coding modes according to characteristics.
  • the energy control element can be estimated and energy can be controlled only for signals suitable for the energy control element estimation process. For example, a signal that does not contain one tonal component, such as a noise signal or an unvoiced signal, may not be suitable for the energy control component estimation process.
  • the extension coding unit 204 can perform the bandwidth extension coding without estimating the energy control element.
  • the basic signal generator 401 the element estimator 402, the energy extractor 403, the energy controller 404, and the energy quantizer 405 are described with reference to FIG.
  • FIG. 6 is a block diagram of a basic signal generator of the extension coding unit according to an embodiment of the present invention.
  • the basic signal generating unit 401 may include an artificial signal generating unit 601, an envelope applying unit 602, and an envelope estimating unit 603. [
  • the artificial signal generating unit 601 may generate an artificial signal corresponding to the high frequency region by copying and folding the low frequency region of the input signal in the frequency domain. That is, the artificial signal generator 601 can generate the artificial signal of the SWB region by copying the low-frequency spectrum of the input signal in the frequency domain. A specific process of generating the artificial signal will be described with reference to FIG.
  • the envelope estimator 602 can estimate the envelope of the basic signal using the window.
  • the envelope of the basic signal can be used to remove the envelope information of the low frequency region contained in the frequency spectrum of the artificial signal of the SWB region.
  • the envelope of a particular frequency index may be determined using a frequency spectrum before and after a particular frequency. Then, the envelope can be estimated through the moving average. For example, if MDCT is used at the time of frequency conversion, the envelope of the basic signal can be estimated through the absolute value of the MDCT-transformed frequency spectrum.
  • the envelope estimator 602 can estimate the average of the frequency magnitudes as the envelope of the frequency belonging to the Whitening band after forming the Whitening band.
  • the number of frequency spectra belonging to the Whitening band may be set to be smaller than the band for extracting the energy.
  • the envelope estimator 602 When estimating the average of the frequency magnitudes for each whitening band by the envelope of the frequency belonging to the whitening band, the envelope estimator 602 transmits information indicating whether the number of spectra included in the whitening band is large or small The degree of flatness of the basic signal can be adjusted.
  • the envelope estimation unit 602 can transmit information based on two schemes, that is, a case of 8 spectrums and a case of 3 spectrums. At this time, when the spectrum is composed of three spectra, a more flattened basic signal can be generated than when composed of eight spectra.
  • the envelope estimation unit 602 can determine the envelope based on the encoding mode used in the core encoding unit 202 without transmitting information on whether the number of spectra included in the whitening band is large or small.
  • the core encoding unit 202 may encode an input signal by dividing the input signal into a voiced sound encoding mode, an unvoiced sound encoding mode, a transient encoding mode, and a generic encoding mode according to characteristics of an input signal.
  • the envelope estimator 602 can control the number of frequency spectra belonging to the whitening band based on the encoding mode according to the characteristics of the input signal. For example, when the input signal is coded according to the voicing mode, the envelope estimator 602 can estimate the envelope by constructing three frequency spectrums in the whitening band. When the input signal is coded according to a coding mode other than the voicing mode, the envelope estimator 602 can estimate the envelope by constructing three frequency spectrums in the whitening band.
  • the envelope application unit 603 can apply the estimated envelope to the artificial signal. This process is called whitening, and artificial signals can be flattened by envelopes.
  • the envelope applying unit 603 can generate the basic signal by dividing the artificial signal into envelopes of the respective frequency indices.
  • FIG. 7 is a diagram illustrating an element estimating unit of an extension encoding unit according to an embodiment of the present invention.
  • the element estimation unit 402 may include a first tonality calculation unit 701, a second threshold calculation unit 702, and an element calculation unit 703.
  • the first threshold calculator 701 may calculate the tonality of the high frequency region of the input signal in the frequency domain. That is, the first threshold calculation unit 701 can calculate the threshold value of the SWB region that is the high-frequency region of the input signal.
  • the second threshold calculator 702 can calculate the threshold of the basic signal.
  • the threshold can be calculated by measuring the spectral flatness. Specifically, the threshold can be calculated according to the following equation (1).
  • the spectral flatness can be measured by the relationship between the geometric mean of the frequency spectrum and the arithmetic mean.
  • the element calculation unit 703 can calculate the energy control element using the threshold of the high frequency region of the input signal and the threshold of the basic signal. At this time, the energy control element can be calculated according to the following equation (2).
  • denotes an energy control element
  • To denotes a threshold of an input signal
  • Tb denotes a threshold of a basic signal
  • Nb is a noisiness factor and indicates the degree of noise included in the signal.
  • the energy control factor may be calculated according to the following equation (3).
  • the element calculation unit 703 can calculate an energy control element for each frequency band.
  • the calculated energy control element may be applied to the energy of the input signal.
  • the energy control element may be applied to the energy of the input signal when the energy control element is smaller than a predetermined threshold energy control element.
  • FIG. 8 is a view for explaining the operation of the energy quantization unit according to an embodiment of the present invention.
  • the energy quantization unit 405 may pre-process the vector of energy due to the energy control element and select a subvector of the preprocessed energy vector. For example, the energy quantization unit 405 may subtract an average value for each energy vector, or calculate a weight for each importance of the energy vector. At this time, the weight for importance can be calculated in the direction of maximizing the sound quality of the synthesized sound.
  • the energy quantization unit 405 can appropriately select the subvector of the energy vector in consideration of the coding efficiency. In order to improve the interpolation effect, the energy quantization unit 405 can select subvectors at equal intervals.
  • the energy quantization unit 405 can select a subvector according to Equation (4) below.
  • step S802 the energy quantization unit 405 quantizes and dequantizes the selected subvector.
  • the energy quantization unit 405 may quantize the subvector by selecting a quantization index that minimizes the MSE calculated according to Equation (5).
  • the energy quantization unit 405 may quantize the subvector according to any one of scalar quantization, vector quantization, trellis coded quantization (TCQ), and lattice VQ (LVQ).
  • vector quantization can be multi-stage VQ or split VQ, and split VQ and multi-stage VQ can be used at the same time.
  • the quantization index is transmitted to the decoding apparatus 102.
  • the energy quantization unit 405 can obtain the optimized quantization index using the WMSE (weighted MSE) to which the weight is applied.
  • the weighted MSE can be calculated according to Equation (6).
  • the energy quantization unit 405 may calculate the value of the remaining unselected subvectors by interpolating the quantized subvectors.
  • step S804 the energy quantization unit 405 can calculate an interpolation error that is a difference between the interpolated residual subvector and the remaining subvectors matched to the original energy vector.
  • the energy quantization unit 405 can quantize and dequantize the interpolation error. At this time, the energy quantization unit 405 can quantize the interpolation error using the quantization index that minimizes the MSE.
  • the energy quantization unit 405 can quantize the interpolation error according to any one of scalar quantization, vector quantization, trellis coded quantization (TCQ), and lattice VQ (LVQ). In this case, vector quantization can be multi-stage VQ or split VQ, and split VQ and multi-stage VQ can be used at the same time. If the importance weight is calculated in the preprocessing process, the energy quantization unit 405 can obtain the optimized quantization index using the WMSE (weighted MSE) to which the weight is applied.
  • WMSE weighted MSE
  • step S806 the energy quantization unit 405 calculates the remaining unselected subvectors by interpolating the quantized vectors of the selected subvectors, adds the quantized interpolation errors calculated in step S805, and outputs the final quantized Energy can be calculated.
  • the energy quantization unit 405 may calculate the quantized energy finally by adding the mean value subtracted in the preprocessing process through the post-process.
  • the energy quantization unit 405 performs quantization using candidates of K subvectors to improve the quantization performance with the same codebook.
  • K is 2 or more
  • the energy quantization unit 405 may perform a distortion measure to determine a candidate for an optimal subvector.
  • the distortion measure can be determined according to two methods.
  • the energy quantization unit 405 generates an index set of a mean square error (MSE) or a weighted mean square error (WMSE) at each stage for each of the subvector candidates, and then the sum of MSEs or WMSEs of all stages is The candidate of the smallest subvector can be selected. In this case, there is an advantage that the amount of calculation is low.
  • MSE mean square error
  • WMSE weighted mean square error
  • the energy quantization unit 405 generates an index set that minimizes a mean square error (MSE) or a weighted mean square error (WMSE) at each stage for each of the subvector candidates,
  • MSE mean square error
  • WMSE weighted mean square error
  • the candidate of the subvector that minimizes the MSE or WMSE between the restored energy vector and the original energy vector can be selected.
  • the MSE is obtained using the actual quantized value, which is advantageous in performance.
  • FIG. 9 is a diagram illustrating a process of quantizing energy according to an embodiment of the present invention.
  • the energy vector represents 14 dimensions.
  • the energy quantization unit 405 selects only an even number in the energy vector and selects a subvector having seven dimensions.
  • the energy quantization unit 405 uses the split 2nd stage vector quantization to improve the performance.
  • the energy quantization unit 405 performs quantization using the 1st stage error signal in the 2nd stage.
  • the energy quantization unit 405 obtains an interpolation error through an inverse quantization process of the selected subvector, and the interpolation error is quantized using the split second stage vector quantization.
  • FIG. 10 is a diagram illustrating a process of generating an artificial signal according to an embodiment of the present invention.
  • the artificial signal generator 601 can copy the frequency spectrum 1001 corresponding to the low frequency region fL to 6.4 KHz in the entire frequency band.
  • the copied frequency spectrum 1001 is shifted to a frequency range of 6.4 to 12.8-fLKHz.
  • the frequency spectrum corresponding to the 12.8-fL to 16KHz frequency range can be generated by folding the frequency spectrum of the 6.4 to 12.8-fLKHz frequency range. That is, an artificial signal corresponding to the SWB in the high frequency region is generated to 6.4 to 16 KHz.
  • the transform used to generate the frequency spectrum is MDCT
  • the frequency index of the MDCT corresponding to 6.4 kHz is an even number
  • the frequency index of fL must be an even number.
  • the frequency index of the MDCT corresponding to .4 kHz is an odd number
  • the frequency index of fL must also be an odd number.
  • the index corresponding to 6.4 kHz becomes the 256th index (6400/16000 * 640) even number.
  • fL must be an even number. That is, fL 2 (50 Hz) and 4 (100 Hz) can be used. This process applies equally to the decoding process.
  • 11A to 11B are views illustrating a window for envelope estimation according to an embodiment of the present invention.
  • peak positions of the window 1101 and the window 1102 indicate a frequency index for estimating the current envelope.
  • the envelope estimate for the base signal can be performed according to Equation (7).
  • the window 1101 and the window 1102 can always be used fixedly, in which case no additional bits are required to be transmitted.
  • information indicating whether a window is used for envelope estimation needs to be expressed in bits and further transmitted to the decoding apparatus 102. These bits may be transmitted on a frequency band basis or once per frame.
  • the window 1102 adds a weight to the frequency spectrum corresponding to the current frequency index rather than the window 1101 to estimate an envelope.
  • the base signal generated by the window 1102 is generated more flat than the base signal generated by the window 1101.
  • the kind of the window can be selected by comparing the frequency spectrum of the input signal with the respective basic signals generated by the window 1101 and the window 1102.
  • a window can be selected to have similar thresholds by comparing the tonality in the high-frequency domain. Then, a window having a high degree of correlation can be selected through comparison of correlations in the high frequency region.
  • 12A is a block diagram illustrating a decoding apparatus according to an embodiment of the present invention.
  • the decoding apparatus 102 may include a core decoding unit 1201, an upsampling unit 1202, a frequency conversion unit 1204, an extended decoding unit 1204, and a frequency inverse transforming unit 1205 have.
  • the core decoding unit 1201 can core decode the core encoded input signal included in the bitstream.
  • a signal having a sampling rate of 12.8 KHz can be extracted through the core decoding process.
  • the upsampling unit 1202 can upsample the core decoded input signal.
  • a signal having a sampling rate of 32 KHz can be extracted through upsampling.
  • the frequency converter 1204 may frequency-convert the upsampled input signal.
  • the frequency conversion can use the same method as the frequency conversion method used in the encoder, and for example, MDCT can be used.
  • the extension decoding unit 1204 may perform the bandwidth extension decoding using the energy of the input signal included in the bitstream and the input signal in the frequency domain. The operation of the extended decoding unit 1204 will be described in detail with reference to FIG.
  • the frequency inverse transformer 1205 can perform inverse frequency transform on the result of performing the bandwidth extension decoding. For example, inverse modified discrete cosine transform (IMDCT) by performing inverse conversion of the frequency conversion scheme used in the frequency conversion unit 1204.
  • IMDCT inverse modified discrete cosine transform
  • 12B is a block diagram illustrating a decoding apparatus according to another embodiment of the present invention.
  • the decoding apparatus 102 includes a mode information checking unit 1206, a CELP decoding unit 1207, a TD extension decoding unit 1208, an FD decoding unit 1209, and an inverse frequency transforming unit 1210 .
  • the mode information checking unit 1206 checks mode information on each of the frames included in the bitstream.
  • the bit stream may be a signal transmitted to the decoding apparatus 102 according to the bit stream according to the result encoded by the encoding apparatus 101.
  • the mode information checking unit 1206 parses the mode information from the encoded bit stream, and switches the decoding mode to either the CELP decoding mode or the FD decoding mode according to the encoding mode of the current frame according to the parsing result. Perform the operation.
  • the mode information checking unit 1206 switches the CELP mode-encoded frame to perform CELP decoding, and the FD-mode encoded frame is subjected to FD decoding .
  • the CELP decoding unit 1207 performs CELP decoding on the CELP encoded frame according to the inspection result. For example, the CELP decoding unit 1207 decodes the linear prediction coefficients included in the bitstream, decodes the adaptive codebook contribution and the fixed codebook contribution, synthesizes the decoded results, and decodes the decoded low- Frequency signal.
  • the TD extension decoding unit 1208 generates a decoded signal for a high frequency using at least one of a result of CELP decoding and an excitation signal of a low frequency signal. At this time, the excitation signal of the low frequency signal can be included in the bit stream. In addition, the TD extension decoding unit 1208 may utilize the linear prediction coefficient information for the high-frequency signal included in the bitstream to generate a high-frequency signal, which is a decoded signal for a high frequency.
  • the TD extension decoding unit 1208 can generate the decoded signal by combining the generated high-frequency signal with the low-frequency signal generated by the CELP decoding unit 1207. At this time, the TD extension decoding unit 1208 may further perform a process of converting the low-frequency signal and the high-frequency signal so that the sampling rates of the low-frequency signal and the high-frequency signal are the same.
  • the FD decoding unit 1209 performs FD decoding on the FD encoded frame according to the inspection result.
  • the FD decoding unit 1209 can generate a frequency spectrum by decoding the bit stream.
  • the FD decoding unit 1209 according to the present embodiment can perform decoding by referring to the mode information of the previous frame included in the bitstream. That is, the FD decoding unit 1209 can perform FD decoding on the FD encoded frame with reference to the previous frame mode information included in the bitstream. This will be described in more detail in Fig.
  • the FD decoding unit 1209 will be described below in detail with reference to FIG. 12C.
  • the frequency inverse transform unit 1210 performs frequency inverse transform on the result of performing the FD decoding.
  • the frequency inverse transformer 1210 performs frequency inverse transform on the FD-decoded frequency spectrum to generate a decoded signal.
  • the frequency inverse transform unit 1210 may perform Inverse MDCT, but is not limited thereto.
  • the decoding apparatus 102 can decode the bitstream by referring to the encoding mode of each of the frames of the bitstream.
  • 12C is a diagram illustrating an FD decoding unit of a decoding apparatus according to an embodiment of the present invention.
  • the FD decoding unit 1209 may include a norm decoding unit 12091, an FPC decoding unit 12092, a noise filling performing unit 12093, and an FD decoding decoding unit 12094
  • the FD extension decoding unit 12094 may include an FD low frequency extension decoding unit 12095 and an FD high frequency extension decoding unit 12096.
  • the norm decoding unit 12091 performs norm decoding by referring to the norm information of the bitstream.
  • the norm information of the bitstream may be information according to the result encoded by the Norm encoding unit 2091 of FIG.
  • the FPC decoding unit 12092 performs FPC decoding based on the FPC encoding information of the bitstream.
  • the FPC encoding information may be information according to the result of the encoding by the FPC encoding unit 209 of FIG.
  • the FPC decoding unit 12092 performs FPC decoding by allocating the available number of bits for each frequency band in the same manner as the FPC decoding unit 2092 of FIG. 2C.
  • the noise filling performing unit 12093 performs noise filling on the result of FPC decoding. For example, the noise filler 12093 adds noise to a frequency band on which FPC decoding is performed. At this time, the noise filling performing unit 12093 adds noise to the last frequency band of the frequency band in which the FPC decoding is performed. In this regard, Fig. 27 will be described in more detail.
  • the FD extension decoding unit 12094 may include an FD low frequency extension decoding unit 12095 and an FD high frequency extension decoding unit 12096.
  • FD low-frequency extension decoding unit 12095 performs FPC decoding and noise filling when the higher band value Ffpc of the frequency band for performing FPC decoding is smaller than the higher band value Fcore of the frequency band for performing FPC coding And performs extension coding on the result.
  • the FD low-frequency extension decoding unit 12095 generates a frequency spectrum up to an upper band value Fcore of a frequency band in which FPC coding is performed using the frequency spectrum generated by FPC decoding and noise filtering.
  • the frequency spectrum generated by the FD low-frequency extension decoding unit 12095 can be multiplied by the norm value decoded by the norm decoding unit 12091 to generate the decoded low-frequency spectrum.
  • the frequency spectrum generated according to the result of FPC decoding and noise filling is multiplied by the norm value decoded by the Norm decoding unit 12091, Gt; low-frequency < / RTI > spectrum.
  • the FD high frequency extension decoding unit 12096 performs high frequency extension decoding using the result of performing FPC decoding and noise filling.
  • the FD high frequency extension decoding unit 12096 according to the present embodiment operates in correspondence with the FD extension coding unit 2094 of FIG.
  • the FD high-frequency extension decoding unit 12096 inversely quantizes the high-frequency energy based on the high-frequency energy information of the bitstream, and outputs the excitation signal of the high-frequency signal using the low-frequency signal according to various modes of the high- And applying the gain so that the energy of the generated excitation signal is symmetrical to the dequantized energy, the decoded high-frequency signal can be generated.
  • the various modes of high frequency bandwidth extension may be a normal mode, a harmonic mode, or a noise mode.
  • the FD high frequency extension decoding unit 12096 can perform energy dequantization by sharing the same codebook for different bit rates. This will be described in more detail in Fig.
  • the FD decoding unit 1209 may further include a norm decoding unit 12091, an FPC decoding unit 12092, a noise filling performing unit 12093, and an FD extension decoding unit 12093, when the frame to be decoded is a stationary frame 12094 may be performed.
  • the FD extension decoding unit 12094 may not operate in the FD decoding unit 1209 according to the present embodiment.
  • 12D is a block diagram illustrating a decoding apparatus according to another embodiment of the present invention.
  • the decoding apparatus 102 includes a mode information checking unit 1211, an LPC decoding unit 1212, a CELP decoding unit 1213, a TD extension decoding unit 1214, an audio decoding unit 1215, And a decoding unit 1216.
  • the mode information checking unit 1211 checks mode information on each of the frames included in the bit stream.
  • the bit stream may be a signal transmitted to the decoding apparatus 102 according to the bit stream according to the result encoded by the encoding apparatus 101.
  • the mode information checking unit 1211 parses the mode information from the encoded bit stream, and switches the decoding mode to either the CELP decoding mode or the audio decoding mode according to the encoding mode of the current frame according to the parsing result Perform the operation.
  • the mode information checking unit 1211 switches the CELP mode encoded frame to perform CELP decoding, and the frame encoded in the audio encoding mode is decoded by the audio decoding Can be switched to be performed.
  • the LPC decoding unit 1212 performs LPC decoding on the frames included in the bitstream.
  • the CELP decoding unit 1213 performs CELP decoding on the CELP encoded frame according to the inspection result. For example, the CELP decoding unit 1213 decodes the adaptive codebook contribution and the fixed codebook contribution, and synthesizes decoding results to generate a low-frequency signal, which is a decoded signal for a low frequency.
  • the TD extension decoding unit 1214 generates a decoded signal for a high frequency using at least one of a result of CELP decoding and an excitation signal of a low frequency signal. At this time, the excitation signal of the low frequency signal can be included in the bit stream.
  • the TD extension decoding unit 1208 may utilize the linear prediction coefficient information decoded by the LPC decoding unit 1212 to generate a high-frequency signal, which is a decoded signal for a high frequency.
  • the TD extension decoding unit 1214 can generate the decoded signal by combining the generated high-frequency signal with the low-frequency signal generated by the CELP decoding unit 1214. At this time, the TD extension decoding unit 1214 may further perform an operation of converting the sampling rate of the low-frequency signal and that of the high-frequency signal to be the same so as to generate the decoded signal.
  • the audio decoding unit 1215 performs audio decoding on the audio encoded frame according to the inspection result.
  • the audio decoding unit 1215 refers to a bitstream and performs decoding considering a time domain contribution and a frequency domain contribution when a time domain contribution exists, and if a time domain contribution does not exist If not, the decoding is performed considering the frequency domain contribution.
  • the audio decoding unit 1215 performs inverse frequency conversion on the signal quantized by the FPC or LVQ using an IDCT or the like to generate a decoded low frequency excitation signal, synthesizes the excitation signal with the inverse quantized LPC coefficient, It is possible to generate a decoded low-frequency signal.
  • the FD extension decoding unit 1216 performs the extended decoding using the result of the audio decoding. For example, the FD extension decoding unit 1216 converts the decoded low frequency signal into a sampling rate suitable for high frequency extension decoding, and performs frequency conversion such as MDCT on the converted signal. The FD extension decoding unit 1216 dequantizes the quantized high frequency energy, generates an excitation signal of the high frequency signal using the low frequency signal according to various modes of the high frequency bandwidth extension, and outputs the inverse quantized energy The decoded high-frequency signal can be generated. For example, the various modes of high frequency bandwidth extension may be one of a normal mode, a transient mode, a harmonic mode, or a noise mode.
  • the FD extension decoding unit 1216 performs frequency inverse transform such as Inverse MDCT on the decoded high frequency signal and the low frequency signal to generate a final decoded signal.
  • frequency inverse transform such as Inverse MDCT
  • the FD extension decoding unit 1216 applies the gain obtained in the time domain so that the decoded signal is matched with the decoded temporal envelope after the frequency inverse transform is performed, . ≪ / RTI >
  • FIG. 13 is a block diagram of a decoding apparatus according to an embodiment of the present invention.
  • the decoding apparatus 102 refers to an encoding mode of each bitstream frame, Fig.
  • the extension decoding unit 1204 includes an inverse quantization unit 1301, a gain calculation unit 1302, a gain application unit 1303, an artificial signal generation unit 1304, an envelope estimation unit 1305, And an application unit 1306.
  • the inverse quantization unit 1301 can dequantize the energy of the input signal. The process of dequantizing the energy will be described in detail with reference to FIG.
  • the gain calculator 1302 can calculate a gain to be applied to the basic signal using the energy of the dequantized energy and the base signal. Specifically, the gain can be determined through the ratio of the energy of the dequantized energy to the energy of the base signal. Since energy is typically determined using the sum of the squares of the amplitudes of the frequency spectra, the root value of the energy ratio is used.
  • the gain application unit 1303 may apply the calculated gain to each frequency band. Then, finally, the frequency spectrum of the SWB can be determined.
  • the gain calculation and gain application can be performed by matching the band with the band that transmitted energy, as described above.
  • the entire frequency band may be divided into subbands in order to prevent a sudden change in energy.
  • the dequantized energy of the surrounding band can be smoothed by interpolation.
  • each band may be divided into three subbands, with the middle subband of each of the bands each assigning the dequantized energy of the current band, and the first and third subbands are allocated to the previous band
  • Gain calculation and application can be performed using newly smoothed energy through the energy and interpolation assigned to the middle band of the band. That is, the gain calculation and the unit to be applied are set to the sub-bands and applied.
  • This energy smoothing method can always be applied in a fixed manner.
  • information that energy smoothing is necessary is transmitted in the extension coding unit 204, so that it can be applied only to necessary frames.
  • the information that the smoothing is required can be selected when the quantization error of the total energy is smaller than when smoothing is not performed.
  • a basic signal can be generated using an input signal in the frequency domain.
  • the process of generating the basic signal can be performed through the following components.
  • the artificial signal generating unit 1304 may generate an artificial signal corresponding to the high frequency region by copying and folding the low frequency region of the input signal in the frequency domain.
  • the input signal in the frequency domain may be a WB decoded signal having a sampling rate of 32KHz.
  • the envelope estimation unit 1305 can estimate the envelope of the basic signal using the window included in the bitstream.
  • the window is used for envelope estimation in the encoding apparatus 101, and the window type can be included in the bitstream in bit form and transmitted to the decoding apparatus 102.
  • the envelope applying unit 1306 can generate the basic signal by applying the estimated envelope to the artificial signal.
  • the envelope estimator 602 of the encoding apparatus estimates the average of frequency magnitudes for each whitening band as an envelope of a frequency belonging to a whitening band, it is determined whether or not the number of spectra belonging to the whitening band is large or small
  • the envelope estimating unit 1305 of the decoding apparatus estimates the envelope based on the transmitted scheme, and then applies the envelope in the envelope applying unit 1306. And can be determined according to the core encoding mode used in the WB core decoding unit without information transmission.
  • the core decoding unit 1201 can divide and decode the signal into voiced sound encoding, unvoiced sound encoding, transient encoding, and generic encoding according to the characteristics of a signal.
  • the envelope estimator 602 can control the number of frequency spectra belonging to the whitening band based on the decoding mode according to the characteristics of the input signal. For example, when the input signal is decoded according to the voiced speech decoding mode, the envelope estimator 1305 can estimate the envelope by constructing three frequency spectrums in the whitening band.
  • the envelope estimation unit 1306 can estimate the envelope by constructing three frequency spectrums in the whitening band.
  • FIG. 14 is a diagram illustrating an operation of an inverse quantization unit of an enhancement decoding unit according to an embodiment of the present invention.
  • step S1401 the inverse quantization unit 1301 can dequantize the selected subvector of the energy vector using the index transmitted from the coding apparatus 101.
  • step S1402 the inverse quantization unit 1301 can dequantize the interpolation error corresponding to the remaining unselected subvectors using the index transmitted from the encoding apparatus 101.
  • the inverse quantization unit 1301 may interpolate the inversely quantized subvectors and calculate the remaining unselected subvectors.
  • the inverse quantization unit 1301 may add the dequantized interpolation error value to the remaining subvectors.
  • the dequantizer 1301 may calculate the final dequantized energy by adding a mean value subtracted in the preprocessing process through a post-process.
  • 15A is a flowchart illustrating an encoding method according to an embodiment of the present invention.
  • the encoding apparatus 101 can downsample the input signal (S1501).
  • the encoding apparatus 101 can perform core encoding on the downsampled input signal (S1502).
  • the encoder 101 can frequency-convert the input signal (S1503).
  • the encoding apparatus 101 may perform bandwidth extension encoding on the input signal in the frequency domain (S1504).
  • the encoding apparatus 101 can perform bandwidth extension encoding using the encoding information determined through core encoding.
  • the encoding information may include an encoding mode classified according to the characteristics of the input signal at the time of core encoding.
  • the encoding apparatus 101 can perform bandwidth extension encoding through the following process.
  • the encoding apparatus 101 can generate a basic signal of an input signal in a frequency domain using a frequency spectrum of an input signal in a frequency domain.
  • the encoding apparatus can generate a basic signal of an input signal in the frequency domain using the characteristics of the input signal and the frequency spectrum of the input signal.
  • the characteristics of the input signal may be derived through core coding or may be derived through a separate signal classification process.
  • the encoding device 101 can estimate an energy control factor using the basic signal.
  • the encoding device 101 can extract energy from an input signal in the frequency domain.
  • the encoding apparatus 101 can control the energy extracted using the energy control element.
  • the encoding device 101 can quantize the controlled energy.
  • the process of generating the basic signal can be performed by the following method.
  • the encoding device 101 can generate an artificial signal corresponding to the high frequency region by copying and folding the low frequency region of the input signal in the frequency domain. Then, the encoding device 101 can estimate the envelope of the basic signal using the window. At this time, the encoding apparatus 101 can estimate the envelope of the basic signal by selecting a window according to a comparison result of either tonality or correlation. For example, the encoding apparatus 101 may estimate the average of the frequency magnitudes of the respective whitening bands as an envelope of frequencies belonging to the whitening bands. Specifically, the encoding apparatus 101 can estimate the envelope of the basic signal by controlling the number of frequency spectrums belonging to the whitening band in accordance with the core encoding mode.
  • the encoding device 101 can generate the basic signal by applying the estimated envelope to the artificial signal.
  • the process of estimating the energy control factor can be performed by the following method.
  • the encoding device 101 can calculate the topology of the high frequency region of the input signal in the frequency domain. Then, the encoding device 101 can calculate the threshold of the basic signal. Then, the encoding apparatus 101 can calculate the energy control element using the threshold of the high-frequency region of the input signal and the threshold of the basic signal.
  • the process of quantizing the energy can be performed by the following method.
  • the encoding apparatus 101 can select a subvector and perform quantization, and then quantize the remained subvector using the interpolation error. At this time, the encoding apparatus 101 can select subvectors at equal intervals.
  • the encoding apparatus 101 may perform multi-stage vector quantization using two or more candidates of a subvector. At this time, the encoding apparatus 101 generates an index set of MSE (Mean Square Error) or WMSE (Weighted Mean Square Error) at each stage for each of the subvector candidates, and then the sum of the MSEs or WMSEs of all stages The candidate of the smallest subvector can be selected.
  • MSE Machine Square Error
  • WMSE Weighted Mean Square Error
  • the encoding device 101 generates an index set that minimizes a mean square error (MSE) or a weighted mean square error (WMSE) at each stage for each of the subvector candidates, and then performs an inverse quantization process to obtain an energy vector After reconstruction, a candidate for a subvector that minimizes the MSE or WMSE between the reconstructed energy vector and the original energy vector can be selected.
  • MSE mean square error
  • WMSE weighted mean square error
  • FIG. 15B is a flowchart illustrating an encoding method according to another embodiment of the present invention.
  • the encoding method is comprised of the steps of the encoding device 101 shown in FIGS. 2A to 2C, which are processed in a time-series manner. Therefore, it is understood that the contents described above with respect to the encoding apparatus 101 shown in Figs. 2A to 2C also apply to the encoding method of Fig. 15B, even if omitted from the following description.
  • the signal classifying unit 205 determines the encoding mode of the input signal by referring to the characteristics of the input signal. (S1505)
  • the CELP coding unit 206 When the coding mode of the input signal is determined to be the CELP mode, the CELP coding unit 206 performs CELP coding on the low-frequency signal of the input signal. (S1506)
  • the TD-extension coding unit 207 When CELP coding is performed on the low-frequency signal of the input signal, the TD-extension coding unit 207 performs TD-extension coding on the high-frequency signal of the input signal. (S1507)
  • the frequency converter 208 frequency-converts the input signal when the encoding mode of the input signal is determined to be the FD mode. (S1508)
  • the FD encoding unit 209 performs FD encoding on the frequency-converted input signal. (S1509)
  • FIG. 15C is a flowchart illustrating an encoding method according to another embodiment of the present invention.
  • the encoding method is comprised of the steps of the encoding device 101 shown in FIGS. 2A to 2C. Therefore, even if the contents are omitted from the following description, it can be understood that the contents described above with respect to the encoding apparatus 101 shown in Figs. 2A to 2C also apply to the encoding method of Fig. 15C.
  • the signal classification view 210 determines the encoding mode of the input signal by referring to the characteristics of the input signal. (S1510)
  • the LPC encoding unit 211 extracts a linear prediction coefficient from a low-frequency signal of an input signal, and quantizes the extracted linear prediction coefficient. (S1511)
  • the CELP encoding unit 212 When the encoding mode of the input signal is determined to be the CELP mode, the CELP encoding unit 212 performs CELP encoding on the extracted LPC excitation signal using the linear prediction coefficient. (S1512)
  • the TD extension coding unit 213 When the CELP coding is performed on the LPC excitation signal of the low frequency signal of the input signal, the TD extension coding unit 213 performs TD extension coding on the high frequency signal of the input signal. (S1513)
  • the audio encoding unit 214 performs audio encoding on the LPC excitation signal extracted using the linear prediction coefficient when the encoding mode of the input signal is determined to be the FD mode. (S1514)
  • the FD extension encoding unit 215 When FD encoding is performed on the LPC excitation signal of the low frequency signal of the input signal, the FD extension encoding unit 215 performs FD extension encoding on the high frequency signal of the input signal. (S1515)
  • 16 is a flowchart illustrating a decoding method according to an embodiment of the present invention.
  • the decoding apparatus 102 can core-decode the core-encoded input signal included in the bitstream (S1601).
  • the decoding apparatus 102 can upsample the core decoded input signal (S1602).
  • the decoding apparatus 102 can frequency-convert the upsampled input signal (S1603).
  • the decoding apparatus 102 can perform the bandwidth extension decoding using the energy of the input signal included in the bitstream and the input signal in the frequency domain (S1604).
  • the process of bandwidth extension can be performed as follows.
  • the decoding device 102 can dequantize the energy of the input signal. At this time, the decoding apparatus 101 can select a subvector, dequantize it, interpolate the dequantized subvector, add an interpolation error value to the interpolated subvector, and finally dequantize the energy.
  • the decoding apparatus 102 can generate a basic signal using an input signal in the frequency domain. Then, the decoding apparatus 102 can calculate the gain to be applied to the basic signal using the dequantized energy and the energy of the basic signal. Finally, the decoding device 102 can apply the calculated gain on a frequency band basis.
  • the process of generating the basic signal can be performed as follows.
  • the decoding device 102 can copy and fold the low frequency region of the input signal in the frequency domain to generate an artificial signal corresponding to the high frequency domain. Then, the decoding apparatus 102 can estimate the envelope of the basic signal using the window included in the bitstream. At this time, if the window information is set to be always used equally, it is not included in the bit stream. Thereafter, the decoding apparatus 102 may apply the estimated envelope to the artificial signal.
  • FIG. 16B is a flowchart illustrating a decoding method according to another embodiment of the present invention.
  • the encoding method is comprised of the steps of time-series processing in the decoding apparatus 102 shown in FIGS. 12A to 12C. Therefore, even if the contents are omitted in the following description, it can be understood that the contents described above with respect to the decoding apparatus 102 shown in Figs. 12A to 12C also apply to the decoding method of Fig. 16B.
  • the mode information checking unit 1206 checks mode information on each of the frames included in the bitstream. (S1606)
  • the CELP decoding unit 1207 performs CELP decoding on the CELP encoded frame according to the inspection result. (S1607)
  • the TD extension decoding unit 1208 generates a decoded signal for a high frequency using at least one of a result of CELP decoding and an excitation signal of a low frequency signal.
  • the FD decoding unit 1209 performs FD decoding on the FD encoded frame according to the inspection result. (S1609)
  • the frequency inverse transform unit 1210 performs frequency inverse transform on the result of performing the FD decoding.
  • FIG. 16C is a flowchart illustrating a decoding method according to another embodiment of the present invention.
  • the encoding method is comprised of steps that are processed in a time-series manner in the decoding apparatus 102 shown in FIGS. 12A to 12C. Therefore, even if the contents are omitted from the following description, it can be understood that the above description about the decoding apparatus 102 shown in Figs. 12A to 12C also applies to the decoding method of Fig. 16C.
  • the mode information checking unit 1211 checks mode information on each of the frames included in the bit stream. (S1611)
  • the LPC decoding unit 1212 performs LPC decoding on the frames included in the bitstream. (S1612)
  • the CELP decoding unit 1213 performs CELP decoding on the CELP encoded frame according to the inspection result. (S1613)
  • the TD extension decoding unit 1214 generates a decoded signal for a high frequency using at least one of a result of CELP decoding and an excitation signal of a low frequency signal.
  • the audio decoding unit 1215 performs audio decoding on the audio encoded frame according to the inspection result. (S1615)
  • the FD extension decoding unit 1216 performs FD extension decoding using the result of audio decoding. (S1616)
  • 17 is a block diagram showing the overall configuration of an encoding apparatus according to another embodiment of the present invention.
  • the encoding apparatus 100 may include a coding mode selection unit 1701 and an extended coding unit 1702.
  • the encoding mode selection unit 1701 can select the encoding mode of the bandwidth extension encoding using the input signal in the frequency domain and the input signal in the time domain.
  • the coding mode selection unit 1701 classifies the input signal in the frequency domain using the input signal in the frequency domain and the input signal in the time domain, and classifies the input signal based on the coding mode and coding mode of the bandwidth extension coding
  • the number of frequency bands can be determined.
  • the coding mode may be set to a new coding mode set different from the coding mode determined at the time of core coding in order to improve the performance of the extended coding unit 1702.
  • the encoding mode can be classified into a normal mode, a harmonic mode, a transient mode, and a noise mode.
  • the encoding mode selection unit 1701 determines whether a current frame is a transient frame by using a ratio of a long-term energy of a time-domain signal to a high-band energy of the current frame. Since the transient signal period is a period in which a rapid energy change occurs in the time domain, it can be said that the energy of the high frequency band changes rapidly.
  • the process of determining the remaining three coding modes is as follows. First, the global energy of the frequency domain of the previous frame and the current frame is obtained, and then the ratio between them and the frequency domain signal are divided into predefined bands, and the remaining three modes are determined using the average energy and peak energy of each band. Harmonic is generally the signal with the largest difference between average energy and peak energy in the frequency domain signal. Noise mode is a signal with little energy change as a whole. All other signals except for these two signals are determined as Normal mode.
  • the number of frequency bands is determined to be 16 in the normal and harmonic modes, five in the transient mode, and 12 in the noise mode.
  • the extension coding unit 1702 can select the encoding mode of the bandwidth extension coding using the input signal in the frequency domain and the input signal in the time domain.
  • the extension coding unit 1702 includes a basic signal generation unit 1703, an element estimation unit 1704, an energy extraction unit 1705, an energy control unit 1706, and an energy quantization unit 1707 .
  • the basic signal generation unit 1703 and the element estimation unit 1704 can be described with reference to FIG.
  • the energy extraction unit 1705 can extract energy corresponding to each frequency band according to the number of frequency bands determined based on the encoding mode.
  • the basic signal generating unit 1703, the element estimating unit 1704, and the energy controlling unit 1706 may be used or not used depending on the encoding mode. For example, Normal and Harmonic modes use the above three components, and Transient and noise modes do not use the above three components. Details of the above three components can be referred to in the description of FIG.
  • the band energy that has undergone the energy control process can be quantized in the energy quantization unit 1707.
  • FIG. 18 is a diagram illustrating an operation performed by an energy quantization unit of an encoding apparatus according to another embodiment of the present invention.
  • the energy quantization unit 1707 can quantize the energy extracted from the input signal according to the encoding mode. In this case, the energy quantization unit 1707 can quantize the band energy in a manner optimal for each input signal in consideration of the perceptual characteristics of the input signal and the number of band energy according to the encoding mode.
  • the energy quantization unit 1707 can quantize band energy using a frequency weighting method based on perceptual characteristics for five band energy. If the encoding mode is the Normal mode or the harmonic mode, the energy quantization unit 1707 can quantize the band energy using the unequal bit allocation method based on the perceptual characteristic for 16 band energies . If the characteristics of the input signal are not clear, the energy quantization unit 1707 may perform general quantization without considering perceptual characteristics.
  • 19 is a diagram illustrating a process of quantizing energy using an unbalanced bit allocation method according to an embodiment of the present invention.
  • the unequal bit allocation method takes into account the perceptual characteristics of the input signal subjected to the extension coding, and is a method of more accurately quantizing the relatively low-frequency band having relatively high importance.
  • the energy quantization unit 1707 can allocate the same or more bits to the low band energy to distinguish the perceptual importance.
  • the energy quantization unit 1707 allocates more bits to the relatively low frequency bands 0 to 5 and allocates the same bits to all of the frequency bands 0 to 5. As the frequency band increases, the energy quantization unit 1707 allocates less bits. By such bit allocation, the frequency bands 0 to 13 can be quantized in the same manner as in Fig. And the frequency bands 14 and 15 can be quantized as shown in Fig.
  • 20 is a diagram illustrating a process of performing vector quantization using intra frame prediction according to an embodiment of the present invention.
  • the energy quantization unit 1707 may predict a representative value of a quantization target vector having two or more elements and then vector quantize an error signal between the predicted representative value and each element of the quantization target vector.
  • FIG. 20 shows intra frame prediction, and a method of predicting a representative value of a quantization target vector and deriving an error signal is shown in Equation (8).
  • Env (n) denotes the quantized band energy
  • QEnv (n) denotes the quantized band energy
  • p denotes the predicted representative value of the vector to be quantized
  • e (n) denotes error energy.
  • e (14) and e (15) are vector quantized.
  • 21 is a diagram illustrating a process of quantizing energy using a frequency weighting method according to an embodiment of the present invention.
  • the frequency weighting method is considered as a perceptual characteristic of the input signal to be subjected to the extended coding, and the same method as the unequal bit allocation method is used to more accurately quantize a relatively low-priority band having a high perceived importance . For this purpose, we assign the same or higher weight to the low band energy to distinguish perceptual importance.
  • the energy quantization unit 1707 assigns a higher weighting factor of 1.0 to the relatively low frequency bands 0 to 3 as shown in FIG. 21, and assigns a lower weighting factor of 0.7 to quantize the frequency band 15 .
  • the energy quantization unit 1707 can obtain an optimal index using a weighted mean square error (WMSE) value.
  • WMSE weighted mean square error
  • 22 is a diagram illustrating a process of performing vector quantization using multi-stage split and vector quantization using intra frame prediction according to an embodiment of the present invention.
  • the energy quantization unit 1707 can perform vector quantization as shown in FIG. 22 for a normal mode in which the number of band energy is 16.
  • the energy quantization unit 1707 can perform vector quantization using an unequal bit allocation method, intra frame prediction, and multi-stage split VQ with energy interpolation.
  • FIG. 23 is a diagram illustrating an operation performed by the inverse quantization unit of the decoding apparatus according to an embodiment of the present invention.
  • Fig. 23 can reverse the operation of Fig.
  • the inverse quantization unit 1301 of the decoding apparatus can decode the encoding mode.
  • the inverse quantization unit 1301 decodes the encoding mode using the transmitted index first.
  • the inverse quantization unit 1301 performs inverse quantization in a predetermined manner according to the decoded encoding mode.
  • the blocks to be dequantized in accordance with the encoding mode in Fig. 23 are dequantized in the reverse order of quantization.
  • the quantized part using the multi-stage split VQ with energy interpolation method used here can be dequantized in the same manner as in FIG.
  • the dequantization unit 1301 can dequantize the dequantized data according to Equation (9) below using intra frame prediction.
  • Env (n) denotes the quantized band energy
  • QEnv (n) denotes the quantized band energy
  • P denotes the predicted representative value of the vector to be quantized
  • e (n) denotes the quantized error energy
  • FIG. 24 is a diagram illustrating another structure of an encoding apparatus according to an embodiment of the present invention.
  • each component of the encoding apparatus 101 shown in Fig. 24 is the same as that in Fig. However, the extension coding unit 2404 does not transmit the information of the core coding unit 2404, and the input signal in the time domain can be directly input.
  • 25 is a diagram illustrating an example of a bit stream according to an embodiment of the present invention.
  • bit stream 251 corresponding to the N-th frame a bit stream 252 corresponding to the (N + 1) -th frame, and a bit stream 253 corresponding to the (N + 2) .
  • bitstreams 251, 252, and 253 are comprised of a header 254 and a payload 255.
  • the header 254 may include mode information 2511, 2521, and 2531.
  • the mode information 2511, 2521, and 2531 indicate encoding mode information for each of the frames.
  • the mode information 2511 indicates in which encoding mode the Nth frame is coded
  • the mode information 2512 indicates in which encoding mode the (N + 1) th frame is coded
  • the mode information 2513 Indicates in which encoding mode the (N + 2) th frame is coded.
  • the encoding mode may be any one of the CELP mode, the FD mode, and the audio encoding mode, but is not limited thereto.
  • the payload 255 indicates information on the core data according to the encoding mode of the frame.
  • the payload 255 may include CELP information 2512 and TD extension information 2513, for example, in the N-th frame encoded according to the CELP mode.
  • the payload 255 may include FD information 2523 or 2532, for example, in the (N + 1) th frame or the (N + 2)
  • the payload 255 of the bit stream 252 may further include prediction data 2522, as shown in the bit stream 252 for the (N + 1) th frame. That is, when the coding mode between neighboring frames is changed from the CELP mode to the FD mode, the bitstream 252 according to the result of performing the coding according to the FD mode may include the prediction data 2522.
  • a Modified Discrete Cosine Transform (MDCT) ) Or the like, which are overlapped with each other.
  • the bitstream 252 according to the result of performing the coding according to the FD mode includes prediction data 2522 indicating information corresponding to the prediction, May be included.
  • the decoded result of the previous frame for example, the Nth frame
  • the current frame for example, the (N + 1)
  • the time domain information may be time domain aliasing, but is not limited thereto.
  • the payload 255 of the bitstreams 252 and 253 is also stored in the previous frame 252 as shown in the bitstream 252 for the (N + 1) th frame and the bitstream 253 for the (N + And may further include mode information 2524 and 2533.
  • previous frame mode information 2524 and 2533 may be included in the bitstreams 252 and 253 according to the result of performing the encoding according to the FD mode.
  • the previous frame mode information 2524 included in the bitstream 252 for the (N + 1) th frame may include information about the mode information 2511 of the Nth frame, and N + 2
  • the previous frame mode information 2533 included in the bit stream 253 for the (n + 1) th frame may include information about the mode information 2524 of the (N + 1) th frame.
  • 26 is a diagram illustrating an example of frequency allocation for each frequency band according to an embodiment of the present invention.
  • the FD extension coding unit 2094 shown in FIG. 2C or the FD extension coding unit 215 shown in FIG. 2D can perform energy quantization by sharing the same codebook for different bit rates. Accordingly, the FD extension coding unit 2094 or the FD extension coding unit 215 shown in FIG. 2D divides the frequency spectrum corresponding to the input signal into a predetermined number of frequency bands, Bandwidth per band.
  • An example 261 of dividing a frequency band of about 6.4 to 14.4 kHz at a bit rate of 16 kbps and a case 262 of dividing a frequency band of about 8 to 16 kHz at a bit rate of 16 kbps or more will be described as an example.
  • the bandwidths of the same frequency band are different for different bit rates.
  • the bandwidth 263 for the first frequency band is 0.4 kHz at a bit rate of 16 kbps and at a bit rate of 16 kbps or more
  • the bandwidth 264 for the second frequency band is 0.6 kHz at both a bit rate of 16 kbps and a bit rate of 16 kbps or more .
  • the FD extension coding unit 2094 or the FD extension coding unit 215 according to the present embodiment has the same codebook for different bitrates, Energy quantization can be performed.
  • a Multi Mode Bandwidth Extension technology is applied in a configuration in which the CELP mode and the FD mode are switched or a configuration in which the CELP mode and the audio encoding mode are switched.
  • a codebook share It is possible to reduce the size of the ROM (ROM) and simplify the implementation.
  • FIG. 27 is a diagram illustrating an example of a frequency band applied in the FD coding unit or the FD decoding unit according to an embodiment of the present invention.
  • the frequency band 271 shown in FIG. 27 shows an example of a frequency band applicable to each tool in the FD coding unit 209 shown in FIG. 2B and the FD decoding unit 1209 shown in FIG. 12B.
  • the FPC encoding unit 2092 of the FD encoding unit 209 limits the frequency band for performing FPC coding on a bit-by-bit basis.
  • the frequency band Fcore for performing FPC coding may be 6.4 kHz, 8 kHz, or 9.6 kHz depending on the bit rate, but is not limited thereto.
  • the FPC coding unit 2092 performs FPC coding in a limited frequency band, so that the FPC-coded frequency band (Ffpc) 272 can be determined.
  • the noise filling performing unit 12093 of the FD decoding unit 1209 performs noise filling on the frequency band (Ffpc) 272 in which the FPC is coded.
  • the FD low frequency extension decoding unit 12095 of the FD decoding unit 1209 It is possible to perform low-frequency extension decoding.
  • the FD low-frequency extension decoding unit 12095 performs FD low-frequency extension decoding on the frequency band 273 not corresponding to the frequency band Ffcc in which the FPC is coded, among the frequency band Fcore for FPC coding, Can be performed.
  • the FD low-frequency extension decoding may not be performed when the frequency band Fcore for performing the FPC coding is equal to the frequency band Ffpc for which the FPC is coded.
  • the FD high frequency extension decoding unit 12096 of the FD decoding unit 1209 receives the frequency band 274 between the upper band value of the frequency band Fcore for performing the FPC coding and the upper band value of the frequency band Fend corresponding to the bit rate,
  • the FD high-frequency extension coding can be performed.
  • the upper band value of the frequency band Fend according to the bit rate may be 14 kHz, 14.4 kHz, or 16 kHz, but is not limited thereto. Accordingly, by using the encoding apparatus 101 and the decoding apparatus 102 according to the present embodiment, it is possible to efficiently code speech and music at various bit rates through various switching structures.
  • the methods according to embodiments of the present invention may be implemented in the form of program instructions that can be executed through various computer means and recorded in a computer-readable medium.
  • the computer-readable medium may include program instructions, data files, data structures, and the like, alone or in combination.
  • the program instructions recorded on the medium may be those specially designed and constructed for the present invention or may be available to those skilled in the art of computer software.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법이 개시된다. 부호화 장치는 입력 신호를 다운 샘플링하고, 다운 샘플링된 입력 신호를 코어 부호화를 수행하며, 입력 신호를 주파수 변환하고, 주파수 영역의 입력 신호의 기본 신호를 이용하여 대역폭 확장 부호화를 수행할 수 있다.

Description

고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법
본 발명은 음성 신호 또는 음악 신호와 같은 오디오 신호를 부호화하거나 복호화하는 방법 및 장치에 관한 것으로, 보다 상세하게는 오디오 신호 가운데 고주파수 영역에 해당하는 신호를 부호화하거나 복호화하는 방법 및 장치에 관한 것이다.
고주파수 영역에 해당하는 신호는 저주파수 영역에 해당하는 신호에 비하여 주파수의 미세 구조에 덜 민감하다. 그러므로 오디오 신호를 부호화할 때 가용할 수 있는 비트의 제약을 극복하기 위해 코딩의 효율을 높여야 할 경우, 저주파수 영역에 대응하는 신호에 많은 비트를 할당하여 부호화하는 반면 고주파수 영역에 대응하는 신호에 상대적으로 적은 비트를 할당하여 부호화한다.
이러한 방식이 적용된 기술이 SBR(Spectral Band Replication)이다. SBR 기술은 고대역 성분 신호를 포락선으로 표현하고 이를 복호화 단계에서 합성하는 방식으로 부호화 효율을 향상시키는 방식이다. 이는 인간의 청각 특성이 고대역 신호에 상대적으로 낮은 해상력을 가진다는 사실에 기반한 것이다.
이러한 SBR 기술에 있어, 고주파수 영역의 대역폭을 확장하기 위한 개선된 방법이 요구된다.
본 발명의 일실시예에 따른 부호화 장치는 입력 신호를 다운 샘플링하는 다운 샘플링부; 다운 샘플링된 입력 신호를 코어 부호화를 수행하는 코어 부호화부; 상기 입력 신호를 주파수 변환하는 주파수 변환부; 및 상기 주파수 영역의 입력 신호의 기본 신호를 이용하여 대역폭 확장 부호화를 수행하는 확장 부호화부를 포함할 수 있다.
본 발명의 다른 일실시예에 따른 부호화 장치는 입력 신호를 다운 샘플링하는 다운 샘플링부; 다운 샘플링된 입력 신호를 코어 부호화를 수행하는 코어 부호화부; 상기 입력 신호를 주파수 변환하는 주파수 변환부; 및 상기 입력 신호의 특성 및 상기 주파수 영역의 입력 신호의 기본 신호를 이용하여 대역폭 확장 부호화를 수행하는 확장 부호화부를 포함할 수 있다.
본 발명의 또 다른 실시예에 따른 부호화 장치는 주파수 영역의 입력 신호와 시간 영역의 입력 신호를 이용하여 대역폭 확장 부호화의 부호화 모드를 선택하는 부호화 모드 선택부; 및 상기 주파수 영역의 입력 신호와 상기 부호화 모드를 이용하여 대역폭 확장 부호화를 수행하는 확장 부호화부를 포함할 수 있다.
본 발명의 일실시예에 따른 부호화 장치의 상기 확장 부호화부는, 상기 주파수 영역의 입력 신호의 주파수 스펙트럼을 이용하여 상기 주파수 영역의 입력 신호의 기본 신호(basic signal)를 생성하는 기본 신호 생성부; 상기 기본 신호를 이용하여 에너지 제어 요소(energy control factor)를 추정하는 요소 추정부; 상기 주파수 영역의 입력 신호로부터 에너지를 추출하는 에너지 추출부; 상기 에너지 제어 요소를 이용하여 상기 추출된 에너지를 제어하는 에너지 제어부; 및 상기 제어된 에너지를 양자화하는 에너지 양자화부를 포함할 수 있다.
본 발명의 다른 실시예에 따른 부호화 장치의 상기 확장 부호화부는 상기 주파수 영역의 입력 신호의 주파수 스펙트럼을 이용하여 상기 주파수 영역의 입력 신호의 기본 신호(basic signal)를 생성하는 기본 신호 생성부; 상기 입력 신호의 특성 및 상기 기본 신호를 이용하여 에너지 제어 요소(energy control factor)를 추정하는 요소 추정부; 상기 주파수 영역의 입력 신호로부터 에너지를 추출하는 에너지 추출부; 상기 에너지 제어 요소를 이용하여 상기 추출된 에너지를 제어하는 에너지 제어부; 및 상기 제어된 에너지를 양자화하는 에너지 양자화부를 포함할 수 있다.
본 발명의 또 다른 실시예에 따른 부호화 장치의 확장 부호화부는, 상기 부호화 모드에 기초하여 주파수 영역의 입력 신호로부터 에너지를 추출하는 에너지 추출부; 상기 부호화 모드에 기초하여 에너지를 제어하는 에너지 제어부; 및 상기 부호화 모드에 기초하여 상기 에너지를 양자화하는 에너지 양자화부를 포함할 수 있다.
본 발명의 일실시예에 따른 부호화 장치의 상기 기본 신호 생성부는, 상기 주파수 영역의 입력 신호의 저주파수 영역을 복사하고 폴딩하여 고주파수 영역에 대응하는 인공 신호(artificial signal)를 생성하는 인공 신호 생성부; 윈도우를 이용하여 상기 기본 신호의 포락선을 추정하는 포락선 추정부; 및 상기 추정된 포락선을 인공 신호에 적용하는 포락선 적용부를 포함할 수 있다.
본 발명의 일실시예에 따른 부호화 장치의 상기 요소 추정부는, 상기 주파수 영역의 입력 신호의 고주파수 영역의 토널리티를 계산하는 제1 토널리티 계산부; 상기 기본 신호의 토널리티를 계산하는 제2 토널리티 계산부; 및 상기 입력 신호의 고주파수 영역의 토널리티와 상기 기본 신호의 토널리티를 이용하여 상기 에너지 제어 요소를 계산하는 요소 계산부를 포함할 수 있다.
본 발명의 다른실시예에 따른 부호화 장치는 입력 신호의 특성을 참조하여, 입력 신호의 부호화 모드를 결정하는 신호 분류부; 상기 입력 신호의 부호화 모드가 CELP(Code Excited Linear Prediction) 부호화 모드로 결정되면, 상기 입력 신호의 저주파 신호에 대하여 CELP 부호화를 수행하는 CELP 부호화부; 상기 입력 신호의 저주파 신호에 대하여 CELP 부호화가 수행되면, 상기 입력 신호의 고주파 신호에 대하여 확장 부호화를 수행하는 TD(Time Domain) 확장 부호화부; 상기 입력 신호의 부호화 모드가 FD 모드로 결정되면, 상기 입력 신호를 주파수 변환하는 주파수 변환부; 및 상기 주파수 변환된 입력 신호에 대하여 FD(Frequency Domain) 부호화를 수행하는 FD 부호화부;를 포함할 수 있다.
본 발명의 다른실시예에 따른 부호화 장치의 상기 FD 부호화부는 상기 변환된 입력 신호에 대하여 주파수 밴드 별로 에너지를 추출하고, 추출된 에너지를 양자화하는 Norm 부호화부; 상기 양자화된 Norm 값으로 상기 변환된 입력 신호를 스케일링한 값에 대하여 FPC 부호화를 수행하는 FPC(Factorial Pulse Coding) 부호화부; 및 상기 FPC 부호화가 수행됨에 따른 노이즈 부가정보를 생성하는 노이즈 부가정보 생성부;를 포함하고, 상기 FD 부호화부로 입력되는 변환된 입력 신호는 transient 프레임인 것을 특징으로 할 수 있다.
본 발명의 다른실시예에 따른 부호화 장치의 상기 FD 부호화부는 상기 변환된 입력 신호에 대하여 주파수 밴드 별로 에너지를 추출하고, 추출된 에너지를 양자화하는 Norm 부호화부; 상기 양자화된 Norm 값으로 상기 변환된 입력 신호를 스케일링한 값에 대하여 FPC 부호화를 수행하는 FPC(Factorial Pulse Coding) 부호화부; 상기 FPC 부호화가 수행됨에 따른 노이즈 부가정보를 생성하는 노이즈 부가정보 생성부; 및 상기 변환된 입력 신호의 고주파 신호에 대하여 확장 부호화를 수행하는 FD 확장 부호화부;를 포함하고, 상기 FD 부호화부로 입력되는 변환된 입력 신호는 stationary 프레임인 것을 특징으로 한다.
본 발명의 다른실시예에 따른 부호화 장치의 FD 부호화부의 FD 확장 부호화부는 서로 다른 비트율에 대하여 동일한 코드북을 공유하여 에너지 양자화를 수행하는 것을 특징으로 할 수 있다.
본 발명의 다른실시예에 따른 부호화 장치의 입력 신호에 대하여 FD 부호화가 수행된 결과에 따른 비트스트림은 이전 프레임 모드 정보를 포함할 수 있다.
본 발명의 또 다른실시예에 따른 부호화 장치는 입력 신호의 특성을 참조하여, 입력 신호의 부호화 모드를 결정하는 신호 분류부; 상기 입력 신호의 저주파 신호로부터 선형예측계수(Linear Prediction Coefficient, LPC)를 추출하고, 추출된 선형예측계수를 양자화하는 LPC 부호화부; 상기 입력 신호의 부호화 모드가 CELP 모드로 결정되면, 상기 선형예측계수를 이용하여 추출된 LPC 여기신호에 대하여 CELP 부호화를 수행하는 CELP 부호화부; 상기 입력 신호의 저주파 신호의 LPC 여기신호에 대하여 CELP 부호화가 수행되면, 상기 입력 신호의 고주파 신호에 대하여 확장 부호화를 수행하는 TD 확장 부호화부; 상기 입력 신호의 부호화 모드가 오디오 부호화 모드로 결정되면, 상기 선형예측계수를 이용하여 추출된 LPC 여기신호에 대하여 오디오 부호화를 수행하는 오디오 부호화부; 및 상기 입력 신호의 저주파 신호의 LPC 여기신호에 대하여 오디오 부호화가 수행되면, 상기 입력 신호의 고주파 신호에 대하여 확장 부호화를 수행하는 FD 확장 부호화부;를 포함할 수 있다.
본 발명의 또 다른실시예에 따른 부호화 장치의 상기 FD 확장 부호화부는 서로 다른 비트율에 대하여 동일한 코드북을 공유하여 에너지 양자화를 수행하는 것을 특징으로 할 수 있다.
본 발명의 일실시예에 따른 복호화 장치는 비트스트림에 포함된 코어 부호화된 입력 신호를 코어 복호화하는 코어 복호화부; 상기 코어 복호화된 입력 신호를 업샘플링하는 업샘플링부; 상기 업샘플링된 입력 신호를 주파수 변환하는 주파수 변환부; 및 상기 비트스트림에 포함된 상기 입력 신호의 에너지와 상기 주파수 영역의 입력 신호를 이용하여 대역폭 확장 복호화를 수행하는 확장 복호화부를 포함할 수 있다.
본 발명의 일실시예에 따른 복호화 장치의 상기 확장 복호화부는, 상기 입력 신호의 에너지를 역양자화하는 역양자화부; 상기 주파수 영역의 입력 신호를 이용하여 기본 신호를 생성하는 기본 신호 생성부; 상기 역양자화된 에너지와 상기 기본 신호의 에너지를 이용하여 상기 기본 신호에 적용될 게인을 계산하는 게인 계산부; 및 상기 계산된 게인을 주파수 밴드별로 적용하는 게인 적용부를 포함할 수 있다.
본 발명의 일실시예에 따른 복호화 장치의 상기 기본 신호 생성부는, 상기 주파수 영역의 입력 신호의 저주파수 영역을 복사하고 폴딩하여 고주파수 영역에 대응하는 인공 신호를 생성하는 인공 신호 생성부; 상기 비트스트림에 포함된 윈도우를 이용하여 상기 기본 신호의 포락선을 추정하는 포락선 추정부; 및 상기 추정된 포락선을 인공 신호에 적용하는 포락선 적용부를 포함할 수 있다.
본 발명의 다른실시예에 따른 복호화 장치는 비트스트림에 포함된 프레임들 각각에 대한 모드 정보를 검사하는 모드 정보 검사부; 상기 검사결과에 따라 CELP 부호화된 프레임에 대하여 CELP 복호화를 수행하는 CELP 복호화부; 상기 CELP 복호화가 수행된 결과 및 저주파 신호의 여기신호 중 적어도 어느 하나를 이용하여, 고주파수에 대한 복호화 신호를 생성하는 TD 확장 복호화부; 상기 검사결과에 따라 FD 부호화된 프레임에 대하여 FD 복호화를 수행하는 FD 복호화부; 및 상기 FD 복호화가 수행된 결과를 주파수 역변환하는 주파수 역변환부;를 포함할 수 있다.
본 발명의 다른실시예에 따른 복호화 장치의 상기 FD 복호화부는 상기 비트스트림의 Norm 정보를 참조하여, Norm 복호화를 수행하는 Norm 복호화부; 상기 비트스트림의 FPC 부호화 정보에 기초하여 FPC 복호화를 수행하는 FPC 복호화부; 및 상기 FPC 복호화가 수행된 결과에 대하여 노이즈 필링을 수행하는 노이즈 필링 수행부;를 포함할 수 있다.
본 발명의 다른실시예에 따른 복호화 장치의 상기 FD 복호화부는 상기 비트스트림의 Norm 정보를 참조하여, Norm 복호화를 수행하는 Norm 복호화부; 상기 비트스트림의 FPC 부호화 정보에 기초하여 FPC 복호화를 수행하는 FPC 복호화부; 상기 FPC 복호화가 수행된 결과에 대하여 노이즈 필링을 수행하는 노이즈 필링 수행부; 및 상기 FPC 복호화 및 노이즈 필링이 수행된 결과를 이용하여, 고주파수 확장 복호화를 수행하는 FD 고주파수 확장 복호화부;를 포함할 수 있다.
본 발명의 다른실시예에 따른 복호화 장치의 상기 FD 복호화부는 FPC 복호화를 수행하는 주파수 밴드의 상위 밴드값이 코어신호에 대한 주파수 밴드의 상위 밴드값보다 작은 경우, 상기 FPC 복호화 및 노이즈 필링이 수행된 결과에 대하여 확장 부호화를 수행하는 FD 저주파수 확장 부호화부;를 더 포함할 수 있다.
본 발명의 다른실시예에 따른 복호화 장치의 FD 복호화부의 상기 FD 고주파수 확장 복호화부는 서로 다른 비트율에 대하여 동일한 코드북을 공유하여 에너지 역양자화를 수행하는 것을 특징으로 할 수 있다.
본 발명의 다른실시예에 따른 복호화 장치의 상기 FD 복호화부는 FD 부호화된 프레임에 대하여 상기 비트스트림에 포함된 이전 프레임 모드 정보를 참조하여 FD 복호화를 수행하는 것을 특징으로 할 수 있다.
본 발명의 또 다른실시예에 따른 복호화 장치는 비트스트림에 포함된 프레임들 각각에 대한 모드 정보를 검사하는 모드 정보 검사부; 상기 비트스트림에 포함된 프레임들에 대하여 LPC 복호화를 수행하는 LPC 복호화부; 상기 검사결과에 따라 CELP 부호화된 프레임에 대하여 CELP 복호화를 수행하는 CELP 복호화부; 상기 CELP 복호화가 수행된 결과 및 저주파 신호의 여기신호 중 적어도 어느 하나를 이용하여, 고주파수에 대한 복호화 신호를 생성하는 TD 확장 복호화부; 상기 검사결과에 따라 오디오 부호화된 프레임에 대하여 오디오 복호화를 수행하는 오디오 복호화부; 및 상기 오디오 복호화가 수행된 결과를 이용하여 확장 복호화를 수행하는 FD 확장 복호화부;를 포함할 수 있다.
본 발명의 또 다른실시예에 따른 복호화 장치의 상기 FD 확장 복호화부는 다른 비트율에 대하여 동일한 코드북을 공유하여 에너지 역양자화를 수행하는 것을 특징으로 할 수 있다.
본 발명의 일실시예에 따른 부호화 방법은 입력 신호를 다운 샘플링하는 단계; 다운 샘플링된 입력 신호를 코어 부호화를 수행하는 단계; 상기 입력 신호를 주파수 변환하는 단계; 및 상기 주파수 영역의 입력 신호의 기본 신호를 이용하여 대역폭 확장 부호화를 수행하는 단계를 포함할 수 있다.
본 발명의 다른 실시예에 따른 부호화 방법은 입력 신호를 다운 샘플링하는 단계; 다운 샘플링된 입력 신호를 코어 부호화를 수행하는 단계; 상기 입력 신호를 주파수 변환하는 단계; 및 상기 입력 신호의 특성 및 상기 주파수 영역의 입력 신호의 기본 신호를 이용하여 대역폭 확장 부호화를 수행하는 단계를 포함할 수 있다.
본 발명의 또 다른 실시예에 따른 부호화 방법은 주파수 영역의 입력 신호와 시간 영역의 입력 신호를 이용하여 대역폭 확장 부호화의 부호화 모드를 선택하는 단계; 및 상기 주파수 영역의 입력 신호와 상기 부호화 모드를 이용하여 대역폭 확장 부호화를 수행하는 단계를 포함할 수 있다.
본 발명의 일실시예에 따른 복호화 방법은 비트스트림에 포함된 코어 부호화된 입력 신호를 코어 복호화하는 단계; 상기 코어 복호화된 입력 신호를 업샘플링하는 단계; 상기 업샘플링된 입력 신호를 주파수 변환하는 단계; 및 상기 비트스트림에 포함된 상기 입력 신호의 에너지와 상기 주파수 영역의 입력 신호를 이용하여 대역폭 확장 복호화를 수행하는 단계를 포함할 수 있다.
본 발명의 다른실시예에 따른 부호화 방법은 입력 신호의 특성을 참조하여, 입력 신호의 부호화 모드를 결정하는 단계; 상기 입력 신호의 부호화 모드가 CELP(Code Excited Linear Prediction) 부호화 모드로 결정되면, 상기 입력 신호의 저주파 신호에 대하여 CELP 부호화를 수행하는 단계; 상기 입력 신호의 저주파 신호에 대하여 CELP 부호화가 수행되면, 상기 입력 신호의 고주파 신호에 대하여 TD 확장 부호화를 수행하는 단계; 상기 입력 신호의 부호화 모드가 FD 모드로 결정되면, 상기 입력 신호를 주파수 변환하는 단계; 및 상기 주파수 변환된 입력 신호에 대하여 FD(Frequency Domain) 부호화를 수행하는 단계;를 포함할 수 있다.
본 발명의 다른실시예에 따른 부호화 방법의 상기 FD 부호화를 수행하는 단계는 서로 다른 비트율에 대하여 동일한 코드북을 공유하여 에너지 양자화를 수행하는 것을 특징으로 할 수 있다.
본 발명의 다른실시예에 따른 부호화 방법은 상기 입력 신호에 대하여 FD 부호화가 수행된 결과에 따른 비트스트림은 이전 프레임 모드 정보를 포함할 수 있다.
본 발명의 또 다른실시예에 따른 부호화 방법은 입력 신호의 특성을 참조하여, 입력 신호의 부호화 모드를 결정하는 단계; 상기 입력 신호의 저주파 신호로부터 선형예측계수(Linear Prediction Coefficient, LPC)를 추출하고, 추출된 선형예측계수를 양자화하는 단계; 상기 입력 신호의 부호화 모드가 CELP 모드로 결정되면, 상기 선형예측계수를 이용하여 추출된 LPC 여기신호에 대하여 CELP 부호화를 수행하는 단계; 상기 입력 신호의 저주파 신호의 LPC 여기신호에 대하여 CELP 부호화가 수행되면, 상기 입력 신호의 고주파 신호에 대하여 TD 확장 부호화를 수행하는 단계; 상기 입력 신호의 부호화 모드가 FD 모드로 결정되면, 상기 선형예측계수를 이용하여 추출된 LPC 여기신호에 대하여 오디오 부호화를 수행하는 단계; 및 상기 입력 신호의 저주파 신호의 LPC 여기신호에 대하여 FD 부호화가 수행되면, 상기 입력 신호의 고주파 신호에 대하여 FD 확장 부호화를 수행하는 단계;를 포함할 수 있다.
본 발명의 또 다른실시예에 따른 부호화 방법의 상기 FD 확장 부호화를 수행하는 단계는 서로 다른 비트율에 대하여 동일한 코드북을 공유하여 에너지 양자화를 수행하는 것을 특징으로 할 수 있다.
본 발명의 다른실시예에 따른 복호화 방법은 비트스트림에 포함된 프레임들 각각에 대한 모드 정보를 검사하는 단계; 상기 검사결과에 따라 CELP 부호화된 프레임에 대하여 CELP 복호화를 수행하는 단계; 상기 CELP 복호화가 수행된 결과 및 저주파 신호의 여기신호 중 적어도 어느 하나를 이용하여, 고주파수에 대한 복호화 신호를 생성하는 단계; 상기 검사결과에 따라 FD 부호화된 프레임에 대하여 FD 복호화를 수행하는 단계; 및 상기 FD 복호화가 수행된 결과를 주파수 역변환하는 단계;를 포함할 수 있다.
본 발명의 다른실시예에 따른 복호화 방법의 상기 FD 복호화를 수행하는 단계는 서로 다른 비트율에 대하여 동일한 코드북을 공유하여 에너지 역양자화를 수행하는 것을 특징으로 할 수 있다.
본 발명의 다른실시예에 따른 복호화 방법의 상기 FD 복호화를 수행하는 단계는 FD 부호화된 프레임에 대하여 상기 비트스트림에 포함된 이전 프레임 모드 정보를 참조하여 FD 복호화를 수행하는 것을 특징으로 할 수 있다.
본 발명의 또 다른실시예에 따른 복호화 방법은 비트스트림에 포함된 프레임들 각각에 대한 모드 정보를 검사하는 단계; 상기 비트스트림에 포함된 프레임들에 대하여 LPC 복호화를 수행하는 단계; 상기 검사결과에 따라 CELP 부호화된 프레임에 대하여 CELP 복호화를 수행하는 단계; 상기 CELP 복호화가 수행된 결과 및 저주파 신호의 여기신호 중 적어도 어느 하나를 이용하여, 고주파수에 대한 복호화 신호를 생성하는 단계; 상기 검사결과에 따라 오디오 부호화된 프레임에 대하여 오디오 복호화를 수행하는 단계; 및 상기 오디오 복호화가 수행된 결과를 이용하여 FD 확장 복호화를 수행하는 단계;를 포함할 수 있다.
본 발명의 또 다른실시예에 따른 복호화 방법의 상기 FD 확장 복호화를 수행하는 단계는 서로 다른 비트율에 대하여 동일한 코드북을 공유하여 에너지 역양자화를 수행하는 것을 특징으로 할 수 있다.
본 발명의 일실시예에 따르면, 입력 신호의 기본 신호를 추출한 후 입력 신호의 고주파수 영역의 토널리티와 기본 신호의 토널리티를 이용하여 입력 신호의 에너지를 제어함으로써 고주파수 영역의 대역폭을 효율적으로 확장할 수 있다.
도 1은 본 발명의 일실시예에 따른 부호화 장치 및 복호화 장치를 도시한 도면이다.
도 2a는 본 발명의 일실시예에 따른 부호화 장치의 전체 구성을 도시한 블록 다이어그램이다.
도 2b는 본 발명의 다른실시예에 따른 부호화 장치의 전체 구성을 도시한 블록 다이어그램이다.
도 2c는 본 발명의 일실시예에 따른 부호화 장치의 FD 부호화부를 도시한 도면이다.
도 2d는 본 발명의 또 다른실시예에 따른 부호화 장치의 전체 구성을 도시한 블록 다이어그램이다.
도 3은 본 발명의 일실시예에 따른 코어 부호화부를 도시한 도면이다.
도 4는 본 발명의 일실시예에 따른 부호화 장치의 확장 부호화부를 도시한 도면이다.
도 5는 본 발명의 다른 일실시예에 따른 부호화 장치의 확장 부호화부를 도시한 도면이다.
도 6은 본 발명의 일실시예에 따른 확장 부호화부의 기본 신호 생성부를 도시한 도면이다.
도 7은 본 발명의 일실시예에 따른 확장 부호화부의 요소 추정부를 도시한 도면이다.
도 8은 본 발명의 일실시예에 따른 에너지 양자화부의 동작을 설명하기 위한 도면이다.
도 9는 본 발명의 일실시예에 따라 에너지를 양자화하는 과정을 나타낸 도면이다.
도 10은 본 발명의 일실시예에 따른 인공 신호를 생성하는 과정을 도시한 도면이다.
도 11a 내지 도 11b는 본 발명의 일실시예에 따른 포락선 추정을 위한 윈도우를 도시한 도면이다.
도 12a는 본 발명의 일실시예에 따른 복호화 장치를 도시한 블록 다이어그램이다.
도 12b는 본 발명의 다른실시예에 따른 복호화 장치를 도시한 블록 다이어그램이다.
도 12c는 본 발명의 일실시예에 따른 복호화 장치의 FD 복호화부를 도시한 도면이다.
도 12d는 본 발명의 또 다른실시예에 따른 복호화 장치를 도시한 블록 다이어그램이다.
도 13은 본 발명의 일실시예에 따른 복호화 장치의 확장 복호화부를 도시한 도면이다.
도 14는 본 발명의 일실시예에 따른 확장 복호화부의 역양자화부의 동작을 도시한 도면이다.
도 15b는 본 발명의 일실시예에 따른 부호화 방법을 도시한 플로우차트이다.
도 15b는 본 발명의 다른실시예에 따른 부호화 방법을 도시한 플로우차트이다.
도 15c는 본 발명의 또 다른실시예에 따른 부호화 방법을 도시한 플로우차트이다.
도 16a는 본 발명의 일실시예에 따른 복호화 방법을 도시한 플로우차트이다.
도 16b는 본 발명의 다른실시예에 따른 복호화 방법을 도시한 플로우차트이다.
도 16c는 본 발명의 또 다른실시예에 따른 복호화 방법을 도시한 플로우차트이다.
도 17은 본 발명의 또 다른 실시예에 따른 부호화 장치의 전체 구성을 도시한 블록 다이어그램이다.
도 18은 본 발명의 또 다른 실시예에 따른 부호화 장치의 에너지 양자화부가 수행하는 동작을 도시한 도면이다.
도 19는 본 발명의 일실시예에 따라 불균형 비트 할당 방법을 이용하여 에너지를 양자화하는 과정을 나타낸 도면이다.
도 20은 본 발명의 일실시예에 따라 인트라 프레임 예측을 이용한 벡터 양자화를 수행하는 과정을 도시한 도면이다.
도 21은 본 발명의 일실시예에 따라 주파수 가중 방법을 이용하여 에너지를 양자화하는 과정을 나타낸 도면이다.
도 22는 본 발명의 일실시예에 따라 멀티 스테이지 스플릿의 벡터 양자화와 인트라 프레임 예측을 이용한 벡터 양자화를 수행하는 과정을 도시한 도면이다.
도 23은 본 발명의 일실시예에 따라 복호화 장치의 역양자화부가 수행하는 동작을 도시한 도면이다.
도 24는 본 발명의 일실시예에 따른 부호화 장치의 다른 구조를 도시한 도면이다.
도 25는 본 발명의 일실시예에 따른 비트스트림의 일 예를 도시한 도면이다.
도 26은 본 발명의 일실시예에 따른 주파수 대역별 주파수 할당의 일 예를 도시한 도면이다.
도 27은 본 발명의 일실시예에 따른 FD 부호화부 또는 FD 복호화부에서 적용되는 주파수 대역의 일 예를 도시한 도면이다.
이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
도 1은 본 발명의 일실시예에 따른 부호화 장치 및 복호화 장치를 도시한 도면이다.
부호화 장치(101)는 입력 신호의 기본 신호(Base Signal)를 생성하여 복호화 장치(102)에 전송할 수 있다. 기본 신호는 저주파 신호를 기반으로 생성되며, 저주파 신호의 포락선 정보가 제거(whitening)된 신호이기 때문에 고주파 대역폭 확장을 위한 여기신호(excitation signal)일 수 있다. 그러면, 복호화 장치(102)는 기본 신호로부터 입력 신호를 복원할 수 있다. 즉, 부호화 장치(101)와 복호화 장치(102)는 SWB BWE(Super Wide Band Bandwidth Extension)을 수행한다. 구체적으로, SWB BWE는 저주파수 영역인 0~6.4KHz의 디코딩된 WB(wide band) 신호를 기반으로 SWB에 대응하는 고주파수 영역인 6.4~16KHz 신호를 생성할 수 있다. 이 때, 16KHz는 상황에 따라 변동될 수 있다. 그리고, 디코딩된 WB 신호는 LPD(Linear Prediction Domain) 기반의 CELP(Code Excited Linear Prediction) 에 따라 Speech Codec을 통해 생성된 신호이거나 또는 주파수 도메인에서 양자화를 수행하는 방식에 의해 생성된 신호일 수 있다. 주파수 도메인에서 양자화하는 방식은 MDCT(Modified Discrete Cosine Transform) 기반에서 수행하는 AAC(Advanced Audio Coding)을 들 수 있다.
이하에서는 부호화 장치(101)와 복호화 장치(102)의 세부 동작을 구체적으로 설명하기로 한다.
도 2a는 본 발명의 일실시예에 따른 부호화 장치의 전체 구성을 도시한 블록 다이어그램이다.
도 2a를 참고하면, 부호화 장치(101)는 다운 샘플링부(201), 코어 부호화부(202), 주파수 변환부(203) 및 확장 부호화부(204)를 포함할 수 있다.
다운 샘플링부(201)는 WB(wide band) 코딩을 위해 입력 신호를 다운 샘플링할 수 있다. 입력 신호인 SWB(Super wide Band) 신호는 일반적으로 32KHz 샘플링 레이트를 가지는 신호이므로, WB 코딩에 적합한 샘플링 레이트로 변환하는 것이 필요하다. 일례로, 다운 샘플링부(201)는 32KHz 샘플링 레이트를 나타내는 입력 신호를 12.8KHz로 다운 샘플링할 수 있다.
코어 부호화부(202)는 다운 샘플링된 입력 신호를 코어 부호화할 수 있다. 즉, 코어 부호화부(202)는 WB 코딩을 수행할 수 있다. 일례로, 코어 부호화부(202)는 CELP 방식의 WB 코딩을 수행할 수 있다.
주파수 변환부(203)는 입력 신호를 주파수 변환할 수 있다. 일례로, 주파수 변환부(203)는 FFT(Fast Fourier Transform) 또는 MDCT(Modified Discrete Cosing Transform) 중 어느 하나를 이용하여 입력 신호를 주파수 변환할 수 있다. 이하에서는 MDCT를 적용한 것으로 가정하여 설명하기로 한다.
확장 부호화부(204)는 주파수 영역의 입력 신호의 기본 신호를 이용하여 대역폭 확장 부호화를 수행할 수 있다. 즉, 확장 부호화부(204)는 주파수 영역의 입력 신호를 기반으로 SWB BWE 부호화를 수행할 수 있다. 이 경우, 확장 부호화부(204)는 도 4에서 부호화 정보를 입력으로 받지 않는다.
또한, 확장 부호화부(204)는 주파수 영역의 입력 신호의 기본 신호와 입력 신호의 특성을 이용하여 대역폭 확장 부호화를 수행할 수 있다. 이 경우, 입력 신호의 특성의 출처에 따라 확장 부호화부(204)는 도 4와 도 5와 같은 블록 다이어그램으로 구체화될 수 있다.
확장 부호화부(204)의 동작에 대해서는 도 4 및 도 5에서 구체적으로 설명하기로 한다.
결국, 도 2a에서 상단 path는 코어 부호화 과정을 나타내고, 하단 Path는 대역폭 확장 부호화 과정을 나타낸다. 특히, SWB BWE 부호화 과정을 통해 입력 신호의 에너지 정보가 복호화 장치(102)에 전달될 수 있다.
도 2b는 본 발명의 다른실시예에 따른 부호화 장치의 전체 구성을 도시한 블록 다이어그램이다.
도 2b를 참고하면, 부호화 장치(101)는 신호 분류부(205), CELP (Code Excited Linear Prediction) 부호화부(206), TD(Time Domain) 확장 부호화부(207), 주파수 변환부(208) 및 FD(Frequency Domain) 부호화부(209)를 포함할 수 있다.
신호 분류부(205)는 입력 신호의 특성을 참조하여, 입력 신호의 부호화 모드를 결정한다. 이때, 본 실시예에 따른 부호화 모드는 부호화 방식이 될 수 있다.
예를 들어 설명하면, 신호 분류부(205)는 입력 신호의 시간 도메인 특성과 주파수 도메인 특성을 고려하여, 입력 신호의 부호화 모드를 결정할 수 있다. 또한, 신호 분류부(205)는 입력 신호의 특성이 음성신호에 해당할 경우 입력 신호에 대하여 CELP 부호화가 수행되도록 결정하고, 입력 신호의 특성이 오디오신호에 해당할 경우 입력 신호에 대하여 FD 부호화가 수행되도록 결정할 수 있다.
다만, 신호 분류부(205)로 입력되는 입력 신호는 다운 샘플링부(미도시)에 의하여 다운 샘플링된 신호가 될 수 있다. 예를 들어 설명하면, 본 실시예에 따른 입력 신호는 32kHz 또는 48kHz의 샘플링 레이트를 가지는 신호를 리-샘플링(re-sampling)함에 따라 12.8kHz 또는 16kHz의 샘플링 레이트를 가지는 신호가 될 수 있다. 이때, 리-샘플링은 다운-샘플링이 될 수 있다.
도 2a에서 설명한 바와 같이, 32kHz의 샘플링 레이트를 가지는 신호는 SWB(Super Wide Band) 신호가 될 수 있고, 이때, SWB 신호는 Fullband(FB) 신호가 될 수 있다. 또한, 16kHz의 샘플링 레이트를 가지는 신호는 WB(Wide Band) 신호가 될 수 있다.
이에 따라, 신호 분류부(205)는 입력 신호의 저주파 영역에 대응하는 저주파 신호의 특성을 참조하여, 저주파 신호의 부호화 모드를 CELP 모드 또는 FD 모드 중 어느 하나로 결정할 수 있다.
CELP 부호화부(206)는 입력 신호의 부호화 모드가 CELP 모드로 결정되면, 입력 신호의 저주파 신호에 대하여 CELP 부호화를 수행한다. 예를 들어 설명하면, CELP 부호화부(206)는 입력 신호의 저주파 신호로부터 여기신호(excitation signal)를 추출하고, 추출된 여기신호를 피치(pitch)정보에 해당하는 adaptive codebook contribution 및 fixed codebook contribution 각각을 고려하여 양자화할 수 있다.
다만, 이에 한정되지 않고, 본 실시예에 따른 CELP 부호화부(206)는 입력 신호의 저주파 신호로부터 선형예측계수(Linear Prediction Coefficient, LPC)를 추출하고, 추출된 선형예측계수를 양자화하고, 양자화된 선형예측계수를 이용하여 여기신호를 추출하는 과정을 더 포함할 수도 있다.
또한, 본 실시예에 따른 CELP 부호화부(206)는 입력 신호의 저주파 신호의 특성에 따른 다양한 부호화 모드에 따라 CELP 부호화를 수행할 수 있다. 예를 들어 설명하면, CELP 부호화부(206)는 유성음 부호화 모드(voiced coding mode), 무성음 부호화 모드(unvoiced coding mode), 전이신호 부호화 모드(transition coding mode) 또는 일반적인 부호화 모드(generic coding mode) 중 어느 하나의 부호화 모드로 입력 신호의 저주파 신호에 대하여 CELP 부호화를 수행할 수 있다.
TD 확장 부호화부(207)는 입력 신호의 저주파 신호에 대하여 CELP 부호화가 수행되면, 입력 신호의 고주파 신호에 대하여 확장 부호화를 수행한다. 예를 들어 설명하면, TD 확장 부호화부(207)는 입력 신호의 고주파 영역에 대응하는 고주파 신호의 선형예측계수를 양자화한다. 이때, TD 확장 부호화부(207)는 입력 신호의 고주파 신호의 선형예측계수를 추출하고, 추출된 선형예측계수를 양자화할 수도 있다. 또한, 본 실시예에 따른 TD 확장 부호화부(207)는 입력 신호의 저주파 신호의 여기신호를 사용하여, 입력 신호의 고주파 신호의 선형예측계수를 생성할 수도 있다.
이에 따라, TD 확장 부호화부(207)는 TD 고주파수 확장 부호화부가 될 수 있으나, 이에 한정되지 않는다.
주파수 변환부(208)는 입력 신호의 부호화 모드가 FD(Frequency Domain) 부호화 모드로 결정되면, 입력 신호를 주파수 변환한다. 예를 들어 설명하면, 주파수 변환부(208)는 입력 신호에 대하여 MDCT(Modified Discrete Cosine Transform) 등과 같이 프레임 간에 중첩(overlap)되는 주파수 변환 방식을 사용할 수 있으나, 이에 한정되지 않는다.
FD 부호화부(209)는 주파수 변환된 입력 신호에 대하여 FD 부호화를 수행한다. 예를 들어 설명하면, FD 부호화부(209)는 주파수 변환부(208)에서 변환된 주파수 스펙트럼에 대하여 FD 부호화를 수행할 수 있다. FD 부호화부(209)에 관하여 이하 도 2c에서 상세히 설명한다.
본 실시예에 따른 부호화 장치(101)는 입력 신호를 상기된 바에 따른 부호화 방법을 사용하여 부호화된 비트스트림을 출력할 수 있다. 예를 들어 설명하면, 입력 신호가 부호화된 비트스트림은 헤더(header) 및 페이로드(payload)를 포함할 수 있다.
이때, 헤더는 입력 신호가 부호화된 모드를 나타내는 부호화 모드정보를 포함할 수 있고, 페이로드는 입력 신호가 부호화된 모드에 따라, 입력 신호가 CELP 모드로 부호화된 경우에는 CELP 정보 및 TD 고주파수 확장정보를 포함할 수 있고, 입력 신호가 FD 모드로 부호화된 경우에는 예측 데이터(prediction data) 및 FD 정보를 포함할 수 있다.
다만, 본 실시예에 따른 부호화된 비트스트림은 프레임 에러가 발생하는 경우에 대비하기 위하여, 비트스트림의 헤더에 이전 프레임의 모드정보를 더 포함할 수 있다. 예를 들어 설명하면, 비트스트림의 헤더는 입력 신호의 부호화 보드가 FD 모드로 결정된 경우, 이전 프레임의 모드정보를 더 포함할 수 있다. 이에 관하여, 이하 도 25에서 좀 더 상세히 설명한다.
이에 따라, 본 실시예에 따른 부호화 장치(101)는 입력 신호의 특성에 따라 CELP 모드 또는 FD 모드 중 어느 하나의 부호화 모드를 사용하도록 스위칭 됨에 따라 입력 신호의 특성에 따라 적절한 부호화 모드를 수행할 수 있다. 또한, 본 실시예에 따른 부호화 장치(101)는 신호 분류부(205)의 결정에 따라 FD 모드를 사용함에 따라, 고비트율 환경에 적절한 부호화를 수행할 수 있다.
도 2c는 본 발명의 일실시예에 따른 부호화 장치의 FD 부호화부를 도시한 도면이다.
도 2c를 참조하면, FD 부호화부(209)는 Norm 부호화부(2091), FPC(Factorial Pulse Coding) 부호화부(2092), 노이즈 부가정보 생성부(2093) 및 FD 확장 부호화부(2094)를 포함할 수 있다.
Norm 부호화부(2091)는 주파수 변환부(208)에서 변환된 입력 신호에 대하여 주파수 밴드 별로 에너지를 추출하고, 추출된 에너지를 양자화한다. 또한, Norm 부호화부(2091)는 추출된 에너지를 기반으로 스케일링(scaling)할 수 있고, 이때, 스케일링될 에너지 값은 양자화될 수 있다. 예를 들어 설명하면, 본 실시예에 따른 에너지 값은 에너지, 파워 등과 같이 주파수 밴드의 에너지와 비례관계에 있는 측정 방식을 사용하여 획득할 수 있다.
Norm 부호화부(2091)에서 양자화된 결과에 따른 Norm 정보는 부호화된 비트스트림에 포함되어 복호화 장치(102)로 전송될 수 있다.
예를 들어 설명하면, Norm 부호화부(2091)는 입력 신호에 대응하는 주파수 스펙트럼을 소정 개수의 주파수 밴드들로 분할하고, 주파수 스펙트럼을 분할된 주파수 밴드 별로 에너지를 추출하고, 추출된 에너지 값을 양자화한다. 이와 같이, 양자화된 값은 주파수 스펙트럼을 정규화(normalization)하는데 사용될 수 있다.
이때, Norm 부호화부(2091)는 양자화된 값을 부호화하는 과정을 더 수행할 수도 있다.
FPC 부호화부(2092)는 양자화된 Norm 값으로 상기 변환된 입력 신호를 스케일링한 값에 대하여 FPC 부호화를 수행한다. 즉, FPC 부호화부(2092)는 Norm 부호화부(2091)에서 정규화된 스펙트럼 값에 대하여 FPC 부호화를 수행할 수 있다.
예를 들어 설명하면, FPC 부호화부(2092)는 분할된 주파수 밴드 별로 가용한 비트 수를 할당하고, 정규화된 스펙트럼 값에 대하여 주파수 밴드 별로 할당된 비트 수에 따른 FPC 부호화를 수행한다. 이러한 경우, 주파수 밴드 별로 할당되는 비트 수는 타겟 비트율(target bitrate)에 따라 결정될 수 있다. 또한, FPC 부호화부(2092)는 Norm 부호화부(2091)에서 양자화된 Norm 부호화 값을 사용하여 주파수 밴드 별로 할당되는 비트를 산출할 수도 있다. 이러한 경우, FPC 부호화부(2092)는 정규화된 스펙트럼이 아닌 주파수 변환된 스펙트럼에 대하여 FPC 부호화를 수행할 수도 있다.
노이즈 부가정보 생성부(2093)는 FPC 부호화가 수행됨에 따른 노이즈 부가정보를 생성한다. 예를 들어 설명하면, 노이즈 부가정보 생성부(2093)는 FPC 부호화부(2092)에서 주파수 스펙트럼에 대한 FPC 부호화의 수행을 참조하여, 적절한 노이즈 레벨을 생성한다.
이때, 노이즈 부가정보 생성부(2093)에서 생성된 부가정보는 복호화 단에서 노이즈 필링(noise filling)을 수행하는 경우 참조할 수 있도록, 부호화된 비트스트림에 포함될 수 있다.
FD 확장 부호화부(2094)는 입력 신호의 고주파 신호에 대하여 확장 부호화를 수행한다. 좀 더 상세히 설명하면, FD 확장 부호화부(2094)는 저주파수 스펙트럼을 이용하여 고주파수 확장을 수행한다.
예를 들어 설명하면, FD 확장 부호화부(2094)는 입력 신호의 고주파 영역에 대응하는 고주파 신호의 주파수 도메인 에너지 정보의 양자화를 수행한다. 이때, FD 확장 부호화부(2094)는 입력 신호에 대응하는 주파수 스펙트럼을 소정 개수의 주파수 밴드들로 분할하고, 분할된 주파수 밴드 별로 주파수 스펙트럼의 에너지를 획득하고, 획득된 에너지를 이용하여 MSVQ(Multi stage Vector Quantization) 방식을 수행할 수 있다. 이때, MSVQ 방식은 다단계 벡터 양자화가 될 수 있다.
좀 더 상세히 설명하면, FD 확장 부호화부(2094)는 소정 개수의 주파수 밴드들 중 홀수 번째 밴드들의 에너지 정보를 모아 VQ를 수행하고, VQ를 수행한 결과에 따른 양자화된 값을 이용하여 짝수 번째 밴드의 예측 에러를 획득하고, 다음 스테이지에서 획득된 예측 에러에 대한 VQ를 수행할 수 있다.
다만, 이에 한정되지 않고, FD 확장 부호화부(2094)는 짝수 번째 밴드들의 에너지 정보를 모아 VQ를 수행하고, VQ를 수행한 결과에 따른 양자화된 값을 이용하여 홀수 번째 밴드의 예측 에러를 획득할 수도 있다.
즉, FD 확장 부호화부(2094)는 제n 번째 밴드에 VQ를 수행한 결과에 따른 양자화된 값과 제n+2 번째 밴드에 VQ를 수행한 결과에 따른 양자화된 값을 이용하여, 제n+1 번째 밴드에 대한 예측 에러를 획득한다. 이때, n은 자연수가 될 수 있다.
또한, FD 확장 부호화부(2094)에서 에너지 정보를 모아 VQ를 수행함에 있어서, FD 확장 부호화부(2094)는 소정의 주파수 밴드에서 여기신호를 생성하는 방식을 시뮬레이션(simulation)해보고, 시뮬레이션 결과에 따른 여기신호의 특성과 상기 소정의 주파수 밴드의 원신호의 특성이 다르면, 에너지를 조절할 수 있다. 이때, 시뮬레이션 결과에 따른 여기신호의 특성 및 원신호의 특성은 tonality 및 noiseness factor 중 적어도 어느 하나가 될 수 있으나, 이에 한정되지 않는다. 이에 따라, 복호화단에서 실제 에너지와 같은 복호화를 수행하였을 때, 노이즈가 증가되는 현상을 방지할 수 있다.
FD 확장 부호화부(2094)는 입력 신호의 고주파 신호의 특성에 따라 다양한 여기신호 생성방식을 사용하는 멀티 모드 고주파 확장(Multi Mode Bandwidth Extension) 방식을 사용할 수 있다. 예를 들어 설명하면, FD 확장 부호화부(2094)는 입력 신호의 특성에 따라 프레임 별로 노말(normal) 모드, 하모닉(harmonic) 모드, 또는 노이즈(noise) 모드 중 어느 하나의 모드를 사용하여 여기신호를 생성할 수 있다.
또한, 본 실시예에 따른 FD 확장 부호화부(2094)는 비트율에 따라 서로 다른 주파수 대역에 대한 신호를 생성할 수 있다. 즉, FD 확장 부호화부(2094)에서 확장 부호화가 수행되는 고주파 신호에 대응하는 고주파수 대역은 비트율에 따라, 서로 다른게 설정될 수 있다.
예를 들어 설명하면, FD 확장 부호화부(2094)는 16kbps의 비트율에서는 약 6.4 내지 14.4kHz의 주파수 대역에 해당하는 신호를 생성하는데 사용되고, 16kbps 이상의 비트율에서는 약 8 내지 16kHz의 주파수 대역에 해당하는 신호를 생성하는데 사용할 수 있다. 또한, FD 확장 부호화부(2094)는 16kbps의 비트율에서는 약 6.4 내지 14.4kHz의 주파수 대역에 해당하는 고주파 신호에 대하여 확장 부호화를 수행하고, 16kbps 이상의 비트율에서는 약 8 내지 16kHz의 주파수 대역에 해당하는 고주파 신호에 대하여 확장 부호화를 수행한다.
이러한 경우, 본 실시예에 따른 FD 확장 부호화부(2094)는 서로 다른 비트율에 대하여, 동일한 코드북을 공유하여 에너지 양자화를 수행할 수 있다. 이에 관하여, 이하 도 26에서 좀 더 상세히 설명한다.
또한, 본 실시예에 따른 FD 부호화부(209)는 stationary 프레임이 입력되는 경우, Norm 부호화부(2091), FPC 부호화부(2092), 노이즈 부가정보 생성부(2093) 및 FD 확장 부호화부(2094) 각각에 따른 동작이 수행될 수 있다.
다만, transient 프레임이 입력되는 경우, 본 실시예에 따른 FD 부호화부(209)에서 FD 확장 부호화부(2094)는 동작하지 않을 수 있다. 이러한 경우, FD 부호화부(209)의 Norm 부호화부(2091) 및 FPC 부호화부(2092)는 stationary 프레임이 입력되는 경우보다 FPC 코딩을 수행하는 주파수 대역의 상위 밴드값(Fcore)을 더 높게 적용할 수 있다. Fcore 값에 대하여 이하 도 27에서 좀 더 상세히 설명한다.
도 2d는 본 발명의 또 다른실시예에 따른 부호화 장치의 전체 구성을 도시한 블록 다이어그램이다.
도 2d를 참고하면, 부호화 장치(101)는 신호 분류부(210), LPC 부호화부(211), CELP 부호화부(212), TD 확장 부호화부(213), 오디오 부호화부(214) 및 FD 확장 부호화부(215)를 포함할 수 있다.
신호 분류부(210)는 입력 신호의 특성을 참조하여, 입력 신호의 부호화 모드를 결정한다. 이때, 본 실시예에 따른 부호화 모드는 부호화 방식이 될 수 있다.
예를 들어 설명하면, 신호 분류부(210)는 입력 신호의 시간 도메인 특성과 주파수 도메인 특성을 고려하여, 입력 신호의 부호화 모드를 결정할 수 있다. 또한, 신호 분류부(205)는 입력 신호의 특성이 음성신호에 해당할 경우 입력 신호에 대하여 CELP 부호화가 수행되도록 결정하고, 입력 신호의 특성이 오디오신호에 해당할 경우 입력 신호에 대하여 오디오 부호화가 수행되도록 결정할 수 있다.
LPC 부호화부(211)는 입력 신호의 저주파 신호로부터 선형예측계수(Linear Prediction Coefficient, LPC)를 추출하고, 추출된 선형예측계수를 양자화한다. 예를 들어 설명하면, 본 실시예에 따른 LPC 부호화부(211)는 TCQ(Trellis Coded Quantization) 방식, MSVQ(Multi-stage Vector Quantization) 방식, LVQ(Lattice Vector Quantization) 방식 등을 사용하여, 선형예측계수를 양자화할 수 있으나, 이에 한정되지 않는다.
좀 더 상세히 설명하면, LPC 부호화부(211)는 32kHz 또는 48kHz의 샘플링 레이트를 가지는 입력 신호를 리-샘플링(re-sampling)함에 따라 12.8kHz 또는 16kHz의 샘플링 레이트를 가지는 입력 신호의 저주파 신호로부터 선형예측계수를 추출할 수 있다.
도 2a 내지 도 2b에서 설명한 바와 같이, 32kHz의 샘플링 레이트를 가지는 신호는 SWB(Super Wide Band) 신호가 될 수 있고, 이때, SWB 신호는 Fullband(FB) 신호가 될 수 있다. 또한, 16kHz의 샘플링 레이트를 가지는 신호는 WB(Wide Band) 신호가 될 수 있다.
또한, LPC 부호화부(211)는 양자화된 선형예측계수를 이용하여 LPC 여기신호를 추출하는 과정을 더 포함할 수도 있으나, 이에 한정되지 않는다.
CELP 부호화부(212)는 입력 신호의 부호화 모드가 CELP 모드로 결정되면, 선형예측계수를 이용하여 추출된 LPC 여기신호에 대하여 CELP 부호화를 수행한다. 예를 들어 설명하면, CELP 부호화부(212)는 LPC 여기신호에 대하여 피치(pitch)정보에 해당하는 adaptive codebook contribution 및 fixed codebook contribution 각각을 고려하여 양자화할 수 있다. 이때, LPC 여기신호는 CELP 부호화부(212) 및 LPC 부호화부(211) 중 적어도 어느 하나에서 생성될 수 있다.
또한, 본 실시예에 따른 CELP 부호화부(212)는 입력 신호의 저주파 신호의 특성에 따른 다양한 부호화 모드에 따라 CELP 부호화를 수행할 수 있다. 예를 들어 설명하면, CELP 부호화부(206)는 유성음 부호화 모드(voiced coding mode), 무성음 부호화 모드(unvoiced coding mode), 전이신호 부호화 모드(transition coding mode) 또는 일반적인 부호화 모드(generic coding mode) 중 어느 하나의 부호화 모드로 입력 신호의 저주파 신호에 대하여 CELP 부호화를 수행할 수 있다.
TD 확장 부호화부(213)는 입력 신호의 저주파 신호의 LPC 여기신호에 대하여 CELP 부호화가 수행되면, 상기 입력 신호의 고주파 신호에 대하여 확장 부호화를 수행한다.
예를 들어 설명하면, TD 확장 부호화부(213)는 입력 신호의 고주파 신호의 선형예측계수를 양자화한다. 이때, 본 실시예에 따른 TD 확장 부호화부(213)는 입력 신호의 저주파 신호의 LPC 여기신호를 사용하여, 입력 신호의 고주파 신호의 선형예측계수를 추출할 수도 있다.
이에 따라, TD 확장 부호화부(213)는 TD 고주파수 확장 부호화부가 될 수 있으나, 이에 한정되지 않는다.
오디오 부호화부(214)는 입력 신호의 부호화 모드가 오디오 부호화 모드로 결정되면, 선형예측계수를 이용하여 추출된 LPC 여기신호에 대하여 오디오 부호화를 수행한다.
예를 들어 설명하면, 오디오 부호화부(214)는 선형예측계수를 이용하여 추출된 LPC 여기신호를 주파수 변환하고, 변환된 LPC 여기신호를 양자화한다.
오디오 부호화부(214)에서 주파수 변환을 수행함에 있어서, DCT(Discrete Cosine Transform) 등과 같이 프레임 간에 중첩(overlap)되는 영역이 존재하지 않는 주파수 변환 방식을 사용할 수 있다. 또한, 오디오 부호화부(214)는 주파수 변환된 여기신호 스펙트럼에 대하여 FPC 방식, 또는 Lattice VQ(LVQ) 방식에 따른 양자화를 수행할 수 있다.
추가적으로, 오디오 부호화부(214)는 LPC 여기신호에 대하여 양자화를 수행함에 있어서 비트의 여유가 있는 경우, adaptive codebook contribution 및 fixed codebook contribution의 TD 코딩 정보를 더 고려하여 양자화할 수도 있다.
FD 확장 부호화부(215)는 입력 신호의 저주파 신호의 LPC 여기신호에 대하여 오디오 부호화가 수행되면, 입력 신호의 고주파 신호에 대하여 확장 부호화를 수행한다. 즉, FD 확장 부호화부(215)는 저주파수 스펙트럼을 이용하여 고주파수 확장을 수행한다.
예를 들어 설명하면, FD 확장 부호화부(215)는 입력 신호의 고주파 영역에 대응하는 고주파 신호의 주파수 도메인 에너지 정보의 양자화를 수행한다. 이때, FD 확장 부호화부(215)는 MDCT 등과 같은 주파수 변환 방식을 사용하여 주파수 스펙트럼을 생성하고, 주파수 스펙트럼을 소정 개수의 주파수 밴드들로 분할하고, 분할된 주파수 밴드 별로 주파수 스펙트럼의 에너지를 획득하고, 획득된 에너지를 이용하여 MSVQ(Multi stage Vector Quantization) 방식을 수행할 수 있다. 이때, MSVQ 방식은 다단계 벡터 양자화가 될 수 있다.
좀 더 상세히 설명하면, FD 확장 부호화부(215)는 소정 개수의 주파수 밴드들 중 홀수 번째 밴드들의 에너지 정보를 모아 VQ를 수행하고, VQ를 수행한 결과에 따른 양자화된 값을 이용하여 짝수 번째 밴드의 예측 에러를 획득하고, 다음 스테이지에서 획득된 예측 에러에 대한 VQ를 수행할 수 있다.
다만, 이에 한정되지 않고, FD 확장 부호화부(215)는 짝수 번째 밴드들의 에너지 정보를 모아 VQ를 수행하고, VQ를 수행한 결과에 따른 양자화된 값을 이용하여 홀수 번째 밴드의 예측 에러를 획득할 수도 있다.
즉, FD 확장 부호화부(215)는 제n 번째 밴드에 VQ를 수행한 결과에 따른 양자화된 값과 제n+2 번째 밴드에 VQ를 수행한 결과에 따른 양자화된 값을 이용하여, 제n+1 번째 밴드에 대한 예측 에러를 획득한다. 이때, n은 자연수가 될 수 있다.
또한, FD 확장 부호화부(215)에서 에너지 정보를 모아 VQ를 수행함에 있어서, FD 확장 부호화부(215)는 소정의 주파수 밴드에서 여기신호를 생성하는 방식을 시뮬레이션(simulation)해보고, 시뮬레이션 결과에 따른 여기신호의 특성과 상기 소정의 주파수 밴드의 원신호의 특성이 다르면, 에너지를 조절할 수 있다. 이때, 시뮬레이션 결과에 따른 여기신호의 특성 및 원신호의 특성은 tonality 및 noiseness factor 중 적어도 어느 하나가 될 수 있으나, 이에 한정되지 않는다. 이에 따라, 복호화단에서 실제 에너지와 같은 복호화를 수행하였을 때, 노이즈가 증가되는 현상을 방지할 수 있다.
FD 확장 부호화부(215)는 입력 신호의 고주파 신호의 특성에 따라 다양한 여기신호 생성방식을 사용하는 멀티 모드 고주파 확장(Multi Mode Bandwidth Extension) 방식을 사용할 수 있다. 예를 들어 설명하면, FD 확장 부호화부(215)는 입력 신호의 특성에 따라 프레임 별로 노말(normal) 모드, 하모닉(harmonic) 모드, 전이(transient) 모드, 또는 노이즈(noise) 모드 중 어느 하나의 모드를 사용하여 여기신호를 생성할 수 있다. 이러한 경우, 전이 모드에서는 temporal envelope 정보도 함께 양자화될 수 있다.
또한, 본 실시예에 따른 FD 확장 부호화부(215)는 비트율에 따라 서로 다른 주파수 대역에 대한 신호를 생성할 수 있다. 즉, FD 확장 부호화부(215)에서 확장 부호화가 수행되는 고주파 신호에 대응하는 고주파수 대역은 비트율에 따라, 서로 다른게 설정될 수 있다.
예를 들어 설명하면, FD 확장 부호화부(215)는 16kbps의 비트율에서는 약 6.4 내지 14.4kHz의 주파수 대역에 해당하는 신호를 생성하는데 사용되고, 16kbps 이상의 비트율에서는 약 8 내지 16kHz의 주파수 대역에 해당하는 신호를 생성하는데 사용할 수 있다. 또한, FD 확장 부호화부(215)는 16kbps의 비트율에서는 약 6.4 내지 14.4kHz의 주파수 대역에 해당하는 고주파 신호에 대하여 확장 부호화를 수행하고, 16kbps 이상의 비트율에서는 약 8 내지 16kHz의 주파수 대역에 해당하는 고주파 신호에 대하여 확장 부호화를 수행한다.
이러한 경우, 본 실시예에 따른 FD 확장 부호화부(215)는 서로 다른 비트율에 대하여, 동일한 코드북을 공유하여 에너지 양자화를 수행할 수 있다. 이에 관하여, 이하 도 26에서 좀 더 상세히 설명한다.
본 실시예에 따른 부호화 장치(101)는 입력 신호를 상기된 바에 따른 부호화 방법을 사용하여 부호화된 비트스트림을 출력할 수 있다. 예를 들어 설명하면, 입력 신호가 부호화된 비트스트림은 헤더(header) 및 페이로드(payload)를 포함할 수 있다.
이때, 헤더는 입력 신호가 부호화된 모드를 나타내는 부호화 모드정보를 포함할 수 있고, 페이로드는 입력 신호가 부호화된 모드에 따라, 입력 신호가 CELP 모드로 부호화된 경우에는 CELP 정보 및 TD 고주파수 확장정보를 포함할 수 있고, 입력 신호가 오디오 부호화 모드로 부호화된 경우에는 예측 데이터(prediction data), 오디오 부호화 정보 및 FD 고주파수 확장정보를 포함할 수 있다.
입력 신호의 특성에 따라 CELP 모드 또는 오디오 부호화 모드 중 어느 하나의 부호화 모드를 사용하도록 스위칭 됨에 따라 입력 신호의 특성에 따라 적절한 부호화 모드를 수행할 수 있다. 또한, 본 실시예에 따른 부호화 장치(101)는 신호 분류부(210)의 결정에 따라 FD 모드를 사용함에 따라, 저비트율 환경에 적절한 부호화를 수행할 수 있다.
도 3은 본 발명의 일실시예에 따른 코어 부호화부를 도시한 도면이다.
도 3을 참고하면, 코어 부호화부(202)는 신호 분류부(301) 및 부호화부(302)를 포함할 수 있다.
신호 분류부(301)는 다운샘플링된 입력 신호(12.8KHz)의 특성을 분류할 수 있다. 즉, 신호 분류부(301)는 입력 신호의 특성에 따라 입력 신호를 다양한 부호화 모드로 분류할 수 있다. 예를 들어, ITU-T G.718 코덱에서 신호 분류부(301)는 음성 신호를 유성음 부호화 모드(Voiced coding mode), 무성음 부호화 모드(unvoiced coding mode), 전이신호 부호화 모드(transition coding mode), 그리고 일반적인 신호 부호화 모드(generic coding mode)로 분류할 수 있다. 여기서, 무성음 부호화 모드는 무성음 프레임과 대부분의 inactive frame을 부호화하기 위해 설계되었다.
부호화부(302)는 신호 분류부(301)에서 분류된 입력 신호의 특성에 따라 최적화된 코딩을 수행할 수 있다.
도 4는 본 발명의 일실시예에 따른 부호화 장치의 확장 부호화부를 도시한 도면이다.
도 4을 참고하면, 확장 부호화부(204)는 기본 신호 생성부(401), 요소 추정부(402), 에너지 추출부(403), 에너지 제어부(404) 및 에너지 양자화부(405)를 포함할 수 있다. 일례로, 확장 부호화부(204)는 부호화 모드를 입력받지 않고 에너지 제어 요소를 추정할 수 있다. 다른 일례로, 확장 부호화부(204)는 부호화 모드를 이용하여 에너지 제어 요소를 추정할 수 있다. 이 때, 부호화 모드는 코어 부호화부(202)로부터 입력될 수 있다.
기본 신호 생성부(401)는 주파수 영역의 입력 신호의 주파수 스펙트럼을 이용하여 입력 신호의 기본 신호(basic signal)를 생성할 수 있다. 기본 신호는 WB 신호를 기반으로 SWB BWE를 수행하기 위한 신호를 의미한다. 다시 말해서, 기본 신호는 저주파 영역의 Fine Structure를 구성하는 신호를 의미한다. 기본 신호를 생성하는 과정은 도 6에서 보다 구체적으로 설명하기로 한다.
일례로, 요소 추정부(402)는 기본 신호를 이용하여 에너지 제어 요소(energy control factor)를 추정할 수 있다. 즉, 부호화 장치(101)는 복호화 장치(102)에서 SWB 영역의 신호를 생성하기 위해 입력 신호의 에너지 정보를 전송한다. 이 때, 요소 추정부(402)는 에너지 정보를 지각적인 관점에서 제어하기 위해 에너지를 제어하기 위한 파라미터인 에너지 제어 요소를 추정할 수 있다. 에너지 제어 요소를 추정하는 과정은 도 7에서 구체적으로 설명하기로 한다.
다른 일례로, 요소 추정부(402)는 기본 신호와 입력 신호의 특성을 이용하여 에너지 제어 요소를 추정할 수 있다. 이 때, 입력 신호의 특성은 코어 부호화부(202)로부터 입력될 수 있다.
에너지 추출부(403)는 주파수 영역의 입력 신호로부터 에너지를 추출할 수 있다. 추출된 에너지는 복호화 장치(102)에 전송된다. 에너지는 주파수 밴드별로 추출될 수 있다.
에너지 제어부(404)는 에너지 제어 요소를 이용하여 입력 신호로부터 추출된 에너지를 제어할 수 있다. 즉, 에너지 제어부(404)는 주파수 밴드별로 추출된 에너지에 에너지 제어 요소를 적용함으로써 에너지를 제어할 수 있다.
에너지 양자화부(405)는 제어된 에너지를 양자화(quantization)할 수 있다. 에너지는 dB scale로 변환되어 양자화가 수행될 수 있다. 구체적으로, 에너지 양자화부(405)는 전체 에너지인 글로벌(global) 에너지를 구하고, 글로벌 에너지 및 주파수 밴드별 에너지와 글로벌 에너지 간의 차이를 스칼라 양자화할 수 있다. 또는 첫번째 밴드는 에너지를 직접 양자화하고, 두번 째 이후의 밴드는 이전 밴드와의 차이를 양자화 할 수 있다. 또한, 에너지 양자화부(405)는 주파수 밴드의 차이값을 이용하지 않고, 주파수 밴드별로 에너지를 직접 양자화할 수도 있다. 주파수 밴드별로 에너지를 직접 양자화하는 경우, 스칼라 또는 벡터 양자화가 이용될 수 있다. 에너지 양자화부(405)에 대해서는 도 8 및 도 9에서 구체적으로 설명하기로 한다.
도 5는 본 발명의 다른 일실시예에 따른 부호화 장치의 확장 부호화부를 도시한 도면이다.
도 5의 확장 부호화부(204)는 도 4와 달리 신호 분류부(501)를 더 포함할 수 있다. 일례로, 요소 추정부(402)는 기본 신호와 입력 신호의 특성을 이용하여 에너지 제어 요소를 추정할 수 있다. 이 때, 입력 신호의 특성은 코어 부호화부(202)에서 입력되는 것이 아니라, 신호 분류부(501)에서 입력될 수 있다.
신호 분류부(501)는 입력 신호(32 KHz, MDCT Spectrum)를 이용하여 입력 신호를 특성에 따라 분류할 수 있다. 구체적으로, 신호 분류부(501)는 입력 신호를 특성에 따라 다양한 부호화 모드로 분류할 수 있다.
입력 신호의 특성이 분류됨에 따라 에너지 제어 요소 추정과정이 적합한 신호에 대해서만 에너지 제어 요소가 추정되고, 또한 에너지가 제어될 수 있다. 예를 들어, 노이즈 신호나 무성음 신호처럼 토널한 성분을 포함하지 않는 신호는 에너지 제어 요소 추정과정이 적합하지 않을 수 있다. 이 때, 확장 부호화부(204)는 입력 신호가 무성음 부호화 모드로 분류된 경우, 확장 부호화부(204)는 에너지 제어 요소를 추정하지 않고 대역폭 확장 부호화를 수행할 수 있다.
도 5에서, 기본 신호 생성부(401), 요소 추정부(402), 에너지 추출부(403), 에너지 제어부(404) 및 에너지 양자화부(405)에 대한 설명은 도 4를 참조할 수 있다.
도 6은 본 발명의 일실시예에 따른 확장 부호화부의 기본 신호 생성부를 도시한 도면이다.
도 6를 참고하면, 기본 신호 생성부(401)는 인공 신호 생성부(601), 포락선 적용부(602) 및 포락선 추정부(603)를 포함할 수 있다.
인공 신호 생성부(601)는 주파수 영역의 입력 신호의 저주파수 영역을 복사하고 폴딩하여 고주파수 영역에 대응하는 인공 신호(artificial signal)를 생성할 수 있다. 즉, 인공 신호 생성부(601)는 주파수 영역의 입력 신호의 저주파수 스펙트럼을 복사하여 SWB 영역의 인공 신호를 생성할 수 있다. 인공 신호를 생성하는 구체적인 과정은 도 6에서 설명하기로 한다.
포락선 추정부(602)는 윈도우를 이용하여 기본 신호의 포락선을 추정할 수 있다. 기본 신호의 포락선은 SWB 영역의 인공 신호의 주파수 스펙트럼에 포함되어 있는 저주파수 영역의 포락선 정보를 제거하기 위해 사용될 수 있다. 특정 주파수 인덱스의 포락선은 특정 주파수 이전과 이후의 주파수 스펙트럼을 사용하여 결정될 수 있다. 그리고, 움직임 평균(Moving Average)를 통해 포락선이 추정될 수 있다. 일례로, 주파수 변환시에 MDCT가 사용되었다면, MDCT 변환된 주파수 스펙트럼의 절대값을 통해 기본 신호의 포락선이 추정될 수 있다.
이 때, 포락선 추정부(602)는 Whitening 밴드를 구성한 후 Whitening 밴드 별로 주파수 Magnitude의 평균을 Whitening 밴드 내에 속한 주파수의 포락선으로 추정할 수 있다. 상기 Whitening 밴드에 속하는 주파수 스펙트럼의 개수는 에너지를 추출하는 밴드보다 더 적게 설정될 수 있다.
화이트닝(Whitening) 밴드 별로 주파수 크기(magnitude)의 평균을 화이트닝 밴드 내에 속한 주파수의 포락선으로 추정하는 경우, 포락선 추정부(602)는 화이트닝 밴드 내에 속한 스펙트럼의 개수가 많은지 또는 적은지의 여부를 정보로 전송하여 기본 신호의 평탄화 정도를 조절할 수 있다. 예를 들어, 포락선 추정부(602)는 8개의 스펙트럼으로 구성된 경우와 3개의 스펙트럼으로 구성된 경우의 2가지 방식에 근거하여 정보를 전송할 수 있다. 이 때 3개의 스펙트럼으로 구성된 경우, 8개의 스펙트럼으로 구성된 경우보다 더 평탄화 된 기본 신호가 생성될 수 있다.
또한, 포락선 추정부(602)는 화이트닝 밴드 내에 속한 스펙트럼의 개수가 많은지 또는 적은지의 여부에 대한 정보를 전송하지 않고, 코어 부호화부(202)에 사용된 부호화 모드에 따라서 결정할 수 있다. 코어 부호화부(202)는 입력 신호의 특성에 따라 입력 신호를 유성음 부호화, 무성음 부호화 모드, Transient 부호화 모드 및, Generic 부호화 모드로 구분하여 입력 신호를 부호화 할 수 있다.
이 때, 포락선 추정부(602)는 입력 신호의 특성에 따른 부호화 모드에 기초하여 화이트닝(Whitening) 밴드에 속한 주파수 스펙트럼의 개수를 제어시킬 수 있다. 일례로, 입력 신호가 유성음 부호화 모드에 따라 부호화된 경우, 포락선 추정부(602)는 화이트닝(Whitening) 밴드에 3개의 주파수 스펙트럼으로 구성하여 포락선을 추정할 수 있다. 그리고, 입력 신호가 유성음 부호화 모드 이외의 부호화 모드에 따라 부호화된 경우, 포락선 추정부(602)는 화이트닝(Whitening) 밴드에 3개의 주파수 스펙트럼으로 구성하여 포락선을 추정할 수 있다.
포락선 적용부(603)는 추정된 포락선을 인공 신호에 적용할 수 있다. 이러한 과정을 whitening이라고 하며, 인공 신호가 포락선에 의해 평탄화될 수 있다. 포락선 적용부(603)는 인공 신호를 주파수 인덱스 각각의 포락선으로 나누어서 기본 신호를 생성할 수 있다.
도 7은 본 발명의 일실시예에 따른 확장 부호화부의 요소 추정부를 도시한 도면이다.
도 7을 참고하면, 요소 추정부(402)는 제1 토널리티(Tonality) 계산부(701), 제2 토널리티 계산부(702) 및 요소 계산부(703)를 포함할 수 있다.
제1 토널리티 계산부(701)는 주파수 영역의 입력 신호의 고주파수 영역의 토널리티(tonality)을 계산할 수 있다. 즉, 제1 토널리티 계산부(701)는 입력 신호의 고주파수 영역인 SWB 영역의 토널리티를 계산할 수 있다.
제2 토널리티 계산부(702)는 기본 신호의 토널리티를 계산할 수 있다.
토널리티는 spectral flatness를 측정함으로써 계산될 수 있다. 구체적으로, 하기 수학식 1에 따라 토널리티가계산될 수 있다. spectral flatness는 주파수 스펙트럼의 기하 평균과 산술 평균의 관계를 통해 측정될 수 있다.
수학식 1
Figure PCTKR2011010258-appb-M000001
요소 계산부(703)는 입력 신호의 고주파수 영역의 토널리티와 기본 신호의 토널리티를 이용하여 에너지 제어 요소를 계산할 수 있다. 이 때, 에너지 제어 요소는 하기 수학식 2에 따라 계산될 수 있다.
수학식 2
Figure PCTKR2011010258-appb-M000002
여기서, α는 에너지 제어 요소를 나타내며, To는 입력 신호의 토널리티, Tb는 기본 신호의 토널리티를 나타낸다. Nb는 노이지니스 팩터(Noisiness factor)이며, 신호에 노이즈 성분이 포함된 정도를 나타낸다.
에너지 제어 요소는 하기 수학식 3에 따라 계산될 수도 있다.
수학식 3
Figure PCTKR2011010258-appb-M000003
요소 계산부(703)는 각각의 주파수 밴드별로 에너지 제어 요소를 계산할 수 있다. 계산된 에너지 제어 요소는 입력 신호의 에너지에 적용될 수 있다. 이 때, 에너지 제어 요소는 에너지 제어 요소가 미리 설정한 임계 에너지 제어 요소보다 작은 경우에 입력 신호의 에너지에 적용될 수 있다.
도 8은 본 발명의 일실시예에 따른 에너지 양자화부의 동작을 설명하기 위한 도면이다.
단계(S801)에서, 에너지 양자화부(405)는 에너지 제어 요소로 인해 에너지의 벡터를 전처리하고, 전처리된 에너지 벡터의 서브 벡터를 선택할 수 있다. 일례로, 에너지 양자화부(405)는 에너지 벡터 각각에 대해 평균값을 빼거나 또는 에너지 벡터 각각의 중요도에 대한 가중치를 계산할 수 있다. 이 때, 중요도에 대한 가중치는 합성음의 음질을 최대화하는 방향으로 계산될 수 있다.
그리고, 에너지 양자화부(405)는 부호화 효율을 고려하여 에너지 벡터의 서브 벡터를 적절하게 선택할 수 있다. 그리고 보간 효과를 향상시키기 위해 에너지 양자화부(405)는 동일한 간격으로 서브 벡터를 선택할 수 있다.
일례로, 에너지 양자화부(405)는 하기 수학식 4에 따라 서브 벡터를 선택할 수 있다.
수학식 4
Figure PCTKR2011010258-appb-M000004
이 경우 k=2가 되면 짝수만이 선택된다.
단계(S802)에서, 에너지 양자화부(405)는 선택된 서브 벡터를 양자화 및 역양자화한다. 에너지 양자화부(405)는 수학식 5에 따라 계산된 MSE를 최소화하는 양자화 인덱스를 선택하여 서브 벡터를 양자화할 수 있다.
수학식 5
Figure PCTKR2011010258-appb-M000005
에너지 양자화부(405)는 스칼라 양자화, 벡터양자화, TCQ(Trellis coded quantization), 및 LVQ(lattice VQ) 중 어느 하나에 따라 서브 벡터를 양자화할 수 있다. 이 때, 벡터 양자화는 multi-stage VQ 또는 split VQ 등이 가능하며, split VQ와 multi-stage VQ가 동시에 사용하는 것도 가능하다. 양자화 인덱스는 복호화 장치(102)로 전송된다.
그리고, 전처리 과정에서 중요도에 대한 가중치가 계산된 경우, 에너지 양자화부(405)는 가중치가 적용된 WMSE(weighted MSE)를 이용하여 최적화된 양자화 인덱스를 구할 수 있다. 이 때, weighted MSE는 수학식 6에 따라 계산될 수 있다.
수학식 6
Figure PCTKR2011010258-appb-M000006
단계(S803)에서, 에너지 양자화부(405)는 양자화된 서브 벡터를 보간하여 선택되지 않은 나머지 서브 벡터의 값을 계산할 수 있다.
단계(S804)에서, 에너지 양자화부(405)는 보간된 나머지 서브 벡터와 원래 에너지 벡터에 매칭된 나머지 서브 벡터 간의 차이인 보간 에러를 계산할 수 있다.
단계(S805)에서, 에너지 양자화부(405)는 보간 에러를 양자화 및 역양자화할 수 있다. 이 때, 에너지 양자화부(405)는 MSE를 최소화하는 양자화 인덱스를 이용하여 보간 에러를 양자화할 수 있다. 에너지 양자화부(405)는 스칼라 양자화, 벡터양자화, TCQ(Trellis coded quantization), 및 LVQ(lattice VQ) 중 어느 하나에 따라 보간 에러를 양자화할 수 있다. 이 때, 벡터 양자화는 multi-stage VQ 또는 split VQ 등이 가능하며, split VQ와 multi-stage VQ가 동시에 사용하는 것도 가능하다. 그리고, 전처리 과정에서 중요도에 대한 가중치가 계산된 경우, 에너지 양자화부(405)는 가중치가 적용된 WMSE(weighted MSE)를 이용하여 최적화된 양자화 인덱스를 구할 수 있다.
단계(S806)에서, 에너지 양자화부(405)는 선택된 서브 벡터의 양자화된 벡터를 보간하여 선택되지 않은 나머지 서브 벡터를 계산하고, 단계(S805)에서 계산된 양자화된 보간 에러를 더하여 최종적으로 양자화된 에너지를 계산할 수 있다. 그리고, 에너지 양자화부(405)는 후처리 과정을 통해 전처리 과정에서 뺀 평균값을 다시 더하여 최종적으로 양자화된 에너지를 계산할 수 있다.
Multi-stage VQ에서, 에너지 양자화부(405)는 동일한 코드북으로 양자화 성능을 향상시키기 위해 K개의 서브 벡터의 후보(candidate)를 이용하여 양자화를 한다. K가 2이상인 경우, 에너지 양자화부(405)는 distortion measure을 수행하여 최적 서브 벡터의 후보를 결정할 수 있다. 이 때, distortion measure는 두 가지 방식에 따라 결정될 수 있다.
첫째, 에너지 양자화부(405)는 서브 벡터의 후보 각각에 대해 각 스테이지에서 MSE(Mean Square Error) 또는 WMSE(Weighted Mean Square Error)를 인덱스 셋트를 생성한 후, 모든 스테이지의 MSE 또는 WMSE의 합이 가장 작은 서브 벡터의 후보를 선택할 수 있다. 이 경우, 계산량이 낮은 장점이 있다.
둘째, 에너지 양자화부(405)는 서브 벡터의 후보 각각에 대해 각 스테이지에서 MSE(Mean Square Error) 또는 WMSE(Weighted Mean Square Error)를 최소화하는 인덱스 셋트를 생성한 후, 역양자화과정을 거쳐 에너지 벡터를 복원한 후, 복원된 에너지벡터와 원래의 에너지 벡터 간의 MSE 또는 WMSE를 최소화하는 서브 벡터의 후보를 선택할 수 있다. 이 경우, 복원을 위한 계산량이 추가되지만 실제 양자화된 값을 이용하여 MSE를 구하므로 성능이 우수한 장점이 있다.
도 9는 본 발명의 일실시예에 따라 에너지를 양자화하는 과정을 나타낸 도면이다.
도 9를 참고하면, 에너지 벡터는 14 dimension를 나타낸다. 1st stage에서, 에너지 양자화부(405)는 에너지 벡터에서 짝수만을 선택하여 7 dimension인 서브 벡터를 선택하였다. 1st stage에서, 성능향상을 위해서 에너지 양자화부(405)는 2개로 split된 2nd stage 벡터 양자화를 이용한다.
에너지 양자화부(405)는 2nd stage에서 1st stage의 에러 신호를 이용하여 양자화를 수행한다. 에너지 양자화부(405)는 선택된 서브벡터의 역양자화 과정을 거쳐 보간 에러를 구하고, 보간 에러는 2개로 split된 3rd stage 벡터양자화를 이용하여 양자화된다.
도 10은 본 발명의 일실시예에 따른 인공 신호를 생성하는 과정을 도시한 도면이다.
도 10을 참고하면, 인공 신호 생성부(601)는 전체 주파수 밴드에서 저주파수 영역인 fL~6.4KHz에 대응하는 주파수 스펙트럼(1001)을 복사할 수 있다. 복사된 주파수 스펙트럼(1001)은 6.4~12.8-fLKHz 주파수 영역까지 쉬프팅된다. 그리고, 12.8-fL~16KHz 주파수 영역에 대응하는 주파수 스펙트럼은 6.4~12.8-fLKHz 주파수 영역의 주파수 스펙트럼이 폴딩되어 생성될 수 있다. 즉, 고주파수 영역인 SWB에 대응하는 인공 신호는 6.4~16KHz까지 생성된다.
이 때 주파수 스펙트럼을 생성할 때 사용된 변환이 MDCT인 경우, fL과 6.4kHz 간에 상관 관계가 존재한다. 구체적으로, 6.4kHz에 해당되는 MDCT의 주파수 인덱스가 짝수인 경우에는 fL의 주파수 인덱스도 짝수여야 한다. 반대로, .4kHz에 해당되는 MDCT의 주파수 인덱스가 홀수인 경우, fL의 주파수 인덱스도 홀수여야 한다.
예를 들어, 원래의 입력 신호에 대해 640개의 스펙트럼을 추출하는 MDCT를 적용한 경우, 6.4kHz에 대응하는 인덱스는 256번째 인덱스가 되어(6400/16000*640) 짝수가 된다. 이 경우, fL은 반드시 짝수로 선택이 되어야 한다. 즉, fL은 2(50Hz), 4(100Hz) 등이 사용될 수 있다. 이 과정은 복호화 과정에서도 동일하게 적용된다.
도 11a 내지 도 11b는 본 발명의 일실시예에 따른 포락선 추정을 위한 윈도우를 도시한 도면이다.
도 11a 내지 도 11b를 참고하면, 윈도우(1101)와 윈도우(1102)의 peak 위치가 현재 포락선을 추정하고자 하는 주파수 인덱스를 의미한다. 기본 신호에 대한 포락선 추정은 하기 수학식 7에 따라 수행될 수 있다.
수학식 7
Figure PCTKR2011010258-appb-M000007
도 11a 내지 도 11b에서 윈도우(1101)와 윈도우(1102)는 항상 고정으로 사용될 수 있으며, 이 경우에는 추가적으로 전송될 비트가 필요없다. 또는, 윈도우(1101)와 윈도우(1102)가 선택적으로 사용되는 경우에는 포락선 추정을 위해 어떠한 윈도우가 사용되었는지 여부를 나타내는 정보를 비트로 표현하여 추가적으로 복호화 장치(102)에 전달될 필요가 있다. 이러한 비트는 주파수 밴드별로 전송되거나 또는 한 프레임에 한번 전송될 수 있다.
윈도우(1101)와 윈도우(1102)를 비교하면, 윈도우(1102)는 윈도우(1101)보다 현재 주파수 인덱스에 대응하는 주파수 스펙트럼에 가중치를 더 부가하여 포락선을 추정한다. 따라서, 윈도우(1102)에 의해 생성된 기본 신호는 윈도우(1101)에 의해 생성된 기본 신호보다 평탄하게 생성된다. 윈도우의 종류는 윈도우(1101)와 윈도우(1102)에 의해 생성된 각각의 기본 신호와 입력 신호의 주파수 스펙트럼을 비교함으로써 선택될 수 있다. 또한, 고주파수 영역의 토널리티(tonality)의 비교를 통해 비슷한 토널리티를 가지도록 하는 윈도우가 선택될 수 있다. 그리고, 고주파수 영역의 상관도(correlation)의 비교를 통해 상관도가 높은 윈도우가 선택될 수 있다.
도 12a는 본 발명의 일실시예에 따른 복호화 장치를 도시한 블록 다이어그램이다.
도 12a의 과정은 도 2a의 과정의 역 과정으로 이루어진다. 도 12a를 참고하면, 복호화 장치(102)는 코어 복호화부(1201), 업 샘플링부(1202), 주파수 변환부(1204), 확장 복호화부(1204) 및 주파수 역변환부(1205)를 포함할 수 있다.
코어 복호화부(1201)는 비트스트림에 포함된 코어 부호화된 입력 신호를 코어 복호화할 수 있다. 코어 복호화 과정을 통해 12.8KHz 샘플링 레이트를 가지는 신호가 추출될 수 있다.
업 샘플링부(1202)는 코어 복호화된 입력 신호를 업샘플링할 수 있다. 업샘플링을 통해 32KHz 샘플링 레이트를 가지는 신호가 추출될 수 있다.
주파수 변환부(1204)는 업샘플링된 입력 신호를 주파수 변환할 수 있다. 주파수 변환은 부호화기에서 사용한 주파수 변환 방식과 동일한 방법을 사용할 수 있으며, 예를 들어 MDCT를 사용할 수 있다.
확장 복호화부(1204)는 비트스트림에 포함된 상기 입력 신호의 에너지와 상기 주파수 영역의 입력 신호를 이용하여 대역폭 확장 복호화를 수행할 수 있다. 확장 복호화부(1204)의 동작에 대해서는 도 9에서 구체적으로 설명하기로 한다.
주파수 역변환부(1205)는 대역폭 확장 복호화가 수행된 결과에 대해 주파수 역변환을 수행할 수 있다. 주파수 변환부(1204)에서 사용한 주파수 변환 방식의 역변환을 수행하는 것으로, 예를들어 IMDCT(Inverse Modified Discrete Cosine Transform)을 수행할 수 있다.
도 12b는 본 발명의 다른실시예에 따른 복호화 장치를 도시한 블록 다이어그램이다.
도 12b의 과정은 도 12a의 과정의 역 과정으로 이루어진다. 도 12b를 참조하면, 복호화 장치(102)는 모드 정보 검사부(1206), CELP 복호화부(1207), TD 확장 복호화부(1208), FD 복호화부(1209) 및 주파수 역변환부(1210)을 포함할 수 있다.
모드 정보 검사부(1206)는 비트스트림에 포함된 프레임들 각각에 대한 모드 정보를 검사한다. 이때, 비트스트림은 부호화 장치(101)에서 부호화된 결과에 따른 비트스트림이 복호화 장치(102)로 전송된 신호가 될 수 있다.
예를 들어 설명하면, 모드 정보 검사부(1206)는 부호화된 비트스트림으로부터 모드 정보를 파싱하고, 파싱결과에 따른 현재 프레임의 부호화 모드에 따라 CELP 복호화 모드 또는 FD 복호화 모드 중 어느 하나의 복호화 모드로 스위칭 작업을 수행한다.
좀 더 상세히 설명하면, 모드 정보 검사부(1206)는 비트스트림에 포함된 프레임들 각각에 대하여, CELP 모드로 부호화된 프레임은 CELP 복호화가 수행되도록 스위칭하고, FD 모드로 부호화된 프레임은 FD 복호화가 수행되도록 스위칭할 수 있다.
CELP 복호화부(1207)는 검사결과에 따라 CELP 부호화된 프레임에 대하여 CELP 복호화를 수행한다. 예를 들어 설명하면, CELP 복호화부(1207)는 비트스르림에 포함된 선형예측계수를 복호화하고, adaptive codebook contribution 및 fixed codebook contribution에 대한 복호화를 수행하고, 복호화 수행결과를 합성하여 저주파수에 대한 복호화 신호인 저주파 신호를 생성한다.
TD 확장 복호화부(1208)는 CELP 복호화가 수행된 결과 및 저주파 신호의 여기신호 중 적어도 하나를 이용하여, 고주파수에 대한 복호화 신호를 생성한다. 이때, 저주파 신호의 여기신호는 비트스트림에 포함될 수 있다. 또한, TD 확장 복호화부(1208)는 고주파수에 대한 복호화 신호인 고주파 신호를 생성하기 위하여, 비트스트림에 포함된 고주파 신호에 대한 선형예측계수 정보를 활용할 수 있다.
또한, 본 실시예에 따른 TD 확장 복호화부(1208)는 생성된 고주파 신호를 CELP 복호화부(1207)에서 생성된 저주파 신호와 합성하여, 복호화된 신호를 생성할 수 있다. 이때, TD 확장 복호화부(1208)는 복호화된 신호를 생성하기 위하여 저주파 신호와 고주파 신호의 샘플링 레이트를 동일하도록 변환하는 작업을 더 수행할 수 있다.
FD 복호화부(1209)는 검사결과에 따라 FD 부호화된 프레임에 대하여 FD 복호화를 수행한다. FD 복호화부(1209)는 비트스트림을 복호화하여 주파수 스펙트럼을 생성할 수 있다. 또한, 본 실시예에 따른 FD 복호화부(1209)는 비트스트림에 포함된 이전 프레임의 모드 정보를 참조하여 복호화를 수행할 수도 있음을 알 수 있다. 즉, FD 복호화부(1209)는 FD 부호화된 프레임에 대하여 비트스트림에 포함된 이전 프레임 모드 정보를 참조하여 FD 복호화를 수행할 수 있다. 이에 관하여, 도 25에서 좀 더 상세히 설명한다. 또한, FD 복호화부(1209)에 관하여 이하 도 12c에서 상세히 설명한다.
주파수 역변환부(1210)는 FD 복호화가 수행된 결과를 주파수 역변환한다. 주파수 역변환부(1210)는 FD 복호화된 주파수 스펙트럼에 대하여 주파수 역변환을 수행하여 복호화된 신호를 생성한다. 예를 들어 설명하면, 주파수 역변환부(1210)는 Inverse MDCT를 수행할 수 있으나, 이에 한정되지 않는다.
이에 따라, 복호화 장치(102)는 비트스트림의 프레임들 각각의 부호화 모드를 참조하여, 비트스트림에 대한 복호화를 수행할 수 있다.
도 12c는 본 발명의 일실시예에 따른 복호화 장치의 FD 복호화부를 도시한 도면이다.
도 12c의 과정은 도 12b의 과정의 역 과정으로 이루어진다. 도 12c를 참조하면, FD 복호화부(1209)는 Norm 복호화부(12091), FPC 복호화부(12092), 노이즈 필링(Noise Filling) 수행부(12093) 및 FD 확장 복호화부(12094)를 포함할 수 있고, FD 확장 복호화부(12094)는 FD 저주파수 확장 복호화부(12095) 및 FD 고주파수 확장 복호화부(12096)를 포함할 수 있다.
Norm 복호화부(12091)는 비트스트림의 Norm 정보를 참조하여, Norm 복호화를 수행한다. 이때, 비트스트림의 Norm 정보는 도 2c의 Norm 부호화부(2091)에서 부호화된 결과에 따른 정보가 될 수 있다.
FPC 복호화부(12092)는 비트스트림의 FPC 부호화 정보에 기초하여 FPC 복호화를 수행한다. 이때, FPC 부호화 정보는 도 2c의 FPC 부호화부(209)에서 부호화된 결과에 따른 정보가 될 수 있다.
예를 들어 설명하면, FPC 복호화부(12092)는 도 2c의 FPC 부호화부(2092)에서 부호화된 방법과 동일하게 주파수 밴드 별로 가용한 비트 수를 할당하여 FPC 복호화를 수행한다.
노이즈 필링 수행부(12093)는 FPC 복호화가 수행된 결과에 대하여 노이즈 필링을 수행한다. 예를 들어 설명하면, 노이즈 필링 수행부(12093)는 FPC 복호화가 수행된 주파수 밴드에 노이즈를 부가한다. 이때, 노이즈 필링 수행부(12093)는 FPC 복호화가 수행된 주파수 밴드의 마지막 주파수 밴드까지 노이즈를 부가한다. 이와 관련하여, 도 27에서 좀 더 상세히 설명한다.
FD 확장 복호화부(12094)는 FD 저주파수 확장 복호화부(12095) 및 FD 고주파수 확장 복호화부(12096)을 포함할 수 있다.
FD 저주파수 확장 복호화부(12095)는 FPC 복호화를 수행하는 주파수 밴드의 상위 밴드값(Ffpc)이 FPC 코딩을 수행하는 주파수 대역의 상위 밴드값(Fcore)보다 작은 경우, 상기 FPC 복호화 및 노이즈 필링이 수행된 결과에 대하여 확장 부호화를 수행한다.
이에 따라, FD 저주파수 확장 복호화부(12095)는 FPC 복호화 및 노이즈 필리에 의해 생성된 주파수 스펙트럼을 사용하여, FPC 코딩을 수행하는 주파수 대역 의 상위 밴드값(Fcore)까지의 주파수 스펙트럼을 생성한다.
이처럼, FD 저주파수 확장 복호화부(12095)에 의하여 생성된 주파수 스펙트럼에 대하여, Norm 복호화부(12091)에 의하여 복호화된 Norm 값을 곱하여, 복호화된 저주파수 스펙트럼을 생성할 수 있다.
다만, FD 저주파수 확장 복호화부(12095)가 동작하지 않는 경우에는 FPC 복호화 및 노이즈 필링이 수행된 결과에 따라 생성된 주파수 스펙트럼에 대하여, Norm 복호화부(12091)에 의하여 복호화된 Norm 값을 곱하여, 복호화된 저주파수 스펙트럼을 생성할 수 있다.
FD 고주파수 확장 복호화부(12096)는 FPC 복호화 및 노이즈 필링이 수행된 결과를 이용하여, 고주파수 확장 복호화를 수행한다. 본 실시예에 따른 FD 고주파수 확장 복호화부(12096)는 도 2c의 FD 확장 부호화부(2094)에 대응하여 동작한다.
예를 들어 설명하면, FD 고주파수 확장 복호화부(12096)는 비트스트림의 고주파수 에너지 정보에 기초하여 고주파수 에너지를 역양자화하고, 고주파 대역폭 확장의 다양한 모드에 따라 저주파 신호를 이용하여 고주파 신호의 여기신호를 생성하고, 생성된 여기신호의 에너지가 역양자화된 에너지에 대칭되도록 게인을 적용함에 따라, 복호화된 고주파 신호를 생성할 수 있다. 예를 들어 설명하면, 고주파 대역폭 확장의 다양한 모드는 노말(normal) 모드, 하모닉(harmonic) 모드, 또는 노이즈(noise) 모드 중 어느 하나의 모드가 될 수 있다.
이때, FD 고주파수 확장 복호화부(12096)는 서로 다른 비트율에 대하여 동일한 코드북을 공유하여 에너지 역양자화를 수행할 수 있다. 이에 관하여, 도 26에서 좀 더 상세히 설명한다.
또한, 본 실시예에 따른 FD 복호화부(1209)는 복호화되는 프레임이 stationary 프레임인 경우, Norm 복호화부(12091), FPC 복호화부(12092), 노이즈 필링 수행부(12093) 및 FD 확장 복호화부(12094) 각각에 따른 동작이 수행될 수 있다.
다만, 복호화되는 프레임이 transient 프레임인 경우, 본 실시예에 따른 FD 복호화부(1209)에서 FD 확장 복호화부(12094)는 동작하지 않을 수 있다.
도 12d는 본 발명의 또 다른실시예에 따른 복호화 장치를 도시한 블록 다이어그램이다.
도 12d의 과정은 도 2d의 과정의 역 과정으로 이루어진다. 도 12d를 참조하면, 복호화 장치(102)는 모드 정보 검사부(1211), LPC 복호화부(1212), CELP 복호화부(1213), TD 확장 복호화부(1214), 오디오 복호화부(1215) 및 FD 확장 복호화부(1216)을 포함할 수 있다.
모드 정보 검사부(1211)는 비트스트림에 포함된 프레임들 각각에 대한 모드 정보를 검사한다. 이때, 비트스트림은 부호화 장치(101)에서 부호화된 결과에 따른 비트스트림이 복호화 장치(102)로 전송된 신호가 될 수 있다.
예를 들어 설명하면, 모드 정보 검사부(1211)는 부호화된 비트스트림으로부터 모드 정보를 파싱하고, 파싱결과에 따른 현재 프레임의 부호화 모드에 따라 CELP 복호화 모드 또는 오디오 복호화 모드 중 어느 하나의 복호화 모드로 스위칭 작업을 수행한다.
좀 더 상세히 설명하면, 모드 정보 검사부(1211)는 비트스트림에 포함된 프레임들 각각에 대하여, CELP 모드로 부호화된 프레임은 CELP 복호화가 수행되도록 스위칭하고, 오디오 부호화 모드로 부호화된 프레임은 오디오 복호화가 수행되도록 스위칭할 수 있다.
LPC 복호화부(1212)는 비트스트림에 포함된 프레임들에 대하여 LPC 복호화를 수행한다.
CELP 복호화부(1213)는 검사결과에 따라 CELP 부호화된 프레임에 대하여 CELP 복호화를 수행한다. 예를 들어 설명하면, CELP 복호화부(1213)는 adaptive codebook contribution 및 fixed codebook contribution에 대한 복호화를 수행하고, 복호화 수행결과를 합성하여 저주파수에 대한 복호화 신호인 저주파 신호를 생성한다.
TD 확장 복호화부(1214)는 CELP 복호화가 수행된 결과 및 저주파 신호의 여기신호 중 적어도 하나를 이용하여, 고주파수에 대한 복호화 신호를 생성한다. 이때, 저주파 신호의 여기신호는 비트스트림에 포함될 수 있다. 또한, TD 확장 복호화부(1208)는 고주파수에 대한 복호화 신호인 고주파 신호를 생성하기 위하여, LPC 복호화부(1212)에서 복호화된 선형예측계수 정보를 활용할 수 있다.
또한, 본 실시예에 따른 TD 확장 복호화부(1214)는 생성된 고주파 신호를 CELP 복호화부(1214)에서 생성된 저주파 신호와 합성하여, 복호화된 신호를 생성할 수 있다. 이때, TD 확장 복호화부(1214)는 복호화된 신호를 생성하기 위하여 저주파 신호와 고주파 신호의 샘플링 레이트를 동일하도록 변환하는 작업을 더 수행할 수 있다.
오디오 복호화부(1215)는 검사결과에 따라 오디오 부호화된 프레임에 대하여 오디오 복호화를 수행한다. 예를 들어 설명하면, 오디오 복호화부(1215)는 비트스트림을 참조하여, 시간 도메인 기여분(contribution)이 존재하는 경우 시간 도메인 기여분 및 주파수 도메인 기여분을 고려하여 복호화를 수행하고, 시간 도메인 기여분이 존재하지 않는 경우 주파수 도메인 기여분을 고려하여 복호화를 수행한다.
또한, 오디오 복호화부(1215)는 FPC 또는 LVQ로 양자화된 신호에 대하여 IDCT 등을 이용한 주파수 역변환을 수행하여 복호화된 저주파수 여기신호를 생성하고, 생성된 여기신호를 역양자화된 LPC 계수와 합성하여, 복호화된 저주파수 신호를 생성할 수 있다.
FD 확장 복호화부(1216)는 오디오 복호화가 수행된 결과를 이용하여 확장 복호화를 수행한다. 예를 들어 설명하면, FD 확장 복호화부(1216)는 복호화된 저주파수 신호를 고주파수 확장 복호화에 적합한 샘플링 레이트로 변환하고, 변환된 신호에 MDCT와 같은 주파수 변환을 수행한다. FD 확장 복호화부(1216)는 양자화된 고주파수 에너지를 역양자화하고, 고주파 대역폭 확장의 다양한 모드에 따라 저주파 신호를 이용하여 고주파 신호의 여기신호를 생성하고, 생성된 여기신호의 에너지가 역양자화된 에너지에 대칭되도록 게인을 적용함에 따라, 복호화된 고주파 신호를 생성할 수 있다. 예를 들어 설명하면, 고주파 대역폭 확장의 다양한 모드는 노말(normal) 모드, 전이(transient) 모드, 하모닉(harmonic) 모드, 또는 노이즈(noise) 모드 중 어느 하나의 모드가 될 수 있다.
또한, FD 확장 복호화부(1216)는 생성된 복호화된 고주파 신호 및 저주파 신호에 대하여 Inverse MDCT와 같은 주파수 역변환을 수행하여, 최종 복호화된 신호를 생성한다.
추가적으로, FD 확장 복호화부(1216)는 대역폭 확장에 전이 모드가 적용된 경우, 주파수 역변환이 수행된 후에 복호화된 신호가 복호화된 temporal envelope에 매칭되도록, 시간 도메인에서 구한 게인을 적용하고, 게인이 적용된 신호를 합성해 줄 수도 있다.
이에 다라, 복호화 장치(102)는 비트스트림의 프레임들 각각의 부호화 모드를 참조하여, 비트스트림에 대한 복호화를 수행할 수 있다.도 13은 본 발명의 일실시예에 따른 복호화 장치의 확장 복호화부를 도시한 도면이다.
도 13을 참고하면, 확장 복호화부(1204)는 역양자화부(1301), 게인 계산부(1302), 게인 적용부(1303), 인공 신호 생성부(1304), 포락선 추정부(1305) 및 포락선 적용부(1306)를 포함할 수 있다.
역양자화부(1301)는 입력 신호의 에너지를 역양자화할 수 있다. 에너지를 역양자화하는 과정에 대해서는 도 14에서 구체적으로 설명하기로 한다.
게인 계산부(1302)는 역양자화된 에너지와 기본 신호의 에너지를 이용하여 기본 신호에 적용될 게인을 계산할 수 있다. 구체적으로, 게인은 역양자화된 에너지와 기본 신호의 에너지의 비율을 통해 결정될 수 있다. 통상적으로 에너지는 주파수 스펙트럼의 amplitude의 제곱의 합을 사용해서 결정되기 때문에, 에너지 비율의 root 값을 사용하게 된다.
게인 적용부(1303)는 계산된 게인을 주파수 밴드별로 적용할 수 있다. 그러면, 최종적으로 SWB의 주파수 스펙트럼이 결정될 수 있다.
일례로, 게인 계산 및 게인 적용은 상기 설명한 바와 같이 밴드를 에너지를 전송한 밴드와 일치시켜서 수행할 수 있다. 다른 실시 예로 급격한 에너지의 변화를 방지하기 위해서 전체 주파수 밴드를 서브밴드로 나누어서 수행할 수도 있다. 이러한 경우에 있어서, 주변 밴드의 역양자화된 에너지를 보간(Interpolation)에 의해서 밴드 경계 부분에서의 에너지를 스무딩(smoothing) 시킬 수 있다. 예를 들어, 각각의 밴드는 3개의 서브밴드로 분리하고, 각각 밴드의 3개 서브밴드 중 중간의 서브밴드는 현재 밴드의 역양자화된 에너지를 할당하고, 첫번째 및 세번째 서브밴드는 이전 밴드 혹은 이후 밴드의 중간 밴드에 할당된 에너지와 보간을 통해서 새롭게 스무딩된 에너지를 사용하여 게인 계산 및 적용을 수행할 수 있다. 즉, 게인 계산 및 적용하는 단위를 서브밴드로 설정하여 적용하게 된다.
이러한 에너지 스무딩 방식은 항상 고정된 방식으로 적용할 수 있다. 또한 확장 부호화부(204)에서 에너지 스무딩이 필요하다는 정보를 전송하여 필요한 프레임에서만 적용할 수 있다. 이 때 스무딩이 필요한 프레임이라는 정보는 스무딩을 수행한 경우가 스무딩을 안 한 경우에 비해서 전체 에너지의 양자화 에러가 적게 되는 경우에 선택할 수 있다.
한편, 주파수 영역의 입력 신호를 이용하여 기본 신호를 생성할 수 있다. 기본 신호를 생성하는 과정은 다음과 같은 구성 요소를 통해 수행될 수 있다.
인공 신호 생성부(1304)는 주파수 영역의 입력 신호의 저주파수 영역을 복사하고 폴딩하여 고주파수 영역에 대응하는 인공 신호를 생성할 수 있다. 이 때, 주파수 영역의 입력 신호는 32KHz 샘플링 레이트를 가지는 WB 복호화된 신호일 수 있다.
포락선 추정부(1305)는 비트스트림에 포함된 윈도우를 이용하여 기본 신호의 포락선을 추정할 수 있다. 윈도우는 부호화 장치(101)에서 포락선 추정을 위해 사용되었던 것이며, 윈도우 종류는 비트 형태로 비트스트림에 포함되어 복호화 장치(102)에 전송될 수 있다.
포락선 적용부(1306)는 추정된 포락선을 인공 신호에 적용함으로써, 기본 신호를 생성할 수 있다.
부호화 장치의 포락선 추정부(602)에서 화이트닝 밴드 별로 주파수 크기(magnitude)의 평균을 화이트닝(Whitening) 밴드 내에 속한 주파수의 포락선으로 추정하는 경우에 있어서 화이트닝 밴드 내에 속한 스펙트럼의 개수가 많은지 적은지의 여부와 관련된 정보를 복호화 장치에 전송한 경우, 복호화 장치의 포락선 추정부(1305)가 전송된 방식에 근거하여 포락선을 추정한 후 포락선 적용부(1306)에서 포락선을 적용할 수 있다. 또한 정보 전송 없이 WB 코어 복호화부에 사용된 코어 부호화 모드에 따라서 결정할 수 있다.
코어 복호화부(1201)는 신호의 특성에 따라 유성음 부호화, 무성음 부호화, Transient 부호화, Generic 부호화부로 구분하여 복호화할 수 있다. 이 때, 포락선 추정부(602)는 입력 신호의 특성에 따른 복호화 모드에 기초하여 화이트닝(Whitening) 밴드에 속한 주파수 스펙트럼의 개수를 제어시킬 수 있다. 일례로, 입력 신호가 유성음 복호화 모드에 따라 복호화된 경우, 포락선 추정부(1305)는 화이트닝(Whitening) 밴드에 3개의 주파수 스펙트럼으로 구성하여 포락선을 추정할 수 있다. 그리고, 입력 신호가 유성음 복호화 모드 이외의 복호화 모드에 따라 부호화된 경우, 포락선 추정부(1306)는 화이트닝(Whitening) 밴드에 3개의 주파수 스펙트럼으로 구성하여 포락선을 추정할 수 있다.
도 14는 본 발명의 일실시예에 따른 확장 복호화부의 역양자화부의 동작을 도시한 도면이다.
단계(S1401)에서, 역양자화부(1301)는 부호화 장치(101)로부터 전송된 인덱스를 이용하여 에너지 벡터의 선택된 서브 벡터를 역양자화할 수 있다.
단계(S1402)에서, 역양자화부(1301)는 부호화 장치(101)로부터 전송된 인덱스를 이용하여 선택되지 않은 나머지 서브 벡터에 대응하는 보간 에러를 역양자화할 수 있다.
단계(S1403)에서, 역양자화부(1301)는 역양자화된 서브 벡터를 보간하여 선택되지 않은 나머지 서브 벡터를 계산할 수 있다. 그리고, 역양자화부(1301)는 나머지 서브 벡터에 역양자화된 보간 에러값를 더할 수 있다. 또한, 역양자화부(1301)는 후처리 과정을 통해 전처리 과정에서 뺀 평균값을 더하여 최종적인 역양자화된 에너지를 계산할 수 있다.
도 15a는 본 발명의 일실시예에 따른 부호화 방법을 도시한 플로우차트이다.
부호화 장치(101)는 입력 신호를 다운 샘플링할 수 있다(S1501).
부호화 장치(101)는 다운 샘플링된 입력 신호에 대해 코어 부호화할 수 있다(S1502).
부호화 장치(101)는 입력 신호를 주파수 변환할 수 있다(S1503).
부호화 장치(101)는 주파수 영역의 입력 신호에 대해 대역폭 확장 부호화를 수행할 수 있다(S1504). 일례로, 부호화 장치(101)는 코어 부호화를 통해 결정된 부호화 정보를 이용하여 대역폭 확장 부호화를 수행할 수 있다. 이 때, 부호화 정보는 코어 부호화시 입력 신호의 특성에 따라 분류된 부호화 모드를 포함할 수 있다.
일례로, 부호화 장치(101)는 대역폭 확장 부호화를 다음과 같은 과정을 통해 수행할 수 있다.
부호화 장치(101)는 주파수 영역의 입력 신호의 주파수 스펙트럼을 이용하여 주파수 영역의 입력 신호의 기본 신호(basic signal)를 생성할 수 있다. 다른 일례로, 부호화 장치는 입력 신호의 특성 및 입력 신호의 주파수 스펙트럼을 이용하여 주파수 영역의 입력 신호의 기본 신호(basic signal)를 생성할 수 있다. 이 때, 입력 신호의 특성은 코어 부호화를 통해 도출되거나 또는 별도의 신호 분류 과정을 통해 도출될 수 있다. 그리고, 부호화 장치(101)는 기본 신호를 이용하여 에너지 제어 요소(energy control factor)를 추정할 수 있다. 이 후, 부호화 장치(101)는 주파수 영역의 입력 신호로부터 에너지를 추출할 수 있다. 그러면, 부호화 장치(101)는 에너지 제어 요소를 이용하여 추출된 에너지를 제어할 수 있다. 부호화 장치(101)는 제어된 에너지를 양자화할 수 있다.
이 때, 기본 신호를 생성하는 과정은 다음과 같은 방법을 통해 수행될 수 있다.
부호화 장치(101)는 주파수 영역의 입력 신호의 저주파수 영역을 복사하고 폴딩하여 고주파수 영역에 대응하는 인공 신호(artificial signal)를 생성할 수 있다. 그리고, 부호화 장치(101)는 윈도우를 이용하여 기본 신호의 포락선을 추정할 수 있다. 이 때, 부호화 장치(101)는 토널리티(tonality) 또는 상관도(correlation) 중 어느 하나의 비교 결과에 따라 윈도우를 선택하여 기본 신호의 포락선을 추정할 수 있다. 일례로, 부호화 장치(101)는 화이트닝(Whitening) 밴드 각각의 주파수 크기(Magnitude)의 평균을 화이트닝 밴드 내에 속한 주파수의 포락선으로 추정할 수 있다. 구체적으로, 부호화 장치(101)는 코어 부호화 모드에 따라서 화이트닝(Whitening) 밴드에 속한 주파수 스펙트럼의 개수를 제어시켜 상기 기본 신호의 포락선을 추정할 수 있다.
그런 후, 부호화 장치(101)는 추정된 포락선을 인공 신호에 적용함으로써 기본 신호를 생성할 수 있다.
그리고, 에너지 제어 요소를 추정하는 과정은 다음과 같은 방법을 통해 수행될 수 있다.
부호화 장치(101)는 주파수 영역의 입력 신호의 고주파수 영역의 토널리티를 계산할 수 있다. 그리고, 부호화 장치(101)는 기본 신호의 토널리티를 계산할 수 있다. 그런 후, 부호화 장치(101)는 입력 신호의 고주파수 영역의 토널리티와기본 신호의 토널리티를 이용하여 에너지 제어 요소를 계산할 수 있다.
또한, 에너지를 양자화하는 과정은 다음과 같은 방법을 통해 수행될 수 있다.
부호화 장치(101)는 서브벡터를 선택하여 양자화를 한 후, 보간 에러를 이용하여 나머지(remained) 서브벡터를 양자화할 수 있다. 이 때, 부호화 장치(101)는 동일한 간격으로 서브 벡터를 선택할 수 있다.
일례로, 부호화 장치(101)는 서브 벡터의 후보(candidate)를 선택하여 2개 이상 사용하는 멀티 스테이지(multi-stage) 벡터 양자화를 수행할 수 있다. 이 때, 부호화 장치(101)는 서브 벡터의 후보 각각에 대해 각 스테이지에서 MSE(Mean Square Error) 또는 WMSE(Weighted Mean Square Error)를 인덱스 셋트를 생성한 후, 모든 스테이지의 MSE 또는 WMSE의 합이 가장 작은 서브 벡터의 후보를 선택할 수 있다. 또는, 부호화 장치(101)는 서브 벡터의 후보 각각에 대해 각 스테이지에서 MSE(Mean Square Error) 또는 WMSE(Weighted Mean Square Error)를 최소화하는 인덱스 셋트를 생성한 후, 역양자화과정을 거쳐 에너지 벡터를 복원한 후, 복원된 에너지벡터와 원래의 에너지 벡터 간의 MSE 또는 WMSE를 최소화하는 서브 벡터의 후보를 선택할 수 있다.
도 15b는 본 발명의 다른실시예에 따른 부호화 방법을 도시한 플로우차트이다. 도 15b를 참조하면, 부호화 방법은 도 2a 내지 도 2c에 도시된 부호화 장치(101)에서 시계열적으로 처리되는 단계들로 구성된다. 따라서, 이하에서 생략된 내용이라 하더라도 도 2a 내지 도 2c에 도시된 부호화 장치(101) 에 관하여 이상에서 기술된 내용은 도 15b의 부호화 방법에도 적용됨을 알 수 있다.
신호 분류부(205)는 입력 신호의 특성을 참조하여, 입력 신호의 부호화 모드를 결정한다. (S1505)
CELP 부호화부(206)는 입력 신호의 부호화 모드가 CELP 모드로 결정되면, 상기 입력 신호의 저주파 신호에 대하여 CELP 부호화를 수행한다. (S1506)
TD 확장 부호화부(207)는 입력 신호의 저주파 신호에 대하여 CELP 부호화가 수행되면, 입력 신호의 고주파 신호에 대하여 TD 확장 부호화를 수행한다. (S1507)
주파수 변환부(208)는 입력 신호의 부호화 모드가 FD 모드로 결정되면, 상기 입력 신호를 주파수 변환한다. (S1508)
FD 부호화부(209)는 주파수 변환된 입력 신호에 대하여 FD 부호화를 수행한다. (S1509)
도 15c는 본 발명의 또 다른실시예에 따른 부호화 방법을 도시한 플로우차트이다. 도 15c를 참조하면, 부호화 방법은 도 2a 내지 도 2c에 도시된 부호화 장치(101)에서 시계열적으로 처리되는 단계들로 구성된다. 따라서, 이하에서 생략된 내용이라 하더라도 도 2a 내지 도 2c에 도시된 부호화 장치(101) 에 관하여 이상에서 기술된 내용은 도 15c의 부호화 방법에도 적용됨을 알 수 있다.
신호 분류뷰(210)는 입력 신호의 특성을 참조하여, 입력 신호의 부호화 모드를 결정한다. (S1510)
LPC 부호화부(211)는 입력 신호의 저주파 신호로부터 선형예측계수를 추출하고, 추출된 선형예측계수를 양자화한다. (S1511)
CELP 부호화부(212)는 입력 신호의 부호화 모드가 CELP 모드로 결정되면, 선형예측계수를 이용하여 추출된 LPC 여기신호에 대하여 CELP 부호화를 수행한다. (S1512)
TD 확장 부호화부(213)는 입력 신호의 저주파 신호의 LPC 여기신호에 대하여 CELP 부호화가 수행되면, 입력 신호의 고주파 신호에 대하여 TD 확장 부호화를 수행한다. (S1513)
오디오 부호화부(214)는 입력 신호의 부호화 모드가 FD 모드로 결정되면, 선형예측계수를 이용하여 추출된 LPC 여기신호에 대하여 오디오 부호화를 수행한다. (S1514)
FD 확장 부호화부(215)는 입력 신호의 저주파 신호의 LPC 여기신호에 대하여 FD 부호화가 수행되면, 입력 신호의 고주파 신호에 대하여 FD 확장 부호화를 수행한다. (S1515)
도 16는 본 발명의 일실시예에 따른 복호화 방법을 도시한 플로우차트이다.
복호화 장치(102)는 비트스트림에 포함된 코어 부호화된 입력 신호를 코어 복호화할 수 있다(S1601).
복호화 장치(102)는 코어 복호화된 입력 신호를 업샘플링할 수 있다(S1602).
복호화 장치(102)는 업샘플링된 입력 신호를 주파수 변환할 수 있다(S1603).
복호화 장치(102)는 비트스트림에 포함된 입력 신호의 에너지와 주파수 영역의 입력 신호를 이용하여 대역폭 확장 복호화를 수행할 수 있다(S1604).
구체적으로, 대역폭 확장을 수행하는 과정은 다음과 같이 이루어질 수 있다.
복호화 장치(102)는 입력 신호의 에너지를 역양자화할 수 있다. 이 때, 복호화 장치(101)는 서브 벡터를 선택하여 역양자화하고, 역양자화된 서브 벡터를 보간하며, 보간된 서브 벡터에 보간 에러값을 더하여 최종적으로 에너지를 역양자화할 수 있다.
그리고, 복호화 장치(102)는 주파수 영역의 입력 신호를 이용하여 기본 신호를 생성할 수 있다. 그런 후, 복호화 장치(102)는 역양자화된 에너지와 기본 신호의 에너지를 이용하여 기본 신호에 적용될 게인을 계산할 수 있다. 최종적으로, 복호화 장치(102)는 계산된 게인을 주파수 밴드별로 적용할 수 있다.
구체적으로, 기본 신호를 생성하는 과정은 다음과 같이 이루어질 수 있다.
복호화 장치(102)는 주파수 영역의 입력 신호의 저주파수 영역을 복사하고 폴딩하여 고주파수 영역에 대응하는 인공 신호를 생성할 수 있다. 그리고, 복호화 장치(102)는 비트스트림에 포함된 윈도우를 이용하여 기본 신호의 포락선을 추정할 수 있다. 이 때 윈도우 정보를 항상 동일하게 사용하도록 설정된 경우에는 비트스트림에 포함이 되지 않는다. 이후, 복호화 장치(102)는 추정된 포락선을 인공 신호에 적용할 수 있다.
도 16b는 본 발명의 또 다른실시예에 따른 복호화 방법을 도시한 플로우차트이다. 도 16b를 참조하면, 부호화 방법은 도 12a 내지 도 12c에 도시된 복호화 장치(102)에서 시계열적으로 처리되는 단계들로 구성된다. 따라서, 이하에서 생략된 내용이라 하더라도 도 12a 내지 도 12c에 도시된 복호화 장치(102)에 관하여 이상에서 기술된 내용은 도 16b의 복호화 방법에도 적용됨을 알 수 있다.
모드 정보 검사부(1206)는 비트스트림에 포함된 프레임들 각각에 대한 모드 정보를 검사한다. (S1606)
CELP 복호화부(1207)는 검사결과에 따라 CELP 부호화된 프레임에 대하여 CELP 복호화를 수행한다. (S1607)
TD 확장 복호화부(1208)는 CELP 복호화가 수행된 결과 및 저주파 신호의 여기신호 중 적어도 어느 하나를 이용하여, 고주파수에 대한 복호화 신호를 생성한다. (S1608)
FD 복호화부(1209)는 검사결과에 따라 FD 부호화된 프레임에 대하여 FD 복호화를 수행한다. (S1609)
주파수 역변환부(1210)는 FD 복호화가 수행된 결과를 주파수 역변환한다.
도 16c는 본 발명의 또 다른실시예에 따른 복호화 방법을 도시한 플로우차트이다. 도 16c를 참조하면, 부호화 방법은 도 12a 내지 도 12c에 도시된 복호화 장치(102)에서 시계열적으로 처리되는 단계들로 구성된다. 따라서, 이하에서 생략된 내용이라 하더라도 도 12a 내지 도 12c에 도시된 복호화 장치(102)에 관하여 이상에서 기술된 내용은 도 16c의 복호화 방법에도 적용됨을 알 수 있다.
모드 정보 검사부(1211)는 비트스트림에 포함된 프레임들 각각에 대한 모드 정보를 검사한다. (S1611)
LPC 복호화부(1212)는 비트스트림에 포함된 프레임들에 대하여 LPC 복호화를 수행한다. (S1612)
CELP 복호화부(1213)는 검사결과에 따라 CELP 부호화된 프레임에 대하여 CELP 복호화를 수행한다. (S1613)
TD 확장 복호화부(1214)는 CELP 복호화가 수행된 결과 및 저주파 신호의 여기신호 중 적어도 어느 하나를 이용하여, 고주파수에 대한 복호화 신호를 생성한다. (S1614)
오디오 복호화부(1215)는 검사결과에 따라 오디오 부호화된 프레임에 대하여 오디오 복호화를 수행한다. (S1615)
FD 확장 복호화부(1216)는 오디오 복호화가 수행된 결과를 이용하여 FD 확장 복호화를 수행한다. (S1616)
도 15 및 도 16에서 설명되지 않은 사항은 도 1 내지 도 14의 설명을 참고할 수 있다.
도 17은 본 발명의 또 다른 실시예에 따른 부호화 장치의 전체 구성을 도시한 블록 다이어그램이다.
도 17을 참고하면, 부호화 장치(100)는 부호화 모드 선택부(1701) 및 확장 부호화부(1702)를 포함할 수 있다.
부호화 모드 선택부(1701)는 주파수 영역의 입력 신호와 시간 영역의 입력 신호를 이용하여 대역폭 확장 부호화의 부호화 모드를 선택할 수 있다.
구체적으로, 부호화 모드 선택부(1701)는 주파수 영역의 입력 신호와 시간 영역의 입력 신호를 이용하여 주파수 영역의 입력 신호를 분류하고, 분류된 정보에 따라 대역폭 확장 부호화의 부호화 모드 및 부호화 모드에 기초한 주파수 밴드의 개수를 결정할 수 있다. 여기서, 부호화 모드는 확장 부호화부(1702)의 성능 향상을 위해 코어 부호화시 결정된 부호화 모드와 다른 새로운 부호화 모드의 셋트로 설정될 수 있다.
일례로, 부호화 모드는 노말 모드(normal), 하모닉 모드(harmonic), 트랜젼트 모드(transient), 노이즈 모드(noise)로 분류될 수 있다. 먼저 부호화 모드 선택부(1701)는 시간영역신호의 장구간 에너지와 현재 프레임의 고대역 에너지의 비율을 이용하여 현재프레임이 transient한 프레임인지 결정한다. Transient한 신호 구간은 시간영역에서 급격한 에너지 변화가 나타나는 구간이므로 고대역의 에너지가 급격히 변화하는 구간이라고 할 수 있다.
나머지 3개의 부호화 모드를 결정하는 과정은 다음과 같다. 먼저 이전 프레임과 현재 프레임의 주파수 영역의 global 에너지를 구한 후에 이들간의 비율과 주파수 영역신호를 사전에 정의된 대역으로 나눈 후에 각 대역의 평균에너지와 peak에너지를 이용하여 나머지 3개의 모드를 결정한다. Harmonic은 일반적으로 주파수 영역 신호에서 평균에너지와 peak 에너지간의 차이가 가장 큰 신호라고 할 수 있다. 그리고 Noise 모드는 전체적으로 에너지 변화가 적은 신호라고 할 수 있다. 이러한 두 가지 신호를 제외한 나머지 신호는 모두 Normal 모드로 결정된다.
그리고 일실시예로 주파수 밴드 개수는 Normal과 Harmonic 모드에서는 16개로 결정되고, transient 모드에서는 5개가 결정되며, Noise 모드에서는 12개로 결정될 수 있다.
확장 부호화부(1702)는 주파수 영역의 입력 신호와 시간 영역의 입력 신호를 이용하여 대역폭 확장 부호화의 부호화 모드를 선택할 수 있다. 도 17을 참고하면, 확장 부호화부(1702)는 기본 신호 생성부(1703), 요소 추정부(1704), 에너지 추출부(1705), 에너지 제어부(1706) 및 에너지 양자화부(1707)를 포함할 수 있다. 기본 신호 생성부(1703)와 요소 추정부(1704)에 대해서는 도 5의 설명을 참고할 수 있다.
에너지 추출부(1705)는 부호화 모드에 기초하여 결정된 주파수 밴드 개수에 따라 각 주파수 밴드에 해당하는 에너지를 추출할 수 있다. 기본신호 생성부(1703), 요소 추정부(1704) 및 에너지 제어부(1706)는 부호화 모드에 따라서 사용되거나 또는 사용되지 않을 수 있다. 예를 들어 Normal과 Harmonic 모드는 위 3개 구성 요소가 사용되고, Transient와 noise모드는 위 3개 구성 요소가 사용되지 않을 수 있다. 위 3개의 구성 요소에 대한 세부적인 설명은 도 5에서 설명한 부분을 참고할 수 있다. 에너지 제어 과정을 거친 밴드 에너지는 에너지 양자화부(1707)에서 양자화될 수 있다.
도 18은 본 발명의 또 다른 실시예에 따른 부호화 장치의 에너지 양자화부가 수행하는 동작을 도시한 도면이다.
에너지 양자화부(1707)는 부호화 모드에 따라 입력 신호로부터 추출된 에너지를 양자화할 수 있다. 이 때, 에너지 양자화부(1707)는 부호화 모드에 따라 입력 신호의 지각적인 특성 및 밴드 에너지 개수를 고려하여 각 입력 신호에 최적인 방식으로 밴드 에너지를 양자화할 수 있다.
예를 들어, 부호화 모드가 transient 모드인 경우, 에너지 양자화부(1707)는 5개 밴드 에너지에 대해서 지각적 특성에 기초한 주파수 가중 방법(frequency weighting method)을 이용하여 밴드 에너지를 양자화할 수 있다. 그리고 부호화 모드가 Normal 모드 또는 harmonic 모드인 경우, 에너지 양자화부(1707)는 16개 밴드 에너지에 대해서 지각적 특성에 기초한 불균형 비트 할당 방법(unequal bit allocation method)을 이용하여 밴드 에너지를 양자화할 수 있다. 만약, 입력 신호의 특성이 명확하지 않은 경우, 에너지 양자화부(1707)는 지각적 특성을 고려하지 않고 일반적인 양자화를 수행할 수도 있다.
도 19는 본 발명의 일실시예에 따라 불균형 비트 할당 방법을 이용하여 에너지를 양자화하는 과정을 나타낸 도면이다.
불균형 비트 할당 방법(unequal bit allocation method)은 확장 부호화의 대상이 된 입력 신호의 지각적 특성을 고려한 것으로, 지각적으로 중요도가 높은 상대적으로 더 낮은 주파수 대역을 좀더 정확히 양자화할 수 있는 방법이다. 이를 위해서, 에너지 양자화부(1707)는 낮은 밴드 에너지에 같거나 더 많은 비트를 할당하여 지각적인 중요도를 구분할 수 있다.
일례로, 에너지 양자화부(1707)는 상대적으로 낮은 대역인 0~5번 주파수 대역에 더 많은 비트 할당을 하며, 0~5번 주파수 대역에 모두 동일한 비트 할당을 한다. 그리고 주파수 대역이 높아질수록 에너지 양자화부(1707)는 더 적은 비트 할당을 한다. 이와 같은 비트 할당에 의해서 주파수 대역 0~13은 도 19와 동일한 방식으로 양자화될 수 있다. 그리고 주파수 대역 14와 15는 도 20과 같이 양자화될 수 있다.
도 20은 본 발명의 일실시예에 따라 인트라 프레임 예측을 이용한 벡터 양자화를 수행하는 과정을 도시한 도면이다.
에너지 양자화부(1707)는 2개 이상의 요소(element)를 갖는 양자화 대상 벡터의 대표값을 예측한 후, 상기 예측된 대표값과 상기 양자화 대상 벡터의 각 요소 간의 에러 신호를 벡터 양자화할 수 있다.
도 20은 이와 같은 인트라 프레임 예측(Intra frame prediction)을 나타내며, 양자화 대상 벡터의 대표값을 예측하고, 에러 신호를 도출하는 방법은 수학식 8과 같다.
수학식 8
Figure PCTKR2011010258-appb-M000008
여기서 Env(n)은 양자화되지 않은 band 에너지를 의미하며, QEnv(n)은 양자화된 band 에너지를 의미한다. 그리고 p는 양자화 대상 벡터의 예측된 대표값을 의미하며 e(n)은 에러 에너지를 의미한다. 여기서 e(14)와 e(15)는 벡터 양자화된다.
도 21은 본 발명의 일실시예에 따라 주파수 가중 방법을 이용하여 에너지를 양자화하는 과정을 나타낸 도면이다.
주파수 가중 방법(Frequency weighting method)은 확장 부호화 대상인 입력 신호의 지각적 특성으로 고려하여 불균형 비트 할당 방법(unequal bit allocation method)과 동일하게 지각적으로 중요도가 높은 상대적으로 더 낮은 대역을 더 정확히 양자화를 하는 방법이다. 이를 위해서 낮은 밴드 에너지에 같거나 더 높은 가중치를 부여하여 지각적인 중요도를 구분한다.
일례로, 에너지 양자화부(1707)는 도 21과 같이 상대적으로 낮은 주파수 대역인 0~3번 대역에 더 높은 가중치인 1.0을 부여하며, 15번 주파수 대역은 더 낮은 가중치인 0.7을 부여하여 양자화할 수 있다. 부여된 가중치를 사용하기 위해, 에너지 양자화부(1707)는 WMSE(Weighted Mean Square Error)값을 이용하여 최적 인덱스를 구할 수 있다.
도 22는 본 발명의 일실시예에 따라 멀티 스테이지 스플릿의 벡터 양자화와 인트라 프레임 예측을 이용한 벡터 양자화를 수행하는 과정을 도시한 도면이다.
에너지 양자화부(1707)는 밴드 에너지의 개수가 16개인 Normal mode에 대해 도 22와 같이 벡터 양자화를 수행할 수 있다. 여기서 에너지 양자화부(1707)는 불균형 비트 할당 방법(unequal bit allocation method), 인트라 프레임 예측(intra frame prediction), 그리고 Multi-stage split VQ with energy interpolation 기술을 이용하여 벡터 양자화를 수행할 수 있다.
도 23은 본 발명의 일실시예에 따라 복호화 장치의 역양자화부가 수행하는 동작을 도시한 도면이다.
도 23은 도 18의 동작을 역으로 수행할 수 있다. 도 17과 같이 확장 부호화 시에 부호화 모드가 사용된 경우, 복호화 장치의 역양자화부(1301)는 부호화 모드를 복호화 할 수 있다.
역양자화부(1301)는 먼저 전송된 인덱스를 이용하여 부호화 모드를 복호화한다. 그리고, 역양자화부(1301)는 복호화된 부호화 모드에 따라 정해진 방식으로 역양자화를 한다. 도 23의 부호화 모드에 따라 각 역양자화 대상인 블록은 양자화의 역순으로 역양자화된다.
여기서 사용된 Multi-stage split VQ with energy interpolation 방식으로 양자화된 부분은 도 14와 동일한 방식으로 역양자화될 수 있다. 이 중에서 역양자화부(1301)는 인트라 프레임 예측을 이용하여 아래 수학식 9에 따라 역양자화할 수 있다.
수학식 9
Figure PCTKR2011010258-appb-M000009
여기서 Env(n)은 양자화되지 않은 band 에너지를 의미하며, QEnv(n)은 양자화된 band 에너지를 의미한다. 그리고 p는 양자화 대상 벡터의 예측된 대표값을 의미하며 e^(n)은 양자화된 에러 에너지를 의미한다.
도 24는 본 발명의 일실시예에 따른 부호화 장치의 다른 구조를 도시한 도면이다.
도 24에 도시된 부호화 장치(101)의 각 구성 요소의 기본적인 동작은 도 2a와 같다. 다만, 확장 부호화부(2404)는 코어 부호화부(2404)의 정보 전송이 없으며 시간 영역의 입력신호가 직접 입력될 수 있다.
도 25는 본 발명의 일실시예에 따른 비트스트림의 일 예를 도시한 도면이다.
도 25를 참조하면, N번째 프레임에 해당하는 비트스트림(251), N+1번째 프레임에 해당하는 비트스트림(252) 및 N+2번째 프레임에 해당하는 비트스트림(253)이 각각 도시되어 있다.
도 25를 참조하면, 비트스트림들(251, 252 및 253)은 헤더(254) 및 페이로드(255)로 구성된다.
헤더(254)는 모드 정보(2511, 2521, 및 2531)를 포함할 수 있다. 이때, 모드 정보(2511, 2521, 및 2531)는 프레임들 각각에 대한 부호화 모드 정보를 나타낸다. 예를 들어 설명하면, 모드 정보(2511)는 N번째 프레임이 어떠한 부호화 모드로 부호화되었는지를 나타내고, 모드 정보(2512)는 N+1번째 프레임이 어떠한 부호화 모드로 부호화되었는지를 나타내고, 모드 정보(2513)는 N+2번째 프레임이 어떠한 부호화 모드로 부호화되었는지를 나타낸다. 예를 들어 설명하면, 부호화 모드는 CELP 모드, FD 모드 또는 오디오 부호화 모드 중 어느 하나가 될 수 있으나, 이에 한정되지 않는다.
페이로드(255)는 프레임의 부호화 모드에 따른 코어 데이터에 대한 정보를 나타낸다.
CELP 모드에 따라 부호화된 N번째 프레임을 예로 들어 설명하면, 페이로드(255)는 CELP 정보(2512) 및 TD 확장 정보(2513)를 포함할 수 있다.
FD 모드에 따라 부호화된 N+1번째 프레임 또는 N+2번째 프레임을 예로 들어 설명하면, 페이로드(255)는 FD 정보(2523 또는 2532)를 포함할 수 있다.
또한, N+1번째 프레임에 대한 비트스트림(252)에 도시된 바와 같이, 비트스트림(252)의 페이로드(255)는 예측 데이터(prediction data)(2522)를 더 포함할 수 있다. 즉, 인접하는 프레임들 간의 부호화 모드가 CELP 모드에서 FD 모드로 변경될 경우, FD 모드에 따른 부호화가 수행된 결과에 따른 비트스트림(252)에는 예측 데이터(2522)가 포함될 수 있다.
좀 더 상세히 설명하면, 도 2b에 도시된 바와 같이, CELP 모드 또는 FD 모드 중 어느 하나의 모드로 스위칭이 이루어지는 부호화 장치(101)에서, FD 모드에 따른 부호화를 수행하는 경우 MDCT(Modified Discrete Cosine Transform) 등과 같이 프레임 간에 중첩(overlap)되는 주파수 변환 방식을 이용한다.
이에 따라, 입력 신호의 N번째 프레임에 대하여 CELP 모드에 따른 부호화가 수행되고, N+1번째 프레임에 대하여 FD 모드에 따른 부호화가 수행되면, FD 모드에 따른 부호화 결과만으로 N+1번째 프레임에 대한 복호화를 수행할 수 없다. 이에 따라, 인접하는 프레임들 간의 부호화 모드가 CELP 모드에서 FD 모드로 변경될 경우, FD 모드에 따른 부호화가 수행된 결과에 따른 비트스트림(252)에는 예측에 해당되는 정보를 나타내는 예측 데이터(2522)가 포함될 수 있다.
따라서, 복호화단에서 비트스트림(252)에 포함된 예측 데이터(2522)를 참조하여, 이전 프레임(예를 들면, N번째 프레임)의 복호화된 결과와 현재 프레임(예를 들면, N+1번째 프레임)의 복호화된 시간 도메인 정보를 이용한 예측을 통하여 FD 모드에 따라 부호화된 비트스트림(252)을 복호화할 수 있다. 예를 들어 설명하면, 시간 도메인 정보는 시간 도메인 알리아싱(Time Domain Aliasing)이 될 수 있으나, 이에 한정되지 않는다.
또한, N+1번째 프레임에 대한 비트스트림(252) 및 N+2번째 프레임에 대한 비트스트림(253)에 도시된 바와 같이, 비트스트림들(252 및 253)의 페이로드(255)는 이전 프레임 모드 정보(2524 및 2533)를 더 포함할 수 있다.
좀 더 상세히 설명하면, FD 모드에 따른 부호화가 수행된 결과에 따른 비트스트림(252 및 253)에는 이전 프레임 모드 정보(2524 및 2533)가 포함될 수 있다.
예를 들어 설명하면, N+1번째 프레임에 대한 비트스트림(252)에 포함된 이전 프레임 모드 정보(2524)는 N번째 프레임의 모드 정보(2511)에 관한 정보를 포함할 수 있고, N+2번째 프레임에 대한 비트스트림(253)에 포함된 이전 프레임 모드 정보(2533)는 N+1번째 프레임의 모드 정보(2524)에 관한 정보를 포함할 수 있다.
이에 따라, 복수의 프레임들 중 어느 하나의 프레임에 에러가 발생한 경우에도, 복호화단에서 모드 전이를 정확하게 파악할 수 있다.
도 26은 본 발명의 일실시예에 따른 주파수 대역별 주파수 할당의 일 예를 도시한 도면이다.
상기에서 설명한 바와 같이, 도 2c에 도시된 FD 확장 부호화부(2094) 또는 도 2d에 도시된 FD 확장 부호화부(215)는 서로 다른 비트율에 대하여 동일한 코드북을 공유하여 에너지 양자화를 수행할 수 있다. 이에 따라, FD 확장 부호화부(2094) 또는 도 2d에 도시된 FD 확장 부호화부(215)는 입력 신호에 대응하는 주파수 스펙트럼을 소정 개수의 주파수 밴드들로 분할함에 있어서, 서로 다른 비트율에 대하여 동일한 주파수 밴드 별 대역폭을 가지도록 한다.
16kbps의 비트율에서 약 6.4 내지 14.4kHz의 주파수 대역을 분할하는 경우(261) 및 16kbps 이상의 비트율에서 약 8 내지 16kHz의 주파수 대역을 분할하는 경우(262)를 예로 들어 설명한다. 이러한 경우, 서로 다른 비트율에 대하여 동일한 주파수 밴드 별 대역폭을 가지도록 한다.
즉, 첫 번째 주파수 밴드에 대한 대역폭(263)은 16kbps의 비트율 및 16kbps 이상의 비트율 모두에서 0.4kHz이고, 두 번째 주파수 밴드에 대한 대역폭(264)은 16kbps의 비트율 및 16kbps 이상의 비트율 모두에서 0.6kHz가 될 수 있다.
이와 같은 방식으로, 서로 다른 비트율에 대하여 동일한 주파수 밴드 별 대역폭을 가지도록 함에 따라, 본 실시예에 따른 FD 확장 부호화부(2094) 또는 FD 확장 부호화부(215)는 서로 다른 비트율에 대하여 동일한 코드북을 공유하여 에너지 양자화를 수행할 수 있다.
이에 따라, CELP 모드와 FD 모드가 스위칭되는 설정(configuration), 또는 CELP 모드와 오디오 부호화 모드가 스위칭되는 설정(configuration)에서 Multi Mode Bandwidth Extension 기술을 적용하고, 이때, 다양한 비트율을 지원할 수 있는 코드북 공유를 수행함에 따라, 롬(ROM) 크기를 감소시키고, 구현을 단순화할 수 있다.
도 27은 본 발명의 일실시예에 따른 FD 부호화부 또는 FD 복호화부에서 적용되는 주파수 대역의 일 예를 도시한 도면이다.
도 27에 도시된 주파수 대역(271)은 도 2b에 도시된 FD 부호화부(209) 및 도 12b에 도시된 FD 복호화부(1209)에서 각각의 툴 별로 적용가능한 주파수 대역의 일 예를 도시한다.
좀 더 상세히 설명하면, FD 부호화부(209)의 FPC 부호화부(2092)는 FPC 코딩을 수행하는 주파수 대역을 비트율 별로 제한을 하게된다. 예를 들면, FPC 코딩을 수행하는 주파수 대역(Fcore)는 비트율에 따라 6.4kHz, 8kHz 또는 9.6kHz가 될 수 있으나, 이에 한정되지 않는다.
FPC 부호화부(2092)에 의하여 제한된 주파수 대역 안에서 FPC 코딩을 수행함에 따라, FPC가 코딩된 주파수 대역(Ffpc)(272)가 결정될 수 있다. 이러한 경우, FD 복호화부(1209)의 노이즈 필링 수행부(12093)는 FPC가 코딩된 주파수 대역(Ffpc)(272)에 대하여 노이즈 필링을 수행한다.
이때, FPC가 코딩된 주파수 대역(Ffpc)의 상위 대역값이 FPC 코딩을 수행하는 주파수 대역(Fcore)의 상위 대역값보다 작은 경우, FD 복호화부(1209)의 FD 저주파수 확장 복호화부(12095)는 저주파수 확장 복호화를 수행할 수 있다.
도 27을 참조하면, FD 저주파수 확장 복호화부(12095)는 FPC 코딩을 수행하는 주파수 대역(Fcore) 중 FPC가 코딩된 주파수 대역(Ffpc)에 해당되지 않는 주파수 대역(273)에 대하여 FD 저주파수 확장 복호화를 수행할 수 있다. 다만, FPC 코딩을 수행하는 주파수 대역(Fcore)이 FPC가 코딩된 주파수 대역(Ffpc)과 동일한 경우에는 FD 저주파수 확장 복호화가 수행되지 않을 수 있다.
FD 복호화부(1209)의 FD 고주파수 확장 복호화부(12096)는 FPC 코딩을 수행하는 주파수 대역(Fcore)의 상위 밴드값과 비트율에 따른 주파수 대역(Fend)의 상위 밴드값 사이의 주파수 대역(274)에 대하여 FD 고주파수 확장 부호화를 수행할 수 있다. 예를 들어 설명하면, 비트율에 따른 주파수 대역(Fend)의 상위 밴드값은 14kHz, 14.4kHz 또는 16kHz가 될 수 있으나, 이에 한정되지 않는다. 이에 따라, 본 실시예에 따른 부호화 장치(101) 및 복호화 장치(102)를 사용함에 따라 다양한 스위칭 구조를 통하여, 다양한 비트율에 대해서 음성 및 음악을 효율적으로 코딩할 수 있다. 또한, FD 확장 부호화 및 FD 확장 복호화를 수행함에 있어서, 코드북을 공유함에 따라, 다양한 설정(configuration)이 존재할 경우에도 고음질을 저복잡도로 구현할 수 있다. 추가적으로, FD 부호화가 수행되는 경우 비트스트림에 이전 프레임의 모드 정보가 포함됨에 따라, 프레임 에러가 발생하는 경우에도 정확한 복호화를 수행할 수 있다. 그러하기에, 본 실시예에 따른 부호화 장치(101) 및 복호화 장치(102)를 사용함에 따라, low complexity 및 low delay를 구현할 수 있다.
따라서, 3GPP EVS(Enhanced Voiced Service)에 따른 음성신호 및 음악신호의 부호화 및 복호화를 잘 수행할 수 있다.
본 발명의 실시 예에 따른 방법들은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.
이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.

Claims (112)

  1. 입력 신호를 다운 샘플링하는 다운 샘플링부;
    다운 샘플링된 입력 신호를 코어 부호화를 수행하는 코어 부호화부;
    상기 입력 신호를 주파수 변환하는 주파수 변환부; 및
    상기 주파수 영역의 입력 신호의 기본 신호를 이용하여 대역폭 확장 부호화를 수행하는 확장 부호화부;를 포함하는 부호화 장치.
  2. 제1항에 있어서, 상기 확장 부호화부는,
    상기 주파수 영역의 입력 신호의 주파수 스펙트럼을 이용하여 상기 주파수 영역의 입력 신호의 기본 신호(basic signal)를 생성하는 기본 신호 생성부;
    상기 기본 신호를 이용하여 에너지 제어 요소(energy control factor)를 추정하는 요소 추정부;
    상기 주파수 영역의 입력 신호로부터 에너지를 추출하는 에너지 추출부;
    상기 에너지 제어 요소를 이용하여 상기 추출된 에너지를 제어하는 에너지 제어부; 및
    상기 제어된 에너지를 양자화하는 에너지 양자화부;를 포함하는 부호화 장치.
  3. 제2항에 있어서, 상기 기본 신호 생성부는,
    상기 주파수 영역의 입력 신호의 저주파수 영역을 복사하고 폴딩하여 고주파수 영역에 대응하는 인공 신호(artificial signal)를 생성하는 인공 신호 생성부;
    윈도우를 이용하여 상기 기본 신호의 포락선을 추정하는 포락선 추정부; 및
    상기 추정된 포락선을 인공 신호에 적용하는 포락선 적용부;를 포함하는 부호화 장치.
  4. 제3항에 있어서,
    상기 윈도우의 피크는, 상기 기본 신호의 포락선을 추정하고자 하는 주파수 인덱스에 대응하고,
    상기 포락선 추정부는, 토널리티(tonality) 또는 상관도(correlation) 중 어느 하나의 비교 결과에 따라 윈도우를 선택하여 기본 신호의 포락선을 추정하는 것을 특징으로 하는 부호화 장치.
  5. 제3항에 있어서,
    상기 포락선 추정부는, 화이트닝(Whitening) 밴드 각각의 주파수 크기(Magnitude)의 평균을 화이트닝 밴드 내에 속한 주파수의 포락선으로 추정하는 것을 특징으로 하는 부호화 장치.
  6. 제5항에 있어서,
    상기 포락선 추정부는, 코어 부호화 모드에 따라서 화이트닝(Whitening) 밴드에 속한 주파수 스펙트럼의 개수를 제어시켜 상기 기본 신호의 포락선을 추정하는 것을 특징으로 하는 부호화 장치.
  7. 제2항에 있어서, 상기 요소 추정부는,
    상기 주파수 영역의 입력 신호의 고주파수 영역의 토널리티를 계산하는 제1 토널리티 계산부;
    상기 기본 신호의 토널리티를 계산하는 제2 토널리티 계산부; 및
    상기 입력 신호의 고주파수 영역의 토널리티와 상기 기본 신호의 토널리티를 이용하여 상기 에너지 제어 요소를 계산하는 요소 계산부;를 포함하는 부호화 장치.
  8. 제2항에 있어서,
    상기 에너지 제어부는, 상기 에너지 제어 요소가 미리 설정한 임계 에너지 제어 요소보다 작은 경우, 상기 입력 신호의 에너지를 제어하는 것을 특징으로 하는 부호화 장치.
  9. 제2항에 있어서,
    상기 에너지 양자화부는, 서브벡터를 선택하여 양자화를 한 후, 보간 에러를 이용하여 나머지(remained) 서브벡터를 양자화하는 것을 특징으로 하는 부호화 장치.
  10. 제9항에 있어서,
    상기 에너지 양자화부는, 동일한 간격으로 서브 벡터를 선택하여 양자화를 수행하는 것을 특징으로 하는 부호화 장치.
  11. 제9항에 있어서,
    상기 에너지 양자화부는, 상기 서브 벡터의 후보(candidate)를 선택하여 2개 이상 사용하는 멀티 스테이지(multi-stage) 벡터 양자화를 수행하는 것을 특징으로 하는 부호화 장치.
  12. 제9항에 있어서,
    상기 에너지 양자화부는, 상기 서브 벡터의 후보 각각에 대해 각 스테이지에서 MSE(Mean Square Error) 또는 WMSE(Weighted Mean Square Error)를 인덱스 셋트를 생성한 후, 모든 스테이지의 MSE 또는 WMSE의 합이 가장 작은 서브 벡터의 후보를 선택하는 것을 특징으로 하는 부호화 장치.
  13. 제9항에 있어서,
    상기 에너지 양자화부는, 상기 서브 벡터의 후보 각각에 대해 각 스테이지에서 MSE(Mean Square Error) 또는 WMSE(Weighted Mean Square Error)를 최소화하는 인덱스 셋트를 생성한 후, 역양자화과정을 거쳐 에너지 벡터를 복원한 후, 복원된 에너지벡터와 원래의 에너지 벡터 간의 MSE 또는 WMSE를 최소화하는 서브 벡터의 후보를 선택하는 것을 특징으로 하는 부호화 장치.
  14. 입력 신호를 다운 샘플링하는 다운 샘플링부;
    다운 샘플링된 입력 신호를 코어 부호화를 수행하는 코어 부호화부;
    상기 입력 신호를 주파수 변환하는 주파수 변환부; 및
    상기 입력 신호의 특성 및 상기 주파수 영역의 입력 신호의 기본 신호를 이용하여 대역폭 확장 부호화를 수행하는 확장 부호화부;를 포함하는 부호화 장치.
  15. 제14항에 있어서, 상기 확장 부호화부는,
    상기 주파수 영역의 입력 신호의 주파수 스펙트럼을 이용하여 상기 주파수 영역의 입력 신호의 기본 신호(basic signal)를 생성하는 기본 신호 생성부;
    상기 입력 신호의 특성 및 상기 기본 신호를 이용하여 에너지 제어 요소(energy control factor)를 추정하는 요소 추정부;
    상기 주파수 영역의 입력 신호로부터 에너지를 추출하는 에너지 추출부;
    상기 에너지 제어 요소를 이용하여 상기 추출된 에너지를 제어하는 에너지 제어부; 및
    상기 제어된 에너지를 양자화하는 에너지 양자화부;를 포함하는 부호화 장치.
  16. 제15항에 있어서,
    상기 확장 부호화부는, 상기 주파수 영역의 입력 신호의 주파수 스펙트럼을 이용하여 상기 주파수 영역의 입력 신호를 특성에 따라 분류하는 신호 분류부;를 더 포함하고,
    상기 요소 추정부는, 상기 신호 분류부에서 결정된 입력 신호의 특성을 이용하여 에너지 제어 요소를 추정하는 것을 특징으로 하는 부호화 장치.
  17. 제15항에 있어서,
    상기 요소 추정부는, 상기 코어 부호화부에서 결정된 입력 신호의 특성을 이용하여 에너지 제어 요소를 추정하는 것을 특징으로 하는 부호화 장치.
  18. 제15항에 있어서, 상기 기본 신호 생성부는,
    상기 주파수 영역의 입력 신호의 저주파수 영역을 복사하고 폴딩하여 고주파수 영역에 대응하는 인공 신호(artificial signal)를 생성하는 인공 신호 생성부;
    윈도우를 이용하여 상기 기본 신호의 포락선을 추정하는 포락선 추정부; 및
    상기 추정된 포락선을 인공 신호에 적용하는 포락선 적용부;를 포함하는 부호화 장치.
  19. 제18항에 있어서,
    상기 윈도우의 피크는, 상기 기본 신호의 포락선을 추정하고자 하는 주파수 인덱스에 대응하고,
    상기 포락선 추정부는, 토널리티(tonality) 또는 상관도(correlation) 중 어느 하나의 비교 결과에 따라 윈도우를 선택하여 기본 신호의 포락선을 추정하는 것을 특징으로 하는 부호화 장치.
  20. 제18항에 있어서,
    상기 포락선 추정부는, 화이트닝(Whitening) 밴드 각각의 주파수 크기(Magnitude)의 평균을 화이트닝 밴드 내에 속한 주파수의 포락선으로 추정하는 것을 특징으로 하는 부호화 장치.
  21. 제20항에 있어서,
    상기 포락선 추정부는, 코어 부호화 모드에 따라서 화이트닝(Whitening) 밴드에 속한 주파수 스펙트럼의 개수를 제어시켜 상기 기본 신호의 포락선을 추정하는 것을 특징으로 하는 부호화 장치.
  22. 제14항에 있어서, 상기 요소 추정부는,
    상기 주파수 영역의 입력 신호의 고주파수 영역의 토널리티를 계산하는 제1 토널리티 계산부;
    상기 기본 신호의 토널리티를 계산하는 제2 토널리티 계산부; 및
    상기 입력 신호의 고주파수 영역의 토널리티와 상기 기본 신호의 토널리티를 이용하여 상기 에너지 제어 요소를 계산하는 요소 계산부;를 포함하는 부호화 장치.
  23. 제15항에 있어서,
    상기 에너지 제어부는, 상기 에너지 제어 요소가 미리 설정한 임계 에너지 제어 요소보다 작은 경우, 상기 입력 신호의 에너지를 제어하는 것을 특징으로 하는 부호화 장치.
  24. 제15항에 있어서,
    상기 에너지 양자화부는, 서브벡터를 선택하여 양자화를 한 후, 보간 에러를 이용하여 나머지(remained) 서브벡터를 양자화하는 것을 특징으로 하는 부호화 장치.
  25. 제24항에 있어서,
    상기 에너지 양자화부는, 동일한 간격으로 서브 벡터를 선택하여 양자화를 수행하는 것을 특징으로 하는 부호화 장치.
  26. 제24항에 있어서,
    상기 에너지 양자화부는, 상기 서브 벡터의 후보(candidate)를 선택하여 2개 이상 사용하는 멀티 스테이지(multi-stage) 벡터 양자화를 수행하는 것을 특징으로 하는 부호화 장치.
  27. 부호화 모드에 기초하여 주파수 영역의 입력 신호로부터 에너지를 추출하는 에너지 추출부;
    상기 부호화 모드에 기초하여 에너지를 제어하는 에너지 제어부; 및
    상기 부호화 모드에 기초하여 상기 에너지를 양자화하는 에너지 양자화부;를 포함하는 부호화 장치.
  28. 주파수 영역의 입력 신호와 시간 영역의 입력 신호를 이용하여 대역폭 확장 부호화의 부호화 모드를 선택하는 부호화 모드 선택부; 및
    상기 주파수 영역의 입력 신호와 상기 부호화 모드를 이용하여 대역폭 확장 부호화를 수행하는 확장 부호화부;를 포함하는 부호화 장치.
  29. 제28항에 있어서,
    상기 부호화 모드 선택부는, 상기 주파수 영역의 입력 신호와 상기 시간 영역의 입력 신호를 이용하여 상기 주파수 영역의 입력 신호를 분류하고, 분류된 정보에 따라 대역폭 확장 부호화의 부호화 모드 및 상기 부호화 모드에 기초한 주파수 밴드의 개수를 결정하는 것을 특징으로 부호화 장치.
  30. 제28항에 있어서, 상기 확장 부호화부는,
    상기 부호화 모드에 기초하여 주파수 영역의 입력 신호로부터 에너지를 추출하는 에너지 추출부;
    상기 부호화 모드에 기초하여 에너지를 제어하는 에너지 제어부; 및
    상기 부호화 모드에 기초하여 상기 에너지를 양자화하는 에너지 양자화부;를 포함하는 부호화 장치.
  31. 제30항에 있어서,
    상기 에너지 추출부는, 상기 부호화 모드에 기초하여 주파수 밴드에 대응하는 에너지를 추출하는 것을 특징으로 하는 부호화 장치.
  32. 제30항에 있어서,
    상기 에너지 제어부는, 상기 주파수 영역의 입력 신호의 기본 신호에 따라 추정된 에너지 제어 요소를 이용하여 에너지를 제어하는 것을 특징으로 하는 부호화 장치.
  33. 제30항에 있어서,
    상기 에너지 양자화부는, 상기 부호화 모드에 따라 상기 주파수 영역의 입력 신호에 최적인 방식에 따라 양자화하는 것을 특징으로 하는 부호화 장치.
  34. 제30항에 있어서,
    상기 에너지 양자화부는, 상기 부호화 모드에 따라 상기 주파수 영역의 입력 신호에 최적인 방식에 따라 양자화하는 것을 특징으로 하는 부호화 장치.
  35. 제34항에 있어서,
    상기 주파수 가중 방법은, 지각적 중요도가 높은 저대역 주파수 밴드에 가중치를 부여하여 에너지를 양자화하는 방법인 것을 특징으로 하는 부호화 장치.
  36. 제33항에 있어서,
    상기 에너지 양자화부는, 상기 부호화 모드가 노말 모드(normal mode) 또는 하모닉 모드(harmonic mode)인 경우, 주파수 밴드에 대해 불균형 비트 할당 방법(unequal bit allocation method)을 이용하여 에너지를 양자화하는 것을 특징으로 부호화 장치.
  37. 제36항에 있어서,
    상기 불균형 비트 할당 방법은, 지각적 중요도가 높은 저대역 주파수 밴드에 고대역 주파수 밴드보다 상대적으로 많은 비트를 할당하여 에너지를 양자화하는 방법인 것을 특징으로 하는 부호화 장치.
  38. 제30항에 있어서,
    상기 에너지 양자화부는, 2개 이상의 요소(element)를 갖는 양자화 대상 벡터의 대표값을 예측한 후, 상기 예측된 대표값과 상기 양자화 대상 벡터의 각 요소 간의 에러 신호를 벡터 양자화하는 것을 특징으로 하는 부호화 장치.
  39. 비트스트림에 포함된 코어 부호화된 입력 신호를 코어 복호화하는 코어 복호화부;
    상기 코어 복호화된 입력 신호를 업샘플링하는 업샘플링부;
    상기 업샘플링된 입력 신호를 주파수 변환하는 주파수 변환부; 및
    상기 비트스트림에 포함된 상기 입력 신호의 에너지와 상기 주파수 영역의 입력 신호를 이용하여 대역폭 확장 복호화를 수행하는 확장 복호화부;를 포함하는 복호화 장치.
  40. 제39항에 있어서, 상기 확장 복호화부는,
    상기 입력 신호의 에너지를 역양자화하는 역양자화부;
    상기 주파수 영역의 입력 신호를 이용하여 기본 신호를 생성하는 기본 신호 생성부;
    상기 역양자화된 에너지와 상기 기본 신호의 에너지를 이용하여 상기 기본 신호에 적용될 게인을 계산하는 게인 계산부; 및
    상기 계산된 게인을 주파수 밴드별로 적용하는 게인 적용부;를 포함하는 복호화 장치.
  41. 제40항에 있어서, 상기 역양자화부는,
    서브 벡터를 선택하여 역양자화하고, 역양자화된 서브 벡터를 보간하며, 보간된 서브 벡터에 보간 에러값을 더하여 최종적으로 에너지를 역양자화하는 것을 특징으로 하는 복호화 장치.
  42. 제40항에 있어서, 상기 기본 신호 생성부는,
    상기 주파수 영역의 입력 신호의 저주파수 영역을 복사하고 폴딩하여 고주파수 영역에 대응하는 인공 신호를 생성하는 인공 신호 생성부;
    상기 비트스트림에 포함된 윈도우를 이용하여 상기 기본 신호의 포락선을 추정하는 포락선 추정부; 및
    상기 추정된 포락선을 인공 신호에 적용하는 포락선 적용부;를 포함하는 복호화 장치.
  43. 제40항에 있어서,
    상기 게인 계산부와 게인 적용부는, 에너지 스무딩(Energy smoothing)을 적용하기 위한 서브밴드를 설정하여 보간을 통해 서브밴드 별 에너지를 생성하고, 상기 게인은 서브밴드 단위로 계산되는 것을 특징으로 하는 복호화 장치.
  44. 입력 신호의 특성을 참조하여, 입력 신호의 부호화 모드를 결정하는 신호 분류부;
    상기 입력 신호의 부호화 모드가 CELP(Code Excited Linear Prediction) 부호화 모드로 결정되면, 상기 입력 신호의 저주파 신호에 대하여 CELP 부호화를 수행하는 CELP 부호화부;
    상기 입력 신호의 저주파 신호에 대하여 CELP 부호화가 수행되면, 상기 입력 신호의 고주파 신호에 대하여 확장 부호화를 수행하는 TD(Time Domain) 확장 부호화부;
    상기 입력 신호의 부호화 모드가 FD 모드로 결정되면, 상기 입력 신호를 주파수 변환하는 주파수 변환부; 및
    상기 주파수 변환된 입력 신호에 대하여 FD(Frequency Domain) 부호화를 수행하는 FD 부호화부;를 포함하는 부호화 장치.
  45. 제44항에 있어서, 상기 FD 부호화부는
    상기 변환된 입력 신호에 대하여 주파수 밴드 별로 에너지를 추출하고, 추출된 에너지를 양자화하는 Norm 부호화부;
    상기 양자화된 Norm 값으로 상기 변환된 입력 신호를 스케일링한 값에 대하여 FPC 부호화를 수행하는 FPC(Factorial Pulse Coding) 부호화부; 및
    상기 FPC 부호화가 수행됨에 따른 노이즈 부가정보를 생성하는 노이즈 부가정보 생성부를 포함하고,
    상기 FD 부호화부로 입력되는 변환된 입력 신호는 transient 프레임인 부호화 장치.
  46. 제44항에 있어서, 상기 FD 부호화부는
    상기 변환된 입력 신호에 대하여 주파수 밴드 별로 에너지를 추출하고, 추출된 에너지를 양자화하는 Norm 부호화부;
    상기 양자화된 Norm 값으로 상기 변환된 입력 신호를 스케일링한 값에 대하여 FPC 부호화를 수행하는 FPC(Factorial Pulse Coding) 부호화부;
    상기 FPC 부호화가 수행됨에 따른 노이즈 부가정보를 생성하는 노이즈 부가정보 생성부; 및
    상기 변환된 입력 신호의 고주파 신호에 대하여 확장 부호화를 수행하는 FD 확장 부호화부;를 포함하고,
    상기 FD 부호화부로 입력되는 변환된 입력 신호는 stationary 프레임인 부호화 장치.
  47. 제46항에 있어서,
    상기 FD 확장 부호화부는 서로 다른 비트율에 대하여 동일한 코드북을 공유하여 에너지 양자화를 수행하는 것을 특징으로 하는 부호화 장치.
  48. 제44항에 있어서,
    상기 입력 신호에 대하여 FD 부호화가 수행된 결과에 따른 비트스트림은 이전 프레임 모드 정보를 포함하는 부호화 장치.
  49. 입력 신호의 특성을 참조하여, 입력 신호의 부호화 모드를 결정하는 신호 분류부;
    상기 입력 신호의 저주파 신호로부터 선형예측계수(Linear Prediction Coefficient, LPC)를 추출하고, 추출된 선형예측계수를 양자화하는 LPC 부호화부;
    상기 입력 신호의 부호화 모드가 CELP 모드로 결정되면, 상기 선형예측계수를 이용하여 추출된 LPC 여기신호에 대하여 CELP 부호화를 수행하는 CELP 부호화부;
    상기 입력 신호의 저주파 신호의 LPC 여기신호에 대하여 CELP 부호화가 수행되면, 상기 입력 신호의 고주파 신호에 대하여 확장 부호화를 수행하는 TD 확장 부호화부;
    상기 입력 신호의 부호화 모드가 오디오 모드로 결정되면, 상기 선형예측계수를 이용하여 추출된 LPC 여기신호에 대하여 오디오 부호화를 수행하는 오디오 부호화부; 및
    상기 입력 신호의 저주파 신호의 LPC 여기신호에 대하여 오디오 부호화가 수행되면, 상기 입력 신호의 고주파 신호에 대하여 확장 부호화를 수행하는 FD 확장 부호화부;를 포함하는 부호화 장치.
  50. 제49항에 있어서,
    상기 FD 확장 부호화부는 서로 다른 비트율에 대하여 동일한 코드북을 공유하여 에너지 양자화를 수행하는 것을 특징으로 하는 부호화 장치.
  51. 비트스트림에 포함된 프레임들 각각에 대한 모드 정보를 검사하는 모드 정보 검사부;
    상기 검사결과에 따라 CELP 부호화된 프레임에 대하여 CELP 복호화를 수행하는 CELP 복호화부;
    상기 CELP 복호화가 수행된 결과 및 저주파 신호의 여기신호 중 적어도 어느 하나를 이용하여, 고주파수에 대한 복호화 신호를 생성하는 TD 확장 복호화부;
    상기 검사결과에 따라 FD 부호화된 프레임에 대하여 FD 복호화를 수행하는 FD 복호화부; 및
    상기 FD 복호화가 수행된 결과를 주파수 역변환하는 주파수 역변환부;를 포함하는 복호화 장치.
  52. 제51항에 있어서, 상기 FD 복호화부는
    상기 비트스트림의 Norm 정보를 참조하여, Norm 복호화를 수행하는 Norm 복호화부;
    상기 비트스트림의 FPC 부호화 정보에 기초하여 FPC 복호화를 수행하는 FPC 복호화부; 및
    상기 FPC 복호화가 수행된 결과에 대하여 노이즈 필링을 수행하는 노이즈 필링 수행부;를 포함하는 복호화 장치.
  53. 제51항에 있어서, 상기 FD 복호화부는
    상기 비트스트림의 Norm 정보를 참조하여, Norm 복호화를 수행하는 Norm 복호화부;
    상기 비트스트림의 FPC 부호화 정보에 기초하여 FPC 복호화를 수행하는 FPC 복호화부;
    상기 FPC 복호화가 수행된 결과에 대하여 노이즈 필링을 수행하는 노이즈 필링 수행부; 및
    상기 FPC 복호화 및 노이즈 필링이 수행된 결과를 이용하여, 고주파수 확장 복호화를 수행하는 FD 고주파수 확장 복호화부;를 포함하는 복호화 장치.
  54. 제52항에 있어서, 상기 FD 복호화부는
    FPC 복호화를 수행하는 주파수 밴드의 상위 밴드값이 코어신호에 대한 주파수 밴드의 상위 밴드값보다 작은 경우, 상기 FPC 복호화 및 노이즈 필링이 수행된 결과에 대하여 확장 부호화를 수행하는 FD 저주파수 확장 부호화부;를 더 포함하는 복호화 장치.
  55. 제52항에 있어서,
    상기 FD 고주파수 확장 복호화부는 서로 다른 비트율에 대하여 동일한 코드북을 공유하여 에너지 역양자화를 수행하는 것을 특징으로 하는 복호화 장치.
  56. 제51항에 있어서,
    상기 FD 복호화부는 FD 부호화된 프레임에 대하여 상기 비트스트림에 포함된 이전 프레임 모드 정보를 참조하여 FD 복호화를 수행하는 것을 특징으로 하는 복호화 장치.
  57. 비트스트림에 포함된 프레임들 각각에 대한 모드 정보를 검사하는 모드 정보 검사부;
    상기 비트스트림에 포함된 프레임들에 대하여 LPC 복호화를 수행하는 LPC 복호화부;
    상기 검사결과에 따라 CELP 부호화된 프레임에 대하여 CELP 복호화를 수행하는 CELP 복호화부;
    상기 CELP 복호화가 수행된 결과 및 저주파 신호의 여기신호 중 적어도 어느 하나를 이용하여, 고주파수에 대한 복호화 신호를 생성하는 TD 확장 복호화부;
    상기 검사결과에 따라 오디오 부호화된 프레임에 대하여 오디오 복호화를 수행하는 오디오 복호화부; 및
    상기 오디오 복호화가 수행된 결과를 이용하여 확장 복호화를 수행하는 FD 확장 복호화부;를 포함하는 복호화 장치
  58. 제57항에 있어서,
    상기 FD 확장 복호화부는 서로 다른 비트율에 대하여 동일한 코드북을 공유하여 에너지 역양자화를 수행하는 것을 특징으로 하는 복호화 장치.
  59. 입력 신호를 다운 샘플링하는 단계;
    다운 샘플링된 입력 신호를 코어 부호화를 수행하는 단계;
    상기 입력 신호를 주파수 변환하는 단계; 및
    상기 주파수 영역의 입력 신호의 기본 신호를 이용하여 대역폭 확장 부호화를 수행하는 단계;를 포함하는 부호화 방법.
  60. 제59항에 있어서, 상기 대역폭 확장 부호화를 수행하는 단계는,
    상기 주파수 영역의 입력 신호의 주파수 스펙트럼을 이용하여 상기 주파수 영역의 입력 신호의 기본 신호(basic signal)를 생성하는 단계;
    상기 기본 신호를 이용하여 에너지 제어 요소(energy control factor)를 추정하는 단계;
    상기 주파수 영역의 입력 신호로부터 에너지를 추출하는 단계;
    상기 에너지 제어 요소를 이용하여 상기 추출된 에너지를 제어하는 단계; 및
    상기 제어된 에너지를 양자화하는 단계;를 포함하는 부호화 방법.
  61. 제60항에 있어서, 상기 입력 신호의 기본 신호를 생성하는 단계는,
    상기 주파수 영역의 입력 신호의 저주파수 영역을 복사하고 폴딩하여 고주파수 영역에 대응하는 인공 신호(artificial signal)를 생성하는 단계;
    윈도우를 이용하여 상기 기본 신호의 포락선을 추정하는 단계; 및
    상기 추정된 포락선을 인공 신호에 적용하는 단계;를 포함하는 부호화 방법.
  62. 제61항에 있어서,
    상기 윈도우의 피크는, 상기 기본 신호의 포락선을 추정하고자 하는 주파수 인덱스에 대응하고,
    상기 기본 신호의 포락선을 추정하는 단계는, 토널리티(tonality) 또는 상관도(correlation) 중 어느 하나의 비교 결과에 따라 윈도우를 선택하여 기본 신호의 포락선을 추정하는 것을 특징으로 하는 부호화 방법.
  63. 제61항에 있어서,
    상기 기본 신호의 포락선을 추정하는 단계는, 화이트닝(Whitening) 밴드 각각의 주파수 크기(Magnitude)의 평균을 화이트닝 밴드 내에 속한 주파수의 포락선으로 추정하는 것을 특징으로 하는 부호화 방법.
  64. 제63항에 있어서,
    상기 기본 신호의 포락선을 추정하는 단계는, 코어 부호화 모드에 따라서 화이트닝(Whitening) 밴드에 속한 주파수 스펙트럼의 개수를 제어시켜 상기 기본 신호의 포락선을 추정하는 것을 특징으로 하는 부호화 방법.
  65. 제60항에 있어서, 상기 에너지 제어 요소를 추정하는 단계는,
    상기 주파수 영역의 입력 신호의 고주파수 영역의 토널리티를 계산하는 단계;
    상기 기본 신호의 토널리티를 계산하는 단계; 및
    상기 입력 신호의 고주파수 영역의 토널리티와 상기 기본 신호의 토널리티를 이용하여 상기 에너지 제어 요소를 계산하는 단계;를 포함하는 부호화 방법.
  66. 제60항에 있어서,
    상기 추출된 에너지를 제어하는 단계는, 상기 에너지 제어 요소가 미리 설정한 임계 에너지 제어 요소보다 작은 경우, 상기 입력 신호의 에너지를 제어하는 것을 특징으로 하는 부호화 방법.
  67. 제60항에 있어서,
    상기 제어된 에너지를 양자화하는 단계는, 서브벡터를 선택하여 양자화를 한 후, 보간 에러를 이용하여 나머지(remained) 서브벡터를 양자화하는 것을 특징으로 하는 부호화 방법.
  68. 제67항에 있어서,
    상기 제어된 에너지를 양자화하는 단계는, 동일한 간격으로 서브 벡터를 선택하여 양자화를 수행하는 것을 특징으로 하는 부호화 방법.
  69. 제67항에 있어서,
    상기 제어된 에너지를 양자화하는 단계는, 상기 서브 벡터의 후보(candidate)를 선택하여 2개 이상 사용하는 멀티 스테이지(multi-stage) 벡터 양자화를 수행하는 것을 특징으로 하는 부호화 방법.
  70. 제69항에 있어서,
    상기 제어된 에너지를 양자화하는 단계는, 상기 서브 벡터의 후보 각각에 대해 각 스테이지에서 MSE(Mean Square Error) 또는 WMSE(Weighted Mean Square Error)를 인덱스 셋트를 생성한 후, 모든 스테이지의 MSE 또는 WMSE의 합이 가장 작은 서브 벡터의 후보를 선택하는 것을 특징으로 하는 부호화 방법.
  71. 제69항에 있어서,
    상기 제어된 에너지를 양자화하는 단계는, 상기 서브 벡터의 후보 각각에 대해 각 스테이지에서 MSE(Mean Square Error) 또는 WMSE(Weighted Mean Square Error)를 최소화하는 인덱스 셋트를 생성한 후, 역양자화과정을 거쳐 에너지 벡터를 복원한 후, 복원된 에너지벡터와 원래의 에너지 벡터 간의 MSE 또는 WMSE를 최소화하는 서브 벡터의 후보를 선택하는 것을 특징으로 하는 부호화 방법.
  72. 입력 신호를 다운 샘플링하는 단계;
    다운 샘플링된 입력 신호를 코어 부호화를 수행하는 단계;
    상기 입력 신호를 주파수 변환하는 단계; 및
    상기 입력 신호의 특성 및 상기 주파수 영역의 입력 신호의 기본 신호를 이용하여 대역폭 확장 부호화를 수행하는 단계;를 포함하는 부호화 방법.
  73. 제72항에 있어서, 상기 대역폭 확장 부호화를 수행하는 단계는,
    상기 주파수 영역의 입력 신호의 주파수 스펙트럼을 이용하여 상기 주파수 영역의 입력 신호의 기본 신호(basic signal)를 생성하는 단계;
    상기 입력 신호의 특성 및 상기 기본 신호를 이용하여 에너지 제어 요소(energy control factor)를 추정하는 단계;
    상기 주파수 영역의 입력 신호로부터 에너지를 추출하는 단계;
    상기 에너지 제어 요소를 이용하여 상기 추출된 에너지를 제어하는 단계; 및
    상기 제어된 에너지를 양자화하는 단계;를 포함하는 부호화 방법.
  74. 제73항에 있어서,
    상기 대역폭 확장 부호화를 수행하는 단계는, 상기 주파수 영역의 입력 신호의 주파수 스펙트럼을 이용하여 상기 주파수 영역의 입력 신호를 특성에 따라 분류하는 단계;를 더 포함하고,
    상기 에너지 제어 요소를 추정하는 단계는, 상기 입력 신호를 특성에 따라 분류하는 단계에서 결정된 입력 신호의 특성을 이용하여 에너지 제어 요소를 추정하는 것을 특징으로 하는 부호화 방법.
  75. 제73항에 있어서,
    상기 에너지 제어 요소를 추정하는 단계는, 상기 코어 부호화를 수행하는 단계에서 결정된 입력 신호의 특성을 이용하여 에너지 제어 요소를 추정하는 것을 특징으로 하는 부호화 방법.
  76. 제73에 있어서, 상기 기본 신호를 생성하는 단계는,
    상기 주파수 영역의 입력 신호의 저주파수 영역을 복사하고 폴딩하여 고주파수 영역에 대응하는 인공 신호(artificial signal)를 생성하는 단계;
    윈도우를 이용하여 상기 기본 신호의 포락선을 추정하는 단계; 및
    상기 추정된 포락선을 인공 신호에 적용하는 단계;를 포함하는 부호화 방법.
  77. 제76항에 있어서,
    상기 윈도우의 피크는, 상기 기본 신호의 포락선을 추정하고자 하는 주파수 인덱스에 대응하고,
    상기 기본 신호의 포락선을 추정하는 단계는, 토널리티(tonality) 또는 상관도(correlation) 중 어느 하나의 비교 결과에 따라 윈도우를 선택하여 기본 신호의 포락선을 추정하는 것을 특징으로 하는 부호화 방법.
  78. 제76항에 있어서,
    상기 기본 신호의 포락선을 추정하는 단계는, 화이트닝(Whitening) 밴드 각각의 주파수 크기(Magnitude)의 평균을 화이트닝 밴드 내에 속한 주파수의 포락선으로 추정하는 것을 특징으로 하는 부호화 방법.
  79. 제78항에 있어서,
    상기 기본 신호의 포락선을 추정하는 단계는, 코어 부호화 모드에 따라서 화이트닝(Whitening) 밴드에 속한 주파수 스펙트럼의 개수를 제어시켜 상기 기본 신호의 포락선을 추정하는 것을 특징으로 하는 부호화 방법.
  80. 제73항에 있어서, 상기 에너지 제어 요소를 추정하는 단계는,
    상기 주파수 영역의 입력 신호의 고주파수 영역의 토널리티를 계산하는 단계;
    상기 기본 신호의 토널리티를 계산하는 단계; 및
    상기 입력 신호의 고주파수 영역의 토널리티와 상기 기본 신호의 토널리티를 이용하여 상기 에너지 제어 요소를 계산하는 단계;를 포함하는 부호화 방법.
  81. 제73항에 있어서,
    상기 추출된 에너지를 제어하는 단계는, 상기 에너지 제어 요소가 미리 설정한 임계 에너지 제어 요소보다 작은 경우, 상기 입력 신호의 에너지를 제어하는 것을 특징으로 하는 부호화 방법.
  82. 제73항에 있어서,
    상기 제어된 에너지를 양자화하는 단계는, 서브벡터를 선택하여 양자화를 한 후, 보간 에러를 이용하여 나머지(remained) 서브벡터를 양자화하는 것을 특징으로 하는 부호화 방법.
  83. 제82항에 있어서,
    상기 제어된 에너지를 양자화하는 단계는, 동일한 간격으로 서브 벡터를 선택하여 양자화를 수행하는 것을 특징으로 하는 부호화 방법.
  84. 제82항에 있어서,
    상기 제어된 에너지를 양자화하는 단계는, 상기 서브 벡터의 후보(candidate)를 선택하여 2개 이상 사용하는 멀티 스테이지(multi-stage) 벡터 양자화를 수행하는 것을 특징으로 하는 부호화 방법.
  85. 부호화 모드에 기초하여 주파수 영역의 입력 신호로부터 에너지를 추출하는 단계;
    상기 부호화 모드에 기초하여 에너지를 제어하는 단계; 및
    상기 부호화 모드에 기초하여 상기 에너지를 양자화하는 단계;를 포함하는 부호화 방법.
  86. 주파수 영역의 입력 신호와 시간 영역의 입력 신호를 이용하여 대역폭 확장 부호화의 부호화 모드를 선택하는 단계; 및
    상기 주파수 영역의 입력 신호와 상기 부호화 모드를 이용하여 대역폭 확장 부호화를 수행하는 단계;를 포함하는 부호화 방법.
  87. 제86항에 있어서, 상기 부호화 모드를 선택하는 단계는,
    상기 주파수 영역의 입력 신호와 상기 시간 영역의 입력 신호를 이용하여 상기 주파수 영역의 입력 신호를 분류하는 단계; 및
    분류된 정보에 따라 대역폭 확장 부호화의 부호화 모드 및 상기 부호화 모드에 기초한 주파수 밴드의 개수를 결정하는 단계;를 포함하는 부호화 방법.
  88. 제86항에 있어서, 상기 대역폭 확장 부호화를 수행하는 단계는,
    상기 부호화 모드에 기초하여 주파수 영역의 입력 신호로부터 에너지를 추출하는 단계;
    상기 부호화 모드에 기초하여 에너지를 제어하는 단계; 및
    상기 부호화 모드에 기초하여 상기 에너지를 양자화하는 단계;를 포함하는 부호화 방법.
  89. 제88항에 있어서,
    상기 에너지를 추출하는 단계는, 상기 부호화 모드에 기초하여 주파수 밴드에 대응하는 에너지를 추출하는 것을 특징으로 하는 부호화 방법.
  90. 제88항에 있어서,
    상기 에너지를 제어하는 단계는, 상기 주파수 영역의 입력 신호의 기본 신호에 따라 추정된 에너지 제어 요소를 이용하여 에너지를 제어하는 것을 특징으로 하는 부호화 방법.
  91. 제88항에 있어서,
    상기 에너지를 양자화하는 단계는, 상기 부호화 모드에 따라 상기 주파수 영역의 입력 신호에 최적인 방식에 따라 양자화하는 것을 특징으로 하는 부호화 방법.
  92. 제91항에 있어서,
    상기 에너지를 양자화하는 단계는, 상기 부호화 모드가 트랜젼트 모드(transient mode)인 경우, 주파수 밴드에 대해 주파수 가중 방법(frequency weighting method)을 이용하여 에너지를 양자화하는 것을 특징으로 부호화 방법.
  93. 제92항에 있어서,
    상기 주파수 가중 방법은, 지각적 중요도가 높은 저대역 주파수 밴드에 가중치를 부여하여 에너지를 양자화하는 방법인 것을 특징으로 하는 부호화 방법.
  94. 제91항에 있어서,
    상기 에너지를 양자화하는 단계는, 상기 부호화 모드가 노말 모드(normal mode) 또는 하모닉 모드(harmonic mode)인 경우, 주파수 밴드에 대해 불균형 비트 할당 방법(unequal bit allocation method)을 이용하여 에너지를 양자화하는 것을 특징으로 부호화 방법.
  95. 제94항에 있어서,
    상기 불균형 비트 할당 방법은, 지각적 중요도가 높은 저대역 주파수 밴드에 고대역 주파수 밴드보다 상대적으로 많은 비트를 할당하여 에너지를 양자화하는 방법인 것을 특징으로 하는 부호화 방법.
  96. 제88항에 있어서,
    상기 에너지를 양자화하는 단계는, 2개 이상의 요소(element)를 갖는 양자화 대상 벡터의 대표값을 예측한 후, 상기 예측된 대표값과 상기 양자화 대상 벡터의 각 요소 간의 에러 신호를 벡터 양자화하는 것을 특징으로 하는 부호화 방법.
  97. 비트스트림에 포함된 코어 부호화된 입력 신호를 코어 복호화하는 단계;
    상기 코어 복호화된 입력 신호를 업샘플링하는 단계;
    상기 업샘플링된 입력 신호를 주파수 변환하는 단계; 및
    상기 비트스트림에 포함된 상기 입력 신호의 에너지와 상기 주파수 영역의 입력 신호를 이용하여 대역폭 확장 복호화를 수행하는 단계;를 포함하는 복호화 방법.
  98. 제97항에 있어서, 상기 대역폭 확장 복호화를 수행하는 단계는,
    상기 입력 신호의 에너지를 역양자화하는 단계;
    상기 주파수 영역의 입력 신호를 이용하여 기본 신호를 생성하는 단계;
    상기 역양자화된 에너지와 상기 기본 신호의 에너지를 이용하여 상기 기본 신호에 적용될 게인을 계산하는 단계; 및
    상기 계산된 게인을 주파수 밴드별로 적용하는 단계;를 포함하는 복호화 방법.
  99. 제98항에 있어서,
    상기 역양자화부는, 서브 벡터를 선택하여 역양자화하고, 역양자화된 서브 벡터를 보간하며, 보간된 서브 벡터에 보간 에러값을 더하여 최종적으로 에너지를 역양자화하는 것을 특징으로 하는 복호화 방법.
  100. 제99항에 있어서, 상기 기본 신호를 생성하는 단계는,
    상기 주파수 영역의 입력 신호의 저주파수 영역을 복사하고 폴딩하여 고주파수 영역에 대응하는 인공 신호를 생성하는 단계;
    상기 비트스트림에 포함된 윈도우를 이용하여 상기 기본 신호의 포락선을 추정하는 단계; 및
    상기 추정된 포락선을 인공 신호에 적용하는 단계;를 포함하는 복호화 방법.
  101. 제99항에 있어서,
    상기 기본 신호에 적용될 게인을 계산하는 단계는, 에너지 스무딩(Energy smoothing)을 적용하기 위한 서브밴드를 설정하여 보간을 통해 서브밴드 별 에너지를 생성하고, 상기 게인은 서브밴드 단위로 계산되는 것을 특징으로 하는 복호화 방법.
  102. 입력 신호의 특성을 참조하여, 입력 신호의 부호화 모드를 결정하는 단계;
    상기 입력 신호의 부호화 모드가 CELP(Code Excited Linear Prediction) 부호화 모드로 결정되면, 상기 입력 신호의 저주파 신호에 대하여 CELP 부호화를 수행하는 단계;
    상기 입력 신호의 저주파 신호에 대하여 CELP 부호화가 수행되면, 상기 입력 신호의 고주파 신호에 대하여 TD 확장 부호화를 수행하는 단계;
    상기 입력 신호의 부호화 모드가 FD 모드로 결정되면, 상기 입력 신호를 주파수 변환하는 단계; 및
    상기 주파수 변환된 입력 신호에 대하여 FD(Frequency Domain) 부호화를 수행하는 단계;를 포함하는 부호화 방법.
  103. 제102항에 있어서,
    상기 FD 부호화를 수행하는 단계는 서로 다른 비트율에 대하여 동일한 코드북을 공유하여 에너지 양자화를 수행하는 것을 특징으로 하는 부호화 방법.
  104. 제102항에 있어서,
    상기 입력 신호에 대하여 FD 부호화가 수행된 결과에 따른 비트스트림은 이전 프레임 모드 정보를 포함하는 부호화 방법.
  105. 입력 신호의 특성을 참조하여, 입력 신호의 부호화 모드를 결정하는 단계;
    상기 입력 신호의 저주파 신호로부터 선형예측계수(Linear Prediction Coefficient, LPC)를 추출하고, 추출된 선형예측계수를 양자화하는 단계;
    상기 입력 신호의 부호화 모드가 CELP 모드로 결정되면, 상기 선형예측계수를 이용하여 추출된 LPC 여기신호에 대하여 CELP 부호화를 수행하는 단계;
    상기 입력 신호의 저주파 신호의 LPC 여기신호에 대하여 CELP 부호화가 수행되면, 상기 입력 신호의 고주파 신호에 대하여 TD 확장 부호화를 수행하는 단계;
    상기 입력 신호의 부호화 모드가 오디오 부호화 모드로 결정되면, 상기 선형예측계수를 이용하여 추출된 LPC 여기신호에 대하여 오디오 부호화를 수행하는 단계; 및
    상기 입력 신호의 저주파 신호의 LPC 여기신호에 대하여 오디오 부호화가 수행되면, 상기 입력 신호의 고주파 신호에 대하여 FD 확장 부호화를 수행하는 단계;를 포함하는 부호화 방법.
  106. 제105항에 있어서,
    상기 FD 확장 부호화를 수행하는 단계는 서로 다른 비트율에 대하여 동일한 코드북을 공유하여 에너지 양자화를 수행하는 것을 특징으로 하는 부호화 방법.
  107. 비트스트림에 포함된 프레임들 각각에 대한 모드 정보를 검사하는 단계;
    상기 검사결과에 따라 CELP 부호화된 프레임에 대하여 CELP 복호화를 수행하는 단계;
    상기 CELP 복호화가 수행된 결과 및 저주파 신호의 여기신호 중 적어도 어느 하나를 이용하여, 고주파수에 대한 복호화 신호를 생성하는 단계;
    상기 검사결과에 따라 FD 부호화된 프레임에 대하여 FD 복호화를 수행하는 단계; 및
    상기 FD 복호화가 수행된 결과를 주파수 역변환하는 단계;를 포함하는 복호화 방법.
  108. 제107항에 있어서,
    상기 FD 복호화를 수행하는 단계는 서로 다른 비트율에 대하여 동일한 코드북을 공유하여 에너지 역양자화를 수행하는 것을 특징으로 하는 복호화 방법.
  109. 제107항에 있어서,
    상기 FD 복호화를 수행하는 단계는 FD 부호화된 프레임에 대하여 상기 비트스트림에 포함된 이전 프레임 모드 정보를 참조하여 FD 복호화를 수행하는 것을 특징으로 하는 복호화 방법.
  110. 비트스트림에 포함된 프레임들 각각에 대한 모드 정보를 검사하는 단계;
    상기 비트스트림에 포함된 프레임들에 대하여 LPC 복호화를 수행하는 단계;
    상기 검사결과에 따라 CELP 부호화된 프레임에 대하여 CELP 복호화를 수행하는 단계;
    상기 CELP 복호화가 수행된 결과 및 저주파 신호의 여기신호 중 적어도 어느 하나를 이용하여, 고주파수에 대한 복호화 신호를 생성하는 단계;
    상기 검사결과에 따라 오디오 부호화된 프레임에 대하여 오디오 복호화를 수행하는 단계; 및
    상기 오디오 복호화가 수행된 결과를 이용하여 FD 확장 복호화를 수행하는 단계;를 포함하는 복호화 방법.
  111. 제110항에 있어서,
    상기 FD 확장 복호화를 수행하는 단계는 서로 다른 비트율에 대하여 동일한 코드북을 공유하여 에너지 역양자화를 수행하는 것을 특징으로 하는 복호화 방법.
  112. 제59항 내지 제111항 중 어느 한 항의 방법을 실행하기 위한 프로그램이 기록된 컴퓨터에서 판독 가능한 기록 매체.
PCT/KR2011/010258 2010-09-15 2011-12-28 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법 WO2012091464A1 (ko)

Priority Applications (17)

Application Number Priority Date Filing Date Title
JP2013547347A JP6148983B2 (ja) 2010-12-29 2011-12-28 高周波数帯域幅拡張のための符号化/復号化装置及びその方法
AU2011350143A AU2011350143B9 (en) 2010-12-29 2011-12-28 Apparatus and method for encoding/decoding for high-frequency bandwidth extension
ES11853939.4T ES2564504T3 (es) 2010-12-29 2011-12-28 Aparato de codificación y aparato de descodificación con una ampliación de ancho de banda
CA2823175A CA2823175C (en) 2010-12-29 2011-12-28 Apparatus and method for encoding/decoding for high-frequency bandwidth extension
SG2013050422A SG191771A1 (en) 2010-12-29 2011-12-28 Apparatus and method for encoding/decoding for high-frequency bandwidth extension
MX2013007489A MX2013007489A (es) 2010-12-29 2011-12-28 Aparato y metodo para codificacion/decodificacion para extension de ancho de banda de alta frecuencia.
EP11853939.4A EP2657933B1 (en) 2010-12-29 2011-12-28 Coding apparatus and decoding apparatus with bandwidth extension
EP17179600.6A EP3249647B1 (en) 2010-12-29 2011-12-28 Apparatus and method for encoding for high-frequency bandwidth extension
BR122021007425-9A BR122021007425B1 (pt) 2010-12-29 2011-12-28 Aparelho de decodificação, e método de codificação de um sinal de banda superior
RU2013135005/08A RU2575680C2 (ru) 2010-12-29 2011-12-28 Устройство и способ для кодирования/декодирования для расширения диапазона высоких частот
MX2015015946A MX354288B (es) 2010-09-15 2011-12-28 Aparato y método para codificación/decodificación para extensión de ancho de banda de alta frecuencia.
CN201180068757.9A CN103493131B (zh) 2010-12-29 2011-12-28 用于针对高频带宽扩展进行编码/解码的设备和方法
BR112013016438-7A BR112013016438B1 (pt) 2010-12-29 2011-12-28 Método de codificação, método de decodificação, e mídia de gravação legível por computador não transitória
US13/977,906 US10152983B2 (en) 2010-09-15 2011-12-28 Apparatus and method for encoding/decoding for high frequency bandwidth extension
ZA2013/05689A ZA201305689B (en) 2010-12-29 2013-07-26 Apparatus and method for encoding/decodin for high-frequency bandwidth extension
US16/215,079 US10453466B2 (en) 2010-12-29 2018-12-10 Apparatus and method for encoding/decoding for high frequency bandwidth extension
US16/657,631 US10811022B2 (en) 2010-12-29 2019-10-18 Apparatus and method for encoding/decoding for high frequency bandwidth extension

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR1020100138045A KR101826331B1 (ko) 2010-09-15 2010-12-29 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법
KR10-2010-0138045 2010-12-29
US201161495017P 2011-06-09 2011-06-09
US61/495,017 2011-06-09

Related Child Applications (2)

Application Number Title Priority Date Filing Date
US13/977,906 A-371-Of-International US10152983B2 (en) 2010-09-15 2011-12-28 Apparatus and method for encoding/decoding for high frequency bandwidth extension
US16/215,079 Continuation US10453466B2 (en) 2010-12-29 2018-12-10 Apparatus and method for encoding/decoding for high frequency bandwidth extension

Publications (2)

Publication Number Publication Date
WO2012091464A1 WO2012091464A1 (ko) 2012-07-05
WO2012091464A4 true WO2012091464A4 (ko) 2012-09-27

Family

ID=47904455

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2011/010258 WO2012091464A1 (ko) 2010-09-15 2011-12-28 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법

Country Status (14)

Country Link
US (2) US10453466B2 (ko)
EP (3) EP2657933B1 (ko)
JP (3) JP6148983B2 (ko)
KR (2) KR102022664B1 (ko)
CN (3) CN103493131B (ko)
AU (1) AU2011350143B9 (ko)
BR (2) BR122021007425B1 (ko)
CA (3) CA2981539C (ko)
ES (2) ES2967508T3 (ko)
MX (1) MX2013007489A (ko)
MY (2) MY186055A (ko)
RU (1) RU2672133C1 (ko)
SG (1) SG191771A1 (ko)
WO (1) WO2012091464A1 (ko)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2657933B1 (en) * 2010-12-29 2016-03-02 Samsung Electronics Co., Ltd Coding apparatus and decoding apparatus with bandwidth extension
US9418651B2 (en) * 2013-07-31 2016-08-16 Google Technology Holdings LLC Method and apparatus for mitigating false accepts of trigger phrases
EP3046104B1 (en) 2013-09-16 2019-11-20 Samsung Electronics Co., Ltd. Signal encoding method and signal decoding method
MX357353B (es) 2013-12-02 2018-07-05 Huawei Tech Co Ltd Metodo y aparato de codificacion.
EP3115991A4 (en) * 2014-03-03 2017-08-02 Samsung Electronics Co., Ltd. Method and apparatus for high frequency decoding for bandwidth extension
WO2015162500A2 (ko) * 2014-03-24 2015-10-29 삼성전자 주식회사 고대역 부호화방법 및 장치와 고대역 복호화 방법 및 장치
EP2980795A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
EP2980794A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
EP4293666A3 (en) 2014-07-28 2024-03-06 Samsung Electronics Co., Ltd. Signal encoding method and apparatus and signal decoding method and apparatus
EP2980798A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Harmonicity-dependent controlling of a harmonic filter tool
EP3182412B1 (en) * 2014-08-15 2023-06-07 Samsung Electronics Co., Ltd. Sound quality improving method and device, sound decoding method and device, and multimedia device employing same
KR102398124B1 (ko) 2015-08-11 2022-05-17 삼성전자주식회사 음향 데이터의 적응적 처리
CN107545900B (zh) * 2017-08-16 2020-12-01 广州广晟数码技术有限公司 带宽扩展编码和解码中高频弦信号生成的方法和装置
CN108630212B (zh) * 2018-04-03 2021-05-07 湖南商学院 非盲带宽扩展中高频激励信号的感知重建方法与装置
CN109448741B (zh) * 2018-11-22 2021-05-11 广州广晟数码技术有限公司 一种3d音频编码、解码方法及装置
JP6693551B1 (ja) * 2018-11-30 2020-05-13 株式会社ソシオネクスト 信号処理装置および信号処理方法
CN112086102B (zh) * 2020-08-31 2024-04-16 腾讯音乐娱乐科技(深圳)有限公司 扩展音频频带的方法、装置、设备以及存储介质
CN113299313B (zh) * 2021-01-28 2024-03-26 维沃移动通信有限公司 音频处理方法、装置及电子设备
CN113938749B (zh) * 2021-11-30 2023-05-05 北京百度网讯科技有限公司 音频数据处理方法、装置、电子设备和存储介质
CN114550732B (zh) * 2022-04-15 2022-07-08 腾讯科技(深圳)有限公司 一种高频音频信号的编解码方法和相关装置

Family Cites Families (62)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE501305C2 (sv) * 1993-05-26 1995-01-09 Ericsson Telefon Ab L M Förfarande och anordning för diskriminering mellan stationära och icke stationära signaler
JPH08179796A (ja) * 1994-12-21 1996-07-12 Sony Corp 音声符号化方法
JP3317470B2 (ja) * 1995-03-28 2002-08-26 日本電信電話株式会社 音響信号符号化方法、音響信号復号化方法
JP3707116B2 (ja) * 1995-10-26 2005-10-19 ソニー株式会社 音声復号化方法及び装置
DE19729494C2 (de) * 1997-07-10 1999-11-04 Grundig Ag Verfahren und Anordnung zur Codierung und/oder Decodierung von Sprachsignalen, insbesondere für digitale Diktiergeräte
JP3235543B2 (ja) * 1997-10-22 2001-12-04 松下電器産業株式会社 音声符号化/復号化装置
SE521225C2 (sv) 1998-09-16 2003-10-14 Ericsson Telefon Ab L M Förfarande och anordning för CELP-kodning/avkodning
US6377915B1 (en) * 1999-03-17 2002-04-23 Yrp Advanced Mobile Communication Systems Research Laboratories Co., Ltd. Speech decoding using mix ratio table
US7117149B1 (en) 1999-08-30 2006-10-03 Harman Becker Automotive Systems-Wavemakers, Inc. Sound source classification
JP2000132199A (ja) * 1999-12-02 2000-05-12 Matsushita Electric Ind Co Ltd 音声符号化装置/復号化装置
US6947888B1 (en) * 2000-10-17 2005-09-20 Qualcomm Incorporated Method and apparatus for high performance low bit-rate coding of unvoiced speech
JP2002202799A (ja) 2000-10-30 2002-07-19 Fujitsu Ltd 音声符号変換装置
WO2003042979A2 (en) 2001-11-14 2003-05-22 Matsushita Electric Industrial Co., Ltd. Encoding device and decoding device
JP2003304238A (ja) * 2002-04-09 2003-10-24 Sony Corp 信号再生方法及び装置、信号記録方法及び装置、並びに符号列生成方法及び装置
US7218251B2 (en) 2002-03-12 2007-05-15 Sony Corporation Signal reproducing method and device, signal recording method and device, and code sequence generating method and device
US20050004793A1 (en) * 2003-07-03 2005-01-06 Pasi Ojala Signal adaptation for higher band coding in a codec utilizing band split coding
US7619995B1 (en) * 2003-07-18 2009-11-17 Nortel Networks Limited Transcoders and mixers for voice-over-IP conferencing
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
FI119533B (fi) * 2004-04-15 2008-12-15 Nokia Corp Audiosignaalien koodaus
WO2005104094A1 (ja) * 2004-04-23 2005-11-03 Matsushita Electric Industrial Co., Ltd. 符号化装置
CN101686364B (zh) 2004-04-28 2013-03-13 松下电器产业株式会社 流产生装置,流产生方法,编码装置,编码方法,记录介质及其程序
CN102280109B (zh) * 2004-05-19 2016-04-27 松下电器(美国)知识产权公司 编码装置、解码装置及它们的方法
US8255231B2 (en) 2004-11-02 2012-08-28 Koninklijke Philips Electronics N.V. Encoding and decoding of audio signals using complex-valued filter banks
KR100707174B1 (ko) 2004-12-31 2007-04-13 삼성전자주식회사 광대역 음성 부호화 및 복호화 시스템에서 고대역 음성부호화 및 복호화 장치와 그 방법
US7805314B2 (en) * 2005-07-13 2010-09-28 Samsung Electronics Co., Ltd. Method and apparatus to quantize/dequantize frequency amplitude data and method and apparatus to audio encode/decode using the method and apparatus to quantize/dequantize frequency amplitude data
KR20070026939A (ko) * 2005-08-29 2007-03-09 주식회사 아이캐시 한 개의 카드번호를 이용한 마일리지 포인트, 전자화폐,전자상품권, 선불카드, 직불카드 및 타 신용카드의통합결제 시스템 및 방법
US7587314B2 (en) * 2005-08-29 2009-09-08 Nokia Corporation Single-codebook vector quantization for multiple-rate applications
KR100795727B1 (ko) * 2005-12-08 2008-01-21 한국전자통신연구원 Celp기반의 음성 코더에서 고정 코드북 검색 장치 및방법
KR20070115637A (ko) * 2006-06-03 2007-12-06 삼성전자주식회사 대역폭 확장 부호화 및 복호화 방법 및 장치
US9159333B2 (en) 2006-06-21 2015-10-13 Samsung Electronics Co., Ltd. Method and apparatus for adaptively encoding and decoding high frequency band
WO2007148925A1 (en) * 2006-06-21 2007-12-27 Samsung Electronics Co., Ltd. Method and apparatus for adaptively encoding and decoding high frequency band
KR101390188B1 (ko) * 2006-06-21 2014-04-30 삼성전자주식회사 적응적 고주파수영역 부호화 및 복호화 방법 및 장치
KR101393298B1 (ko) 2006-07-08 2014-05-12 삼성전자주식회사 적응적 부호화/복호화 방법 및 장치
US7873514B2 (en) 2006-08-11 2011-01-18 Ntt Docomo, Inc. Method for quantizing speech and audio through an efficient perceptually relevant search of multiple quantization patterns
US8214202B2 (en) * 2006-09-13 2012-07-03 Telefonaktiebolaget L M Ericsson (Publ) Methods and arrangements for a speech/audio sender and receiver
KR101565919B1 (ko) * 2006-11-17 2015-11-05 삼성전자주식회사 고주파수 신호 부호화 및 복호화 방법 및 장치
US8639500B2 (en) * 2006-11-17 2014-01-28 Samsung Electronics Co., Ltd. Method, medium, and apparatus with bandwidth extension encoding and/or decoding
RU2444071C2 (ru) * 2006-12-12 2012-02-27 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Кодер, декодер и методы кодирования и декодирования сегментов данных, представляющих собой поток данных временной области
KR101379263B1 (ko) 2007-01-12 2014-03-28 삼성전자주식회사 대역폭 확장 복호화 방법 및 장치
CN101231850B (zh) * 2007-01-23 2012-02-29 华为技术有限公司 编解码方法及装置
FR2912249A1 (fr) * 2007-02-02 2008-08-08 France Telecom Codage/decodage perfectionnes de signaux audionumeriques.
US8032359B2 (en) * 2007-02-14 2011-10-04 Mindspeed Technologies, Inc. Embedded silence and background noise compression
CN101542595B (zh) * 2007-02-14 2016-04-13 Lg电子株式会社 用于编码和解码基于对象的音频信号的方法和装置
JP4871894B2 (ja) 2007-03-02 2012-02-08 パナソニック株式会社 符号化装置、復号装置、符号化方法および復号方法
KR101373004B1 (ko) 2007-10-30 2014-03-26 삼성전자주식회사 고주파수 신호 부호화 및 복호화 장치 및 방법
CN101430880A (zh) * 2007-11-07 2009-05-13 华为技术有限公司 一种背景噪声的编解码方法和装置
AU2008326956B2 (en) * 2007-11-21 2011-02-17 Lg Electronics Inc. A method and an apparatus for processing a signal
JP5448850B2 (ja) * 2008-01-25 2014-03-19 パナソニック株式会社 符号化装置、復号装置およびこれらの方法
AU2009220341B2 (en) * 2008-03-04 2011-09-22 Lg Electronics Inc. Method and apparatus for processing an audio signal
EP2144230A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
EP2224433B1 (en) * 2008-09-25 2020-05-27 Lg Electronics Inc. An apparatus for processing an audio signal and method thereof
US20100114568A1 (en) * 2008-10-24 2010-05-06 Lg Electronics Inc. Apparatus for processing an audio signal and method thereof
AU2010209673B2 (en) * 2009-01-28 2013-05-16 Dolby International Ab Improved harmonic transposition
US8457975B2 (en) * 2009-01-28 2013-06-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio decoder, audio encoder, methods for decoding and encoding an audio signal and computer program
JP4892021B2 (ja) * 2009-02-26 2012-03-07 株式会社東芝 信号帯域拡張装置
JP4932917B2 (ja) * 2009-04-03 2012-05-16 株式会社エヌ・ティ・ティ・ドコモ 音声復号装置、音声復号方法、及び音声復号プログラム
US8311843B2 (en) * 2009-08-24 2012-11-13 Sling Media Pvt. Ltd. Frequency band scale factor determination in audio encoding based upon frequency band signal energy
WO2011044700A1 (en) * 2009-10-15 2011-04-21 Voiceage Corporation Simultaneous time-domain and frequency-domain noise shaping for tdac transforms
ES2453098T3 (es) 2009-10-20 2014-04-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Códec multimodo de audio
US9443534B2 (en) 2010-04-14 2016-09-13 Huawei Technologies Co., Ltd. Bandwidth extension system and approach
CN102436820B (zh) 2010-09-29 2013-08-28 华为技术有限公司 高频带信号编码方法及装置、高频带信号解码方法及装置
EP2657933B1 (en) * 2010-12-29 2016-03-02 Samsung Electronics Co., Ltd Coding apparatus and decoding apparatus with bandwidth extension

Also Published As

Publication number Publication date
KR20190108088A (ko) 2019-09-23
US10811022B2 (en) 2020-10-20
KR20120137313A (ko) 2012-12-20
CA2929800A1 (en) 2012-07-05
EP3023985B1 (en) 2017-07-05
BR112013016438B1 (pt) 2021-08-17
US20190115037A1 (en) 2019-04-18
CN103493131A (zh) 2014-01-01
WO2012091464A1 (ko) 2012-07-05
ES2967508T3 (es) 2024-04-30
US10453466B2 (en) 2019-10-22
EP2657933A1 (en) 2013-10-30
EP3249647A1 (en) 2017-11-29
JP6148983B2 (ja) 2017-06-14
BR122021007425B1 (pt) 2022-12-20
CN103493131B (zh) 2016-11-16
CA2823175C (en) 2016-07-26
JP6240145B2 (ja) 2017-11-29
US20200051579A1 (en) 2020-02-13
AU2011350143B9 (en) 2015-05-14
EP3249647C0 (en) 2023-10-18
RU2672133C1 (ru) 2018-11-12
SG191771A1 (en) 2013-08-30
CA2981539C (en) 2020-08-25
EP2657933B1 (en) 2016-03-02
CA2981539A1 (en) 2012-07-05
JP6599417B2 (ja) 2019-10-30
KR102109938B1 (ko) 2020-05-12
KR102022664B1 (ko) 2019-11-04
JP2014505902A (ja) 2014-03-06
EP3249647B1 (en) 2023-10-18
CN106228992B (zh) 2019-12-03
MY186055A (en) 2021-06-17
CA2929800C (en) 2017-12-19
AU2011350143B2 (en) 2015-02-05
CN106228992A (zh) 2016-12-14
ES2564504T3 (es) 2016-03-23
RU2013135005A (ru) 2015-02-10
MX2013007489A (es) 2013-11-20
JP2018018113A (ja) 2018-02-01
EP3023985A1 (en) 2016-05-25
CN106409305B (zh) 2019-12-10
CA2823175A1 (en) 2012-07-05
MY185753A (en) 2021-06-03
EP2657933A4 (en) 2014-08-27
JP2016105174A (ja) 2016-06-09
BR112013016438A2 (pt) 2017-03-28
CN106409305A (zh) 2017-02-15

Similar Documents

Publication Publication Date Title
WO2012091464A4 (ko) 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법
WO2016018058A1 (ko) 신호 부호화방법 및 장치와 신호 복호화방법 및 장치
WO2012144877A2 (en) Apparatus for quantizing linear predictive coding coefficients, sound encoding apparatus, apparatus for de-quantizing linear predictive coding coefficients, sound decoding apparatus, and electronic device therefor
WO2014046526A1 (ko) 프레임 에러 은닉방법 및 장치와 오디오 복호화방법 및 장치
WO2012144878A2 (en) Method of quantizing linear predictive coding coefficients, sound encoding method, method of de-quantizing linear predictive coding coefficients, sound decoding method, and recording medium
WO2013183977A4 (ko) 프레임 에러 은닉방법 및 장치와 오디오 복호화방법 및 장치
AU2012246798A1 (en) Apparatus for quantizing linear predictive coding coefficients, sound encoding apparatus, apparatus for de-quantizing linear predictive coding coefficients, sound decoding apparatus, and electronic device therefor
AU2012246799A1 (en) Method of quantizing linear predictive coding coefficients, sound encoding method, method of de-quantizing linear predictive coding coefficients, sound decoding method, and recording medium
WO2012036487A2 (en) Apparatus and method for encoding and decoding signal for high frequency bandwidth extension
WO2013141638A1 (ko) 대역폭 확장을 위한 고주파수 부호화/복호화 방법 및 장치
WO2010147436A2 (en) Context-based arithmetic encoding apparatus and method and context-based arithmetic decoding apparatus and method
WO2010107269A2 (ko) 멀티 채널 신호의 부호화/복호화 장치 및 방법
WO2010087614A2 (ko) 오디오 신호의 부호화 및 복호화 방법 및 그 장치
WO2013002623A4 (ko) 대역폭 확장신호 생성장치 및 방법
EP1876585B1 (en) Audio encoding device and audio encoding method
WO2012157931A2 (en) Noise filling and audio decoding
WO2016024847A1 (ko) 음향 신호를 생성하고 재생하는 방법 및 장치
WO2009128653A2 (ko) 멀티미디어의 컨텐트 특성에 기반한 멀티미디어 부호화 방법 및 장치, 멀티미디어의 컨텐트 특성에 기반한 멀티미디어 복호화 방법 및 장치
JP4583093B2 (ja) ビット率拡張音声符号化及び復号化装置とその方法
WO2013058635A2 (ko) 프레임 에러 은닉방법 및 장치와 오디오 복호화방법 및 장치
TWI576830B (zh) Sound decoding apparatus and method
WO2017222356A1 (ko) 잡음 환경에 적응적인 신호 처리방법 및 장치와 이를 채용하는 단말장치
WO2006028010A1 (ja) スケーラブル符号化装置およびスケーラブル符号化方法
WO2015170899A1 (ko) 선형예측계수 양자화방법 및 장치와 역양자화 방법 및 장치
KR20000028984A (ko) 협대역 신호에 기초 하여 광대역 신호를 생성하기 위한방법, 이 방법을 실현시키기 위한 장치 및 그러한 장치를포함하는 전화 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11853939

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2013547347

Country of ref document: JP

Kind code of ref document: A

Ref document number: 2823175

Country of ref document: CA

WWE Wipo information: entry into national phase

Ref document number: MX/A/2013/007489

Country of ref document: MX

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 13977906

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 2011853939

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 2013135005

Country of ref document: RU

Kind code of ref document: A

ENP Entry into the national phase

Ref document number: 2011350143

Country of ref document: AU

Date of ref document: 20111228

Kind code of ref document: A

REG Reference to national code

Ref country code: BR

Ref legal event code: B01A

Ref document number: 112013016438

Country of ref document: BR

ENP Entry into the national phase

Ref document number: 112013016438

Country of ref document: BR

Kind code of ref document: A2

Effective date: 20130626