WO2015133795A1 - Method and apparatus for high frequency decoding for bandwidth extension - Google Patents

Method and apparatus for high frequency decoding for bandwidth extension Download PDF

Info

Publication number
WO2015133795A1
WO2015133795A1 PCT/KR2015/002045 KR2015002045W WO2015133795A1 WO 2015133795 A1 WO2015133795 A1 WO 2015133795A1 KR 2015002045 W KR2015002045 W KR 2015002045W WO 2015133795 A1 WO2015133795 A1 WO 2015133795A1
Authority
WO
WIPO (PCT)
Prior art keywords
low frequency
spectrum
frequency spectrum
excitation
high frequency
Prior art date
Application number
PCT/KR2015/002045
Other languages
French (fr)
Korean (ko)
Inventor
주기현
오은미
황선호
Original Assignee
삼성전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자 주식회사 filed Critical 삼성전자 주식회사
Priority to CN202010101692.4A priority Critical patent/CN111312278B/en
Priority to JP2016555511A priority patent/JP6383000B2/en
Priority to EP15759308.8A priority patent/EP3115991A4/en
Priority to CN202010101660.4A priority patent/CN111312277B/en
Priority to US15/123,897 priority patent/US10410645B2/en
Priority to CN201580022645.8A priority patent/CN106463143B/en
Publication of WO2015133795A1 publication Critical patent/WO2015133795A1/en
Priority to US16/538,427 priority patent/US10803878B2/en
Priority to US17/030,104 priority patent/US11676614B2/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques

Definitions

  • the present invention relates to audio encoding and decoding, and more particularly, to a high frequency decoding method and apparatus for bandwidth extension.
  • the coding scheme of G.719 is developed and standardized for the purpose of teleconference, and performs the frequency domain transformation by performing the Modified Discrete Cosine Transform (MDCT).
  • MDCT Modified Discrete Cosine Transform
  • Non-stationary frames are modified to account for temporal characteristics by changing the time domain aliasing order.
  • the spectrum obtained for the non-stationary frame may be configured to be similar to the stationary frame by performing interleaving to configure the codec in the same framework as the stationary frame.
  • Quantumization is performed after normalization is performed by obtaining the energy of the spectrum configured as described above. In general, energy is expressed as an RMS value, and the normalized spectrum generates bits necessary for each band through energy-based bit allocation, and generates a bitstream through quantization and lossless coding based on bit allocation information for each band.
  • the reverse process of the coding scheme dequantizes the energy in the bitstream, generates bit allocation information based on the dequantized energy, and performs dequantization of the spectrum to normalize dequantized spectrum.
  • a noise filling method is generated in which a noise codebook is generated based on a low frequency dequantized spectrum and generates noise in accordance with the transmitted noise level.
  • a bandwidth extension technique for generating a high frequency signal by folding a low frequency signal for a band above a specific frequency is applied.
  • An object of the present invention is to provide a high frequency decoding method and apparatus for bandwidth expansion that can improve reconstructed sound quality and a multimedia device employing the same.
  • a high frequency decoding method for bandwidth extension comprising: decoding an excitation class; Modifying the decoded low frequency spectrum based on the excitation class; And generating a high frequency excitation spectrum based on the modified low frequency spectrum.
  • a high frequency decoding apparatus for bandwidth extension decodes an excitation class, modifies the decoded low frequency spectrum based on the excitation class, and based on the modified low frequency spectrum. It may include at least one processor for generating an excitation spectrum.
  • the high frequency excitation spectrum is generated by modifying the restored low frequency spectrum, thereby improving the reconstructed sound quality without excessively increasing the complexity.
  • 1 is a diagram illustrating an example of a subband configuration of a low frequency band and a high frequency band according to an embodiment.
  • FIGS. 2A to 2C are diagrams illustrating R0 and R1 bands divided into R2 and R3, R4, and R5 according to a selected coding scheme according to an embodiment.
  • FIG. 3 is a diagram illustrating an example of a subband configuration of a high frequency band according to an embodiment.
  • FIG. 4 is a block diagram illustrating a configuration of an audio encoding apparatus according to an embodiment.
  • FIG. 5 is a block diagram illustrating a configuration of a BWE parameter generator according to an embodiment.
  • FIG. 6 is a block diagram illustrating a configuration of an audio decoding apparatus according to an embodiment.
  • FIG. 7 is a block diagram illustrating a configuration of a high frequency decoding apparatus according to an embodiment.
  • FIG. 8 is a block diagram illustrating a configuration of a low frequency spectral deformation unit according to an exemplary embodiment.
  • FIG. 9 is a block diagram illustrating a configuration of a low frequency spectral deformation unit according to another exemplary embodiment.
  • FIG. 10 is a block diagram illustrating a configuration of a low frequency spectral deformation unit according to another exemplary embodiment.
  • FIG. 11 is a block diagram illustrating a configuration of a low frequency spectral deformation unit according to another embodiment.
  • FIG. 12 is a block diagram illustrating a configuration of a dynamic range controller according to an embodiment.
  • FIG. 13 is a block diagram illustrating a configuration of a high frequency excitation spectrum generator according to an exemplary embodiment.
  • FIG. 14 is a diagram for explaining a smoothing process on a weight at a band boundary.
  • FIG. 15 is a diagram illustrating a weight that is a contribution used to reconstruct a spectrum existing in an overlapping region according to an embodiment.
  • 16 is a block diagram illustrating a configuration of a multimedia apparatus including a decoding module according to an embodiment.
  • FIG. 17 is a block diagram illustrating a configuration of a multimedia apparatus including an encoding module and a decoding module, according to an embodiment.
  • FIG. 18 is a flowchart illustrating an operation of a high frequency decoding method according to an embodiment.
  • 19 is a flowchart illustrating an operation of a method for modifying low frequency spectrum according to an embodiment.
  • first and second may be used to describe various components, but the components are not limited by the terms. The terms are only used to distinguish one component from another.
  • the sampling rate is 32 kHz
  • 640 MDCT spectral coefficients are configured as 22 bands, specifically, 17 bands for the low frequency band and 5 bands for the high frequency band.
  • the start frequency of the high frequency band is the 241 th spectral coefficient
  • the spectral coefficients from 0 to 240 may be defined as R0 as a region coded by a low frequency coding scheme, that is, a core coding scheme.
  • the spectral coefficients from 241 to 639 may be defined as R1 as a high frequency band through which bandwidth extension (BWE) is performed.
  • BWE bandwidth extension
  • a band coded by a low frequency coding scheme may also exist in the R1 region according to bit allocation information.
  • FIG. 2A to 2C are diagrams illustrating R0 and R1 regions of FIG. 1 divided into R2, R3, R4, and R5 according to a selected coding scheme.
  • the R1 region which is a BWE region
  • the R0 region which is a low frequency coding region
  • R2 represents a band including a signal that is quantized and lossless coded by a low frequency coding scheme, for example, a frequency domain coding scheme
  • R3 represents a band without a signal coded by the low frequency coding scheme.
  • R4 denotes a band in which low frequency signals are not coded or bits are allocated but noise is added due to lack of bit margin. Therefore, the division of R4 and R5 may be determined by adding noise, which may be determined by the ratio of the number of low-frequency coded in-band spectra, or may be determined based on the in-band pulse allocation information when using FPC. . Since the R4 and R5 bands can be distinguished when adding noise in the decoding process, they may not be clearly distinguished in the encoding process.
  • the R2 to R5 bands not only have different information to be encoded, but may have different decoding schemes.
  • two bands from 170 to 240 in the low frequency coding region R0 are R4 to add noise, and two bands from 241 to 350 and 427-639 in the BWE region R1.
  • Two bands are R2 coded with a low frequency coding scheme.
  • one band up to 202-240 in the low frequency coding region R0 adds noise, and all five bands up to 241-639 in the BWE region R1 use the low frequency coding scheme.
  • R2 is coded.
  • three bands up to 144-240 in the low frequency coding region R0 are R4 to which noise is added, and R2 in the BWE region R1 is not present.
  • R4 may be normally distributed in the high frequency portion, but in the BWE region R1, R2 is not limited to the specific frequency portion.
  • FIG. 3 is a diagram for explaining an example of a subband configuration of a high frequency band of a wide band (WB) according to one embodiment.
  • the 32 KHz sampling rate is 32 kHz
  • 640 MDCT spectral coefficients may be configured with 14 bands for the mid-high frequency band.
  • 100 Hz contains four spectral coefficients, so the first band of 400 Hz may contain 16 spectral coefficients.
  • Reference numeral 310 denotes a high frequency band of 6.4 to 14.4 KHz
  • reference numeral 330 denotes a subband configuration for a high frequency band of 8.0 to 16.0 KHz.
  • FIG. 4 is a block diagram illustrating a configuration of an audio encoding apparatus according to an embodiment.
  • the audio encoding apparatus shown in FIG. 4 may include a BWE parameter generator 410, a low frequency encoder 430, a high frequency encoder 450, and a multiplexer 470. Each component may be integrated into at least one module and implemented as at least one processor (not shown).
  • the input signal may mean music or voice, or a mixed signal of music and voice, and may be divided into a voice signal and another general signal.
  • the audio signal will be referred to collectively.
  • the BWE parameter generator 410 may generate a BWE parameter for bandwidth expansion.
  • the BWE parameter may correspond to an excitation class.
  • the BWE parameter may include parameters different from the excitation class.
  • the BWE parameter generator 410 may generate an excitation class based on signal characteristics on a frame basis. Specifically, it may be determined whether the input signal has a voice characteristic or a tonal characteristic, and one of the plurality of excitation classes may be determined based on the determination result.
  • the plurality of excitation classes may include excitation classes related to voice, excitation classes related to tonal music, and excitation classes related to non-tonal music.
  • the determined excitation class may be included in the bitstream and transmitted.
  • the low frequency encoder 430 may generate an encoded spectral coefficient by performing encoding on the low band signal. Also, the low frequency encoder 430 may encode information related to energy of the low band signal. According to an embodiment, the low frequency encoder 430 may convert the low band signal into the frequency domain to generate a low frequency spectrum, and quantize the low frequency spectrum to generate quantized spectral coefficients. Modified Discrete Cosine Transform (MDCT) may be used for domain transformation, but is not limited thereto. PVQ (Pyramid Vector Quantization) may be used for quantization, but is not limited thereto.
  • MDCT Modified Discrete Cosine Transform
  • PVQ Physical Vector Quantization
  • the high frequency encoder 450 may perform encoding on the high band signal to generate a parameter for bandwidth extension or a parameter for bit allocation in the decoder.
  • Parameters required for bandwidth extension may include information related to energy of the high band signal and additional information.
  • energy may be expressed as an envelope, scale factor, average power or Norm.
  • the additional information is information about a band including an important frequency component in a high band, and may be information related to a frequency component included in a specific high frequency band.
  • the high frequency encoder 450 may generate a high frequency spectrum by converting a high band signal into a frequency domain, and may quantize information related to energy of the high frequency spectrum. MDCT may be used for domain conversion, but is not limited thereto.
  • Vector quantization may be used for quantization, but is not limited thereto.
  • the multiplexer 470 may generate a bitstream including a BWE parameter, that is, an excitation class, a parameter for bandwidth extension or a parameter for bit allocation, and a coded spectral coefficient of a low band.
  • the bitstream can be transmitted or stored.
  • the frequency domain BWE scheme may be applied in combination with a time domain coding part.
  • the CELP scheme may be mainly used for time domain coding, and may be implemented to code a low band with the CELP scheme and be combined with the BWE scheme in the time domain rather than the BWE in the frequency domain.
  • the coding scheme can be selectively applied based on the adaptive coding scheme determination between the time domain coding and the frequency domain coding as a whole.
  • Signal classification is required in order to select an appropriate coding scheme, and according to an embodiment, the excitation class for each frame may be determined by using the signal classification result first.
  • FIG. 5 is a block diagram illustrating a configuration of the BWE parameter generator 410 of FIG. 4, and may include a signal classifier 510 and an excitation class generator 530.
  • the signal classifier 510 may analyze signal characteristics on a frame basis to classify whether a current frame is a voice signal and determine an excitation class according to the classification result.
  • Signal classification processing can be performed using various known methods, for example, short-term and / or long-term characteristics.
  • the short term characteristic and / or long term characteristic may be a frequency domain characteristic or a time domain characteristic.
  • a method of allocating a fixed type of excitation class may help to improve sound quality, rather than a method based on a characteristic of a high band signal.
  • the signal classification process may be performed on the current frame without considering the classification result of the previous frame.
  • the current frame may finally be determined by frequency domain coding in consideration of the hangover, when the current frame itself is classified as a time domain coding method, a fixed excitation class may be allocated. For example, if the current frame is classified as a speech signal for which time domain coding is appropriate, the excitation class may be set to a first excitation class related to the speech characteristic.
  • the excitation class generator 530 may determine the excitation class using at least one or more thresholds. According to an embodiment, the excitation class generator 530 calculates a high band tonality value when the current frame is not classified as a voice signal as a result of the classification of the signal classifier 510, and thresholds the tonality value. You can determine the class here by comparing with. A plurality of thresholds may be used according to the number of classes here. When one threshold is used, it may be classified as a tonal music signal when the tonality value is greater than the threshold, and a non-tonal music signal, for example a noisy signal, when the tonality value is smaller than the threshold. When the current frame is classified as a tonal music signal, the excitation class may be determined as a second excitation class related to the tonal characteristic and a third excitation class related to the non-tonal characteristic when it is classified as a noisy signal.
  • FIG. 6 is a block diagram illustrating a configuration of an audio decoding apparatus according to an embodiment.
  • the audio decoding apparatus illustrated in FIG. 6 may include a demultiplexer 610, a BWE parameter decoder 630, a low frequency decoder 650, and a high frequency decoder 670. Although not shown, the audio decoding apparatus may further include a spectrum combiner and an inverse transform unit. Each component may be integrated into at least one module and implemented as at least one processor (not shown).
  • the input signal may mean music or voice, or a mixed signal of music and voice, and may be divided into a voice signal and another general signal.
  • the audio signal will be referred to collectively.
  • the demultiplexer 610 may generate a parameter necessary for decoding by parsing a received bitstream.
  • the BWE parameter decoder 630 may decode the BWE parameter from the bitstream.
  • the BWE parameter may correspond to a class here. Meanwhile, the BWE parameter may include parameters different from the excitation class.
  • the low frequency decoder 650 may generate a low frequency spectrum by decoding the encoded spectral coefficients of the low band from the bitstream. Meanwhile, the low frequency decoder 650 may decode information related to energy of the low band signal.
  • the high frequency decoder 670 may generate a high frequency excitation spectrum by using the decoded low frequency spectrum and the excitation class. According to another embodiment, the high frequency decoder 670 decodes a parameter for bandwidth extension or a parameter for bit allocation from the bitstream, and a parameter for bandwidth extension or a parameter for bit allocation and energy of the decoded low band signal. The information related to can be applied to the high frequency excitation spectrum.
  • Parameters required for bandwidth extension may include information related to energy of the high band signal and additional information.
  • the additional information is information about a band including an important frequency component in a high band, and may be information related to a frequency component included in a specific high frequency band.
  • Information related to the energy of the highband signal may be vector dequantized.
  • the spectrum combiner may combine the spectrum provided from the low frequency decoder 650 with the spectrum provided from the high frequency decoder 670.
  • the inverse transform unit (not shown) may inversely convert the combined spectrum into the time domain.
  • Inverse MDCT IMDCT
  • IMDCT Inverse MDCT
  • the high frequency decoding apparatus of FIG. 7 may include a low frequency spectrum transform unit 710 and a high frequency excitation spectrum generator 730. Although not shown here, the apparatus may further include a receiver configured to receive the decoded low frequency spectrum.
  • the low frequency spectrum modifying unit 710 may modify the decoded low frequency spectrum based on the excitation class.
  • the decoded low frequency spectrum may be a noise peeled spectrum.
  • the decoded low frequency spectrum may be an anti-sparseness processed spectrum in which a coefficient having a constant amplitude and a random code is inserted again in the remaining portion after the noise filling process. have.
  • the high frequency excitation spectrum generator 730 may generate a high frequency excitation spectrum from the modified low frequency spectrum. Additionally, the gain may be applied to the energy of the generated high frequency excitation spectrum such that the energy of the generated high frequency excitation spectrum matches the dequantized energy.
  • FIG. 8 is a block diagram illustrating a configuration of a low frequency spectrum transform unit 710 of FIG. 7 according to an embodiment, and may include an operation unit 810.
  • the calculator 810 may generate a modified low frequency spectrum by performing a predetermined operation on the decoded low frequency spectrum based on an excitation class.
  • the decoded low frequency spectrum may correspond to a noise peeled spectrum, an anti-sparse processed spectrum, or an inverse quantized low frequency spectrum without adding noise.
  • the predetermined operation may be a process of determining a weight according to an excitation class and mixing the decoded low frequency spectrum and random noise based on the determined weight.
  • the predetermined calculation process may include a multiplication process and an addition process. Random noise may be generated in a variety of known manners, for example, may be generated using a random seed.
  • the operation unit 810 may further include a process of matching the whitened low frequency spectrum and the level of the random noise to a similar level prior to a predetermined operation processing.
  • FIG. 9 is a block diagram illustrating a configuration of a low frequency spectrum transform unit 710 of FIG. 7 according to another embodiment, and may include a whitening unit 910, an operation unit 930, and a level adjustment unit 950.
  • the level adjusting unit 950 may be provided as an option.
  • the whitening unit 910 may perform whitening on the decoded low frequency spectrum.
  • the noise remaining in the portion of the decoded low frequency spectrum to zero may be added by the noise filling process or the anti sparse process.
  • the noise addition may be selectively performed in units of subbands.
  • the whitening process performs normalization based on envelope information of a low frequency spectrum, and various known methods can be applied. Specifically, the normalization process may correspond to calculating an envelope from the low frequency spectrum and dividing the low frequency spectrum by the envelope. The whitening process can be performed so that the shape of the spectrum is flat but the fine structure of the internal frequency is maintained.
  • the window size for normalization processing may be determined according to the signal characteristics.
  • the calculation unit 930 may generate a modified low frequency spectrum by performing a predetermined operation on the whitened low frequency spectrum based on the excitation class.
  • the predetermined operation may be a process of determining a weight according to an excitation class and mixing the whitened low frequency spectrum and random noise based on the determined weight.
  • the calculator 930 may operate in the same manner as the calculator 810 of FIG. 8.
  • FIG. 10 is a block diagram illustrating a configuration of a low frequency spectrum modifying unit 710 of FIG. 7 according to another exemplary embodiment, and may include a dynamic range controller 1010.
  • the dynamic range controller 1010 may generate the modified low frequency spectrum by controlling the dynamic range of the decoded low frequency spectrum based on the excitation class.
  • the dynamic range may mean spectral amplitude.
  • FIG. 11 is a block diagram illustrating a configuration of a low frequency spectrum modifying unit 710 of FIG. 7 according to another exemplary embodiment, and may include a whitening unit 1110 and a dynamic range control unit 1130.
  • the whitening unit 1110 may operate in the same manner as the whitening unit 910 of FIG. 9. That is, the whitening unit 1110 may perform whitening on the decoded low frequency spectrum.
  • the noise remaining in the portion of the decoded low frequency spectrum to zero may be added by the noise filling process or the anti sparse process.
  • the noise addition may be selectively performed in units of subbands.
  • the whitening process performs normalization based on envelope information of a low frequency spectrum, and various known methods can be applied. Specifically, the normalization process may correspond to calculating an envelope from the low frequency spectrum and dividing the low frequency spectrum by the envelope.
  • the whitening process can be performed so that the shape of the spectrum is flat but the fine structure of the internal frequency is maintained.
  • the window size for normalization processing may be determined according to the signal characteristics.
  • the dynamic range controller 1130 may generate the modified low frequency spectrum by controlling the dynamic range of the whitened low frequency spectrum based on the excitation class.
  • FIG. 12 is a block diagram illustrating a configuration of a dynamic range control unit 1110 of FIG. 11, and includes a code separator 1210, a control parameter determiner 1230, an amplitude adjuster 1250, and a random code generation.
  • the unit 1270 and the code applying unit 1290 may be included.
  • the random code generation unit 127 may be integrated with the code application unit 129.
  • the code separator 1210 may generate an amplitude, that is, an absolute value spectrum by removing a code from the decoded low frequency spectrum.
  • the control parameter determiner 1230 may determine the control parameter based on the excitation class. Since the excitation class is information related to the tonal or flat characteristics, it is possible to determine the control parameter that can adjust the amplitude of the absolute value spectrum based on the excitation class. The amplitude of the absolute value spectrum can be expressed as a dynamic range or peak-valley interval. According to an embodiment, the control parameter determiner 1130 may determine control parameters having different values corresponding to the excitation class. For example, 0.2 for an excitation class related to a voice characteristic, 0.05 for an excitation class related to a tonal characteristic, and 0.8 for an excitation class related to a noisy characteristic may be allocated as control parameters. According to this, in the case of a frame having noise characteristics in the high frequency band, the amplitude adjustment degree can be increased.
  • the amplitude adjuster 1250 may adjust the amplitude of the low frequency spectrum, that is, the dynamic range, based on the control parameter determined by the control parameter determiner 1230. In this case, the larger the value of the control parameter, the more the dynamic range is adjusted. According to one embodiment, the dynamic range can be adjusted by adding an amplitude of a predetermined magnitude to the original absolute value spectrum.
  • the amplitude of the predetermined magnitude may correspond to a value obtained by multiplying a control parameter with respect to a difference value between an amplitude of each frequency bin of a specific band of the absolute value spectrum and an average amplitude of the corresponding band.
  • the amplitude adjusting unit 1250 may process the low frequency spectrum by configuring a band having the same size.
  • each band may include 16 spectral coefficients.
  • the average amplitude is calculated for each band, and the amplitude of each frequency bin included in each band may be adjusted based on the average amplitude and control parameter of each band. For example, a frequency bin having an amplitude greater than the average amplitude of the band may mean decreasing its amplitude, and a frequency bin having an amplitude less than the average amplitude of the band may mean increasing its amplitude.
  • the degree of adjustment of the dynamic range may vary depending on the excitation class. Specifically, the dynamic range control may be performed according to Equation 1 below.
  • each amplitude may represent an absolute value.
  • the dynamic range control may be performed in the spectral coefficient of the band, that is, the frequency bin.
  • the average amplitude is calculated in bands, and the control parameter may be applied in units of frames.
  • each band may be configured based on a start frequency at which the transposition is to be performed.
  • each band may be configured to include 16 frequency bins starting from transposition frequency bin 2.
  • SWB 9 bands exist at the end of the frequency bin 145 at 24.4 kbps
  • 8 bands exist at the end of the frequency bin 129 at 32 kbps.
  • FB there are 19 bands ending at the frequency bin 305 at 24.4 kbps, and 18 bands ending at the frequency bin 289 at 32 kbps.
  • the random code generator 1270 may generate a random code when it is determined that a random code is necessary based on the excitation class.
  • the random code may be generated in units of frames.
  • a random code may be applied to an excitation class related to a noisy characteristic.
  • the code applying unit 1290 may generate a modified low frequency spectrum by applying one of a random code or an original code to the low frequency spectrum of which the dynamic range is adjusted.
  • the original code may use the code removed by the code separator 1210.
  • a random code may be applied to the excitation class related to the noisy characteristic, and an original code may be applied to the excitation class related to the tonal characteristic or the excitation class related to the voice characteristic.
  • a random code may be applied to a frame determined to be noisy, and an original code may be applied to a frame determined to be tonal or a frame determined to be a voice signal.
  • FIG. 13 is a block diagram illustrating a configuration of the high frequency excitation spectrum generator 730 of FIG. 7 according to an embodiment, and may include a spectrum patching unit 1310 and a spectrum adjusting unit 1330.
  • the spectrum adjusting unit 1330 may be provided as an option.
  • the spectral patching unit 1310 may fill a spectrum in an empty high band by patching, for example, transferring, copying, mirroring, or folding the modified low frequency spectrum into a high band.
  • the modified spectrum in the source band 50 to 3250 Hz is copied into the 8000 to 11200 Hz band
  • the modified spectrum in the same source band 50 to 3250 Hz is copied into the 11200 Hz to 14400 Hz band
  • a high frequency excitation spectrum can be generated from the modified low frequency spectrum.
  • the spectrum adjuster 1330 may adjust the high frequency excitation spectrum provided from the spectrum patcher 1310 to solve the discontinuity of the spectrum at the boundary between the patched bands performed by the spectrum patcher 1310. According to an embodiment, the spectrums around the boundary position of the high frequency excitation spectrum provided from the spectrum patching unit 1310 may be utilized.
  • the generated high frequency excitation spectrum or the adjusted high frequency excitation spectrum and the decoded low frequency spectrum may be combined, and the combined spectrum may be generated as a time domain signal through an inverse transformation process.
  • An inverse transform process may be performed on each of the high frequency excitation spectrum and the decoded low frequency spectrum beforehand and then combined.
  • an inverse modified discrete cosine transform IMDCT
  • IMDCT inverse modified discrete cosine transform
  • the overlapped frequency bands may be restored through overlap add processing.
  • the portion of the frequency band overlap may be restored based on the information transmitted through the bitstream.
  • the overlap add process or the process based on the transmitted information may be selectively applied according to the environment of the receiver, or may be restored based on the weight.
  • FIG. 14 is a diagram for explaining a smoothing process on a weight at a band boundary.
  • the K + 1 band does not perform smoothing, but performs smoothing only in the K + 2 band.
  • the reason is that the weight in the K + 1 band (Ws (K + 1)) is 0, so when smoothing in the K + 1 band, the weight in the K + 1 band (Ws (K + 1)) is 0.
  • a weight of 0 indicates that the band does not consider random noise when generating high frequency excitation spectrum. This is the case of an extreme tonal signal and is intended to prevent noise from being inserted into the valley section of the harmonic signal due to random noise.
  • the processing can be configured in such a manner that the last band of the low frequency coding region R0 and the start band of the BWE region R1 are overlapped.
  • the band configuration of the BWE region R1 may be configured in another manner to have a more compact band allocation structure.
  • the last band of the low frequency coding region R0 may be configured to 8.2 kHz
  • the start band of the BWE region R1 may be configured to start from 8 kHz.
  • an overlapping region is generated between the low frequency coding region R0 and the BWE region R1.
  • Two decoded spectra can be generated in the overlapping region.
  • One is a spectrum generated by applying a low frequency decoding method
  • the other is a spectrum generated by a high frequency decoding method.
  • An overlap add method may be applied to smooth the transition between the two spectra, that is, the low frequency spectrum and the high frequency spectrum.
  • the spectrum closer to the low frequency of the overlapped region increases the contribution of the spectrum generated by the low frequency method
  • the spectrum close to the high frequency side increases the contribution of the spectrum generated by the high frequency method to the overlapped region.
  • the last band of the low frequency coding region R0 is 8.2 kHz
  • the start band of the BWE region R1 starts at 8 kHz
  • the spectrum of 640 samples is composed at a 32 kHz sampling rate, it is 320 to 327.
  • Eight spectra overlap, and eight spectra may be generated as in Equation 2 below.
  • Is a spectrum decoded in a low frequency manner Is a spectrum decoded by a high frequency method
  • L0 is a starting spectrum position of a high frequency
  • L0 to L1 are overlapped regions
  • w 0 is a contribution.
  • FIG. 15 is a diagram for explaining a contribution used to reconstruct a spectrum existing in an overlapping region after a BWE process according to an embodiment.
  • w O (k) it is may be selectively applied to the w O0 (k) and w O1 (k), w O0 (k) is to apply the same weight to the decoding scheme of the low-frequency and high-frequency , w O1 (k) is a method of applying a greater weight to the high frequency decoding method.
  • the selection criteria for the two w O (k) vary, but one example is the presence or absence of a pulse in the low frequency overlapping band. When a pulse is selected and coded in the overlapping band of low frequency, w O0 (k) is utilized to make the contribution to the spectrum generated at low frequency close to L1 and reduce the contribution of high frequency.
  • the spectrum generated by the actual coding scheme may be higher in terms of proximity to the original signal than the spectrum of the signal generated through the BWE.
  • 16 is a block diagram showing a configuration of a multimedia device including a decoding module according to an embodiment of the present invention.
  • the multimedia apparatus 1600 illustrated in FIG. 16 may include a communication unit 1610 and a decoding module 1630.
  • the storage unit 1650 may further include a storage unit 1650 for storing the restored audio signal according to the use of the restored audio signal obtained as a result of the decoding.
  • the multimedia device 1600 may further include a speaker 1670. That is, the storage 1650 and the speaker 1670 may be provided as an option.
  • the multimedia apparatus 1600 illustrated in FIG. 16 may further include an arbitrary encoding module (not shown), for example, an encoding module for performing a general encoding function or an encoding module according to an embodiment of the present invention.
  • the decoding module 1630 may be integrated with other components (not shown) included in the multimedia device 1600 and implemented as at least one or more processors (not shown).
  • the communication unit 1610 receives at least one of an encoded bitstream and an audio signal provided from the outside, or at least one of a reconstructed audio signal obtained as a result of decoding of the decoding module 1630 and an audio bitstream obtained as a result of encoding. You can send one.
  • the communication unit 1610 includes wireless Internet, wireless intranet, wireless telephone network, wireless LAN (LAN), Wi-Fi, Wi-Fi Direct (WFD), 3G (Generation), 4G (4 Generation), and Bluetooth.
  • Wireless networks such as Bluetooth, Infrared Data Association (IrDA), Radio Frequency Identification (RFID), Ultra WideBand (UWB), Zigbee, Near Field Communication (NFC), wired telephone networks, wired Internet It is configured to send and receive data with external multimedia device through wired network.
  • IrDA Infrared Data Association
  • RFID Radio Frequency Identification
  • UWB Ultra WideBand
  • NFC Near Field Communication
  • the decoding module 1630 may receive a bitstream provided through the communication unit 1610 and perform decoding on an audio spectrum included in the bitstream.
  • the decoding process may be performed using the above-described decoding apparatus or a decoding method to be described later, but is not limited thereto.
  • the storage unit 1650 may store the restored audio signal generated by the decoding module 1630. Meanwhile, the storage unit 1650 may store various programs necessary for operating the multimedia apparatus 1600.
  • the speaker 1670 may output the restored audio signal generated by the decoding module 1630 to the outside.
  • FIG. 17 is a block diagram illustrating a configuration of a multimedia apparatus including an encoding module and a decoding module according to an embodiment of the present invention.
  • the multimedia device 1700 illustrated in FIG. 17 may include a communication unit 1710, an encoding module 1720, and a decoding module 1730.
  • the storage unit 1740 may further include an audio bitstream or a restored audio signal according to a use of the audio bitstream obtained as a result of encoding or the restored audio signal obtained as a result of decoding.
  • the multimedia device 1700 may further include a microphone 1750 or a speaker 1760.
  • the encoding module 1720 and the decoding module 1730 may be integrated with other components (not shown) included in the multimedia device 1700 to be implemented as at least one processor (not shown).
  • the encoding module 1720 may perform encoding on an audio signal of a time domain provided through the communication unit 1710 or the microphone 1750.
  • the encoding process may be performed using the above-described encoding apparatus, but is not limited thereto.
  • the microphone 1750 may provide a user or an external audio signal to the encoding module 1720.
  • the multimedia apparatus 1600 and 1700 include a voice communication terminal including a telephone, a mobile phone, etc., a broadcast or music dedicated apparatus including a TV, an MP3 player, or the like.
  • a fusion terminal device of a broadcast or music dedicated device may be included, but is not limited thereto.
  • the multimedia device 1600, 1700 may be used as a client, a server, or a transducer disposed between the client and the server.
  • the multimedia devices 1600 and 1700 are, for example, mobile phones, although not shown, a user input unit such as a keypad, a display unit for displaying information processed by the user interface or the mobile phone, and a processor for controlling the overall functions of the mobile phone It may further include.
  • the mobile phone may further include a camera unit having an imaging function and at least one component that performs a function required by the mobile phone.
  • the multimedia apparatus 1600 or 1700 when the multimedia apparatus 1600 or 1700 is a TV, for example, although not shown, the multimedia apparatus 1600 may further include a user input unit such as a keypad, a display unit for displaying received broadcast information, and a processor for controlling overall functions of the TV. .
  • the TV may further include at least one or more components that perform a function required by the TV.
  • FIG. 18 is a flowchart illustrating an operation of a high frequency decoding method according to an embodiment. The method illustrated in FIG. 18 may be performed by the high frequency decoder 670 of FIG. 6 or by a separate processor.
  • an excitation class is decoded.
  • the excitation class may be generated at the encoder stage and transmitted to the decoder stage as a bitstream.
  • the excitation class can be generated and used separately in the decoder stage.
  • the class here can be obtained frame by frame.
  • the decoded low frequency spectrum may be received from the quantization index of the low frequency spectrum included in the bitstream.
  • the quantization index may be, for example, an interband difference index except for the lowest frequency band.
  • the quantization index of the low frequency spectrum can be vector dequantized, for example.
  • a vector dequantization method Pyramid Vector Quantization (PVQ) may be used, but is not limited thereto.
  • PVQ Pyramid Vector Quantization
  • a noise peeling process may be performed on the inverse quantization result to generate a decoded low frequency spectrum.
  • the noise filling process is for filling gaps present in the spectrum by quantizing to zero. Pseudo random noise may be inserted in the gap.
  • the frequency bin section in which the noise filling process is processed may be preset.
  • the amount of noise inserted into the gap can be controlled by a parameter transmitted in the bitstream.
  • the low frequency spectrum subjected to the noise filling may be further denormalized.
  • Anti-sparseness processing may be additionally performed on the noise peeled low frequency spectrum.
  • a coefficient having a random magnitude and a constant amplitude may be inserted into a portion of the coefficient that remains zero in the noise-peeled low frequency spectrum.
  • the anti-sparse low frequency spectrum can additionally be energy adjusted based on the low band dequantized envelope.
  • the decoded low frequency spectrum may be modified based on the excitation class.
  • the decoded low frequency spectrum may be one of an inverse quantized spectrum, a noise peeled spectrum, or an anti-sparse spectrum.
  • the amplitude of the decoded low frequency spectrum can be adjusted by the excitation class. For example, the amplitude reduction can be determined by the excitation class.
  • a high frequency excitation spectrum may be generated using the modified low frequency spectrum.
  • the modified low frequency spectrum may be patched to a high band required for bandwidth extension to generate a high frequency excitation spectrum.
  • An example of a patching method may be a method of copying or folding a predetermined section in a high band.
  • FIG. 19 is a flowchart illustrating an operation of a method for modifying low frequency spectrum according to an embodiment.
  • the method illustrated in FIG. 19 may correspond to step 1850 of FIG. 18 or may be independently implemented. Meanwhile, the method illustrated in FIG. 19 may be performed by the low frequency spectrum modifying unit 710 of FIG. 7 or may be performed by a separate processor.
  • the degree of amplitude adjustment may be determined based on an excitation class.
  • a control parameter may be generated based on the excitation class to determine the degree of amplitude adjustment.
  • the value of the control parameter may be determined depending on whether the excitation class represents a voice characteristic, a tonal characteristic or a non-tonal characteristic.
  • the amplitude of the low frequency spectrum may be adjusted based on the determined degree of amplitude adjustment.
  • the amplitude reduction can be large because a larger value control parameter is generated.
  • the amplitude of each frequency bin for example, the difference between the Norm value and the average Norm value of the corresponding band may be reduced by the value multiplied by the control parameter.
  • a sign may be applied to the low frequency spectrum whose amplitude is adjusted.
  • the original code or a random code may be applied.
  • random coding may be applied when the original code represents the non-tonal characteristic.
  • the low frequency spectrum to which the sign is applied may be generated as the modified low frequency spectrum in operation 1950.
  • the method according to the embodiments can be written in a computer executable program and can be implemented in a general-purpose digital computer operating the program using a computer readable recording medium.
  • data structures, program instructions, or data files that can be used in the above-described embodiments of the present invention can be recorded on a computer-readable recording medium through various means.
  • the computer-readable recording medium may include all kinds of storage devices in which data that can be read by a computer system is stored. Examples of computer-readable recording media include magnetic media, such as hard disks, floppy disks, and magnetic tape, optical media such as CD-ROMs, DVDs, floppy disks, and the like.
  • Such as magneto-optical media, and hardware devices specifically configured to store and execute program instructions such as ROM, RAM, flash memory, and the like.
  • the computer-readable recording medium may also be a transmission medium for transmitting a signal specifying a program command, a data structure, or the like.
  • Examples of program instructions may include high-level language code that can be executed by a computer using an interpreter as well as machine code such as produced by a compiler.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Spectroscopy & Molecular Physics (AREA)

Abstract

Disclosed are a method and an apparatus for high frequency decoding for bandwidth extension. The method for high frequency decoding for bandwidth extension comprises the steps of: decoding an excitation class; transforming a decoded low frequency spectrum on the basis of the excitation class; and generating a high frequency excitation spectrum on the basis of the transformed low frequency spectrum. The method and apparatus for high frequency decoding for bandwidth extension according to an embodiment can transform a restored low frequency spectrum and generate a high frequency excitation spectrum, thereby improving the restored sound quality without an excessive increase in complexity.

Description

대역폭 확장을 위한 고주파 복호화 방법 및 장치High Frequency Decoding Method and Apparatus for Bandwidth Expansion
본 발명은 오디오 부호화 및 복호화에 관한 것으로서, 보다 상세하게로는 대역폭 확장을 위한 고주파 복호화 방법 및 장치에 관한 것이다.The present invention relates to audio encoding and decoding, and more particularly, to a high frequency decoding method and apparatus for bandwidth extension.
G.719의 코딩 스킴은 텔레컨퍼런싱의 목적으로 개발 및 표준화된 것으로서, MDCT(Modified Discrete Cosine Transform)을 수행하여 주파수 도메인 변환을 수행하여, 스테이셔너리(stationary) 프레임인 경우에는 MDCT 스펙트럼을 바로 코딩한다. 넌 스테이셔너리(non-stationary) 프레임은 시간 도메인 얼라이어싱 순서(time domain aliasing order)를 변경함으로써, 시간적인 특성을 고려할 수 있도록 변경한다. 넌 스테이셔너리 프레임에 대하여 얻어진 스펙트럼은 스테이셔너리 프레임과 동일한 프레임워크로 코덱을 구성하기 위해서 인터리빙을 수행하여 스테이셔너리 프레임과 유사한 형태로 구성될 수 있다. 이와 같이 구성된 스펙트럼의 에너지를 구하여 정규화를 수행한 후 양자화를 수행하게 된다. 통상 에너지는 RMS 값으로 표현되며, 정규화된 스펙트럼은 에너지 기반의 비트 할당을 통해 밴드별로 필요한 비트를 생성하고, 밴드별 비트 할당 정보를 기반으로 양자화 및 무손실 부호화를 통해 비트스트림을 생성한다.The coding scheme of G.719 is developed and standardized for the purpose of teleconference, and performs the frequency domain transformation by performing the Modified Discrete Cosine Transform (MDCT). In the case of a stationary frame, the MDCT spectrum is directly coded. do. Non-stationary frames are modified to account for temporal characteristics by changing the time domain aliasing order. The spectrum obtained for the non-stationary frame may be configured to be similar to the stationary frame by performing interleaving to configure the codec in the same framework as the stationary frame. Quantumization is performed after normalization is performed by obtaining the energy of the spectrum configured as described above. In general, energy is expressed as an RMS value, and the normalized spectrum generates bits necessary for each band through energy-based bit allocation, and generates a bitstream through quantization and lossless coding based on bit allocation information for each band.
G.719의 디코딩 스킴에 따르면, 코딩 방식의 역과정으로 비트스트림에서 에너지를 역양자화하고, 역양자화된 에너지를 기반으로 비트 할당 정보를 생성하여 스펙트럼의 역양자화를 수행하여 정규화된 역양자화된 스펙트럼을 생성해 준다. 이때 비트가 부족한 경우 특정 밴드에는 역양자화한 스펙트럼이 없을 수 있다. 이러한 특정 밴드에 대하여 노이즈를 생성해 주기 위하여, 저주파수의 역양자화된 스펙트럼을 기반으로 노이즈 코드북을 생성하여 전송된 노이즈 레벨에 맞추어서 노이즈를 생성하는 노이즈 필링 방식이 적용된다. 한편, 특정 주파수 이상의 밴드에 대해서는 저주파수 신호를 폴딩하여 고주파수 신호를 생성해주는 대역폭 확장 기법이 적용된다.According to the decoding scheme of G.719, the reverse process of the coding scheme dequantizes the energy in the bitstream, generates bit allocation information based on the dequantized energy, and performs dequantization of the spectrum to normalize dequantized spectrum. Will generate In this case, if the bit is insufficient, there may be no dequantized spectrum in a specific band. In order to generate noise for this specific band, a noise filling method is generated in which a noise codebook is generated based on a low frequency dequantized spectrum and generates noise in accordance with the transmitted noise level. On the other hand, a bandwidth extension technique for generating a high frequency signal by folding a low frequency signal for a band above a specific frequency is applied.
본 발명이 해결하고자 하는 과제는 복원 음질을 향상시킬 수 있는 대역폭 확장을 위한 고주파 복호화 방법 및 장치와 이를 채용하는 멀티미디어 기기를 제공하는데 있다. An object of the present invention is to provide a high frequency decoding method and apparatus for bandwidth expansion that can improve reconstructed sound quality and a multimedia device employing the same.
상기 과제를 달성하기 위한 본 발명의 일실시예에 따른 대역폭 확장을 위한 고주파 복호화 방법은 여기 클래스를 복호화하는 단계; 복호화된 저주파 스펙트럼을 상기 여기 클래스에 근거하여 변형하는 단계; 및 변형된 저주파 스펙트럼에 근거하여 고주파수 여기 스펙트럼을 생성하는 단계를 포함할 수 있다. According to an aspect of the present invention, there is provided a high frequency decoding method for bandwidth extension, the method comprising: decoding an excitation class; Modifying the decoded low frequency spectrum based on the excitation class; And generating a high frequency excitation spectrum based on the modified low frequency spectrum.
상기 과제를 달성하기 위한 본 발명의 일실시예에 따른 대역폭 확장을 위한 고주파수 복호화 장치는 여기 클래스를 복호화하고, 복호화된 저주파 스펙트럼을 상기 여기 클래스에 근거하여 변형하고, 변형된 저주파 스펙트럼에 근거하여 고주파수 여기 스펙트럼을 생성하는 적어도 하나의 프로세서를 포함할 수 있다.A high frequency decoding apparatus for bandwidth extension according to an embodiment of the present invention for achieving the above object decodes an excitation class, modifies the decoded low frequency spectrum based on the excitation class, and based on the modified low frequency spectrum. It may include at least one processor for generating an excitation spectrum.
실시예에 따른 대역폭 확장을 위한 고주파수 복호화 방법 및 장치에 의하면, 복원된 저주파 스텍트럼을 변형하여 고주파수 여기 스펙트럼을 생성함으로써 복잡도의 과도한 증가없이 복원 음질을 향상시킬 수 있다.According to the high frequency decoding method and apparatus for bandwidth expansion according to the embodiment, the high frequency excitation spectrum is generated by modifying the restored low frequency spectrum, thereby improving the reconstructed sound quality without excessively increasing the complexity.
도 1은 일실시예에 따라 저주파 대역과 고주파 대역의 서브밴드 구성의 예를 설명하는 도면이다1 is a diagram illustrating an example of a subband configuration of a low frequency band and a high frequency band according to an embodiment.
도 2a 내지 도 2c는 일실시예에 따라 R0 대역과 R1 대역을 선택된 코딩 방식에 대응하여 R2와 R3, R4와 R5로 구분한 도면이다.2A to 2C are diagrams illustrating R0 and R1 bands divided into R2 and R3, R4, and R5 according to a selected coding scheme according to an embodiment.
도 3은 일실시예에 따른 고주파 대역의 서브밴드 구성의 예를 설명하는 도면이다. 3 is a diagram illustrating an example of a subband configuration of a high frequency band according to an embodiment.
도 4는 일실시예에 따른 오디오 부호화장치의 구성을 나타낸 블럭도이다.4 is a block diagram illustrating a configuration of an audio encoding apparatus according to an embodiment.
도 5는 일실시예에 따른 BWE 파라미터 생성부의 구성을 나타낸 블럭도이다.5 is a block diagram illustrating a configuration of a BWE parameter generator according to an embodiment.
도 6은 일실시예에 따른 오디오 복호화장치의 구성을 나타낸 블럭도이다.6 is a block diagram illustrating a configuration of an audio decoding apparatus according to an embodiment.
도 7은 일실시예에 따른 고주파 복호화장치의 구성을 나타낸 블럭도이다.7 is a block diagram illustrating a configuration of a high frequency decoding apparatus according to an embodiment.
도 8은 일실시예에 따른 저주파 스펙트럼 변형부의 구성을 나타낸 블럭도이다. 8 is a block diagram illustrating a configuration of a low frequency spectral deformation unit according to an exemplary embodiment.
도 9는 다른 실시예에 따른 저주파 스펙트럼 변형부의 구성을 나타낸 블럭도이다.9 is a block diagram illustrating a configuration of a low frequency spectral deformation unit according to another exemplary embodiment.
도 10은 다른 실시예에 따른 저주파 스펙트럼 변형부의 구성을 나타낸 블럭도이다.10 is a block diagram illustrating a configuration of a low frequency spectral deformation unit according to another exemplary embodiment.
도 11은 다른 실시예에 따른 저주파 스펙트럼 변형부의 구성을 나타낸 블럭도이다.11 is a block diagram illustrating a configuration of a low frequency spectral deformation unit according to another embodiment.
도 12는 일실시예에 다이나믹 레인지 제어부의 구성을 나타낸 블럭도이다.12 is a block diagram illustrating a configuration of a dynamic range controller according to an embodiment.
도 13은 일실시예에 따른 고주파 여기스펙트럼 생성부의 구성을 나타낸 블럭도이다.13 is a block diagram illustrating a configuration of a high frequency excitation spectrum generator according to an exemplary embodiment.
도 14는 밴드 경계에서 가중치에 대한 스무딩 처리를 설명하기 위한 도면이다.14 is a diagram for explaining a smoothing process on a weight at a band boundary.
도 15는 일실시예에 따라 오버래핑 영역에 존재하는 스펙트럼을 재구성하기 위하여 사용되는 기여분인 가중치를 설명하는 도면이다.FIG. 15 is a diagram illustrating a weight that is a contribution used to reconstruct a spectrum existing in an overlapping region according to an embodiment.
도 16은 일실시예에 따른 복호화모듈을 포함하는 멀티미디어 기기의 구성을 나타낸 블록도이다.16 is a block diagram illustrating a configuration of a multimedia apparatus including a decoding module according to an embodiment.
도 17은 일실시예에 따른 부호화모듈과 복호화모듈을 포함하는 멀티미디어 기기의 구성을 나타낸 블록도이다.17 is a block diagram illustrating a configuration of a multimedia apparatus including an encoding module and a decoding module, according to an embodiment.
도 18은 일실시예에 따른 고주파 복호화방법의 동작을 설명하기 위한 흐름도이다.18 is a flowchart illustrating an operation of a high frequency decoding method according to an embodiment.
도 19는 일실시예에 따른 저주파 스펙트럼 변형방법의 동작을 설명하기 위한 흐름도이다.19 is a flowchart illustrating an operation of a method for modifying low frequency spectrum according to an embodiment.
본 발명은 다양한 변환을 가할 수 있고 여러가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 구체적으로 설명하고자 한다. 그러나 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 기술적 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해될 수 있다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.As the invention allows for various changes and numerous embodiments, particular embodiments will be illustrated in the drawings and described in detail in the written description. However, this is not intended to limit the present invention to specific embodiments, it can be understood to include all transformations, equivalents, and substitutes included in the technical spirit and technical scope of the present invention. In the following description of the present invention, if it is determined that the detailed description of the related known technology may obscure the gist of the present invention, the detailed description thereof will be omitted.
제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 구성요소들이 용어들에 의해 한정되는 것은 아니다. 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. Terms such as first and second may be used to describe various components, but the components are not limited by the terms. The terms are only used to distinguish one component from another.
본 발명에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 본 발명에서 사용한 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나 이는 당 분야에 종사하는 기술자의 의도, 판례, 또는 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다.The terminology used herein is for the purpose of describing particular example embodiments only and is not intended to be limiting of the present invention. The terminology used in the present invention is to select the general term is widely used as possible in consideration of the function in the present invention, but this may vary according to the intention of the person skilled in the art, precedent, or the emergence of new technology. In addition, in certain cases, there is also a term arbitrarily selected by the applicant, in which case the meaning will be described in detail in the description of the invention. Therefore, the terms used in the present invention should be defined based on the meanings of the terms and the contents throughout the present invention, rather than the names of the simple terms.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 발명에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.Singular expressions include plural expressions unless the context clearly indicates otherwise. In the present invention, the terms "comprise" or "have" are intended to indicate that there is a feature, number, step, operation, component, part, or combination thereof described in the specification, and one or more other features. It is to be understood that the present invention does not exclude the possibility of the presence or the addition of numbers, steps, operations, components, components, or a combination thereof.
이하, 본 발명의 실시예들을 첨부 도면을 참조하여 상세히 설명하기로 하며, 첨부 도면을 참조하여 설명함에 있어, 동일하거나 대응하는 구성요소는 동일한 도면번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings, in the following description with reference to the accompanying drawings, the same or corresponding components will be given the same reference numerals and duplicate description thereof will be omitted. do.
도 1은 일실시예에 따라 저주파 대역과 고주파 대역의 서브밴드 구성의 예를 설명하는 도면이다. 실시예에 따르면, 샘플링 레이트는 32kHz이고, 640개의 MDCT 스펙트럼 계수를 22개의 밴드로 구성하며, 구체적으로 저주파 대역에 대하여 17개의 밴드, 고주파 대역에 대하여 5개의 밴드로 구성될 수 있다. 예를 들면, 고주파 대역의 시작 주파수는 241번째 스펙트럼 계수이며, 0~240까지의 스펙트럼 계수는 저주파 코딩 방식 즉, 코어 코딩 방식으로 코딩되는 영역으로서 R0로 정의할 수 있다. 또한, 241~639까지의 스펙트럼 계수는 대역폭확장(BWE)가 수행되는 고주파 대역으로서 R1으로 정의할 수 있다. 한편, R1 영역에는 비트 할당 정보에 따라서 저주파수 코딩 방식으로 코딩되는 밴드도 존재할 수 있다.1 is a diagram illustrating an example of a subband configuration of a low frequency band and a high frequency band according to an embodiment. According to an embodiment, the sampling rate is 32 kHz, and 640 MDCT spectral coefficients are configured as 22 bands, specifically, 17 bands for the low frequency band and 5 bands for the high frequency band. For example, the start frequency of the high frequency band is the 241 th spectral coefficient, and the spectral coefficients from 0 to 240 may be defined as R0 as a region coded by a low frequency coding scheme, that is, a core coding scheme. In addition, the spectral coefficients from 241 to 639 may be defined as R1 as a high frequency band through which bandwidth extension (BWE) is performed. Meanwhile, a band coded by a low frequency coding scheme may also exist in the R1 region according to bit allocation information.
도 2a 내지 도 2c는 도 1의 R0 영역과 R1 영역을 선택된 코딩 방식에 따라 R2, R3, R4, R5로 구분한 도면이다. 먼저, BWE 영역인 R1 영역은 R2와 R3로, 저주파수 코딩 영역인 R0 영역은 R4와 R5로 구분될 수 있다. R2는 저주파수 코딩 방식, 예를 들면 주파수 도메인 코딩 방식으로 양자화 및 무손실 부호화되는 신호를 포함하고 있는 밴드를 나타내고, R3는 저주파수 코딩 방식으로 코딩되는 신호가 없는 밴드를 나타낸다. 한편, R2가 비트가 할당되어 저주파수 코딩 방식으로 코딩되는 것으로 결정되더라도 비트가 부족한 경우 R3에서와 동일한 방식으로 밴드가 생성될 수 있다. R5는 비트가 할당되어 저주파수 코딩 방식으로 코딩이 수행되는 밴드를 나타내고, R4는 비트 여유분이 없어 저주파수 신호임에도 코딩이 안되거나 비트가 적게 할당되어 노이즈를 부가해야 하는 밴드를 나타낸다. 따라서, R4와 R5의 구분은 노이즈 부가 여부에 의해서 판단될 수 있으며, 이는 저주파수 코딩된 밴드내 스펙트럼 개수의 비율로 결정될 수 있으며, 또는 FPC를 사용한 경우에는 밴드내 펄스 할당 정보에 근거하여 결정할 수 있다. R4와 R5 밴드는 복호화 과정에서 노이즈를 부가할 때 구분될 수 있기 때문에, 부호화 과정에서는 명확히 구분이 안될 수 있다. R2~R5 밴드는 부호화되는 정보가 서로 다를 뿐 아니라, 디코딩 방식이 다르게 적용될 수 있다.2A to 2C are diagrams illustrating R0 and R1 regions of FIG. 1 divided into R2, R3, R4, and R5 according to a selected coding scheme. First, the R1 region, which is a BWE region, may be divided into R2 and R3, and the R0 region, which is a low frequency coding region, may be divided into R4 and R5. R2 represents a band including a signal that is quantized and lossless coded by a low frequency coding scheme, for example, a frequency domain coding scheme, and R3 represents a band without a signal coded by the low frequency coding scheme. On the other hand, even if R2 is determined that the bit is allocated and coded in a low frequency coding scheme, when the bit is insufficient, a band may be generated in the same manner as in R3. R5 denotes a band in which bits are allocated and coding is performed by a low frequency coding scheme, and R4 denotes a band in which low frequency signals are not coded or bits are allocated but noise is added due to lack of bit margin. Therefore, the division of R4 and R5 may be determined by adding noise, which may be determined by the ratio of the number of low-frequency coded in-band spectra, or may be determined based on the in-band pulse allocation information when using FPC. . Since the R4 and R5 bands can be distinguished when adding noise in the decoding process, they may not be clearly distinguished in the encoding process. The R2 to R5 bands not only have different information to be encoded, but may have different decoding schemes.
도 2a에 도시된 예의 경우 저주파수 코딩 영역(R0) 중 170-240까지의 2개 밴드가 노이즈를 부가하는 R4이고, BWE 영역(R1) 중 241-350까지의 2개 밴드 및 427-639까지의 2개 밴드가 저주파수 코딩 방식으로 코딩되는 R2이다. 도 2b에 도시된 예의 경우 저주파수 코딩 영역(R0) 중 202-240까지의 1개 밴드가 노이즈를 부가하는 R4이고, BWE 영역(R1) 중 241-639까지의 5개 밴드 모두가 저주파수 코딩 방식으로 코딩되는 R2이다. 도 2c에 도시된 예의 경우 저주파수 코딩 영역(R0) 중 144-240까지의 3개 밴드가 노이즈를 부가하는 R4이고, BWE 영역(R1) 중 R2는 존재하지 않는다. 저주파수 코딩 영역(R0)에서 R4는 통상 고주파수 부분에 분포될 수 있으나, BWE 영역(R1)에서 R2는 특정 주파수 부분에 제한되지 않는다. In the example shown in FIG. 2A, two bands from 170 to 240 in the low frequency coding region R0 are R4 to add noise, and two bands from 241 to 350 and 427-639 in the BWE region R1. Two bands are R2 coded with a low frequency coding scheme. In the example shown in FIG. 2B, one band up to 202-240 in the low frequency coding region R0 adds noise, and all five bands up to 241-639 in the BWE region R1 use the low frequency coding scheme. R2 is coded. In the example shown in FIG. 2C, three bands up to 144-240 in the low frequency coding region R0 are R4 to which noise is added, and R2 in the BWE region R1 is not present. In the low frequency coding region R0, R4 may be normally distributed in the high frequency portion, but in the BWE region R1, R2 is not limited to the specific frequency portion.
도 3은 도 3은 일실시예에 따른 광대역(WB)의 고주파 대역의 서브밴드 구성의 예를 설명하는 도면이다. 여기서, 32KHz 샘플링 레이트는 32kHz이고, 640개의 MDCT 스펙트럼 계수를 중 고주파 대역에 대하여 14개의 밴드로 구성될 수 있다. 100 Hz 에는 4개의 스펙트럼 계수가 포함되며, 따라서 400 Hz인 첫번째 밴드에는 16개의 스펙트럼 계수가 포함될 수 있다. 참조부호 310은 6.4 ~ 14.4 KHz의 고주파 대역, 참조부호 330은 8.0 ~ 16.0 KHz의 고주파 대역에 대한 서브밴드 구성을 각각 나타낸다.3 is a diagram for explaining an example of a subband configuration of a high frequency band of a wide band (WB) according to one embodiment. Here, the 32 KHz sampling rate is 32 kHz, and 640 MDCT spectral coefficients may be configured with 14 bands for the mid-high frequency band. 100 Hz contains four spectral coefficients, so the first band of 400 Hz may contain 16 spectral coefficients. Reference numeral 310 denotes a high frequency band of 6.4 to 14.4 KHz, and reference numeral 330 denotes a subband configuration for a high frequency band of 8.0 to 16.0 KHz.
도 4는 일실시예에 따른 오디오 부호화장치의 구성을 나타낸 블럭도이다.4 is a block diagram illustrating a configuration of an audio encoding apparatus according to an embodiment.
도 4에 도시된 오디오 부호화장치는 BWE 파라미터 생성부(410), 저주파 부호화부(430), 고주파 부호화부(450) 및 다중화부(470)를 포함할 수 있다. 각 구성요소는 적어도 하나의 모듈로 일체화되어 적어도 하나의 프로세서(미도시)로 구현될 수 있다. 여기서, 입력신호는 음악 혹은 음성, 혹은 음악과 음성의 혼합신호를 의미할 수 있으며, 크게 음성신호와 다른 일반적인 신호로 나눌 수도 있다. 이하에서는 설명의 편의를 위하여 오디오 신호로 통칭하기로 한다.The audio encoding apparatus shown in FIG. 4 may include a BWE parameter generator 410, a low frequency encoder 430, a high frequency encoder 450, and a multiplexer 470. Each component may be integrated into at least one module and implemented as at least one processor (not shown). Here, the input signal may mean music or voice, or a mixed signal of music and voice, and may be divided into a voice signal and another general signal. Hereinafter, for the convenience of description, the audio signal will be referred to collectively.
도 4를 참조하면, BWE 파라미터 생성부(410)는 대역폭 확장을 위한 BWE 파라미터를 생성할 수 있다. 여기서, BWE 파라미터는 여기 클래스(excitation class)에 해당할 수 있다. 한편, 구현방식에 따라서, BWE 파라미터는 여기 클래스와 다른 파라미터를 포함할 수 있다. BWE 파라미터 생성부(410)는 프레임 단위로 신호 특성에 근거하여 여기 클래스를 생성할 수 있다. 구체적으로, 입력신호가 음성 특성을 갖는지 토널 특성을 갖는지를 판단하고, 판단 결과에 근거하여 복수의 여기 클래스 중에서 하나를 결정할 수 있다. 복수의 여기 클래스는 음성과 관련된 여기 클래스, 토널 뮤직과 관련된 여기 클래스와 넌-토널 뮤직과 관련된 여기 클래스를 포함할 수 있다. 결정된 여기 클래스는 비트스트림에 포함되어 전송될 수 있다. Referring to FIG. 4, the BWE parameter generator 410 may generate a BWE parameter for bandwidth expansion. Here, the BWE parameter may correspond to an excitation class. On the other hand, depending on the implementation, the BWE parameter may include parameters different from the excitation class. The BWE parameter generator 410 may generate an excitation class based on signal characteristics on a frame basis. Specifically, it may be determined whether the input signal has a voice characteristic or a tonal characteristic, and one of the plurality of excitation classes may be determined based on the determination result. The plurality of excitation classes may include excitation classes related to voice, excitation classes related to tonal music, and excitation classes related to non-tonal music. The determined excitation class may be included in the bitstream and transmitted.
저주파 부호화부(430)는 저대역 신호에 대하여 부호화를 수행하여 부호화된 스펙트럼 계수를 생성할 수 있다. 또한, 저주파 부호화부(430)는 저대역 신호의 에너지와 관련된 정보를 부호화할 수 있다. 실시예에 따르면, 저주파 부호화부(430)는 저대역 신호를 주파수 도메인으로 변환하여 저주파 스펙트럼을 생성하고, 저주파 스펙트럼에 대하여 양자화하여 양자화된 스펙트럼 계수를 생성할 수 있다. 도메인 변환을 위하여 MDCT(Modified Discrete Cosine Transform)를 사용할 수 있으나 이에 한정되는 것은 아니다. 양자화를 위하여 PVQ(Pyramid Vector Quantization)를 사용할 수 있으나 이에 한정되는 것은 아니다.The low frequency encoder 430 may generate an encoded spectral coefficient by performing encoding on the low band signal. Also, the low frequency encoder 430 may encode information related to energy of the low band signal. According to an embodiment, the low frequency encoder 430 may convert the low band signal into the frequency domain to generate a low frequency spectrum, and quantize the low frequency spectrum to generate quantized spectral coefficients. Modified Discrete Cosine Transform (MDCT) may be used for domain transformation, but is not limited thereto. PVQ (Pyramid Vector Quantization) may be used for quantization, but is not limited thereto.
고주파 부호화부(450)는 고대역 신호에 대하여 부호화를 수행하여 디코더단에서의 대역폭 확장에 필요한 파라미터 혹은 비트할당에 필요한 파라미터를 생성할 수 있다. 대역폭 확장에 필요한 파라미터는 고대역 신호의 에너지와 관련된 정보와 부가정보를 포함할 수 있다. 여기서, 에너지는 엔벨로프, 스케일 팩터, 평균 전력 혹은 Norm 으로 표현될 수 있다. 부가정보는 고대역에서 중요한 주파수 성분을 포함하는 밴드에 대한 정보로서, 특정 고주파 밴드에 포함된 주파수 성분과 관련된 정보일 수 있다. 고주파 부호화부(450)는 고대역신호를 주파수 도메인으로 변환하여 고주파 스펙트럼을 생성하고, 고주파 스펙트럼의 에너지와 관련된 정보를 양자화할 수 있다. 도메인 변환을 위하여 MDCT를 사용할 수 있으나 이에 한정되는 것은 아니다. 양자화를 위하여 벡터 양자화를 사용할 수 있으나 이에 한정되는 것은 아니다.The high frequency encoder 450 may perform encoding on the high band signal to generate a parameter for bandwidth extension or a parameter for bit allocation in the decoder. Parameters required for bandwidth extension may include information related to energy of the high band signal and additional information. Here, energy may be expressed as an envelope, scale factor, average power or Norm. The additional information is information about a band including an important frequency component in a high band, and may be information related to a frequency component included in a specific high frequency band. The high frequency encoder 450 may generate a high frequency spectrum by converting a high band signal into a frequency domain, and may quantize information related to energy of the high frequency spectrum. MDCT may be used for domain conversion, but is not limited thereto. Vector quantization may be used for quantization, but is not limited thereto.
다중화부(470)는 BWE 파라미터 즉, 여기 클래스, 대역폭 확장에 필요한 파라미터 혹은 비트할당에 필요한 파라미터 및 저대역의 부호화된 스펙트럼 계수를 포함하여 비트스트림을 생성할 수 있다. 비트스트림은 전송되거나 저장될 수 있다.The multiplexer 470 may generate a bitstream including a BWE parameter, that is, an excitation class, a parameter for bandwidth extension or a parameter for bit allocation, and a coded spectral coefficient of a low band. The bitstream can be transmitted or stored.
주파수 도메인의 BWE 방식은 시간 도메인 코딩 파트와 결합되어 적용될 수 있다. 시간 도메인 코딩에는 주로 CELP 방식이 사용될 수 있으며, CELP 방식으로 저대역을 코딩하고, 주파수 도메인에서의 BWE가 아닌 시간 도메인에서의 BWE 방식과 결합되도록 구현될 수 있다. 이러한 경우, 전체적으로 시간 도메인 코딩과 주파수 도메인 코딩간의 적응적 코딩 방식 결정에 기반하여 코딩 방식을 선택적으로 적용할 수 있게 된다. 적절한 코딩 방식을 선택하기 위해서 신호분류를 필요로 하며, 일실시예에 따르면 신호 분류 결과를 우선적으로 이용하여 프레임별 여기 클래스를 결정할 수 있다.The frequency domain BWE scheme may be applied in combination with a time domain coding part. The CELP scheme may be mainly used for time domain coding, and may be implemented to code a low band with the CELP scheme and be combined with the BWE scheme in the time domain rather than the BWE in the frequency domain. In this case, the coding scheme can be selectively applied based on the adaptive coding scheme determination between the time domain coding and the frequency domain coding as a whole. Signal classification is required in order to select an appropriate coding scheme, and according to an embodiment, the excitation class for each frame may be determined by using the signal classification result first.
도 5는 일실시예에 따른 BWE 파라미터 생성부(도 4의 410)의 구성을 나타낸 블럭도로서, 신호분류부(510) 및 여기 클래스 생성부(530)를 포함할 수 있다.FIG. 5 is a block diagram illustrating a configuration of the BWE parameter generator 410 of FIG. 4, and may include a signal classifier 510 and an excitation class generator 530.
도 5를 참조하면, 신호분류부(510)는 신호특성을 프레임 단위로 분석하여 현재 프레임이 음성신호인지 여부를 분류하고, 분류결과에 따라서 여기 클래스를 결정할 수 있다. 신호분류 처리는 공지된 다양한 방법, 예를 들어 단구간 특성 및/또는 장구간 특성을 이용하여 수행될 수 있다. 단구간 특성 및/또는 장구간 특성은 주파수 도메인 특성 혹은 시간 도메인 특성일 수 있다. 현재 프레임이 시간 도메인 코딩이 적절한 방식인 음성신호로 분류되는 경우, 고대역 신호의 특성에 기반한 방식보다, 고정된 형태의 여기 클래스를 할당하는 방식이 음질 향상에 도움이 될 수 있다. 여기서, 신호분류 처리는 이전 프레임의 분류 결과를 고려하지 않고 현재 프레임에 대하여 수행될 수 있다. 즉, 비록 현재 프레임이 행 오버를 고려하여 최종적으로는 주파수 도메인 코딩으로 결정될 수 있지만, 현재 프레임 자체가 시간 도메인 코딩이 적절한 방식이라고 분류된 경우에는 고정된 여기 클래스를 할당할 수 있다. 예를 들어, 현재 프레임이 시간 도메인 코딩이 적절할 음성신호로 분류되는 경우 여기 클래스는 음성 특성과 관련된 제1 여기 클래스로 설정될 수 있다.Referring to FIG. 5, the signal classifier 510 may analyze signal characteristics on a frame basis to classify whether a current frame is a voice signal and determine an excitation class according to the classification result. Signal classification processing can be performed using various known methods, for example, short-term and / or long-term characteristics. The short term characteristic and / or long term characteristic may be a frequency domain characteristic or a time domain characteristic. When the current frame is classified as a speech signal in which time domain coding is appropriate, a method of allocating a fixed type of excitation class may help to improve sound quality, rather than a method based on a characteristic of a high band signal. Here, the signal classification process may be performed on the current frame without considering the classification result of the previous frame. That is, although the current frame may finally be determined by frequency domain coding in consideration of the hangover, when the current frame itself is classified as a time domain coding method, a fixed excitation class may be allocated. For example, if the current frame is classified as a speech signal for which time domain coding is appropriate, the excitation class may be set to a first excitation class related to the speech characteristic.
여기클래스 생성부(530)는 신호분류부(510)의 분류 결과 현재 프레임이 음성신호로 분류되지 않은 경우, 적어도 하나 이상의 문턱치를 이용하여 여기 클래스를 결정할 수 있다. 실시예에 따르면, 여기클래스 생성부(530)는 신호분류부(510)의 분류 결과 현재 프레임이 음성신호로 분류되지 않은 경우, 고대역의 토널러티 값을 산출하고, 토널러티 값을 문턱치와 비교하여 여기 클래스를 결정할 수 있다. 여기 클래스의 개수에 따라서 복수개의 문턱치가 사용될 수 있다. 하나의 문턱치가 사용되는 경우, 토널러티 값이 문턱치보다 큰 경우 토널 뮤직신호로, 토널러티 값이 문턱치보다 작은 경우 넌-토널 뮤직신호, 예를 들면 노이지 신호로 분류할 수 있다. 현재 프레임이 토널 뮤직신호로 분류되는 경우, 여기 클래스는 토널 특성과 관련된 제2 여기 클래스, 노이지 신호로 분류되는 경우 넌-토널특성과 관된 제3 여기 클래스로 결정될 수 있다. When the classification result of the signal classifier 510 does not classify the current frame as a voice signal, the excitation class generator 530 may determine the excitation class using at least one or more thresholds. According to an embodiment, the excitation class generator 530 calculates a high band tonality value when the current frame is not classified as a voice signal as a result of the classification of the signal classifier 510, and thresholds the tonality value. You can determine the class here by comparing with. A plurality of thresholds may be used according to the number of classes here. When one threshold is used, it may be classified as a tonal music signal when the tonality value is greater than the threshold, and a non-tonal music signal, for example a noisy signal, when the tonality value is smaller than the threshold. When the current frame is classified as a tonal music signal, the excitation class may be determined as a second excitation class related to the tonal characteristic and a third excitation class related to the non-tonal characteristic when it is classified as a noisy signal.
도 6은 일실시예에 따른 오디오 복호화장치의 구성을 나타낸 블럭도이다.6 is a block diagram illustrating a configuration of an audio decoding apparatus according to an embodiment.
도 6에 도시된 오디오 복호화장치는 역다중화부(610), BWE 파라미터 복호화부(630), 저주파 복호화부(650) 및 고주파 복호화부(670)를 포함할 수 있다. 도시되지 않았으나, 오디오 복호화장치는 스펙트럼 결합부와 역변환부를 더 포함할 수 있다. 각 구성요소는 적어도 하나의 모듈로 일체화되어 적어도 하나의 프로세서(미도시)로 구현될 수 있다. 여기서, 입력신호는 음악 혹은 음성, 혹은 음악과 음성의 혼합신호를 의미할 수 있으며, 크게 음성신호와 다른 일반적인 신호로 나눌 수도 있다. 이하에서는 설명의 편의를 위하여 오디오 신호로 통칭하기로 한다. The audio decoding apparatus illustrated in FIG. 6 may include a demultiplexer 610, a BWE parameter decoder 630, a low frequency decoder 650, and a high frequency decoder 670. Although not shown, the audio decoding apparatus may further include a spectrum combiner and an inverse transform unit. Each component may be integrated into at least one module and implemented as at least one processor (not shown). Here, the input signal may mean music or voice, or a mixed signal of music and voice, and may be divided into a voice signal and another general signal. Hereinafter, for the convenience of description, the audio signal will be referred to collectively.
도 6을 참조하면, 역다중화부(610)는 수신되는 비트스트림을 파싱하여 복호화에 필요한 파라미터를 생성할 수 있다.Referring to FIG. 6, the demultiplexer 610 may generate a parameter necessary for decoding by parsing a received bitstream.
BWE 파라미터 복호화부(630)는 비트스트림으로부터 BWE 파라미터를 복호화할 수 있다. BWE 파라미터는 여기 클래스에 해당할 수 있다. 한편, BWE 파라미터는 여기 클래스와 다른 파라미터를 포함할 수 있다. The BWE parameter decoder 630 may decode the BWE parameter from the bitstream. The BWE parameter may correspond to a class here. Meanwhile, the BWE parameter may include parameters different from the excitation class.
저주파 복호화부(650)는 비트스트림으로부터 저대역의 부호화된 스펙트럼 계수를 복호화하여 저주파 스펙트럼을 생성할 수 있다. 한편, 저주파 복호화부(650)는 저대역 신호의 에너지와 관련된 정보를 복호화할 수 있다.The low frequency decoder 650 may generate a low frequency spectrum by decoding the encoded spectral coefficients of the low band from the bitstream. Meanwhile, the low frequency decoder 650 may decode information related to energy of the low band signal.
고주파 복호화부(670)는 복호화된 저주파 스펙트럼과 여기 클래스를 이용하여 고주파 여기 스펙트럼을 생성할 수 있다. 다른 실시예에 따르면, 고주파 복호화부(670)는 비트스트림으로부터 대역폭 확장에 필요한 파라미터 혹은 비트할당에 필요한 파라미터를 복호화하고, 대역폭 확장에 필요한 파라미터 혹은 비트할당에 필요한 파라미터와 복호화된 저대역 신호의 에너지와 관련된 정보를 고주파 여기 스펙트럼에 적용할 수 있다.The high frequency decoder 670 may generate a high frequency excitation spectrum by using the decoded low frequency spectrum and the excitation class. According to another embodiment, the high frequency decoder 670 decodes a parameter for bandwidth extension or a parameter for bit allocation from the bitstream, and a parameter for bandwidth extension or a parameter for bit allocation and energy of the decoded low band signal. The information related to can be applied to the high frequency excitation spectrum.
대역폭 확장에 필요한 파라미터는 고대역 신호의 에너지와 관련된 정보와 부가정보를 포함할 수 있다. 부가정보는 고대역에서 중요한 주파수 성분을 포함하는 밴드에 대한 정보로서, 특정 고주파 밴드에 포함된 주파수 성분과 관련된 정보일 수 있다. 고대역 신호의 에너지와 관련된 정보는 벡터 역양자화될 수 있다.Parameters required for bandwidth extension may include information related to energy of the high band signal and additional information. The additional information is information about a band including an important frequency component in a high band, and may be information related to a frequency component included in a specific high frequency band. Information related to the energy of the highband signal may be vector dequantized.
스펙트럼 결합부(미도시)는 저주파 복호화부(650)로부터 제공되는 스펙트럼과 고주파 복호화부(670)로부터 제공되는 스펙트럼을 결합할 수 있다. 역변환부(미도시)는 결합된 스펙트럼을 시간 도메인으로 역변환할 수 있다. 도메인 역변환을 위하여 IMDCT(Inverse MDCT)를 사용할 수 있으나 이에 한정되는 것은 아니다. The spectrum combiner (not shown) may combine the spectrum provided from the low frequency decoder 650 with the spectrum provided from the high frequency decoder 670. The inverse transform unit (not shown) may inversely convert the combined spectrum into the time domain. Inverse MDCT (IMDCT) may be used for domain inverse transformation, but is not limited thereto.
도 7은 일실시예에 따른 고주파 복호화장치의 구성을 나타낸 블록도로서, 도 6의 고주파 복호화부(670)에 대응되거나 별도의 장치로 구현될 수 있다. 도 7의 고주파 복호화장치는 저주파 스펙트럼 변형부(710) 및 고주파 여기스펙트럼 생성부(730)를 포함할 수 있다. 여기서 도시되지 않았으나, 복호화된 저주파 스펙트럼을 수신하는 수신부를 더 포함할 수 있다.7 is a block diagram illustrating a configuration of a high frequency decoding apparatus according to an embodiment, and may correspond to the high frequency decoding unit 670 of FIG. 6 or may be implemented as a separate device. The high frequency decoding apparatus of FIG. 7 may include a low frequency spectrum transform unit 710 and a high frequency excitation spectrum generator 730. Although not shown here, the apparatus may further include a receiver configured to receive the decoded low frequency spectrum.
도 7을 참조하면, 저주파 스펙트럼 변형부(710)는 복호화된 저주파 스펙트럼을 여기 클래스에 근거하여 변형(modify)할 수 있다. 일실시예에 따르면 복호화된 저주파 스펙트럼은 노이즈 필링 처리된 스펙트럼일 수 있다. 다른 실시예에 따르면 복호화된 저주파 스펙트럼은 노이즈 필링 처리된 이후, 제로로 남아 있는 부분에 재차 랜덤 부호와 일정한 크기의 진폭을 갖는 계수를 삽입하는 안티 스파스니스(anti-sparseness) 처리된 스펙트럼일 수 있다.Referring to FIG. 7, the low frequency spectrum modifying unit 710 may modify the decoded low frequency spectrum based on the excitation class. According to an embodiment, the decoded low frequency spectrum may be a noise peeled spectrum. According to another exemplary embodiment, the decoded low frequency spectrum may be an anti-sparseness processed spectrum in which a coefficient having a constant amplitude and a random code is inserted again in the remaining portion after the noise filling process. have.
고주파 여기스펙트럼 생성부(730)는 변형된 저주파 스펙트럼으로부터 고주파 여기스펙트럼을 생성할 수 있다. 추가적으로, 생성된 고주파 여기스펙트럼의 에너지가 역양자화된 에너지에 매칭되도록 생성된 고주파 여기스펙트럼의 에너지에 게인을 적용할 수 있다. The high frequency excitation spectrum generator 730 may generate a high frequency excitation spectrum from the modified low frequency spectrum. Additionally, the gain may be applied to the energy of the generated high frequency excitation spectrum such that the energy of the generated high frequency excitation spectrum matches the dequantized energy.
도 8은 일실시예에 따른 저주파 스펙트럼 변형부(도 7의 710)의 구성을 나타낸 블록도로서, 연산부(810)를 포함할 수 있다.FIG. 8 is a block diagram illustrating a configuration of a low frequency spectrum transform unit 710 of FIG. 7 according to an embodiment, and may include an operation unit 810.
도 8을 참조하면, 연산부(810)는 복호화된 저주파 스펙트럼에 대하여 여기클래스에 근거하여 소정의 연산처리를 수행하여 변형된 저주파 스펙트럼을 생성할 수 있다. 여기서, 복호화된 저주파 스펙트럼은 노이즈 필링 처리된 스펙트럼, 안티 스파스니스 처리된 스펙트럼 혹은 노이즈가 부가되지 않은 역양자화된 저주파 스펙트럼에 해당될 수 있다. 소정의 연산처리는 여기클래스에 따라서 가중치를 결정하고, 복호화된 저주파 스펙트럼과 랜덤 노이즈를 결정된 가중치에 근거하여 혼합하는 처리를 의미할 수 있다. 소정의 연산처리는 승산처리와 가산처리를 포함할 수 있다. 랜덤 노이즈는 공지된 다양한 방식으로 생성될 수 있으며, 일예를 들면 랜덤 씨드(Random seed)를 이용하여 생성될 수 있다. 한편, 연산부(810)는 소정의 연산처리에 앞서 화이트닝된 저주파 스펙트럼과 랜덤 노이즈의 레벨을 유사한 수준으로 매칭시키는 처리를 더 포함할 수 있다.Referring to FIG. 8, the calculator 810 may generate a modified low frequency spectrum by performing a predetermined operation on the decoded low frequency spectrum based on an excitation class. Here, the decoded low frequency spectrum may correspond to a noise peeled spectrum, an anti-sparse processed spectrum, or an inverse quantized low frequency spectrum without adding noise. The predetermined operation may be a process of determining a weight according to an excitation class and mixing the decoded low frequency spectrum and random noise based on the determined weight. The predetermined calculation process may include a multiplication process and an addition process. Random noise may be generated in a variety of known manners, for example, may be generated using a random seed. Meanwhile, the operation unit 810 may further include a process of matching the whitened low frequency spectrum and the level of the random noise to a similar level prior to a predetermined operation processing.
도 9는 다른 실시예에 따른 저주파 스펙트럼 변형부(도 7의 710)의 구성을 나타낸 블럭도 로서, 화이트닝부(910), 연산부(930) 및 레벨 조정부(950)를 포함할 수 있다. 여기서, 레벨 조정부(950)는 옵션으로 구비될 수 있다. FIG. 9 is a block diagram illustrating a configuration of a low frequency spectrum transform unit 710 of FIG. 7 according to another embodiment, and may include a whitening unit 910, an operation unit 930, and a level adjustment unit 950. Here, the level adjusting unit 950 may be provided as an option.
도 9를 참조하면, 화이트닝부(910)는 복호화된 저주파 스펙트럼에 대하여 화이트닝을 수행할 수 있다. 여기서, 복호화된 저주파 스펙트럼에 제로로 남아 있는 부분은 노이즈 필링 처리 혹은 안티 스파스니스 처리에 의해 노이즈가 부가될 수 있다. 노이즈 부가는 서브밴드 단위로 선택적으로 수행될 수 있다. 화이트닝 처리는 저주파 스펙트럼의 엔벨로프 정보에 근거하여 정규화를 수행하는 것으로서, 공지된 다양한 방식을 적용할 수 있다. 구체적으로, 정규화 처리는 저주파 스펙트럼으로부터 엔벨로프를 산출하고, 저주파 스펙트럼을 엔벨로프로 나누는 것에 해당될 수 있다. 화이트닝 처리는 스펙트럼의 형태는 플랫하지만, 내부 주파수의 미세 구조(fine structure)는 유지되도록 수행될 수 있다. 한편, 정규화 처리를 위한 윈도우 사이즈는 신호 특성에 따라서 결정될 수 있다.Referring to FIG. 9, the whitening unit 910 may perform whitening on the decoded low frequency spectrum. Here, the noise remaining in the portion of the decoded low frequency spectrum to zero may be added by the noise filling process or the anti sparse process. The noise addition may be selectively performed in units of subbands. The whitening process performs normalization based on envelope information of a low frequency spectrum, and various known methods can be applied. Specifically, the normalization process may correspond to calculating an envelope from the low frequency spectrum and dividing the low frequency spectrum by the envelope. The whitening process can be performed so that the shape of the spectrum is flat but the fine structure of the internal frequency is maintained. On the other hand, the window size for normalization processing may be determined according to the signal characteristics.
연산부(930)는 화이트닝된 저주파 스펙트럼에 대하여 여기클래스에 근거하여 소정의 연산처리를 수행하여 변형된 저주파 스펙트럼을 생성할 수 있다. 소정의 연산처리는 여기클래스에 따라서 가중치를 결정하고, 화이트닝된 저주파 스펙트럼과 랜덤 노이즈를 결정된 가중치에 근거하여 혼합하는 처리를 의미할 수 있다. 연산부(930)는 도 8의 연산부(810)와 동일하게 동작할 수 있다.The calculation unit 930 may generate a modified low frequency spectrum by performing a predetermined operation on the whitened low frequency spectrum based on the excitation class. The predetermined operation may be a process of determining a weight according to an excitation class and mixing the whitened low frequency spectrum and random noise based on the determined weight. The calculator 930 may operate in the same manner as the calculator 810 of FIG. 8.
도 10은 다른 실시예에 따른 저주파 스펙트럼 변형부(도 7의 710)의 구성을 나타낸 블럭도 로서, 다이나믹 레인지 제어부(1010)를 포함할 수 있다.FIG. 10 is a block diagram illustrating a configuration of a low frequency spectrum modifying unit 710 of FIG. 7 according to another exemplary embodiment, and may include a dynamic range controller 1010.
도 10을 참조하면, 다이나믹 레인지 제어부(1010)는 복호화된 저주파 스펙트럼의 다이나믹 레인지를 여기 클래스에 근거하여 제어하여 변형된 저주파 스펙트럼을 생성할 수 있다. 여기서, 다이나믹 레인지를 스펙트럼 진폭을 의미할 수 있다.Referring to FIG. 10, the dynamic range controller 1010 may generate the modified low frequency spectrum by controlling the dynamic range of the decoded low frequency spectrum based on the excitation class. Here, the dynamic range may mean spectral amplitude.
도 11은 다른 실시예에 따른 저주파 스펙트럼 변형부(도 7의 710)의 구성을 나타낸 블럭도로서, 화이트닝부(1110) 및 다이나믹 레인지 제어부(1130)를 포함할 수 있다. FIG. 11 is a block diagram illustrating a configuration of a low frequency spectrum modifying unit 710 of FIG. 7 according to another exemplary embodiment, and may include a whitening unit 1110 and a dynamic range control unit 1130.
도 11을 참조하면, 화이트닝부(1110)는 도 9의 화이트닝부(910)와 동일하게 동작할 수 있다. 즉, 화이트닝부(1110)는 복호화된 저주파 스펙트럼에 대하여 화이트닝을 수행할 수 있다. 여기서, 복호화된 저주파 스펙트럼에 제로로 남아 있는 부분은 노이즈 필링 처리 혹은 안티 스파스니스 처리에 의해 노이즈가 부가될 수 있다. 노이즈 부가는 서브밴드 단위로 선택적으로 수행될 수 있다. 화이트닝 처리는 저주파 스펙트럼의 엔벨로프 정보에 근거하여 정규화를 수행하는 것으로서, 공지된 다양한 방식을 적용할 수 있다. 구체적으로, 정규화 처리는 저주파 스펙트럼으로부터 엔벨로프를 산출하고, 저주파 스펙트럼을 엔벨로프로 나누는 것에 해당될 수 있다. 화이트닝 처리는 스펙트럼의 형태는 플랫하지만, 내부 주파수의 미세 구조(fine structure)는 유지되도록 수행될 수 있다. 한편, 정규화 처리를 위한 윈도우 사이즈는 신호 특성에 따라서 결정될 수 있다.Referring to FIG. 11, the whitening unit 1110 may operate in the same manner as the whitening unit 910 of FIG. 9. That is, the whitening unit 1110 may perform whitening on the decoded low frequency spectrum. Here, the noise remaining in the portion of the decoded low frequency spectrum to zero may be added by the noise filling process or the anti sparse process. The noise addition may be selectively performed in units of subbands. The whitening process performs normalization based on envelope information of a low frequency spectrum, and various known methods can be applied. Specifically, the normalization process may correspond to calculating an envelope from the low frequency spectrum and dividing the low frequency spectrum by the envelope. The whitening process can be performed so that the shape of the spectrum is flat but the fine structure of the internal frequency is maintained. On the other hand, the window size for normalization processing may be determined according to the signal characteristics.
다이나믹 레인지 제어부(1130)는 화이트닝된 저주파 스펙트럼의 다이나믹 레인지를 여기 클래스에 근거하여 제어하여 변형된 저주파 스펙트럼을 생성할 수 있다. The dynamic range controller 1130 may generate the modified low frequency spectrum by controlling the dynamic range of the whitened low frequency spectrum based on the excitation class.
도 12는 일실시예에 따른 다이나믹 레인지 제어부(도 11의 1110)의 구성을 나타낸 블록도로서, 부호 분리부(1210), 제어파라미터 결정부(1230), 진폭 조절부(1250), 랜덤 부호 생성부(1270) 및 부호적용부(1290)를 포함할 수 있다. 여기서, 랜덤 부호 생성부(127)는 부호적용부(129)와 일체화될 수 있다. 12 is a block diagram illustrating a configuration of a dynamic range control unit 1110 of FIG. 11, and includes a code separator 1210, a control parameter determiner 1230, an amplitude adjuster 1250, and a random code generation. The unit 1270 and the code applying unit 1290 may be included. Here, the random code generation unit 127 may be integrated with the code application unit 129.
도 12를 참조하면, 부호 분리부(1210)는 복호화된 저주파 스펙트럼으로부터 부호를 제거하여 진폭 즉, 절대값 스펙트럼을 생성할 수 있다.Referring to FIG. 12, the code separator 1210 may generate an amplitude, that is, an absolute value spectrum by removing a code from the decoded low frequency spectrum.
제어파라미터 결정부(1230)는 여기 클래스에 근거하여 제어파라미터를 결정할 수 있다. 여기 클래스는 토널 특성 혹은 플랫 특성과 관련있는 정보이기 때문에, 여기 클래스에 근거하여 절대값 스펙트럼의 진폭을 조절할 수 있는 제어파라미터를 결정할 수 있다. 절대값 스펙트럼의 진폭은 다이나믹 레인지 혹은 피크-밸리 간격으로 나타낼 수 있다. 일실시예에 따르면, 제어파라미터 결정부(1130)는 여기 클래스에 대응하여 서로 다른 값의 제어 파라미터를 결정할 수 있다. 예를 들어, 음성 특성과 관련된 여기 클래스인 경우에는 0.2, 토널 특성과 관련된 여기 클래스인 경우에는 0.05, 노이지 특성과 관련된 여기 클래스인 경우에는 0.8을 제어파라미터로 할당할 수 있다. 이에 따르면, 고주파 대역에서 노이즈 특성을 갖는 프레임의 경우, 진폭 조절 정도를 크게 할 수 있다.The control parameter determiner 1230 may determine the control parameter based on the excitation class. Since the excitation class is information related to the tonal or flat characteristics, it is possible to determine the control parameter that can adjust the amplitude of the absolute value spectrum based on the excitation class. The amplitude of the absolute value spectrum can be expressed as a dynamic range or peak-valley interval. According to an embodiment, the control parameter determiner 1130 may determine control parameters having different values corresponding to the excitation class. For example, 0.2 for an excitation class related to a voice characteristic, 0.05 for an excitation class related to a tonal characteristic, and 0.8 for an excitation class related to a noisy characteristic may be allocated as control parameters. According to this, in the case of a frame having noise characteristics in the high frequency band, the amplitude adjustment degree can be increased.
진폭 조절부(1250)는 제어파라미터 결정부(1230)에서 결정된 제어파라미터에 근거하여 저주파 스펙트럼의 진폭 즉, 다이나믹 레인지를 조절할 수 있다. 이때, 제어파라미터의 값이 클수록 다이나믹 레인지를 더 많이 조절하게 된다. 일실시예에 따르면, 원래의 절대값 스펙트럼에 소정 크기의 진폭을 가감으로써 다이나믹 레인지를 조절할 수 있다. 소정 크기의 진폭은 절대값 스펙트럼의 특정 밴드의 각 주파수 빈의 진폭과 해당 밴드의 평균 진폭간 차이값에 대하여 제어파라미터를 곱한 값에 해당할 수 있다. 진폭 조절부(1250)는 저주파 스펙트럼을 동일한 크기의 밴드로 구성하여 처리할 수 있다. 일실시예에 따르면 각 밴드에 16개의 스펙트럼 계수가 포함되도록 구성할 수 있다. 각 밴드별로 평균 진폭이 산출되고, 각 밴드에 포함된 각 주파수 빈의 진폭이 각 밴드의 평균 진폭과 제어 파라미터에 근거하여 조절될 수 있다. 일예를 들면, 밴드의 평균 진폭보다 큰 진폭을 갖는 주파수 빈은 그 진폭을 감소시키고, 밴드의 평균 진폭보다 작은 진폭을 갖는 주파수 빈은 그 진폭을 증가시키는 것을 의미할 수 있다. 이때, 다이나믹 레인지의 조절 정도는 여기 클래스에 따라서 달라질 수 있다. 구체적으로, 다이나믹 레인지 제어는 하기 수학식 1에 따라서 수행될 수 있다.The amplitude adjuster 1250 may adjust the amplitude of the low frequency spectrum, that is, the dynamic range, based on the control parameter determined by the control parameter determiner 1230. In this case, the larger the value of the control parameter, the more the dynamic range is adjusted. According to one embodiment, the dynamic range can be adjusted by adding an amplitude of a predetermined magnitude to the original absolute value spectrum. The amplitude of the predetermined magnitude may correspond to a value obtained by multiplying a control parameter with respect to a difference value between an amplitude of each frequency bin of a specific band of the absolute value spectrum and an average amplitude of the corresponding band. The amplitude adjusting unit 1250 may process the low frequency spectrum by configuring a band having the same size. According to an embodiment, each band may include 16 spectral coefficients. The average amplitude is calculated for each band, and the amplitude of each frequency bin included in each band may be adjusted based on the average amplitude and control parameter of each band. For example, a frequency bin having an amplitude greater than the average amplitude of the band may mean decreasing its amplitude, and a frequency bin having an amplitude less than the average amplitude of the band may mean increasing its amplitude. At this time, the degree of adjustment of the dynamic range may vary depending on the excitation class. Specifically, the dynamic range control may be performed according to Equation 1 below.
수학식 1
Figure PCTKR2015002045-appb-M000001
Equation 1
Figure PCTKR2015002045-appb-M000001
여기서, S'[i]는 주파수 빈 i의 다이나믹 레인지가 제어된 진폭, S[i]는 주파수 빈 i의 진폭, m[k]는 주파수 빈 i가 속해있는 밴드의 평균 진폭, a는 제어파라미터를 각각 나타낸다. 일실시예에 따르면, 각 진폭은 절대값을 나타낼 수 있다. 이에 따르면, 다이나믹 레인지 제어는 밴드의 스펙트럼 계수 즉, 주파수 빈 단위로 수행될 수 있다. 평균 진폭은 밴드 단위로 산출되고, 제어 파라미터는 프레임 단위로 적용될 수 있다.Where S '[i] is the controlled amplitude of the frequency range i, S [i] is the amplitude of the frequency bin i, m [k] is the average amplitude of the band to which the frequency bin i belongs, and a is the control parameter. Respectively. According to one embodiment, each amplitude may represent an absolute value. According to this, the dynamic range control may be performed in the spectral coefficient of the band, that is, the frequency bin. The average amplitude is calculated in bands, and the control parameter may be applied in units of frames.
한편, 각 밴드는 트랜스포지션이 수행될 시작 주파수를 기준으로 구성할 수 있다. 일예를 들면, 각 밴드는 트랜스포지션 주파수 빈 2에서부터 시작하면서 16개의 주파수 빈을 포함하도록 구성할 수 있다. 구체적으로 SWB인 경우, 24.4 kbps에서는 주파수 빈 145에서 끝나면서 9개의 밴드가 존재하고, 32 kbps에서는 주파수 빈 129에서 끝나면서 8개의 밴드가 존재할 수 있다. FB인 경우, 24.4 kbps에서는 주파수 빈 305에서 끝나면서 19개의 밴드가 존재하고, 32 kbps에서는 주파수 빈 289에서 끝나면서 18개의 밴드가 존재할 수 있다.Meanwhile, each band may be configured based on a start frequency at which the transposition is to be performed. For example, each band may be configured to include 16 frequency bins starting from transposition frequency bin 2. Specifically, in the case of SWB, 9 bands exist at the end of the frequency bin 145 at 24.4 kbps, and 8 bands exist at the end of the frequency bin 129 at 32 kbps. In the case of FB, there are 19 bands ending at the frequency bin 305 at 24.4 kbps, and 18 bands ending at the frequency bin 289 at 32 kbps.
랜덤 부호 생성부(1270)는 여기 클래스에 근거하여 랜덤 부호가 필요하다고 판단된 경우 랜덤 부호를 생성할 수 있다. 랜덤 부호는 프레임 단위로 생성될 수 있다. 일실시예에 따르면, 노이지 특성과 관련된 여기 클래스의 경우 랜덤 부호가 적용될 수 있다.The random code generator 1270 may generate a random code when it is determined that a random code is necessary based on the excitation class. The random code may be generated in units of frames. According to an embodiment, a random code may be applied to an excitation class related to a noisy characteristic.
부호적용부(1290)는 다이나믹 레인지가 조절된 저주파 스펙트럼에 대하여 랜덤 부호 혹은 원래의 부호 중 하나를 적용하여 변형된 저주파 스펙트럼을 생성할 수 있다. 여기서, 원래의 부호는 부호 분리부(1210)에서 제거된 부호를 사용할 수 있다. 일실시예에 따르면, 노이지 특성과 관련된 여기 클래스의 경우 랜덤 부호를, 토널 특성과 관련된 여기 클래스 혹은 음성 특성과 관련된 여기 클래스의 경우 원래의 부호를 적용할 수 있다. 구체적으로, 노이지하다고 판단된 프레임의 경우 랜덤 부호를, 토널한다고 판단된 프레임 혹은 음성신호로 판단된 프레임의 경우 원래의 부호를 적용할 수 있다.The code applying unit 1290 may generate a modified low frequency spectrum by applying one of a random code or an original code to the low frequency spectrum of which the dynamic range is adjusted. Here, the original code may use the code removed by the code separator 1210. According to an embodiment, a random code may be applied to the excitation class related to the noisy characteristic, and an original code may be applied to the excitation class related to the tonal characteristic or the excitation class related to the voice characteristic. Specifically, a random code may be applied to a frame determined to be noisy, and an original code may be applied to a frame determined to be tonal or a frame determined to be a voice signal.
도 13은 일실시예에 따른 고주파 여기스펙트럼 생성부(도 7의 730)의 구성을 나타낸 블럭도로서, 스펙트럼 패칭부(1310) 및 스펙트럼 조절부(1330)를 포함할 수 있다. 여기서, 스펙트럼 조절부(1330)는 옵션으로 구비될 수 있다.FIG. 13 is a block diagram illustrating a configuration of the high frequency excitation spectrum generator 730 of FIG. 7 according to an embodiment, and may include a spectrum patching unit 1310 and a spectrum adjusting unit 1330. Here, the spectrum adjusting unit 1330 may be provided as an option.
도 13을 참조하면, 스펙트럼 패칭부(1310)는 변형된 저주파 스펙트럼을 고대역으로 패칭, 예를 들면 전사, 복사, 미러링 혹은 폴딩하여 비어있는 고대역에 스펙트럼을 채울 수 있다. 실시예에 따르면, 소스 대역인 50~3250 Hz 에 있는 변형된 스펙트럼을 8000~11200 Hz 대역에 복사하고, 동일한 소스 대역인 50~3250 Hz에 있는 변형된 스펙트럼을 11200Hz~14400 Hz 대역에 복사하고, 소스 대역인 2000~3600Hz에 있는 변형된 스펙트럼을 14400~16000 Hz 대역에 복사할 수 있다. 이와 같은 과정을 통해 변형된 저주파 스펙트럼으로부터 고주파 여기 스펙트럼이 생성될 수 있다. Referring to FIG. 13, the spectral patching unit 1310 may fill a spectrum in an empty high band by patching, for example, transferring, copying, mirroring, or folding the modified low frequency spectrum into a high band. According to an embodiment, the modified spectrum in the source band 50 to 3250 Hz is copied into the 8000 to 11200 Hz band, the modified spectrum in the same source band 50 to 3250 Hz is copied into the 11200 Hz to 14400 Hz band, You can copy the modified spectrum in the source band 2000-3600 Hz into the 14400-16000 Hz band. Through this process, a high frequency excitation spectrum can be generated from the modified low frequency spectrum.
스펙트럼 조절부(1330)는 스펙트럼 패칭부(1310)에서 수행된 패칭된 밴드간의 경계에서 스펙트럼의 불연속을 해결하기 위해서 스펙트럼 패칭부(1310)로부터 제공되는 고주파 여기 스펙트럼을 조절할 수 있다. 실시예에 따르면, 스펙트럼 패칭부(1310)로부터 제공되는 고주파 여기 스펙트럼의 경계 위치 주변의 스펙트럼들을 활용할 수 있다. The spectrum adjuster 1330 may adjust the high frequency excitation spectrum provided from the spectrum patcher 1310 to solve the discontinuity of the spectrum at the boundary between the patched bands performed by the spectrum patcher 1310. According to an embodiment, the spectrums around the boundary position of the high frequency excitation spectrum provided from the spectrum patching unit 1310 may be utilized.
이와 같이 생성된 고주파 여기 스펙트럼 혹은 조절된 고주파 여기 스펙트럼과 복호화된 저주파 스펙트럼은 결합되고, 결합된 스펙트럼은 역변환과정을 통하여 시간 도메인 신호로 생성될 수 있다. 고주파 여기 스펙트럼과 복호화된 저주파 스펙트럼 각각에 대하여 미리 역변환과정이 수행된 다음 결합될 수도 있다. 한편, 역변환과정에는 IMDCT(Inverse Modified Discrete Cosine Transform)가 적용될 수 있으나 이에 한정되는 것은 아니다. The generated high frequency excitation spectrum or the adjusted high frequency excitation spectrum and the decoded low frequency spectrum may be combined, and the combined spectrum may be generated as a time domain signal through an inverse transformation process. An inverse transform process may be performed on each of the high frequency excitation spectrum and the decoded low frequency spectrum beforehand and then combined. On the other hand, an inverse modified discrete cosine transform (IMDCT) may be applied to the inverse transformation process, but is not limited thereto.
스펙트럼 결합과정에서 주파수 대역이 겹치는 부분에 대하여 오버랩애드 처리를 통해서 복원할 수 있다. 또는 스펙트럼 결합과정에서 주파수 대역이 겹치는 부분에 대하여 비트스트림을 통하여 전송된 정보를 기반으로 복원할 수 있다. 혹은, 수신측의 환경에 따라서 오버랩애드 처리 혹은 전송된 정보에 기반한 처리가 선택적으로 적용되거나, 가중치에 근거하여 복원할 수 있다. In the spectral combining process, the overlapped frequency bands may be restored through overlap add processing. Alternatively, in the spectral combining process, the portion of the frequency band overlap may be restored based on the information transmitted through the bitstream. Alternatively, the overlap add process or the process based on the transmitted information may be selectively applied according to the environment of the receiver, or may be restored based on the weight.
도 14는 밴드 경계에서 가중치에 대한 스무딩 처리를 설명하기 위한 도면이다. 도 14를 참조하면, K+2 밴드의 가중치와 K+1 밴드의 가중치가 서로 다르기 때문에, 밴드 경계에서 스무딩을 수행할 필요가 있다. 도 14의 예에서는 K+1 밴드는 스무딩을 수행하지 않고, K+2 밴드에서만 스무딩을 수행하게 된다. 그 이유는 K+1 밴드에서의 가중치(Ws(K+1))가 0이기 때문에 K+1 밴드에서 스무딩을 수행하게 되면 K+1 밴드에서의 가중치(Ws(K+1))가 0이 아닌 값을 갖게 되어 K+1 밴드에서 랜덤 노이즈까지 고려해야 하기 때문이다. 즉, 가중치가 0이라는 것은 해당 밴드에서는 고주파 여기스펙트럼 생성시 랜덤 노이즈를 고려하지 않는다는 것을 나타낸다. 이는 극단적인 토널신호일 경우에 해당되며, 랜덤 노이즈로 인하여 하모닉 신호의 밸리 구간에 노이즈가 삽입되어 잡음이 발생되는 것을 막기 위한 것이다.14 is a diagram for explaining a smoothing process on a weight at a band boundary. Referring to FIG. 14, since the weights of the K + 2 bands and the weights of the K + 1 bands are different from each other, it is necessary to perform smoothing at the band boundary. In the example of FIG. 14, the K + 1 band does not perform smoothing, but performs smoothing only in the K + 2 band. The reason is that the weight in the K + 1 band (Ws (K + 1)) is 0, so when smoothing in the K + 1 band, the weight in the K + 1 band (Ws (K + 1)) is 0. This is because it has a non-value and must consider random noise in the K + 1 band. That is, a weight of 0 indicates that the band does not consider random noise when generating high frequency excitation spectrum. This is the case of an extreme tonal signal and is intended to prevent noise from being inserted into the valley section of the harmonic signal due to random noise.
다음, 고주파 에너지를 저주파 에너지 전송 방식과는 다른 방식으로 예를 들어 VQ와 같은 방식을 적용하게 되면, 저주파 에너지는 스칼라 양자화후 무손실 부호화를 사용해서 전송하게 되고, 고주파 에너지는 다른 방식으로 양자화를 수행하여 전송될 수 있다. 이와 같이 처리하는 경우, 저주파수 코딩 영역(R0)의 마지막 밴드와 BWE 영역(R1)의 시작 밴드를 오버래핑하는 방식으로 구성할 수 있다. 또한 BWE 영역(R1)의 밴드 구성은 다른 방식으로 구성하여 좀더 조밀한 밴드 할당 구조를 가질 수 있다.Next, when high frequency energy is applied in a manner different from that of low frequency energy transmission, for example, VQ, low frequency energy is transmitted using a lossless coding after scalar quantization, and high frequency energy is quantized in a different manner. Can be sent. In this case, the processing can be configured in such a manner that the last band of the low frequency coding region R0 and the start band of the BWE region R1 are overlapped. In addition, the band configuration of the BWE region R1 may be configured in another manner to have a more compact band allocation structure.
예를 들어, 저주파수 코딩 영역(R0)의 마지막 밴드는 8.2kHz까지 구성되고, BWE 영역(R1)의 시작 밴드는 8kHz부터 시작하도록 구성할 수 있다. 이 경우 저주파수 코딩 영역(R0)과 BWE 영역(R1)간에 오버랩핑 영역이 발생된다. 그 결과 오버랩핑 영역에는 두개의 복호화된 스펙트럼을 생성할 수 있다. 하나는 저주파 복호화 방식을 적용하여 생성한 스펙트럼이고, 다른 하나는 고주파 복호화 방식으로 생성한 스펙트럼이다. 두가지 스펙트럼 즉, 저주파 스펙트럼과 고주파 스펙트럼간의 천이(transition)가 보다 스무딩되도록 오버랩 애드(overlap add) 방식을 적용할 수 있다. 예를 들면, 두가지 스펙트럼을 동시에 활용하면서, 오버래핑된 영역 중 저주파수쪽에 가까운 스펙트럼은 저주파 방식으로 생성된 스펙트럼의 기여분을 높이고, 고주파수쪽에 가까운 스펙트럼은 고주파 방식으로 생성된 스펙트럼의 기여분을 높여서 오버래핑된 영역을 재구성할 수 있다.For example, the last band of the low frequency coding region R0 may be configured to 8.2 kHz, and the start band of the BWE region R1 may be configured to start from 8 kHz. In this case, an overlapping region is generated between the low frequency coding region R0 and the BWE region R1. As a result, two decoded spectra can be generated in the overlapping region. One is a spectrum generated by applying a low frequency decoding method, and the other is a spectrum generated by a high frequency decoding method. An overlap add method may be applied to smooth the transition between the two spectra, that is, the low frequency spectrum and the high frequency spectrum. For example, while utilizing two spectra simultaneously, the spectrum closer to the low frequency of the overlapped region increases the contribution of the spectrum generated by the low frequency method, and the spectrum close to the high frequency side increases the contribution of the spectrum generated by the high frequency method to the overlapped region. Can be reconfigured.
예를 들어, 저주파수 코딩 영역(R0)의 마지막 밴드는 8.2kHz까지, BWE 영역(R1)의 시작 밴드는 8kHz부터 시작하는 경우, 32 kHz 샘플링 레이트로 640 샘플의 스펙트럼을 구성하게 되면 320~327까지 8개의 스펙트럼이 오버랩되며, 8개의 스펙트럼에 대해서는 다음 수학식 2에서와 같이 생성할 수 있다.For example, when the last band of the low frequency coding region R0 is 8.2 kHz, and the start band of the BWE region R1 starts at 8 kHz, when the spectrum of 640 samples is composed at a 32 kHz sampling rate, it is 320 to 327. Eight spectra overlap, and eight spectra may be generated as in Equation 2 below.
수학식 2
Figure PCTKR2015002045-appb-M000002
Equation 2
Figure PCTKR2015002045-appb-M000002
여기서,
Figure PCTKR2015002045-appb-I000001
는 저주파 방식으로 복호화된 스펙트럼,
Figure PCTKR2015002045-appb-I000002
는 고주파 방식으로 복호화된 스펙트럼, L0는 고주파의 시작 스펙트럼 위치, L0~L1은 오버래핑된 영역, w0는 기여분을 각각 나타낸다.
here,
Figure PCTKR2015002045-appb-I000001
Is a spectrum decoded in a low frequency manner,
Figure PCTKR2015002045-appb-I000002
Is a spectrum decoded by a high frequency method, L0 is a starting spectrum position of a high frequency, L0 to L1 are overlapped regions, and w 0 is a contribution.
도 15는 일실시예에 따라 복호화단에서 BWE 처리후 오버래핑 영역에 존재하는 스펙트럼을 재구성하기 위하여 사용되는 기여분을 설명하는 도면이다. FIG. 15 is a diagram for explaining a contribution used to reconstruct a spectrum existing in an overlapping region after a BWE process according to an embodiment.
도 15를 참조하면, wO(k)는 wO0(k)및 wO1(k)를 선택적으로 적용할 수 있는데, wO0(k)는 저주파수와 고주파수의 복호화 방식에 동일한 가중치를 적용하는 것이고, wO1(k)는 고주파수의 복호화 방식에 더 큰 가중치를 가하는 방식이다. 두가지 wO(k)에 대한 선택 기준은 다양하지만, 일예로는 저주파의 오버랩핑 밴드에 펄스가 존재하는지에 대한 유무이다. 저주파의 오버랩핑 밴드에서 펄스가 선택되어 코딩된 경우에는 wO0(k)를 활용하여, 저주파에서 생성한 스펙트럼에 대한 기여분을 L1 근처까지 유효하게 하고, 고주파의 기여분을 감소시키게 된다. 기본적으로 BWE를 통해서 생성된 신호의 스펙트럼보다는 실제 코딩 방식에 의해 생성된 스펙트럼이 원신호와의 근접성 측면에서 더 높을 수 있다. 이를 활용하여 오버랩핑 밴드에서 원신호에 좀더 근접한 스펙트럼의 기여분을 높여주는 방식을 적용할 수 있으며, 따라서 스무딩 효과 및 음질 향상을 도모할 수 있다.Referring to Figure 15, w O (k) it is may be selectively applied to the w O0 (k) and w O1 (k), w O0 (k) is to apply the same weight to the decoding scheme of the low-frequency and high-frequency , w O1 (k) is a method of applying a greater weight to the high frequency decoding method. The selection criteria for the two w O (k) vary, but one example is the presence or absence of a pulse in the low frequency overlapping band. When a pulse is selected and coded in the overlapping band of low frequency, w O0 (k) is utilized to make the contribution to the spectrum generated at low frequency close to L1 and reduce the contribution of high frequency. Basically, the spectrum generated by the actual coding scheme may be higher in terms of proximity to the original signal than the spectrum of the signal generated through the BWE. By using this method, a method of increasing the contribution of the spectrum closer to the original signal in the overlapping band can be applied, thereby improving the smoothing effect and the sound quality.
도 16는 본 발명의 일실시예에 따른 복호화모듈을 포함하는 멀티미디어 기기의 구성을 나타낸 블록도이다.16 is a block diagram showing a configuration of a multimedia device including a decoding module according to an embodiment of the present invention.
도 16에 도시된 멀티미디어 기기(1600)는 통신부(1610)와 복호화모듈(1630)을 포함할 수 있다. 또한, 복호화 결과 얻어지는 복원된 오디오신호의 용도에 따라서, 복원된 오디오신호를 저장하는 저장부(1650)을 더 포함할 수 있다. 또한, 멀티미디어 기기(1600)는 스피커(1670)를 더 포함할 수 있다. 즉, 저장부(1650)와 스피커(1670)는 옵션으로 구비될 수 있다. 한편, 도 16에 도시된 멀티미디어 기기(1600)는 임의의 부호화모듈(미도시), 예를 들면 일반적인 부호화 기능을 수행하는 부호화모듈 혹은 본 발명의 일실시예에 따른 부호화모듈을 더 포함할 수 있다. 여기서, 복호화모듈(1630)은 멀티미디어 기기(1600)에 구비되는 다른 구성요소(미도시)와 함께 일체화되어 적어도 하나의 이상의 프로세서(미도시)로 구현될 수 있다.The multimedia apparatus 1600 illustrated in FIG. 16 may include a communication unit 1610 and a decoding module 1630. In addition, the storage unit 1650 may further include a storage unit 1650 for storing the restored audio signal according to the use of the restored audio signal obtained as a result of the decoding. In addition, the multimedia device 1600 may further include a speaker 1670. That is, the storage 1650 and the speaker 1670 may be provided as an option. Meanwhile, the multimedia apparatus 1600 illustrated in FIG. 16 may further include an arbitrary encoding module (not shown), for example, an encoding module for performing a general encoding function or an encoding module according to an embodiment of the present invention. . Here, the decoding module 1630 may be integrated with other components (not shown) included in the multimedia device 1600 and implemented as at least one or more processors (not shown).
도 16을 참조하면, 통신부(1610)는 외부로부터 제공되는 부호화된 비트스트림과 오디오 신호 중 적어도 하나를 수신하거나 복호화 모듈(1630)의 복호화결과 얻어지는 복원된 오디오 신호와 부호화결과 얻어지는 오디오 비트스트림 중 적어도 하나를 송신할 수 있다. 통신부(1610)는 무선 인터넷, 무선 인트라넷, 무선 전화망, 무선 랜(LAN), 와이파이(Wi-Fi), 와이파이 다이렉트(WFD, Wi-Fi Direct), 3G(Generation), 4G(4 Generation), 블루투스(Bluetooth), 적외선 통신(IrDA, Infrared Data Association), RFID(Radio Frequency Identification), UWB(Ultra WideBand), 지그비(Zigbee), NFC(Near Field Communication)와 같은 무선 네트워크 또는 유선 전화망, 유선 인터넷과 같은 유선 네트워크를 통해 외부의 멀티미디어 기기와 데이터를 송수신할 수 있도록 구성된다.Referring to FIG. 16, the communication unit 1610 receives at least one of an encoded bitstream and an audio signal provided from the outside, or at least one of a reconstructed audio signal obtained as a result of decoding of the decoding module 1630 and an audio bitstream obtained as a result of encoding. You can send one. The communication unit 1610 includes wireless Internet, wireless intranet, wireless telephone network, wireless LAN (LAN), Wi-Fi, Wi-Fi Direct (WFD), 3G (Generation), 4G (4 Generation), and Bluetooth. Wireless networks such as Bluetooth, Infrared Data Association (IrDA), Radio Frequency Identification (RFID), Ultra WideBand (UWB), Zigbee, Near Field Communication (NFC), wired telephone networks, wired Internet It is configured to send and receive data with external multimedia device through wired network.
복호화 모듈(1630)은 일실시예에 따르면, 통신부(1610)를 통하여 제공되는 비트스트림을 수신하고, 비트스트림에 포함된 오디오 스펙트럼에 대하여 복호화를 수행할 수 있다. 복호화처리는 전술한 복호화장치 혹은 후술할 복호화방법을 이용하여 수행될 수 있으나, 이에 한정되는 것은 아니다.According to an embodiment, the decoding module 1630 may receive a bitstream provided through the communication unit 1610 and perform decoding on an audio spectrum included in the bitstream. The decoding process may be performed using the above-described decoding apparatus or a decoding method to be described later, but is not limited thereto.
저장부(1650)는 복호화 모듈(1630)에서 생성되는 복원된 오디오신호를 저장할 수 있다. 한편, 저장부(1650)는 멀티미디어 기기(1600)의 운용에 필요한 다양한 프로그램을 저장할 수 있다.The storage unit 1650 may store the restored audio signal generated by the decoding module 1630. Meanwhile, the storage unit 1650 may store various programs necessary for operating the multimedia apparatus 1600.
스피커(1670)는 복호화 모듈(1630)에서 생성되는 복원된 오디오신호를 외부로 출력할 수 있다.The speaker 1670 may output the restored audio signal generated by the decoding module 1630 to the outside.
도 17은 본 발명의 일실시예에 따른 부호화모듈과 복호화모듈을 포함하는 멀티미디어 기기의 구성을 나타낸 블록도이다.17 is a block diagram illustrating a configuration of a multimedia apparatus including an encoding module and a decoding module according to an embodiment of the present invention.
도 17에 도시된 멀티미디어 기기(1700)는 통신부(1710), 부호화모듈(1720)과 복호화모듈(1730)을 포함할 수 있다. 또한, 부호화 결과 얻어지는 오디오 비트스트림 혹은 복호화 결과 얻어지는 복원된 오디오신호의 용도에 따라서, 오디오 비트스트림 혹은 복원된 오디오신호를 저장하는 저장부(1740)을 더 포함할 수 있다. 또한, 멀티미디어 기기(1700)는 마이크로폰(1750) 혹은 스피커(1760)를 더 포함할 수 있다. 여기서, 부호화모듈(1720)과 복호화모듈(1730)은 멀티미디어 기기(1700)에 구비되는 다른 구성요소(미도시)와 함께 일체화되어 적어도 하나 이상의 프로세서(미도시)로 구현될 수 있다. The multimedia device 1700 illustrated in FIG. 17 may include a communication unit 1710, an encoding module 1720, and a decoding module 1730. In addition, the storage unit 1740 may further include an audio bitstream or a restored audio signal according to a use of the audio bitstream obtained as a result of encoding or the restored audio signal obtained as a result of decoding. In addition, the multimedia device 1700 may further include a microphone 1750 or a speaker 1760. Here, the encoding module 1720 and the decoding module 1730 may be integrated with other components (not shown) included in the multimedia device 1700 to be implemented as at least one processor (not shown).
도 17에 도시된 각 구성요소 중 도 16에 도시된 멀티미디어 기기(1600)와 중복되는 구성요소에 대해서는 그 상세한 설명은 생략하기로 한다.A detailed description of components overlapping with the multimedia apparatus 1600 illustrated in FIG. 16 among the components illustrated in FIG. 17 will be omitted.
부호화모듈(1720)은 일실시예에 따르면, 통신부(1710) 혹은 마이크로폰(1750)을 통하여 제공되는 시간 도메인의 오디오 신호에 대하여 부호화를 수행할 수 있다. 부호화처리는 전술한 부호화장치를 이용하여 수행될 수 있으나, 이에 한정되는 것은 아니다.According to an embodiment, the encoding module 1720 may perform encoding on an audio signal of a time domain provided through the communication unit 1710 or the microphone 1750. The encoding process may be performed using the above-described encoding apparatus, but is not limited thereto.
마이크로폰(1750)은 사용자 혹은 외부의 오디오신호를 부호화모듈(1720)로 제공할 수 있다.The microphone 1750 may provide a user or an external audio signal to the encoding module 1720.
도 16 및 도 17에 도시된 멀티미디어 기기(1600, 1700)에는, 전화, 모바일 폰 등을 포함하는 음성통신 전용단말, TV, MP3 플레이어 등을 포함하는 방송 혹은 음악 전용장치, 혹은 음성통신 전용단말과 방송 혹은 음악 전용장치의 융합 단말장치가 포함될 수 있으나, 이에 한정되는 것은 아니다. 또한, 멀티미디어 기기(1600, 1700)는 클라이언트, 서버 혹은 클라이언트와 서버 사이에 배치되는 변환기로서 사용될 수 있다.16 and 17, the multimedia apparatus 1600 and 1700 include a voice communication terminal including a telephone, a mobile phone, etc., a broadcast or music dedicated apparatus including a TV, an MP3 player, or the like. A fusion terminal device of a broadcast or music dedicated device may be included, but is not limited thereto. In addition, the multimedia device 1600, 1700 may be used as a client, a server, or a transducer disposed between the client and the server.
한편, 멀티미디어 기기(1600, 1700)가 예를 들어 모바일 폰인 경우, 도시되지 않았지만 키패드 등과 같은 유저 입력부, 유저 인터페이스 혹은 모바일 폰에서 처리되는 정보를 디스플레이하는 디스플레이부, 모바일 폰의 전반적인 기능을 제어하는 프로세서를 더 포함할 수 있다. 또한, 모바일 폰은 촬상 기능을 갖는 카메라부와 모바일 폰에서 필요로 하는 기능을 수행하는 적어도 하나 이상의 구성요소를 더 포함할 수 있다.Meanwhile, when the multimedia devices 1600 and 1700 are, for example, mobile phones, although not shown, a user input unit such as a keypad, a display unit for displaying information processed by the user interface or the mobile phone, and a processor for controlling the overall functions of the mobile phone It may further include. In addition, the mobile phone may further include a camera unit having an imaging function and at least one component that performs a function required by the mobile phone.
한편, 멀티미디어 기기(1600, 1700)가 예를 들어 TV인 경우, 도시되지 않았지만 키패드 등과 같은 유저 입력부, 수신된 방송정보를 디스플레이하는 디스플레이부, TV의 전반적인 기능을 제어하는 프로세서를 더 포함할 수 있다. 또한, TV는 TV에서 필요로 하는 기능을 수행하는 적어도 하나 이상의 구성요소를 더 포함할 수 있다.Meanwhile, when the multimedia apparatus 1600 or 1700 is a TV, for example, although not shown, the multimedia apparatus 1600 may further include a user input unit such as a keypad, a display unit for displaying received broadcast information, and a processor for controlling overall functions of the TV. . In addition, the TV may further include at least one or more components that perform a function required by the TV.
도 18은 일실시예에 따른 고주파 복호화방법의 동작을 설명하기 위한 흐름도이다. 도 18에 도시된 방법은 도 6의 고주파 복호화부(670)에서 수행되거나, 별도의 프로세서에 의해 수행될 수 있다.18 is a flowchart illustrating an operation of a high frequency decoding method according to an embodiment. The method illustrated in FIG. 18 may be performed by the high frequency decoder 670 of FIG. 6 or by a separate processor.
도 18을 참조하면, 1810 단계에서는 여기 클래스를 복호화한다. 여기 클래스는 엔코더단에서 생성되어 비트스트림으로 디코더단에 전송될 수 있다. 한편, 여기 클래스는 디코더단에서 별도로 생성하여 사용될 수 있다. 여기 클래스는 프레임 단위로 얻어질 수 있다.Referring to FIG. 18, in step 1810, an excitation class is decoded. The excitation class may be generated at the encoder stage and transmitted to the decoder stage as a bitstream. On the other hand, the excitation class can be generated and used separately in the decoder stage. The class here can be obtained frame by frame.
1830 단계에서는 비트스트림에 포함된 저주파 스펙트럼의 양자화 인덱스로부터 복호화된 저주파 스펙트럼을 수신할 수 있다. 양자화 인덱스는 예를 들면 가장 낮은 주파수 대역 이외에는 대역간 차분 인덱스일 수 있다. 저주파 스펙트럼의 양자화 인덱스는 예를 들면 벡터 역양자화될 수 있다. 벡터 역양자화 방법으로는 Pyramid Vector Quantization (PVQ)를 사용할 수 있으나 이에 한정되는 것은 아니다. 역양자화 결과에 대하여 노이즈 필링 처리가 수행되어 복호화된 저주파 스펙트럼을 생성할 수 있다. 노이즈 필링 처리는 제로로 양자화됨으로써 스펙트럼에 존재하는 갭을 필링하기 위한 것이다. 유사 랜덤 노이즈가 갭에 삽입될 수 있다. 노이즈 필링 처리가 처리되는 주파수 빈 구간은 미리 설정될 수 있다. 갭에 삽입되는 노이즈양은 비트스트림으로 전송되는 파라미터에 의해 제어될 수 있다. 노이즈 필링 처리된 저주파 스펙트럼은 추가적으로 역정규화가 수행될 수 있다. 노이즈 필링 처리된 저주파 스펙트럼에 대해서는 추가적으로 안티 스파스니스 처리(anti-sparseness processing)가 수행될 수 있다. 안티 스파스니스 처리를 위하여, 노이즈 필링 처리된 저주파수 스펙트럼에서 제로로 남아있는 계수 부분에 랜덤 부호와 일정한 크기의 진폭을 갖는 계수가 삽입될 수 있다. 안티 스파스니스 처리된 저주파수 스펙트럼은 추가적으로 저대역의 역양자화된 엔벨로프에 근거하여 에너지가 조절될 수 있다.In operation 1830, the decoded low frequency spectrum may be received from the quantization index of the low frequency spectrum included in the bitstream. The quantization index may be, for example, an interband difference index except for the lowest frequency band. The quantization index of the low frequency spectrum can be vector dequantized, for example. As a vector dequantization method, Pyramid Vector Quantization (PVQ) may be used, but is not limited thereto. A noise peeling process may be performed on the inverse quantization result to generate a decoded low frequency spectrum. The noise filling process is for filling gaps present in the spectrum by quantizing to zero. Pseudo random noise may be inserted in the gap. The frequency bin section in which the noise filling process is processed may be preset. The amount of noise inserted into the gap can be controlled by a parameter transmitted in the bitstream. The low frequency spectrum subjected to the noise filling may be further denormalized. Anti-sparseness processing may be additionally performed on the noise peeled low frequency spectrum. For anti-sparse processing, a coefficient having a random magnitude and a constant amplitude may be inserted into a portion of the coefficient that remains zero in the noise-peeled low frequency spectrum. The anti-sparse low frequency spectrum can additionally be energy adjusted based on the low band dequantized envelope.
1850 단계에서는 복호화된 저주파 스펙트럼을 여기 클래스에 근거하여 변형할 수 있다. 복호화된 저주파 스펙트럼은 역양자화된 스펙트럼, 노이즈 필링 처리된 스펙트럼 혹은 안티 스파스니스 처리된 스펙트럼 중 하나가 될 수 있다. 복호화된 저주파 스펙트럼의 진폭을 여기 클래스에 의하여 조절할 수 있다. 예를 들면, 진폭 감소분을 여기 클래스에 의해 결정할 수 있다.In operation 1850, the decoded low frequency spectrum may be modified based on the excitation class. The decoded low frequency spectrum may be one of an inverse quantized spectrum, a noise peeled spectrum, or an anti-sparse spectrum. The amplitude of the decoded low frequency spectrum can be adjusted by the excitation class. For example, the amplitude reduction can be determined by the excitation class.
1870 단계에서는 변형된 저주파 스펙트럼을 이용하여 고주파 여기 스펙트럼을 생성할 수 있다. 변형된 저주파 스펙트럼을 대역폭 확장을 위하여 필요로 하는 고대역에 패칭하여 고주파 여기 스펙트럼을 생성할 수 있다. 패칭 방법의 예로는 미리 설정된 구간을 고대역에 복사하거나 폴딩하는 방법을 들 수 있다. In operation 1870, a high frequency excitation spectrum may be generated using the modified low frequency spectrum. The modified low frequency spectrum may be patched to a high band required for bandwidth extension to generate a high frequency excitation spectrum. An example of a patching method may be a method of copying or folding a predetermined section in a high band.
도 19는 일실시예에 따른 저주파 스펙트럼 변형방법의 동작을 설명하기 위한 흐름도이다. 도 19에 도시된 방법은 도 18의 1850 단계에 해당하거나, 독립적으로 구현될 수 있다. 한편, 도 19에 도시된 방법은 도 7의 저주파 스펙트럼 변형부(710)에서 수행되거나, 별도의 프로세서에 의해 수행될 수 있다.19 is a flowchart illustrating an operation of a method for modifying low frequency spectrum according to an embodiment. The method illustrated in FIG. 19 may correspond to step 1850 of FIG. 18 or may be independently implemented. Meanwhile, the method illustrated in FIG. 19 may be performed by the low frequency spectrum modifying unit 710 of FIG. 7 or may be performed by a separate processor.
도 19를 참조하면, 1910 단계에서는 여기 클래스에 근거하여 진폭 조절 정도를 결정할 수 있다. 구체적으로, 1910 단계에서는 진폭 조절 정도를 결정하기 위하여 여기 클래스에 근거하여 제어 파라미터를 생성할 수 있다. 실시예에 따르면, 여기 클래스가 음성 특성, 토널 특성 혹은 넌-토널 특성을 나타내는지에 따라서, 제어 파라미터의 값이 결정될 수 있다. Referring to FIG. 19, in step 1910, the degree of amplitude adjustment may be determined based on an excitation class. In detail, in operation 1910, a control parameter may be generated based on the excitation class to determine the degree of amplitude adjustment. According to an embodiment, the value of the control parameter may be determined depending on whether the excitation class represents a voice characteristic, a tonal characteristic or a non-tonal characteristic.
1930 단계에서는 결정된 진폭 조절 정도에 근거하여 저주파 스펙트럼의 진폭을 조절할 수 있다. 여기 클래스가 음성 특성 혹은 토널 특성을 나타내는 경우와 비교하면, 여기 클래스가 넌-토널 특성을 나타내는 경우, 보다 큰 값의 제어 파라미터가 생성되기 때문에 진폭 감소분이 커질 수 있다. 진폭 조절의 예로는 각 주파수 빈의 진폭 예를 들면 Norm 값과 해당 밴드의 평균 Norm값간의 차이를 제어 파라미터로 곱한 값만큼 감소시킬 수 있다.In operation 1930, the amplitude of the low frequency spectrum may be adjusted based on the determined degree of amplitude adjustment. Compared with the case where the excitation class exhibits the voice characteristic or the tonal characteristic, when the excitation class exhibits the non-tonal characteristic, the amplitude reduction can be large because a larger value control parameter is generated. As an example of the amplitude adjustment, the amplitude of each frequency bin, for example, the difference between the Norm value and the average Norm value of the corresponding band may be reduced by the value multiplied by the control parameter.
1950 단계에서는 진폭이 조절된 저주파 스펙트럼에 대하여 부호를 적용할 수 있다. 여기 클래스에 따라서 원래의 부호 혹은 랜덤 부호가 적용될 수 있다. 예를 들면, 여기 클래스가 음성 특성 혹은 토널 특성을 나타내는 경우, 원래의 부호가, 여기 클래스가 넌-토널 특성을 나타내는 경우 랜덤 부호화가 적용될 수 있다.In operation 1950, a sign may be applied to the low frequency spectrum whose amplitude is adjusted. Depending on the class, the original code or a random code may be applied. For example, when the excitation class represents the voice characteristic or the tonal characteristic, random coding may be applied when the original code represents the non-tonal characteristic.
1970 단계에서는 1950 단계에서 부호가 적용된 저주파 스펙트럼을 변형된 저주파수 스펙트럼으로 생성할 수 있다.In operation 1970, the low frequency spectrum to which the sign is applied may be generated as the modified low frequency spectrum in operation 1950.
상기 실시예들에 따른 방법은 컴퓨터에서 실행될 수 있는 프로그램으로 작성가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 또한, 상술한 본 발명의 실시예들에서 사용될 수 있는 데이터 구조, 프로그램 명령, 혹은 데이터 파일은 컴퓨터로 읽을 수 있는 기록매체에 다양한 수단을 통하여 기록될 수 있다. 컴퓨터로 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 저장 장치를 포함할 수 있다. 컴퓨터로 읽을 수 있는 기록매체의 예로는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함될 수 있다. 또한, 컴퓨터로 읽을 수 있는 기록매체는 프로그램 명령, 데이터 구조 등을 지정하는 신호를 전송하는 전송 매체일 수도 있다. 프로그램 명령의 예로는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다.The method according to the embodiments can be written in a computer executable program and can be implemented in a general-purpose digital computer operating the program using a computer readable recording medium. In addition, data structures, program instructions, or data files that can be used in the above-described embodiments of the present invention can be recorded on a computer-readable recording medium through various means. The computer-readable recording medium may include all kinds of storage devices in which data that can be read by a computer system is stored. Examples of computer-readable recording media include magnetic media, such as hard disks, floppy disks, and magnetic tape, optical media such as CD-ROMs, DVDs, floppy disks, and the like. Such as magneto-optical media, and hardware devices specifically configured to store and execute program instructions, such as ROM, RAM, flash memory, and the like. The computer-readable recording medium may also be a transmission medium for transmitting a signal specifying a program command, a data structure, or the like. Examples of program instructions may include high-level language code that can be executed by a computer using an interpreter as well as machine code such as produced by a compiler.
이상과 같이 본 발명의 일실시예는 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명의 일실시예는 상기 설명된 실시예에 한정되는 것은 아니며, 이는 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명의 스코프는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 이의 균등 또는 등가적 변형 모두는 본 발명 기술적 사상의 범주에 속한다고 할 것이다.Although one embodiment of the present invention as described above has been described by a limited embodiment and drawings, one embodiment of the present invention is not limited to the above-described embodiment, which is a general knowledge in the field of the present invention Those having a variety of modifications and variations are possible from these descriptions. Therefore, the scope of the present invention is shown in the claims rather than the foregoing description, and all equivalent or equivalent modifications thereof will be within the scope of the present invention.

Claims (15)

  1. 여기 클래스를 복호화하는 단계;Decrypting the excitation class;
    복호화된 저주파 스펙트럼을 상기 여기 클래스에 근거하여 변형하는 단계; 및 Modifying the decoded low frequency spectrum based on the excitation class; And
    변형된 저주파 스펙트럼에 근거하여 고주파수 여기 스펙트럼을 생성하는 단계를 포함하는 대역폭 확장을 위한 고주파 복호화방법.A high frequency decoding method for bandwidth extension comprising generating a high frequency excitation spectrum based on a modified low frequency spectrum.
  2. 제1 항에 있어서, 상기 여기 클래스는 프레임 단위로 비트스트림에 포함되는 대역폭 확장을 위한 고주파 복호화방법.The high frequency decoding method of claim 1, wherein the excitation class is included in a bitstream in units of frames.
  3. 제1 항에 있어서, 상기 저주파 스펙트럼을 변형하는 단계는 상기 여기 클래스에 근거하여 진폭 조절 정도를 결정하는 고주파 복호화방법.The high frequency decoding method of claim 1, wherein the modifying the low frequency spectrum determines a degree of amplitude adjustment based on the excitation class.
  4. 제1 항에 있어서, 상기 저주파 스펙트럼을 변형하는 단계는 상기 여기 클래스에 근거하여 상기 복호화된 저주파 스펙트럼의 다이나믹 레인지를 조절하는 고주파 복호화방법.The method of claim 1, wherein the modifying the low frequency spectrum adjusts a dynamic range of the decoded low frequency spectrum based on the excitation class.
  5. 제1 항에 있어서, 상기 저주파 스펙트럼을 변형하는 단계는 The method of claim 1, wherein modifying the low frequency spectrum
    상기 여기 클래스에 근거하여 제어 파라미터를 생성하는 단계; 및Generating a control parameter based on the excitation class; And
    상기 제어 파라미터에 근거하여 상기 저주파 스펙트럼의 진폭을 조절하는 단계를 포함하는 고주파 복호화방법.And adjusting the amplitude of the low frequency spectrum based on the control parameter.
  6. 제5 항에 있어서, 상기 저주파 스펙트럼을 변형하는 단계는 상기 복호화된 저주파 스펙트럼을 정규화하는 단계를 더 포함하고, 상기 제어 파라미터에 근거하여 상기 정규화된 저주파 스펙트럼의 진폭을 조절하는 고주파 복호화방법.6. The method of claim 5, wherein modifying the low frequency spectrum further comprises normalizing the decoded low frequency spectrum, and adjusting the amplitude of the normalized low frequency spectrum based on the control parameter.
  7. 제5 항에 있어서, 상기 저주파 스펙트럼의 진폭을 조절하는 단계는 특정 대역에 포함된 스펙트럼 계수의 진폭과 상기 대역의 진폭 평균간의 차이와 상기 제어 파라미터를 이용하여 수행되는 고주파 복호화방법.The method of claim 5, wherein the adjusting of the amplitude of the low frequency spectrum is performed by using a difference between the amplitude of the spectral coefficients included in a specific band and the amplitude average of the band and the control parameter.
  8. 제5 항에 있어서, 상기 저주파 스펙트럼을 변형하는 단계는 진폭이 조절된 저주파 스펙트럼에 대하여 여기 클래스에 근거하여 랜덤 부호와 원래의 부호 중 하나를 적용하는 단계를 더 포함하는 고주파 복호화방법.6. The method of claim 5, wherein modifying the low frequency spectrum further comprises applying one of a random code and an original code to an amplitude controlled low frequency spectrum based on an excitation class.
  9. 제5 항에 있어서, 상기 여기 클래스가 음성 특성 혹은 토널 특성과 관련된 경우 상기 진폭이 조절된 저주파 스펙트럼에 원래의 부호를 적용하는 고주파 복호화방법.6. The high frequency decoding method of claim 5, wherein the original code is applied to the low frequency spectrum of which the amplitude is adjusted when the excitation class is related to a speech characteristic or a tonal characteristic.
  10. 제5 항에 있어서, 상기 여기 클래스가 넌-토널 특성과 관련된 경우 저주파 스펙트럼에 랜덤 부호를 적용하는 고주파 복호화방법.6. The high frequency decoding method of claim 5, wherein a random code is applied to a low frequency spectrum when the excitation class is related to a non-tunnel characteristic.
  11. 제1 항에 있어서, 상기 복호화된 저주파 스펙트럼은 노이즈 필링 처리된 스펙트럼 혹은 안티 스파스니스 처리된 스펙트럼인 고주파 복호화방법.The high frequency decoding method of claim 1, wherein the decoded low frequency spectrum is a noise peeled spectrum or an anti-sparse spectrum.
  12. 여기 클래스를 복호화하고, 복호화된 저주파 스펙트럼을 상기 여기 클래스에 근거하여 변형하고, 변형된 저주파 스펙트럼에 근거하여 고주파수 여기 스펙트럼을 생성하는 적어도 하나의 프로세서를 포함하는 대역폭 확장을 위한 고주파 복호화장치.And at least one processor for decoding an excitation class, modifying the decoded low frequency spectrum based on the excitation class, and generating a high frequency excitation spectrum based on the modified low frequency spectrum.
  13. 제12 항에 있어서, 상기 프로세서는 13. The system of claim 12, wherein the processor is
    상기 여기 클래스를 복호화하는 파라미터 복호화부; 및A parameter decoder which decodes the excitation class; And
    상기 복호화된 저주파 스펙트럼의 진폭을 상기 여기 클래스에 근거하여 조절하여 상기 변형된 저주파 스펙트럼을 생성하는 저주파 스펙트럼 변형부; 및A low frequency spectral modification unit for generating the modified low frequency spectrum by adjusting an amplitude of the decoded low frequency spectrum based on the excitation class; And
    상기 변형된 저주파 스펙트럼에 근거하여 상기 고주파 여기 스펙트럼을 생성하는 고주파 여기스펙트럼 생성부를 포함하는 대역폭 확장을 위한 고주파 복호화장치.And a high frequency excitation spectrum generator for generating the high frequency excitation spectrum based on the modified low frequency spectrum.
  14. 제12 항에 있어서, 상기 프로세서는 상기 여기 클래스에 근거하여 상기 복호화된 저주파 스펙트럼의 다이나믹 레인지의 조절 정도를 결정하는 고주파 복호화장치.13. The high frequency decoding apparatus of claim 12, wherein the processor determines the degree of adjustment of the dynamic range of the decoded low frequency spectrum based on the excitation class.
  15. 제12 항에 있어서, 상기 프로세서는 상기 여기 클래스가 넌-토널 특성을 나타내는 경우, 상기 여기 클래스가 음성 특성 혹은 토널 특성을 나타내는 경우보다 상기 복호화된 저주파 스펙트럼의 다이나믹 레인지를 많이 조절하는 고주파 복호화장치.The high frequency decoding apparatus of claim 12, wherein the processor adjusts the dynamic range of the decoded low frequency spectrum more than when the excitation class exhibits non-tonal characteristics, when the excitation class exhibits non-tonal characteristics.
PCT/KR2015/002045 2014-03-03 2015-03-03 Method and apparatus for high frequency decoding for bandwidth extension WO2015133795A1 (en)

Priority Applications (8)

Application Number Priority Date Filing Date Title
CN202010101692.4A CN111312278B (en) 2014-03-03 2015-03-03 Method and apparatus for high frequency decoding of bandwidth extension
JP2016555511A JP6383000B2 (en) 2014-03-03 2015-03-03 High frequency decoding method and apparatus for bandwidth extension
EP15759308.8A EP3115991A4 (en) 2014-03-03 2015-03-03 Method and apparatus for high frequency decoding for bandwidth extension
CN202010101660.4A CN111312277B (en) 2014-03-03 2015-03-03 Method and apparatus for high frequency decoding of bandwidth extension
US15/123,897 US10410645B2 (en) 2014-03-03 2015-03-03 Method and apparatus for high frequency decoding for bandwidth extension
CN201580022645.8A CN106463143B (en) 2014-03-03 2015-03-03 Method and apparatus for high frequency decoding for bandwidth extension
US16/538,427 US10803878B2 (en) 2014-03-03 2019-08-12 Method and apparatus for high frequency decoding for bandwidth extension
US17/030,104 US11676614B2 (en) 2014-03-03 2020-09-23 Method and apparatus for high frequency decoding for bandwidth extension

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201461946985P 2014-03-03 2014-03-03
US61/946,985 2014-03-03
US201461969368P 2014-03-24 2014-03-24
US61/969,368 2014-03-24

Related Child Applications (2)

Application Number Title Priority Date Filing Date
US15/123,897 A-371-Of-International US10410645B2 (en) 2014-03-03 2015-03-03 Method and apparatus for high frequency decoding for bandwidth extension
US16/538,427 Continuation US10803878B2 (en) 2014-03-03 2019-08-12 Method and apparatus for high frequency decoding for bandwidth extension

Publications (1)

Publication Number Publication Date
WO2015133795A1 true WO2015133795A1 (en) 2015-09-11

Family

ID=54055542

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2015/002045 WO2015133795A1 (en) 2014-03-03 2015-03-03 Method and apparatus for high frequency decoding for bandwidth extension

Country Status (2)

Country Link
KR (2) KR102386736B1 (en)
WO (1) WO2015133795A1 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015162500A2 (en) 2014-03-24 2015-10-29 삼성전자 주식회사 High-band encoding method and device, and high-band decoding method and device

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060051298A (en) * 2004-09-17 2006-05-19 하만 베커 오토모티브 시스템즈 게엠베하 Bandwidth extension of bandlimited audio signals
US20070282599A1 (en) * 2006-06-03 2007-12-06 Choo Ki-Hyun Method and apparatus to encode and/or decode signal using bandwidth extension technology
WO2012108680A2 (en) * 2011-02-08 2012-08-16 엘지전자 주식회사 Method and device for bandwidth extension
KR20130007485A (en) * 2011-06-30 2013-01-18 삼성전자주식회사 Apparatus and method for generating a bandwidth extended signal
WO2013141638A1 (en) * 2012-03-21 2013-09-26 삼성전자 주식회사 Method and apparatus for high-frequency encoding/decoding for bandwidth extension

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101375582B1 (en) * 2006-11-17 2014-03-20 삼성전자주식회사 Method and apparatus for bandwidth extension encoding and decoding
KR101221919B1 (en) * 2008-03-03 2013-01-15 연세대학교 산학협력단 Method and apparatus for processing audio signal
EP2273493B1 (en) * 2009-06-29 2012-12-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Bandwidth extension encoding and decoding

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060051298A (en) * 2004-09-17 2006-05-19 하만 베커 오토모티브 시스템즈 게엠베하 Bandwidth extension of bandlimited audio signals
US20070282599A1 (en) * 2006-06-03 2007-12-06 Choo Ki-Hyun Method and apparatus to encode and/or decode signal using bandwidth extension technology
WO2012108680A2 (en) * 2011-02-08 2012-08-16 엘지전자 주식회사 Method and device for bandwidth extension
KR20130007485A (en) * 2011-06-30 2013-01-18 삼성전자주식회사 Apparatus and method for generating a bandwidth extended signal
WO2013141638A1 (en) * 2012-03-21 2013-09-26 삼성전자 주식회사 Method and apparatus for high-frequency encoding/decoding for bandwidth extension

Also Published As

Publication number Publication date
KR20220051317A (en) 2022-04-26
KR20150103643A (en) 2015-09-11
KR102386736B1 (en) 2022-04-14
KR102491177B1 (en) 2023-01-20

Similar Documents

Publication Publication Date Title
KR102248252B1 (en) Method and apparatus for encoding and decoding high frequency for bandwidth extension
JP5539203B2 (en) Improved transform coding of speech and audio signals
JP6438056B2 (en) Lossless encoder
JP2017194690A (en) Bit allocating apparatus
WO2013183928A1 (en) Audio encoding method and device, audio decoding method and device, and multimedia device employing same
JP6616316B2 (en) High band encoding method and apparatus, and high band decoding method and apparatus
US11676614B2 (en) Method and apparatus for high frequency decoding for bandwidth extension
WO2015065137A1 (en) Broadband signal generating method and apparatus, and device employing same
JP2016538602A (en) Signal encoding method and apparatus, and signal decoding method and apparatus
WO2015037969A1 (en) Signal encoding method and device and signal decoding method and device
WO2015037961A1 (en) Energy lossless coding method and device, signal coding method and device, energy lossless decoding method and device, and signal decoding method and device
KR102491177B1 (en) Method and apparatus for decoding high frequency for bandwidth extension
WO2015034115A1 (en) Method and apparatus for encoding and decoding audio signal

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15759308

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2016555511

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 15123897

Country of ref document: US

WPC Withdrawal of priority claims after completion of the technical preparations for international publication

Ref document number: 61/969,368

Country of ref document: US

Date of ref document: 20160901

Free format text: WITHDRAWN AFTER TECHNICAL PREPARATION FINISHED

REEP Request for entry into the european phase

Ref document number: 2015759308

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2015759308

Country of ref document: EP