WO2006046587A1 - スケーラブル符号化装置、スケーラブル復号化装置、およびこれらの方法 - Google Patents

スケーラブル符号化装置、スケーラブル復号化装置、およびこれらの方法 Download PDF

Info

Publication number
WO2006046587A1
WO2006046587A1 PCT/JP2005/019661 JP2005019661W WO2006046587A1 WO 2006046587 A1 WO2006046587 A1 WO 2006046587A1 JP 2005019661 W JP2005019661 W JP 2005019661W WO 2006046587 A1 WO2006046587 A1 WO 2006046587A1
Authority
WO
WIPO (PCT)
Prior art keywords
frequency
spectrum
encoding
pitch
scalable
Prior art date
Application number
PCT/JP2005/019661
Other languages
English (en)
French (fr)
Inventor
Masahiro Oshikiri
Original Assignee
Matsushita Electric Industrial Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co., Ltd. filed Critical Matsushita Electric Industrial Co., Ltd.
Priority to CN2005800360148A priority Critical patent/CN101044553B/zh
Priority to JP2006543195A priority patent/JP5036317B2/ja
Priority to BRPI0517246-2A priority patent/BRPI0517246A/pt
Priority to AT05799294T priority patent/ATE480851T1/de
Priority to US11/577,816 priority patent/US8019597B2/en
Priority to EP05799294A priority patent/EP1806736B1/en
Priority to DE602005023503T priority patent/DE602005023503D1/de
Publication of WO2006046587A1 publication Critical patent/WO2006046587A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor

Definitions

  • the present invention relates to a scalable encoding device, a scalable decoding device, and a method thereof.
  • the present invention relates to a scalable coding apparatus, a scalable decoding apparatus, and methods for performing transform coding in an upper layer.
  • This technology is a model that is suitable for speech signals, and is a model that is suitable for signals other than speech.
  • the first layer encodes the input signal at a low bit rate and is a model suitable for speech signals.
  • Such a hierarchical code encoding technique has the property of being able to obtain a decoded signal with the scalability of a bitstream that can also provide the encoding capability, that is, with a part of the information power of the bitstream.
  • This is generally called a scalable code.
  • This scalable code can be used flexibly for communication between networks with different bit rates. Therefore, scalable codes can be considered suitable for the future network environment, because various networks are integrated by IP protocol.
  • Non-Patent Document 1 As an example of realizing scalable coding using a technique standardized by MPEG 4 (Moving Picture Experts Group phase-4), there is a technique disclosed in Non-Patent Document 1, for example.
  • This technology uses CELP (Code Excited Linear Prediction) code suitable for speech signals in the first layer, and subtracts the first layer decoded signal from the original signal in the second layer.
  • AAC Advanced Audio Coder
  • TwmVQ Transform Domain Weighted interleave Vector Quantization; frequency A transform code ⁇ such as region weighted interleaved vector quantization
  • This transform coding is a technique in which a time domain signal is converted into a frequency domain signal, and then a coding is performed on the frequency domain signal.
  • Patent Document 1 there is a technique disclosed in Patent Document 1 as a specific example of transform coding.
  • the input signal is subjected to pitch analysis to determine the pitch frequency, and the spectrum located at a frequency that is an integral multiple of the pitch frequency is encoded together.
  • a frequency corresponding to an integer multiple of the pitch frequency which is a parameter specifying the harmonic structure of the audio signal
  • a harmonic frequency a spectrum located at the harmonic frequency
  • Patent Document 1 the input spectrum force is also subtracted to obtain the error spectrum, and this error spectrum is separately signed. With this configuration, it is possible to efficiently encode harmonic vectors with a relatively small amount of computation, and to reduce sound quality degradation.
  • Patent Document 1 Japanese Patent Laid-Open No. 9 181611
  • Non-Patent Document 1 Miki Satoshi edited by "MPEG-4 All", First Edition, Industrial Research Institute, Inc., September 30, 1998, p. 126-127
  • Patent Document 1 when the technique of Patent Document 1 is applied to the scalable code, it is necessary to code the pitch frequency and transmit it to the decoding side in order to specify the harmonic frequency. is there. In addition, it is necessary to obtain an error spectrum component after decoding the harmonic spectrum and further sign the error spectrum. This increases the bit rate of the sign key parameter
  • an object of the present invention is to reduce the bit rate of the code key parameter, and to efficiently encode an audio signal in which a plurality of harmonic structures are mixed.
  • a scalable coding apparatus, a scalable decoding apparatus, and a method thereof are provided.
  • the scalable coding apparatus of the present invention includes a first encoding unit that encodes a speech signal using a pitch period of the speech signal, a calculation unit that calculates a pitch frequency from the pitch period, and A second encoding unit that performs encoding on a spectrum at a frequency that is an integral multiple of the pitch frequency in the spectrum of the audio signal is employed.
  • the bit rate of the code key parameter can be reduced in the scalable code key. Further, on the encoding side, it is possible to efficiently encode an audio signal in which a plurality of harmonic structures are mixed, and on the decoding side, to improve the sound quality of the decoded audio signal. Can do.
  • FIG. 1 is a block diagram showing a main configuration of a scalable code generator according to Embodiment 1.
  • FIG. 2 shows a main configuration inside a second layer code generator according to Embodiment 1.
  • FIG. 5 is a block diagram showing the main configuration of the scalable decoding device according to Embodiment 1.
  • FIG. 6 is a block diagram showing the main configuration inside the second layer decoding device according to Embodiment 1.
  • FIG. 7] Block diagram showing the main configuration of Modification 1 of the scalable coding apparatus according to Embodiment 1
  • FIG. 8 is a block diagram showing the main configuration of the second layer code key section according to Embodiment 1
  • FIG. 9 is a block diagram showing the main configuration of the scalable decoding device according to Embodiment 1
  • FIG. 10 is a block diagram showing the main configuration of the second layer decoding unit according to Embodiment 1
  • FIG. 11 is a block diagram showing a main configuration of a modification of the second layer code key section according to Embodiment 1.
  • FIG. 12 is a block diagram showing the configuration of the second layer decoding section according to Embodiment 1
  • FIG. 13 is a block diagram showing the main configuration of the second layer code key section according to Embodiment 2
  • FIG. 15 is a block diagram showing the main configuration of the second layer decoding unit according to Embodiment 2
  • FIG. 16 is a block diagram showing the main configuration of the scalable coding apparatus according to Embodiment 3
  • FIG. 17 is a block diagram showing the main configuration inside the second layer code key section according to Embodiment 3
  • FIG. 18 is a block diagram showing the main configuration inside the third layer code key section according to Embodiment 3
  • FIG. 19 A diagram conceptually showing the first harmonic frequency and the second harmonic frequency.
  • FIG. 20 is a block diagram showing the main configuration of the scalable decoding device according to Embodiment 3
  • FIG. 21 is a block diagram showing the main configuration inside the second layer decoding unit according to Embodiment 3
  • FIG. 22 is a block diagram showing the main configuration inside the third layer decoding unit according to the third embodiment.
  • FIG. 1 is a block diagram showing the main configuration of the scalable coding apparatus according to Embodiment 1 of the present invention.
  • Each part of the scalable coding apparatus according to the present embodiment performs the following operation.
  • the first layer encoding unit 102 encodes the input speech signal (original signal) S11 by the CELP method, and the obtained encoding parameter S12 is converted into the multiplexing unit 103, the first layer decoding Give to part 104. Also, the first layer code key unit 102 gives the pitch period S14 to the second layer code key unit 106 among the obtained code key parameters. For this pitch period, the adaptive codebook lag obtained by searching for the adaptive codebook is used. First layer decoding section 104 generates first layer decoded signal S13 from code key parameter S12 output from first layer code key section 102, and outputs the generated signal to second layer code key section 106. .
  • the delay unit 105 gives a delay of a predetermined length to the input audio signal S11. This delay is for correcting a time delay generated in the first layer coding unit 102, the first layer decoding unit 104, and the like.
  • Second layer code key unit 106 is generated by first layer decoding unit 104. Using the generated first layer decoded signal S 13, a conversion using MDCT (Modified Discrete Cosine Transform) is performed on the audio signal S 15 delayed from the delay unit 105 for a predetermined time. The sign key is applied, and the generated sign key parameter S 16 is output to the multiplexing unit 103.
  • MDCT Modified Discrete Cosine Transform
  • the multiplexing unit 103 multiplexes the code key parameter S 12 obtained by the first layer code key unit 102 and the code key parameter S 16 obtained by the second layer code key unit 106, This is output to the outside as a bit stream of output encoding parameters.
  • FIG. 2 is a block diagram showing a main configuration inside second layer code key section 106 described above.
  • the MDCT analysis unit 111 performs MDCT analysis on the speech signal S 15 and outputs an analysis result spare to the selection unit 113 in order to perform conversion code recognition.
  • Transform code ⁇ is a technology that converts a signal in the time domain into a signal in the frequency domain, and then applies the code ⁇ ⁇ ⁇ to the signal in the frequency domain. (Advanced Audio Coder), TwmVQ (Transform Domain Weighted Interleave Vector Quantization) and the like.
  • the pitch frequency conversion unit 112 converts the pitch period S 14 given from the first layer code key unit 102 into a value in seconds, calculates the reciprocal number thereof, calculates the pitch frequency, and selects the selection unit 11 3. , Output to 115.
  • Selection section 113 uses the pitch frequency output from pitch frequency conversion section 112 to select a part of the spectrum of the audio signal output from M DCT analysis section 111, and adds it to addition section 117. Output. Specifically, the selection unit 113 selects a spectrum (harmonic spectrum) located at a frequency (harmonic frequency) that is an integral multiple of the pitch frequency, and outputs the spectrum to the addition unit 117. Second layer encoding unit 106 performs subsequent encoding processing on the selected plurality of harmonic spectra. In this way, by limiting the spectrum of the code key target to a part of the range rather than the entire range, a low bit rate error of the code key rate can be achieved.
  • the harmonic spectrum is a spectrum such as a very narrow-band line spectrum located on the harmonic frequency.
  • MDCT analysis section 114 is similar to MDCT analysis section 111, from first layer decoding section 104. MDCT analysis is performed on the output first layer decoded signal SI 3, and a spectrum of the analysis result is output to selection section 115.
  • the selection unit 115 uses the pitch frequency output from the pitch frequency conversion unit 112 to calculate the spectrum of the first layer decoded signal output from the MDCT analysis unit 114. A spectrum in a part of the range is selected and output to the adder 116.
  • Residual spectrum codebook 121 generates a residual spectrum corresponding to an index instructed from search section 120 described later, and outputs the residual spectrum to multiplier 123.
  • Gain codebook 122 outputs a gain corresponding to an index instructed from search section 120 described later to multiplier 123.
  • Multiplier 123 multiplies the residual spectrum generated by residual spectrum codebook 121 by the gain output from gain codebook 122, and adds the residual spectrum after gain adjustment to the adder
  • Adder 116 adds the gain-adjusted residual spectrum output from multiplier 123 to the spectrum of the first layer decoded signal limited to a part of the range output from selection section 115. And output to the adder 117.
  • Adder 117 subtracts the spectrum of the first layer decoded signal output from adder 116 from the vector of the audio signal limited to a part of the range output from selection section 113, and obtains a residual.
  • the spectrum is obtained and output to the weighting unit 119.
  • the second layer code key unit 106 performs code key so as to minimize the residual spectrum.
  • Auditory masking calculation section 118 calculates a noise threshold that is not perceived by humans, that is, auditory masking, for audio signal S15, and outputs the result to weighting section 119.
  • Human hearing has a characteristic (masking effect) that when a signal of a certain frequency is given, it becomes difficult to hear a signal in the vicinity of that frequency, and the auditory masking calculation unit 118 applies this characteristic to the second layer code.
  • auditory masking is calculated from the spectrum of the input speech signal S15.
  • the weighting unit 119 weights the residual spectrum output from the adder 117 by the auditory masking calculated by the auditory masking calculation unit 118 and outputs the result to the search unit 120.
  • the residual spectrum codebook 121, the gain codebook 122, the multiplier 123, the adders 116 and 117, and the weighting unit 119 described above form a closed loop (feedback loop), and the search unit 120 is
  • the index indicated to the residual spectral codebook 121 and the gain codebook 122 is variously changed so that the residual spectrum output from the weighting unit 119 is minimized.
  • the residual spectrum beta candidates stored in the residual spectrum codebook 121 and the gain candidates stored in the gain codebook 122 are expressed by, for example, the following equation (1): It is determined to minimize the represented distortion E.
  • w (k) is a weighting function determined by auditory masking
  • o (k) is the original signal spectrum
  • g (j) is the jth gain candidate
  • e (i, k) is the ith residual spectrum candidate
  • b (k) represents the base layer spectrum.
  • the distortion E is defined, for example, by the following equation (2).
  • SF (k) is the decoding scale factor obtained as a result of signing the scale factor of the original signal spectrum
  • b '(k) is the spectrum obtained as a result of normalizing the basic layer spectrum with its own scale factor.
  • the search unit 120 uses the indexes of the residual spectrum codebook 121 and the gain codebook 122 that are finally obtained by the above-described closed loop as the code key parameter S 16 of the second layer code key unit 106. Output to the outside.
  • FIG. 3 is a diagram illustrating an example of a spectrum of an audio signal that is an original signal.
  • the sampling frequency is 16kHz.
  • the pitch frequency is about 600 Hz
  • a position that is an integral multiple of the pitch frequency that is, the positions of the harmonic frequencies fl, f2, f3, ... It can be seen that there are multiple spectral peaks (harmonic spectra).
  • FIG. 4 is a diagram showing an example of a residual spectrum obtained by subtracting the spectrum of the original signal spectrum power first layer decoded signal shown in FIG.
  • the solid line represents the residual spectrum
  • the broken line represents the auditory masking threshold.
  • the amplitude of the residual spectrum is generally smaller than the original signal spectrum.
  • the amplitude of the low-frequency vector is smaller than the amplitude of the high-frequency spectrum. This is because the CELP encoding performed in the first layer encoding unit 102 is characterized in that processing for reducing the encoding distortion is performed on a component having a large signal energy.
  • the amplitude of the residual spectrum located on the harmonic frequency is attenuated as compared with the original signal spectrum, the peak shape still remains. In other words, even if the amplitude is attenuated, there are many situations where the peak of the residual spectrum exceeds the auditory masking threshold on the harmonic frequency. Furthermore, due to the above features of CELP code ⁇ , the number of peaks in the residual spectrum that exceed the auditory masking threshold is higher in the high range than in the low range.
  • FIG. 5 is a block diagram showing a main configuration of the scalable decoding device according to the present embodiment, that is, decoding the code encoded by the scalable coding device described above. .
  • Separating section 151 converts the code encoded by the above scalable encoding apparatus into the encoding parameter for first layer decoding section 152 and the encoding for second layer decoding section 153. Separated into ⁇ parameters.
  • First layer decoding section 152 performs CELP decoding on the coding parameters obtained by separating section 151, and sends the obtained first layer decoded signal to second layer decoding section 153. give. Further, first layer decoding section 152 outputs the pitch period obtained by the CELP decoding section to second layer decoding section 153. An adaptive codebook lag is used as this pitch period. This first layer decoded signal is directly output to the outside as a low-quality decoded signal as necessary.
  • Second layer decoding section 153 uses the first layer decoded signal obtained from first layer decoding section 152 to perform the second layer coding parameter separated by separating section 151. The decoding process described later is performed, and the obtained second layer decoded signal is output to the outside as a high-quality decoded signal as necessary.
  • the minimum quality of reproduced speech is ensured by the first layer decoded signal, and the quality of reproduced speech can be improved by the second layer decoded signal. Also, whether the deviation of the first layer decoded signal or the second layer decoded signal is output depends on whether the second layer encoding parameter can be obtained depending on the network environment (occurrence of packet loss, etc.) Depends on the setting etc.
  • FIG. 6 is a block diagram showing the main configuration inside second layer decoding section 153 described above.
  • MDCT analysis section 161, adder 162, pitch frequency conversion section 164, residual vector codebook 166, multiplier 167, and gain codebook 168 shown in this figure are the same as those of the scalable code generator.
  • the MDCT analysis unit 114, the calorie calculator 116, the pitch frequency conversion unit 112, the residual spectrum code book 121, the multiplier 123, and the gain code book 122 of the two-layer code key unit 106 (see FIG. 2) Each part has basically the same function. Have.
  • the residual spectrum codebook 166 is stored using the sign key parameter (amplitude information) given from the separation unit 151, and stores one residual spectrum from a plurality of residual spectrum candidates. The title is selected and output to the multiplier 167.
  • the gain codebook 168 selects one gain from a plurality of stored gain candidates using the sign key parameter (gain information) given from the separation unit 151, and the multiplication unit 16
  • Multiplying section 167 multiplies the residual spectrum given from residual spectrum codebook 166 by the gain given from gain codebook 168, and outputs the residual spectrum after gain adjustment to arranging section 165.
  • Pitch frequency conversion section 164 calculates a pitch frequency using the pitch period provided from first layer decoding section 152 and outputs the result to arrangement section 165. This pitch frequency is expressed as the reciprocal of the pitch period converted to a value in seconds.
  • Arranging section 165 arranges the residual spectrum after gain adjustment given from multiplication section 167 on the harmonic frequency represented by the pitch frequency given from pitch frequency conversion section 164, and outputs it to addition section 162 To do.
  • the arrangement method of the residual spectrum depends on how the MD CT coefficients are arranged using the pitch frequency in the selection units 113 and 115 inside the second layer encoding unit 106 on the encoding side. Therefore, the same arrangement method is used on the decoding side.
  • MDCT analysis section 161 performs frequency analysis on the first layer decoded signal output from first layer decoding section 152 by MDCT conversion, and adds the obtained MDCT coefficients, that is, the first layer decoded spectrum, to an adder. Output to 162.
  • Adder 162 adds the spectrum after placement of each residual spectrum output from placement section 165 to the first layer decoded spectrum output from MDCT analysis section 161, thereby obtaining the second layer decoded spectrum. Is output to the time domain conversion unit 163.
  • Time domain conversion section 163 converts the second layer decoded spectrum output from adder 162 into a time domain signal, and then performs appropriate processing such as windowing and overlay addition as necessary. To avoid discontinuities between frames, and make the final high-quality decoded signal Output.
  • the harmonic structure of the audio signal is specified in the second layer using the pitch period determined by the CELP code in the first layer.
  • the harmonic frequency is specified, and only the spectrum on this harmonic frequency is the encoding target. Therefore, since the entire frequency band of the audio signal is not targeted for the code, the bit rate of the code parameter can be reduced, and the spectrum on the harmonic frequency is a characteristic of the audio signal. Therefore, a high-quality decoded signal can be obtained with a small bit rate, and the code efficiency is good. Furthermore, it is necessary to transmit additional information regarding the pitch frequency to the decoding side.
  • the present embodiment has been described with reference to an example in which the harmonic code, that is, the spectrum on the harmonic frequency, is used as an encoding target in the transform code in the second layer. It is not necessary to limit the spectrum to be encoded to a spectrum on the harmonic frequency. For example, the spectrum located near the harmonic frequency has a sharper peak shape than other spectra. It is also possible to select a spectrum and use it as the target of the sign. In this case, it is necessary to encode the relative position information up to the selected span from the harmonic frequency column and transmit it to the decoding unit.
  • the harmonic code that is, the spectrum on the harmonic frequency
  • the transform code in the second layer has a harmonic spectrum, that is, a spectrum such as a very narrow band line spectrum located on the harmonic frequency.
  • the spectrum to be encoded does not necessarily have to be a spectrum like a line spectrum.
  • a certain bandwidth near the harmonic frequency (however, a narrow band) ) May be the target of the sign.
  • a certain frequency range centered on the harmonic frequency can be set as this certain bandwidth.
  • FIG. 7 is a block diagram showing the main configuration of Modification 1 of the scalable coding apparatus according to the present embodiment.
  • symbol is attached
  • the first layer code key unit 102a is different from the first layer code key unit 102 in that it does not output to the second layer code key unit 206 a 1S pitch cycle that has the same basic operation.
  • Second layer code The conversion unit 206 performs a correlation analysis on the first layer decoded signal S 13 output from the first layer decoding unit 104 to obtain a pitch period.
  • FIG. 8 is a block diagram showing the main configuration inside second layer code key section 206 described above.
  • symbol is attached
  • the correlation analysis in correlation analysis section 211 is performed according to the following equation (3), for example, where y (n) is the first layer decoded signal.
  • represents a pitch period candidate, and ⁇ when cor ( ⁇ ) is maximized in the search range ⁇ ⁇ to ⁇ is output as the pitch period.
  • the pitch period obtained by first layer code key section 102a is determined in a process for minimizing distortion between an adaptive vector candidate included in the internal adaptive codebook and the original signal, and is adaptive. Depending on the contents of the adaptive vector candidates contained in the codebook, the correct pitch period may not be obtained, and a pitch period that is an integer multiple or a fraction of an integer may be obtained.
  • first layer coding section 102a also has a noise codebook that encodes error components that cannot be represented in the adaptive codebook, and even if the adaptive codebook does not function effectively, the noise codebook can be used.
  • the first layer decoded signal obtained by decoding this coding parameter is closer to the original signal. Therefore, in this modification, more accurate pitch information is obtained by pitch analysis of the first layer decoded signal.
  • the sign key performance can be improved.
  • the first layer decoded signal can be obtained also on the decoding side, according to this modification, it is not necessary to transmit information on the pitch period to the decoding side.
  • FIG. 9 is a block diagram showing a main configuration of a scalable decoding device corresponding to the scalable coding device shown in FIG.
  • FIG. 10 shows this scalable decoding apparatus.
  • FIG. 6 is a block diagram showing the main configuration of second layer decoding key section 253.
  • the same components as those already described are denoted by the same reference numerals, and the description thereof is omitted.
  • FIG. 11 shows the main configuration of Modification 2 of the scalable coding apparatus according to the present embodiment, in particular, the modification of second layer coding section 106 (second layer coding section 306). It is a block diagram. Here, the same components as those already described are denoted by the same reference numerals, and the description thereof is omitted.
  • Pitch period correction section 311 re-determines a more accurate pitch frequency from the surrounding pitch frequencies based on the pitch frequency obtained in the first layer, and encodes the difference amount. More specifically, the pitch period correcting unit 311 adds the difference amount ⁇ to the pitch period T obtained in the first layer, converts T + ⁇ into a value in seconds, and then calculates the pitch frequency by taking the reciprocal thereof. D (k) in the following formula (4) located at the harmonic frequency specified by this pitch frequency, or the sum S of the following d (k) included in the frequency range limited to the harmonic frequency as the center .
  • M (k) is the auditory masking threshold
  • o (k) is the original signal spectrum
  • b (k) is the spectrum of the first layer decoded signal
  • MAX0 is the function that returns the maximum value
  • d (k) is the auditory maskin. It is a parameter that expresses how much the amplitude of the residual spectrum exceeds the auditory masking threshold by comparing the threshold value (M (k)) and the residual spectrum (o (k) — b (k)).
  • This d (k) corresponds to a quantified amount of auditory distortion.
  • the pitch period correcting unit 311 signifies ⁇ when the sum S is maximum and outputs it as pitch period correcting information. Then, T + ⁇ is output to pitch frequency conversion section 112.
  • FIG. 12 is a block diagram showing a configuration of second layer decoding section 353 corresponding to second layer encoding section 306 shown in FIG.
  • Pitch period correction section 361 decodes difference amount ⁇ based on the pitch period correction information transmitted from second layer code section 306, and adds pitch period T to generate a corrected pitch period. And output.
  • the second layer has a high coding target.
  • a frequency (starting frequency) for determining a region spectrum is obtained, and the harmonic spectrum code described in the first embodiment is applied to a spectrum in a region higher than the starting frequency. Then, the information of the starting frequency is encoded and transmitted to the decoding unit.
  • the code ⁇ in the first layer is a CELP system, it has the property of reducing the sign ⁇ distortion of components with large signal energy, and a spectrum in which distortion is perceptually perceived is generated in the high band. It becomes easy. Using this property, the coding efficiency is improved by limiting the number of extras to be coded.
  • the scalable coding apparatus has the same basic configuration as the scalable coding apparatus shown in Embodiment 1, the description of the overall diagram is omitted.
  • the second layer code key unit 406 having a configuration different from that of the first embodiment will be described below.
  • FIG. 13 is a block diagram showing the main configuration of second layer code key section 406. Note that the same components as those of the second layer code key unit 106 shown in the first embodiment are denoted by the same reference numerals, and the description thereof is omitted.
  • the starting frequency determining unit 411 determines the starting frequency from the relationship between the residual spectrum and the auditory masking threshold.
  • the starting frequency candidates are determined in advance, and the encoding side and the decoding side have the same table in which the starting frequency and encoding parameter candidates are recorded.
  • the starting frequency is determined by calculating d (k) expressed below and using this d (k).
  • d (k) is a parameter indicating how much the amplitude of the residual spectrum exceeds the auditory masking threshold. For example, if the amplitude of the residual spectrum does not exceed the auditory masking threshold, Is considered 0.
  • the starting frequency determining unit 411 calculates, for each starting frequency candidate, the harmonic frequency or the sum of d (k) of the section limited to the harmonic frequency, and the amount of change increases. Is selected, and its encoding parameters are output.
  • FIG. 14 is a diagram for explaining the relationship between the residual spectrum and the starting point frequency.
  • the upper row shows the residual spectrum (solid line) and the auditory masking threshold (dashed line), and the lower row shows the sign when the starting frequency is changed from OHz to 3000 Hz, that is, at the starting frequency # 0 to # 3.
  • ⁇ ⁇ ⁇ ⁇ ⁇ Indicates the spectral frequency (band) of the target (here, the frequency to be encoded and the frequency not to be encoded are indicated by the on / off state of the signal.
  • the residual spectrum is obtained by subtracting the spectrum of the original signal spectrum power first layer decoded signal from an audio signal having a sampling frequency of 16 kHz as an original signal.
  • the residual spectrum at a frequency of 2000 Hz or less is below the auditory masking threshold, and a residual spectrum that exceeds the auditory masking threshold appears at the harmonic position above 2000 Hz. That is, the amount of change of the sum of d (k) described above varies greatly between the starting frequency # 2 (2000 Hz) and the starting frequency # 3 (3000 Hz). Therefore, at this time, the encoding parameter representing the starting frequency # 2 is output as information for specifying the extra frequency to be encoded.
  • FIG. 15 is a block diagram showing the main configuration of second layer decoding section 453 corresponding to second layer coding section 406 described above.
  • the same components as those of second layer decoding section 153 (see FIG. 6) shown in the first embodiment are denoted by the same reference numerals, and the description thereof is omitted.
  • the origin frequency decoding unit 461 calculates the origin frequency using the sign key parameter of the origin frequency. Decode and output to placement section 165b. Arrangement section 165b uses this starting frequency and the pitch frequency output from pitch frequency conversion section 164 to obtain the frequency at which the decoding residual spectrum is arranged, and the decoding residual spectrum output from multiplier 167 at this frequency. Is placed.
  • the following effects can be obtained. That is, since the first layer code is a CELP code, the energy is large and the low frequency spectrum is encoded with relatively little coding distortion. Therefore, in the second layer, by encoding only the harmonic spectrum positioned higher than the starting frequency, the spectrum to be encoded can be reduced, and the bit rate of the code parameter can be reduced. it can. This can realize a low bit rate error of the code key parameter even if the information about the starting frequency has to be transmitted to the decoding key side.
  • Embodiment 3 of the present invention when there are a plurality of sound sources and there are a plurality of pitch frequencies for specifying a harmonic spectrum, a plurality of sets of harmonic spectra are encoded instead of one set. Turn into.
  • FIG. 16 is a block diagram showing the main configuration of the scalable coding apparatus according to Embodiment 3 of the present invention.
  • This scalable coding apparatus also has the same basic configuration as the scalable coding apparatus shown in the first embodiment, and the same components are denoted by the same reference numerals and description thereof is omitted. To do.
  • the configuration of the scalable coding apparatus is the second layer coding unit 106c that performs coding using the pitch period S 14 obtained by the first layer coding unit 102c. And a third layer code key unit 501 for obtaining a pitch period for a new harmonic spectrum code key from the peripheral pitch period with the pitch period S14 as a reference, and performing the code key.
  • the second layer code key unit 106c obtains a pitch frequency based on the pitch period S14 obtained by the first layer code key unit 102c, and determines the harmonic spectrum (first harmonic wave) specified by this pitch frequency. (Spectrum) and the resulting parameters: decoded first harmonic spectrum (S 51), auditory masking threshold (S52), original signal spectrum (S53), and first layer decoded signal spectrum (S54) Is output to the third layer code key unit 501.
  • the third layer code key unit 501 is based on the pitch period S14 obtained by the first layer code key unit 102c, and the other peripheral pitch periods, that is, other values that are close to the pitch period S14.
  • the most suitable pitch period is calculated from the pitch period, and the harmonic spectrum (second harmonic spectrum) specified from the calculated pitch period is signed.
  • third layer encoding unit 501 encodes the difference amount of the calculated pitch period from pitch period S14 in the same manner as in the second modification of the first embodiment.
  • the same method as that of Modification 2 of Embodiment 1 is used as a method of calculating the above-described newly calculated pitch period.
  • FIG. 17 is a block diagram showing the main configuration inside second layer coding section 106c described above.
  • FIG. 18 is a block diagram showing the main configuration inside third layer code key section 501 described above.
  • the first harmonic spectrum decoding unit 511 in the second layer code key unit 106c is a code frequency parameter obtained by encoding the pitch frequency obtained by the pitch period S14 force and the first harmonic spectrum.
  • the first harmonic spectrum is decoded from the data (first harmonic code key parameter) and provided to the third layer code key unit 501 (S51).
  • Third layer coding section 501 adds the first harmonic spectrum (S51) to the first layer decoded spectrum (S54), and uses the result to encode the second harmonic spectrum encoding parameter ( The second harmonic coding parameter is determined by searching.
  • FIG. 19 shows the first harmonic frequency that is the target of the code key in the second layer code key unit 106c, and the second harmonic frequency that is the target of the code key in the third layer code key unit 501.
  • the frequency that is the target of the sign key and the frequency that is not the target of the sign key are indicated by ON / OFF of the signal.
  • each harmonic spectrum can be encoded with high efficiency even for an input signal having two different harmonic spectra. Furthermore, if this is applied, for example, a signal having a plurality of harmonics with different harmonic frequencies, such as a case where a plurality of speakers and musical instruments are included, is of high quality. Signs can be performed. Therefore, subjective quality can be improved. According to this configuration, since the difference amount corresponding to the reference pitch periodic force is encoded, the code parameter can be set at a low bit rate. Note that, as shown in the first modification of the first embodiment, the second layer code key unit 106c determines the pitch obtained by analyzing the first layer decoded signal S13 instead of the pitch period S14. A period may be used.
  • FIG. 20 is a block diagram showing the main configuration of a scalable decoding device corresponding to the scalable coding device according to the present embodiment.
  • the same components as those in the scalable decoding device shown in the first embodiment are denoted by the same reference numerals, and the description thereof is omitted.
  • Second layer decoding section 153c performs a decoding process using information up to the first layer encoding parameter and the first harmonic code section parameter, and generates a high-quality # 1 decoded signal. Output.
  • Third layer decoding section 551 performs a decoding process using the information of the first layer coding key parameter, the first harmonic coding parameter, and the second harmonic coding parameter to obtain a high quality # 1
  • FIG. 21 is a block diagram showing the main configuration inside second layer decoding section 153c described above.
  • FIG. 22 is a block diagram showing the main configuration inside third layer decoding section 551 described above.
  • Second layer decoding key section 153c decodes the first harmonic spectrum from the pitch period and the first harmonic code key parameter, and the addition result of the first harmonic spectrum and the first layer decoded spectrum Is given to the third layer decoding unit 551.
  • Third layer decoding key unit 551 adds the decoded second harmonic spectrum to the spectrum obtained by adding the decoded first harmonic spectrum to the first layer decoding spectrum (S55).
  • a low-quality decoded signal by using some or all of the sign key parameters, there are three types of signals: a low-quality decoded signal, a high-quality # 1 decoded signal, and a high-quality # 2 decoded signal.
  • a quality decoded signal can be generated. This means that the scalable function can be controlled more closely.
  • the scalable coding apparatus, the scalable decoding apparatus, and these methods according to the present invention are not limited to the above embodiments, and can be implemented with various modifications. For example, each embodiment can be implemented in combination as appropriate.
  • the scalable coding apparatus and the scalable decoding apparatus according to the present invention can also be mounted on a communication terminal apparatus and a base station apparatus in a mobile communication system. A communication terminal device and a base station device can be provided.
  • the case where the CELP scheme code is performed in the first layer coding section has been described as an example, but the present invention is not limited to this, and the first layer coding section
  • the sign key method in the above may be a sign key method using the pitch period of the audio signal.
  • the present invention is also applicable when the sampling rate of the signal handled by each layer is different. For example, if the sampling rate of the signal handled by the nth layer is expressed as Fs (n), the relationship of Fs (n) ⁇ Fs (n + 1) holds.
  • the force described using MDCT as an example of the transform code method in the second layer is not limited to this.
  • DF T discrete Fourier transform
  • Other cosine transforms, wavelet transforms, and other transform codes may be used.
  • the peripheral pitch period is determined based on the pitch period (T1) obtained in the first layer, the pitch period including at least one of an integral multiple of T1 or a fraction of an integer is also determined. It may be added to the standard. This is a countermeasure for half pitch and double pitch.
  • the present invention can also be realized by software.
  • Each functional block used in the description of each of the above embodiments is typically realized as an LSI which is an integrated circuit. These may be individually integrated into a single chip, or may be combined into a single chip to include some or all of them!
  • circuit integration is not limited to LSI, and may be realized by a dedicated circuit or a general-purpose processor. It is also possible to use a field programmable gate array (FPGA) that can be programmed after LSI manufacturing, or a reconfigurable processor that can reconfigure the connection or setting of circuit cells inside the LSI.
  • FPGA field programmable gate array
  • the scalable coding apparatus, scalable decoding apparatus, and these methods according to the present invention can be applied to applications such as a communication terminal apparatus and a base station apparatus in a mobile communication system.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)

Abstract

 符号化パラメータのビットレートを減少させ、また、複数の調波構造が混在する音声信号に対しても効率的に符号化することができるスケーラブル符号化装置を開示する。この装置において、MDCT分析部(111)は、変換符号化を行うために、音声信号(S15)に対してMDCT分析を施す。ピッチ周波数変換部(112)は、ピッチ周期の逆数を求めてピッチ周波数を算出する。選択部(113)は、ピッチ周波数の整数倍の周波数に位置するスペクトルを選択する。第2レイヤ符号化部(106)は、この選択された複数のスペクトルに対して符号化処理を行う。

Description

スケーラブル符号化装置、スケーラブル復号化装置、およびこれらの方法 技術分野
[0001] 本発明は、上位レイヤにおいて変換符号ィ匕を行うスケーラブル符号ィ匕装置、スケー ラブル復号ィ匕装置、およびこれらの方法に関する。
背景技術
[0002] 移動体通信システムでは、電波資源等の有効利用のために、音声信号を低ビットレ ートに圧縮して伝送することが要求されている。その一方で、ユーザからは通話音声 の品質向上や臨場感の高い通話サービスの実現が望まれているので、音声信号の 高品質化のみならず、より帯域の広いオーディオ信号等の音声以外の信号をも高品 質に符号ィ匕できることが望まれる。
[0003] このように相反する 2つの要求に対し、複数の符号ィ匕技術を階層的に統合する技 術が有望視されている。この技術は、音声信号に適したモデルで入力信号を低ビット レートで符号化する第 1レイヤと、入力信号と第 1レイヤの復号信号との差分信号を 音声以外の信号にも適したモデルで符号ィ匕する第 2レイヤとを階層的に組み合わせ る。このように階層的に符号ィ匕を行う技術は、符号ィ匕装置力も得られるビットストリーム にスケーラビリティ性、すなわち、ビットストリームの一部の情報力もでも復号信号を得 ることができる性質を有するため、一般的にスケーラブル符号ィ匕と呼ばれている。この スケーラブル符号ィ匕は、ビットレートの異なるネットワーク間の通信にも柔軟に対応で きる。よって、スケーラブル符号ィ匕は、 IPプロトコルで多様なネットワークが統合されて V、く今後のネットワーク環境に適したものと 、える。
[0004] MPEG 4 (Moving Picture Experts Group phase- 4)で規格化された技術を用 ヽ てスケーラブル符号ィ匕を実現する例として、例えば、非特許文献 1に開示されている 技術がある。この技術は、第 1レイヤにおいて、音声信号に適した CELP (Code Excit ed Linear Prediction ;符号励信線形予測)符号ィ匕を用い、第 2レイヤにおいて、原信 号から第 1レイヤ復号信号を減じた残差信号に対して、 AAC (Advanced Audio Code r)や TwmVQ (Transform Domain Weighted interleave Vector Quantization ;周波数 領域重み付きインターリーブベクトル量子化)等の変換符号ィ匕を用いる。この変換符 号化とは、時間領域の信号を周波数領域の信号に変換してから、この周波数領域の 信号に対し符号ィ匕を行う技術である。
[0005] また、変換符号化の具体例として特許文献 1に開示されて ヽる技術がある。この技 術は、入力信号をピッチ分析してピッチ周波数を求め、ピッチ周波数の整数倍の周 波数に位置するスペクトルをまとめて符号化する。ここで、音声信号の調波構造を特 定するパラメータであるピッチ周波数の整数倍にあたる周波数を調波周波数と呼び、 調波周波数に位置するスペクトルを調波スペクトルと呼ぶこととすると、特許文献 1の 技術は、調波スペクトルを復号した後に、入力スペクトル力も減算して誤差スペクトル を求め、この誤差スペクトルを別途符号ィ匕していることになる。この構成により、調波ス ベクトルを比較的少ない演算量で効率的に符号ィ匕することができ、音質劣化の少な
V、符号ィ匕方式を提供できて 、る。
特許文献 1:特開平 9 181611号公報
非特許文献 1 :三木弼ー編著、「MPEG— 4のすベて」、初版、(株)工業調査会、 19 98年 9月 30日、 p. 126- 127
発明の開示
発明が解決しょうとする課題
[0006] し力しながら、特許文献 1の技術をスケーラブル符号ィ匕に適用した場合、調波周波 数を特定するためにはピッチ周波数を符号ィ匕して復号ィ匕側へ伝送する必要がある。 また、調波スペクトルを復号した後に誤差スペクトル成分を求め、その誤差スペクトル をさらに符号ィ匕する必要がある。そのため符号ィ匕パラメータのビットレートが増加する
[0007] さらに特許文献 1の技術では、 1つのピッチ周波数に対応した 1組の調波スペクトル のみが存在している場合、すなわち、音源が 1種類の場合を想定しており、入力信号 に複数の話者や楽器が含まれているような音源が複数種類である場合に高品質な 符号ィ匕が困難となる。何故なら、音源が複数の場合、主たる調波スぺ外ル (主調波 スペクトル)と副次的な調波スペクトル (副調波スペクトル)という、異なるピッチ周波数 によって特定される複数種類の調波スペクトルが混在することとなるからである。 [0008] よって、本発明の目的は、符号ィ匕パラメータのビットレートを減少させることができ、 また、複数の調波構造が混在する音声信号に対しても効率的に符号化することがで きるスケーラブル符号ィ匕装置、スケーラブル復号ィ匕装置、およびこれらの方法を提供 することである。
課題を解決するための手段
[0009] 本発明のスケーラブル符号ィ匕装置は、音声信号を当該音声信号のピッチ周期を用 いて符号化する第 1の符号化手段と、前記ピッチ周期からピッチ周波数を算出する 算出手段と、前記音声信号のスペクトルのうち、前記ピッチ周波数の整数倍の周波 数におけるスペクトルに対して符号化を行う第 2の符号化手段と、を具備する構成を 採る。
発明の効果
[0010] 本発明によれば、スケーラブル符号ィ匕において、符号ィ匕パラメータのビットレートを 減少させることができる。また、符号化側において、複数の調波構造が混在する音声 信号に対しても効率的に符号ィ匕することができると共に、復号化側において、復号さ れた音声信号の音質を向上させることができる。
図面の簡単な説明
[0011] [図 1]実施の形態 1に係るスケーラブル符号ィ匕装置の主要な構成を示すブロック図 [図 2]実施の形態 1に係る第 2レイヤ符号ィ匕部内部の主要な構成を示すブロック図 [図 3]オーディオ信号のスペクトルの一例を示した図
[図 4]残差スペクトルの一例を示した図
[図 5]実施の形態 1に係るスケーラブル復号ィ匕装置の主要な構成を示すブロック図 [図 6]実施の形態 1に係る第 2レイヤ復号ィ匕部内部の主要な構成を示すブロック図 [図 7]実施の形態 1に係るスケーラブル符号ィ匕装置の変形例 1の主要な構成を示す ブロック図
[図 8]実施の形態 1に係る第 2レイヤ符号ィ匕部の主要な構成を示すブロック図
[図 9]実施の形態 1に係るスケーラブル復号ィ匕装置の主要な構成を示すブロック図
[図 10]実施の形態 1に係る第 2レイヤ復号ィ匕部の主要な構成を示すブロック図
[図 11]実施の形態 1に係る第 2レイヤ符号ィ匕部の変形例の主要な構成を示すブロッ ク図
[図 12]実施の形態 1に係る第 2レイヤ復号化部の構成を示すブロック図
[図 13]実施の形態 2に係る第 2レイヤ符号ィ匕部の主要な構成を示すブロック図
[図 14]残差スペクトルと起点周波数との関係を説明するための図
[図 15]実施の形態 2に係る第 2レイヤ復号ィ匕部の主要な構成を示すブロック図
[図 16]実施の形態 3に係るスケーラブル符号ィ匕装置の主要な構成を示すブロック図
[図 17]実施の形態 3に係る第 2レイヤ符号ィ匕部内部の主要な構成を示すブロック図
[図 18]実施の形態 3に係る第 3レイヤ符号ィ匕部内部の主要な構成を示すブロック図
[図 19]第 1調波周波数と第 2調波周波数とを概念的に示した図
[図 20]実施の形態 3に係るスケーラブル復号ィ匕装置の主要な構成を示すブロック図
[図 21]実施の形態 3に係る第 2レイヤ復号ィ匕部内部の主要な構成を示すブロック図
[図 22]実施の形態 3に係る第 3レイヤ復号ィ匕部内部の主要な構成を示すブロック図 発明を実施するための最良の形態
[0012] 以下、本発明の実施の形態について、添付図面を参照して詳細に説明する。
[0013] (実施の形態 1)
図 1は、本発明の実施の形態 1に係るスケーラブル符号ィ匕装置の主要な構成を示 すブロック図である。
[0014] 本実施の形態に係るスケーラブル符号ィ匕装置の各部は以下の動作を行う。
[0015] 第 1レイヤ符号ィ匕部 102は、入力される音声信号 (原信号) S11を CELP方式によ つて符号化し、得られる符号化パラメータ S 12を、多重化部 103、第 1レイヤ復号ィ匕 部 104に与える。また、第 1レイヤ符号ィ匕部 102は、得られた符号ィ匕パラメータのうち 、ピッチ周期 S14を第 2レイヤ符号ィ匕部 106に与える。このピッチ周期は、適応符号 帳の探索にぉ 、て得られる適応符号帳ラグが用 、られる。第 1レイヤ復号化部 104 は、第 1レイヤ符号ィ匕部 102から出力された符号ィ匕パラメータ S12から第 1レイヤの復 号信号 S13を生成し、第 2レイヤ符号ィ匕部 106に出力する。
[0016] 一方、遅延部 105は、入力された音声信号 S11に所定の長さの遅延を与える。この 遅延は、第 1レイヤ符号ィ匕部 102、第 1レイヤ復号化部 104等で生じる時間遅れを補 正するためのものである。第 2レイヤ符号ィ匕部 106は、第 1レイヤ復号化部 104で生 成された第 1レイヤ復号信号 S 13を用いて、遅延部 105から出力される所定時間遅 延された音声信号 S 15に対し、 MDCT (Modified Discrete Cosine Transform ;変形 離散コサイン変換)を用いた変換符号ィ匕を施し、生成される符号ィ匕パラメータ S 16を 多重化部 103に出力する。
[0017] 多重化部 103は、第 1レイヤ符号ィ匕部 102で求められる符号ィ匕パラメータ S 12と、 第 2レイヤ符号ィ匕部 106で求められる符号ィ匕パラメータ S 16とを多重化し、これを出 力符号化パラメータのビットストリームとして外部に出力する。
[0018] 図 2は、上記の第 2レイヤ符号ィ匕部 106内部の主要な構成を示すブロック図である
[0019] MDCT分析部 111は、変換符号ィ匕を行うために、音声信号 S 15に対して MDCT 分析を施し、分析結果のスぺ外ルを選択部 113に出力する。変換符号ィ匕は、時間 領域の信号を周波数領域の信号に変換してから、この周波数領域の信号に対し符 号ィ匕を行う技術であり、 MDCT分析を用いる変換符号ィ匕としては、 AAC (Advanced Audio Coder)、 TwmVQ (Transform Domain Weighted Interleave Vector Quantizati on ;周波数領域重み付きインターリーブベクトル量子化)等がある。
[0020] ピッチ周波数変換部 112は、第 1レイヤ符号ィ匕部 102から与えられるピッチ周期 S 1 4を秒単位の値に変換した後にその逆数を求めてピッチ周波数を算出し、選択部 11 3、 115に出力する。
[0021] 選択部 113は、ピッチ周波数変換部 112から出力されるピッチ周波数を用いて、 M DCT分析部 111から出力される音声信号のスペクトルのうち一部のスペクトルを選択 し、加算部 117に出力する。具体的には、選択部 113は、ピッチ周波数の整数倍の 周波数 (調波周波数)に位置するスペクトル (調波スペクトル)を選択し、加算部 117 に出力する。第 2レイヤ符号ィ匕部 106は、この選択された複数の調波スペクトルに対 して以降の符号化処理を行う。このように、符号ィ匕対象のスペクトルを全範囲でなく一 部の範囲に限定することにより、符号ィ匕レートの低ビットレートイ匕を図ることができる。 なお、ここで調波スペクトルとは、調波周波数上に位置する非常に狭帯域の線スぺク トルのようなスペクトルのことである。
[0022] MDCT分析部 114は、 MDCT分析部 111と同様に、第 1レイヤ復号ィ匕部 104から 出力される第 1レイヤ復号信号 SI 3に対して MDCT分析を施し、分析結果のスぺタト ルを選択部 115に出力する。
[0023] 選択部 115は、選択部 113と同様に、ピッチ周波数変換部 112から出力されるピッ チ周波数を用いて、 MDCT分析部 114から出力される第 1レイヤ復号信号のスぺク トルのうち一部の範囲のスペクトルを選択し、加算部 116に出力する。
[0024] 残差スペクトル符号帳 121は、後述の探索部 120から指示されたインデックスに対 応する残差スペクトルを生成し、乗算器 123に出力する。
[0025] ゲイン符号帳 122は、後述の探索部 120から指示されたインデックスに対応するゲ インを乗算器 123に出力する。
[0026] 乗算器 123は、残差スペクトル符号帳 121で生成された残差スペクトルに、ゲイン 符号帳 122から出力されたゲインを乗算し、ゲイン調整後の残差スぺ外ルを加算器
116に出力する。
[0027] 加算器 116は、選択部 115から出力される一部の範囲に限定された第 1レイヤ復号 信号のスペクトルに、乗算器 123から出力されるゲイン調整後の残差スペクトルを加 算し、加算器 117に出力する。
[0028] 加算器 117は、選択部 113から出力される一部の範囲に限定された音声信号のス ベクトルから、加算器 116から出力される第 1レイヤ復号信号のスペクトルを減算して 残差スペクトルを求め、重み付け部 119に出力する。第 2レイヤ符号ィ匕部 106は、こ の残差スペクトルを最小とするように符号ィ匕が行われる。
[0029] 聴覚マスキング算出部 118は、音声信号 S15に対し、人間には知覚されないノイズ パヮの閾値、すなわち、聴覚マスキングを算出し、重み付け部 119に出力する。人間 の聴覚には、ある周波数の信号が与えられたときにその周波数近傍の信号が聞こえ 難くなるという特性 (マスキング効果)があり、聴覚マスキング算出部 118は、この特性 を第 2レイヤ符号ィ匕部 106で利用するため、入力された音声信号 S 15のスペクトルか ら聴覚マスキングを算出する。
[0030] 重み付け部 119は、加算器 117から出力される残差スペクトルに対し、聴覚マスキ ング算出部 118で算出された聴覚マスキングによる重み付けを施し、探索部 120に 出力する。 [0031] 上記の残差スペクトル符号帳 121、ゲイン符号帳 122、乗算器 123、加算器 116、 117、および重み付け部 119は、閉ループ (帰還ループ)を構成しており、探索部 12 0は、重み付け部 119から出力される残差スペクトルが最小となるように、残差スぺタト ル符号帳 121およびゲイン符号帳 122に指示するインデックスを様々に変化させる。
[0032] より詳細には、残差スペクトル符号帳 121に格納されている残差スペクトルのべタト ル候補、およびゲイン符号帳 122に格納されているゲイン候補は、例えば次の式(1) で表される歪み Eを最小とするように決定される。ここで、 w(k)は聴覚マスキングによ り定まる重み関数、 o (k)は原信号スペクトル、 g (j)は第 jゲイン候補、 e (i, k)は第 i残 差スペクトル候補、 b (k)は基本レイヤスペクトルを表す。
[数 1]
E = ^ w(k (o(k) - (gU) ' e(i, k) + b{k)))2
[0033] また、第 2レイヤ符号ィ匕部 106がスケールファクタを用いる符号ィ匕部の場合には、 歪み Eは、例えば次の式(2)のように定義される。ここで SF (k)は原信号スペクトルの スケールファクタを符号ィ匕した結果得られる復号スケールファクタ、 b' (k)は基本レイ ャスペクトルを自身のスケールファクタで正規ィ匕した結果得られるスペクトルを表す。
[数 2]
E = w(k) - (o(k)一 (g(j) ' (i, k) + SF(k) · b'{k)))2 … ( 2 )
[0034] 探索部 120は、上記の閉ループによって最終的に得られる、残差スペクトル符号帳 121およびゲイン符号帳 122のインデックスを、符号ィ匕パラメータ S 16として第 2レイ ャ符号ィ匕部 106の外部に出力する。
[0035] 次いで、選択部 113、 115がスペクトルを一部の範囲に選択する処理によって、符 号ィ匕効率を向上させることができる原理について、以下図面を用いて詳細に説明す る。
[0036] 図 3は、原信号であるオーディオ信号のスペクトルの一例を示した図である。サンプ リング周波数は 16kHzとなっている。
[0037] この例では、ピッチ周波数は約 600Hzとなっており、一般的なオーディオ信号にお いて、ピッチ周波数の整数倍の位置、すなわち、調波周波数 fl、 f2、 f3、 · · ·の位置 にスペクトルのピーク (調波スペクトル)が複数現れることがわかる。
[0038] 図 4は、図 3に示した原信号スペクトル力 第 1レイヤ復号信号のスペクトルを減じて 得られる残差スペクトルの一例を示した図である。この図において、実線が残差スぺ タトル、破線が聴覚マスキング閾値を表している。
[0039] この図に示すように、第 1レイヤにおいて符号ィ匕が施されているために、残差スぺク トルの振幅は、原信号スペクトルに比べ全体的に小さくなつている。さらに、低域のス ベクトルの振幅が高域のスペクトルの振幅よりもより小さくなつている。これは、第 1レイ ャ符号ィ匕部 102において行われる CELP符号化が、信号エネルギーの大きい成分 に対してより符号ィ匕歪みを小さくする処理を施すという特徴があるためである。
[0040] また、調波周波数上に位置する残差スペクトルは、原信号スペクトルと比べて振幅 が減衰しているものの、そのピーク形状は依然として残っている。すなわち、振幅が 減衰しても、調波周波数上においては残差スペクトルのピークが聴覚マスキング閾値 を超えてしまう状況が多く発生する。さらに、 CELP符号ィ匕の上記特徴により、低域よ りも高域の方が聴覚マスキング閾値を超える残差スペクトルのピーク数がより多くなる
[0041] 一方、聴覚マスキング閾値よりも残差スペクトルが小さ!/、場合には、聴感上その符 号ィ匕歪みは知覚されない。前述したように、聴覚マスキング閾値を超える残差スぺク トルの多くは調波周波数上もしくはその近傍に位置するものであり、高域ほどこの傾 向が強い。また、調波周波数以外の周波数における残差スペクトルの多くは、聴覚マ スキング閾値よりも小さぐ符号ィ匕の対象とする必要がない。
[0042] そこで、以上の特性を考慮して、本実施の形態では、入力信号の効率的な符号ィ匕 を行うために、第 2レイヤにおいて、調波周波数上に位置するスペクトルを符号ィ匕対 象とする。 [0043] 図 5は、上記のスケーラブル符号ィ匕装置で符号ィ匕されたコードを復号する、すなわ ち、本実施の形態に係るスケーラブル復号ィ匕装置の主要な構成を示すブロック図で ある。
[0044] 分離部 151は、上記のスケーラブル符号ィ匕装置で符号化されたコードを、第 1レイ ャ復号化部 152用の符号化パラメータと、第 2レイヤ復号ィ匕部 153用の符号ィ匕パラメ ータとに分離する。
[0045] 第 1レイヤ復号ィ匕部 152は、分離部 151で得られた符号化パラメータに対し CELP 方式の復号化を施し、得られる第 1レイヤ復号信号を第 2レイヤ復号ィ匕部 153に与え る。また、第 1レイヤ復号ィ匕部 152は、上記の CELP方式の復号ィ匕で得られるピッチ 周期を第 2レイヤ復号ィ匕部 153に出力する。このピッチ周期として、適応符号帳ラグ が用いられる。この第 1レイヤ復号信号は、必要に応じ、直接外部にも低品質の復号 信号として出力される。
[0046] 第 2レイヤ復号ィ匕部 153は、第 1レイヤ復号ィ匕部 152から得られる第 1レイヤ復号信 号を用いて、分離部 151で分離された第 2レイヤ符号化パラメータに対して後述の復 号化処理を施し、得られる第 2レイヤ復号信号を必要に応じて高品質の復号信号とし て外部に出力する。
[0047] このように、第 1レイヤ復号信号によって再生音声の最低限の品質が担保され、第 2 レイヤ復号信号によって再生音声の品質を高めることができる。また、第 1レイヤ復号 信号または第 2レイヤ復号信号の 、ずれを出力するかは、ネットワーク環境 (パケット ロスの発生等)によって第 2レイヤ符号化パラメータが得られるかどうか、または、アブ リケーシヨンやユーザの設定等に依存する。
[0048] 図 6は、上記の第 2レイヤ復号ィ匕部 153内部の主要な構成を示すブロック図である
[0049] この図に示す MDCT分析部 161、加算器 162、ピッチ周波数変換部 164、残差ス ベクトル符号帳 166、乗算器 167、およびゲイン符号帳 168は、上記のスケーラブル 符号ィ匕装置の第 2レイヤ符号ィ匕部 106 (図 2参照)が有する MDCT分析部 114、カロ 算器 116、ピッチ周波数変換部 112、残差スペクトル符号帳 121、乗算器 123、およ びゲイン符号帳 122にそれぞれ対応した構成であり、各部は基本的に同様の機能を 有する。
[0050] 残差スペクトル符号帳 166は、分離部 151から与えられる符号ィ匕パラメータ (振幅情 報)を用いて、格納されて 、る複数の残差スペクトル候補の中から 1つの残差スぺタト ルを選択し、乗算部 167に出力する。
[0051] ゲイン符号帳 168は、分離部 151から与えられる符号ィ匕パラメータ (ゲイン情報)を 用いて、格納されている複数のゲイン候補の中から 1つのゲインを選択し、乗算部 16
7に出力する。
[0052] 乗算部 167は、残差スペクトル符号帳 166から与えられる残差スペクトルに、ゲイン 符号帳 168から与えられるゲインを乗じ、ゲイン調整後の残差スペクトルを配置部 16 5に出力する。
[0053] ピッチ周波数変換部 164は、第 1レイヤ復号ィ匕部 152から与えられるピッチ周期を 用いて、ピッチ周波数を算出し、配置部 165に出力する。このピッチ周波数は、ピッ チ周期を秒単位の値に変換し、その逆数で表される。
[0054] 配置部 165は、ピッチ周波数変換部 164から与えられるピッチ周波数で表される調 波周波数上に、乗算部 167から与えられるゲイン調整後の残差スペクトルを配置し、 加算部 162に出力する。この残差スペクトルの配置方法は、符号化側の第 2レイヤ符 号ィ匕部 106内部の選択部 113、 115において、ピッチ周波数を用いてどのように MD CT係数を配置したかに依存しており、復号ィヒ側でも符号ィヒ側と同様の配置方法を 採る。
[0055] MDCT分析部 161は、第 1レイヤ復号ィ匕部 152から出力された第 1レイヤ復号信 号を MDCT変換により周波数分析し、得られる MDCT係数、すなわち、第 1レイヤ 復号スペクトルを加算器 162に出力する。
[0056] 加算器 162は、 MDCT分析部 161から出力された第 1レイヤ復号スペクトルに、配 置部 165から出力される各残差スペクトル配置後のスペクトルを加算することにより、 第 2レイヤ復号スペクトルを生成し、これを時間領域変換部 163に出力する。
[0057] 時間領域変換部 163は、加算器 162から出力される第 2レイヤ復号スペクトルを時 間領域の信号に変換した後、必要に応じて適切な窓掛けおよび重ね合わせ加算等 の処理を行ってフレーム間に生じる不連続を回避し、最終的な高品質の復号信号を 出力する。
[0058] 以上説明したように、本実施の形態によれば、第 1レイヤにおける CELP方式の符 号ィ匕によって求まるピッチ周期を用いて、第 2レイヤにおいて、音声信号の調波構造 を特定する調波周波数を特定し、この調波周波数上のスペクトルのみを符号化対象 とする。よって、音声信号の全周波数帯域を符号ィ匕対象とするのではないため、符号 ィ匕パラメータのビットレートを低減することができると共に、また、調波周波数上のスぺ タトルは音声信号の特徴をよく表したスペクトルであるため、少な 、ビットレートで高品 質の復号信号を得ることができ符号ィ匕効率が良い。さらに、ピッチ周波数に関する付 加情報を復号化側へ伝送する必要もな ヽ。
[0059] なお、本実施の形態では、第 2レイヤにおける変換符号ィ匕において、調波スぺタト ル、すなわち、調波周波数上のスペクトルを符号化対象とする場合を例にとって説明 したが、符号ィ匕対象とするスペクトルは必ずしも調波周波数上のスペクトルに限定す る必要はなぐ例えば、調波周波数の近傍に位置するスペクトルの中で、他のスぺク トルより鋭敏なピーク形状を有して 、るスペクトルを選択して符号ィ匕対象としても良 ヽ 。この場合、調波周波数カゝら選択されたスぺ外ルまでの相対的な位置情報を符号 化して復号化部へ伝送する必要がある。
[0060] なお、本実施の形態では、第 2レイヤにおける変換符号ィ匕において、調波スぺタト ル、すなわち、調波周波数上に位置する非常に狭帯域の線スペクトルのようなスぺク トルを符号化対象とする場合を例にとって説明したが、符号化対象とするスペクトル は必ずしも線スペクトルのようなスペクトルにする必要はなぐ例えば、調波周波数近 傍の一定の帯域幅 (ただし狭帯域)を有するスペクトルを符号ィ匕対象としても良い。例 えば、この一定の帯域幅として調波周波数を中心とした一定範囲の周波数領域を設 定することができる。
[0061] 図 7は、本実施の形態に係るスケーラブル符号ィ匕装置の変形例 1の主要な構成を 示すブロック図である。なお、既に説明した構成要素と同一の構成要素には同一の 符号を付し、その説明を省略する。
[0062] 第 1レイヤ符号ィ匕部 102aは、第 1レイヤ符号ィ匕部 102と基本的動作は同一である 1S ピッチ周期を第 2レイヤ符号ィ匕部 206に出力しない点が異なる。第 2レイヤ符号 化部 206は、第 1レイヤ復号ィ匕部 104から出力される第 1レイヤ復号信号 S 13を相関 分析してピッチ周期を求める。
[0063] 図 8は、上記の第 2レイヤ符号ィ匕部 206内部の主要な構成を示すブロック図である 。なお、既に説明した構成要素と同一の構成要素には同一の符号を付し、その説明 を省略する。
[0064] 相関分析部 211における相関分析は、第 1レイヤ復号信号を y (n)としたとき、例え ば次の式(3)に従って行われる。ここで、 τはピッチ周期の候補を表し、探索範囲 Τ ΜΙΝ〜ΤΜΑΧの中で最も Cor ( τ )を大きくするときの τをピッチ周期として出力する
COT T) ΊΜΙΝ≤τ≤ΊΜΑΧ ( 3 )
Figure imgf000014_0001
[0065] 第 1レイヤ符号ィ匕部 102aで求められるピッチ周期は、内部の適応符号帳に含まれ る適応ベクトル候補と原信号との歪みを最小化する処理において決定されるもので あり、適応符号帳に含まれる適応ベクトル候補の内容によっては正しいピッチ周期が 求まらず、その整数倍または整数分の 1のピッチ周期が求まることがある。しかし、第 1レイヤ符号化部 102aは、適応符号帳で表しきれない誤差成分を符号化する雑音 符号帳も有しており、仮に適応符号帳が有効に機能しない場合でも雑音符号帳を用 V、て符号ィ匕パラメータが生成されることで、この符号化パラメータを復号して得られる 第 1レイヤ復号信号は、より原信号に近づくことになる。従って、本変形例では、この 第 1レイヤ復号信号をピッチ分析することでより正確なピッチ情報を得る。
[0066] よって、本変形例によれば、符号ィ匕性能を向上させることができる。また、第 1レイヤ 復号信号は復号ィ匕側でも得られるため、本変形例によれば、ピッチ周期に関する情 報を復号化側に伝送する必要がな ヽ。
[0067] 図 9は、図 7に示したスケーラブル符号ィ匕装置に対応するスケーラブル復号ィ匕装置 の主要な構成を示すブロック図である。また、図 10は、このスケーラブル復号ィ匕装置 内の第 2レイヤ復号ィ匕部 253の主要な構成を示すブロック図である。ここでも、既に 説明した構成要素と同一の構成要素には同一の符号を付し、その説明を省略する。
[0068] 図 11は、本実施の形態に係るスケーラブル符号ィ匕装置の変形例 2、特に第 2レイヤ 符号化部 106の変形例(第 2レイヤ符号ィ匕部 306)の主要な構成を示すブロック図で ある。ここでも、既に説明した構成要素と同一の構成要素には同一の符号を付し、そ の説明を省略する。
[0069] ピッチ周期修正部 311は、第 1レイヤで得られるピッチ周波数を基準にその周辺の ピッチ周波数から、より正確なピッチ周波数を求め直し、その差分量を符号化する。 より詳細には、ピッチ周期修正部 311は、第 1レイヤで得られるピッチ周期 Tに差分量 ΔΤを加え、 T+ ΔΤを秒単位の値に変換した後に、その逆数をとりピッチ周波数を 求める。このピッチ周波数で特定される調波周波数に位置する下記の式 (4)の d (k) 、もしくは調波周波数を中心に限定された周波数範囲に含まれる下記 d (k)の総和 S をとる。ここで、 M (k)は聴覚マスキング閾値、 o (k)は原信号スペクトル、 b (k)は第 1 レイヤ復号信号のスペクトル、 MAX0は最大値を返す関数、 d (k)は、聴覚マスキン グ閾値 (M (k) )と残差スペクトル (o (k)— b (k) )とを比較して残差スペクトルの振幅が 聴覚マスキング閾値をどの程度超えているかを表すパラメータである。
Figure imgf000015_0001
[0070] この d (k)は、聴感的な歪みを定量ィ匕したものに相当する。ピッチ周期修正部 311 は、この総和 Sが最大となるときの ΔΤを符号ィ匕してピッチ周期修正情報として出力 する。そして、 T+ ΔΤをピッチ周波数変換部 112に出力する。
[0071] 図 12は、図 11に示した第 2レイヤ符号化部 306に対応する第 2レイヤ復号化部 35 3の構成を示すブロック図である。
[0072] ピッチ周期修正部 361は、第 2レイヤ符号ィ匕部 306から伝送されたピッチ周期修正 情報を基に差分量 ΔΤを復号し、ピッチ周期 Tを加算して修正後のピッチ周期を生成 し出力する。
[0073] これらの構成によれば、少ないビットを付カ卩してより正確なピッチ周波数を求めるこ とにより、復号信号の高品質ィ匕を図ることができる。
[0074] (実施の形態 2)
本発明の実施の形態 2では、残差スペクトル (原信号スペクトル力ゝら第 1レイヤ復号 信号スペクトルを減じたスペクトル)と聴覚マスキング閾値との関係から、第 2レイヤで 符号ィ匕対象とする高域スペクトルを決定するための周波数 (起点周波数)を求め、こ の起点周波数よりも高域のスペクトルについて、実施の形態 1で説明した調波スぺク トルの符号ィ匕を行う。そして、起点周波数の情報を符号化して復号部へ伝送する。
[0075] 第 1レイヤにおける符号ィ匕は CELP方式であるため、信号エネルギーの大きい成分 の符号ィ匕歪みを小さくする性質があり、聴感的に歪みが知覚されるスペクトルは高域 部に発生しやすくなる。その性質を利用し、符号ィ匕の対象となるスぺ外ルの数を限 定することにより、符号化効率を改善させる。
[0076] 本実施の形態に係るスケーラブル符号ィ匕装置は、実施の形態 1に示したスケーラ ブル符号ィ匕装置と同様の基本的構成を有しているので、全体図の説明は省略し、実 施の形態 1と異なる構成である第 2レイヤ符号ィ匕部 406について以下説明する。
[0077] 図 13は、第 2レイヤ符号ィ匕部 406の主要な構成を示すブロック図である。なお、実 施の形態 1に示した第 2レイヤ符号ィ匕部 106と同一の構成要素には同一の符号を付 し、その説明を省略する。
[0078] 起点周波数決定部 411は、残差スペクトルと聴覚マスキング閾値との関係から、起 点周波数を決定する。起点周波数の候補はあらかじめ定められており、符号化側と 復号化側とでは起点周波数および符号化パラメータの候補が記録された同一のテ 一ブルを有している。
[0079] 例えば、起点周波数は、下記で表される d (k)を算出し、この d (k)を用いて決定さ れる。
[数 5] d(k)
Figure imgf000017_0001
一 M(k), 0.0) … ( 5 )
[0080] d (k)は、残差スペクトルの振幅が聴覚マスキング閾値をどの程度超えて 、るかを表 すパラメータであり、例えば、残差スペクトルの振幅が聴覚マスキング閾値を超えてい な 、スペクトルは 0とみなす。
[0081] 起点周波数決定部 411は、起点周波数の各候補に対して、調波周波数または調 波周波数を中心に限定された区間の d (k)の総和をとり、その変化量が大きくなるとき の起点周波数を選択して、その符号化パラメータを出力する。
[0082] 図 14は、残差スペクトルと起点周波数との関係を説明するための図である。上段は 、残差スペクトル (実線)および聴覚マスキング閾値 (破線)を示しており、下段は、起 点周波数を OHzから 3000Hzに変化させた場合の、すなわち、起点周波数 # 0〜# 3における符号ィ匕対象のスペクトル周波数 (帯域)を示したものである(ここでは、符号 化対象の周波数と符号ィ匕対象外の周波数とを信号のオン Zオフによって示している
) o
[0083] 残差スペクトルは、サンプリング周波数 16kHzのオーディオ信号を原信号として、こ の原信号スペクトル力 第 1レイヤ復号信号のスペクトルを減じて求めたものである。 この例では、周波数 2000Hz以下の残差スペクトルは聴覚マスキング閾値以下とな つており、 2000Hz以上の高調波位置で聴覚マスキング閾値を超える残差スペクトル が現れている。すなわち、前述した d (k)の総和の変化量は起点周波数 # 2 (2000H z)から起点周波数 # 3 (3000Hz)の間で大きく変化する。よって、このとき、符号ィ匕 対象のスぺ外ル周波数を特定する情報として、起点周波数 # 2を表す符号化パラメ ータが出力されることになる。
[0084] 図 15は、上記の第 2レイヤ符号ィ匕部 406に対応する第 2レイヤ復号ィ匕部 453の主 要な構成を示すブロック図である。実施の形態 1に示した第 2レイヤ復号ィ匕部 153 ( 図 6参照)と同一の構成要素には同一の符号を付し、その説明を省略する。
[0085] 起点周波数復号部 461は、起点周波数の符号ィ匕パラメータを用いて起点周波数を 復号し、配置部 165bに出力する。配置部 165bは、この起点周波数とピッチ周波数 変換部 164から出力されるピッチ周波数とを用いて復号残差スペクトルを配置する周 波数を求め、この周波数に乗算器 167から出力される復号残差スペクトルを配置す る。
[0086] 本実施の形態によれば、以下の効果が得られる。すなわち、第 1レイヤの符号ィ匕は CELP方式の符号ィ匕であるため、エネルギーの大き 、低域スペクトルは比較的符号 化歪みが少なく符号化される。よって、第 2レイヤにおいて、起点周波数より高域に位 置する調波スペクトルのみを符号ィ匕することにより、符号ィ匕対象のスペクトルが少なく なり、符号ィ匕パラメータのビットレートを少なくすることができる。これは、起点周波数 に関する情報を復号ィ匕側に伝送しなくてはならないとしても符号ィ匕パラメータの低ビ ットレートイ匕を実現することができる。
[0087] (実施の形態 3)
本発明の実施の形態 3では、複数の音源が存在し、調波スペクトルを特定するため のピッチ周波数が複数存在する場合に、 1組ではなく複数の組の調波スペクトルをそ れぞれ符号化する。
[0088] 図 16は、本発明の実施の形態 3に係るスケーラブル符号ィ匕装置の主要な構成を示 すブロック図である。このスケーラブル符号ィ匕装置も、実施の形態 1に示したスケーラ ブル符号化装置と同様の基本的構成を有しており、同一の構成要素には同一の符 号を付し、その説明を省略する。
[0089] 本実施の形態に係るスケーラブル符号ィ匕装置の構成は、第 1レイヤ符号ィ匕部 102c で得られるピッチ周期 S 14を使用して符号ィ匕を行う第 2レイヤ符号ィ匕部 106cと、ピッ チ周期 S14を基準とする周辺のピッチ周期から、新たな調波スペクトル符号ィ匕用のピ ツチ周期を求め、符号ィ匕を行う第 3レイヤ符号ィ匕部 501とから成る。
[0090] 第 2レイヤ符号ィ匕部 106cは、第 1レイヤ符号ィ匕部 102cで得られるピッチ周期 S14 を基にピッチ周波数を求め、このピッチ周波数で特定される調波スペクトル (第 1調波 スペクトル)を符号ィ匕し、得られる各パラメータ、すなわち、復号第 1調波スペクトル (S 51)、聴覚マスキング閾値 (S52)、原信号スペクトル (S53)、および第 1レイヤ復号 信号スペクトル (S54)を第 3レイヤ符号ィ匕部 501に出力する。 [0091] 第 3レイヤ符号ィ匕部 501は、第 1レイヤ符号ィ匕部 102cで得られるピッチ周期 S14を 基準に、その周辺のピッチ周期、すなわち、ピッチ周期 S 14と近い値である他のピッ チ周期から、最も適したピッチ周期を算出し、算出されたピッチ周期から特定される 調波スペクトル (第 2調波スペクトル)を符号ィ匕する。また、第 3レイヤ符号ィ匕部 501は 、実施の形態 1の変形例 2と同様に、算出されたピッチ周期のピッチ周期 S14からの 差分量も符号化する。また、上記の新たに算出されるピッチ周期の算出法は、実施 の形態 1の変形例 2と同様の手法を用 、る。
[0092] 図 17は、上記の第 2レイヤ符号ィ匕部 106c内部の主要な構成を示すブロック図であ る。また、図 18は、上記の第 3レイヤ符号ィ匕部 501内部の主要な構成を示すブロック 図である。
[0093] 第 2レイヤ符号ィ匕部 106c内部の第 1調波スペクトル復号部 511は、ピッチ周期 S14 力 求まるピッチ周波数と、第 1調波スペクトルを符号ィ匕して得られる符号ィ匕パラメ一 タ (第 1調波符号ィ匕パラメータ)とから第 1調波スペクトルを復号し、第 3レイヤ符号ィ匕 部 501に与える(S51)。
[0094] 第 3レイヤ符号ィ匕部 501は、第 1レイヤ復号スペクトル (S54)に第 1調波スペクトル( S51)を加算し、その結果を利用して第 2調波スペクトルの符号化パラメータ (第 2調 波符号化パラメータ)を探索により決定する。
[0095] 図 19は、第 2レイヤ符号ィ匕部 106cで符号ィ匕対象となる第 1調波周波数と、第 3レイ ャ符号ィ匕部 501で符号ィ匕対象となる第 2調波周波数とを概念的に示した図である。 ここでは、符号ィ匕対象の周波数と符号ィ匕対象外の周波数とを信号のオン Zオフによ つて示している。
[0096] このように、本実施の形態によれば、異なる 2つの調波スペクトルを有する入力信号 に対しても、各調波スペクトルを各々高効率に符号ィ匕することができる。さらに、これ を応用すれば、例えば、複数の話者や楽器が含まれている場合のように、調波周波 数の異なる複数の調波スぺ外ルを有する信号に対して、高品質な符号ィ匕を行うこと ができる。よって、主観品質を改善することができる。この構成によれば、基準のピッ チ周期力もの差分量を符号ィ匕するため、符号ィ匕パラメータを低ビットレートイ匕すること ができる。 [0097] なお、実施の形態 1の変形例 1で示したように、第 2レイヤ符号ィ匕部 106cは、ピッチ 周期 S 14の代わりに、第 1レイヤ復号信号 S13を分析して求められるピッチ周期を用 いても良い。
[0098] 図 20は、上記の本実施の形態に係るスケーラブル符号ィ匕装置に対応するスケーラ ブル復号ィ匕装置の主要な構成を示すブロック図である。実施の形態 1に示したスケ 一ラブル復号ィ匕装置と同一の構成要素には同一の符号を付し、その説明を省略す る。
[0099] 第 2レイヤ復号ィ匕部 153cは、第 1レイヤ符号化パラメータと第 1調波符号ィ匕パラメ一 タまでの情報とを用いて復号処理を行い、高品質 # 1の復号信号を出力する。第 3レ ィャ復号ィ匕部 551は、第 1レイヤ符号ィ匕パラメータと第 1調波符号化パラメータと第 2 調波符号化パラメータの情報とを用いて復号処理を行い、高品質 # 1の復号信号よ りさらに高品質な高品質 # 2の復号信号を出力する。
[0100] 図 21は、上記の第 2レイヤ復号ィ匕部 153c内部の主要な構成を示すブロック図であ る。また、図 22は、上記の第 3レイヤ復号ィ匕部 551内部の主要な構成を示すブロック 図である。
[0101] 第 2レイヤ復号ィ匕部 153cは、ピッチ周期と第 1調波符号ィ匕パラメータとから第 1調波 スペクトルを復号し、第 1調波スペクトルと第 1レイヤ復号スペクトルとの加算結果を第 3レイヤ復号ィ匕部 551に与える。第 3レイヤ復号ィ匕部 551は、第 1レイヤ復号スぺクト ルに復号第 1調波スペクトルを加算したスペクトル(S55)に復号第 2調波スペクトルを 加算する。
[0102] 本構成によれば、符号ィ匕パラメータの一部または全てを用いることで、低品質な復 号信号、高品質 # 1の復号信号、高品質 # 2の復号信号という、 3種類の品質の復号 信号を生成することが可能となる。これはスケーラブル機能をより細力べ制御できるこ とを意味する。
[0103] 以上、本発明の各実施の形態について説明した。
[0104] 本発明に係るスケーラブル符号ィ匕装置、スケーラブル復号ィ匕装置、およびこれらの 方法は、上記各実施の形態に限定されず、種々変更して実施することが可能である 。例えば、各実施の形態は、適宜組み合わせて実施することが可能である。 [0105] 本発明に係るスケーラブル符号ィ匕装置およびスケーラブル復号ィ匕装置は、移動体 通信システムにおける通信端末装置および基地局装置に搭載することも可能であり 、これにより上記と同様の作用効果を有する通信端末装置および基地局装置を提供 することができる。
[0106] なお、上記各実施の形態においては、スケーラブル符号ィ匕の階層数が 2または 3で ある場合を例にとって説明したが、これに限定されず、 4以上の階層を持つスケーラ ブル符号化にも適用することができる。
[0107] また、上記各実施の形態においては、第 1レイヤ符号ィ匕部において CELP方式の 符号ィ匕が行われる場合を例にとって説明したが、これに限定されず、第 1レイヤ符号 化部における符号ィ匕方法は、音声信号のピッチ周期を利用した符号ィ匕方法であれ ば良い。
[0108] また、本発明は、各レイヤの扱う信号のサンプリングレートが異なるときにも適用可 能である。例えば、第 nレイヤの扱う信号のサンプリングレートを Fs (n)と表した場合、 Fs (n)≤Fs (n+ 1)の関係が成り立つ。
[0109] また、上記各実施の形態においては、第 2レイヤにおける変換符号ィ匕の方式として 、 MDCTを使用する場合を例にとって説明した力 これに限定されず、例えば、 DF T (離散フーリエ変換)、コサイン変換、 Wavelet変換等の他の変換符号ィ匕方式であつ ても良い。
[0110] また、第 1レイヤで得られるピッチ周期 (T1)を基準に周辺のピッチ周期を決定する 際に、 T1の整数倍または整数分の 1の少なくとも一方を含むピッチ周期もピッチ周期 決定の際の基準に加えても良い。これは、半ピッチ、倍ピッチの対策となる。
[0111] また、ここでは、本発明をノヽードウエアで構成する場合を例にとって説明した力 本 発明はソフトウェアで実現することも可能である。
[0112] また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路 である LSIとして実現される。これらは個別に 1チップ化されていても良いし、一部ま たは全てを含むように 1チップィ匕されて ヽても良!、。
[0113] また、ここでは LSIとした力 集積度の違いによって、 IC、システム LSI、スーパー L SI、ウノレ卜ラ LSI等と呼称されることちある。 [0114] また、集積回路化の手法は LSIに限るものではなぐ専用回路または汎用プロセッ サで実現しても良い。 LSI製造後に、プログラム化することが可能な FPGA (Field Pro grammable Gate Array)や、 LSI内部の回路セルの接続もしくは設定を再構成可能な リコンフィギユラブル ·プロセッサを利用しても良 、。
[0115] さらに、半導体技術の進歩または派生する別技術により、 LSIに置き換わる集積回 路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積ィ匕を行って も良い。バイオ技術の適応等が可能性としてあり得る。
[0116] 本明細書は、 2004年 10月 28日出願の特願 2004— 314230に基づく。この内容 はすべてここに含めておく。
産業上の利用可能性
[0117] 本発明に係るスケーラブル符号化装置、スケーラブル復号ィ匕装置、およびこれらの 方法は、移動体通信システムにおける通信端末装置、基地局装置等の用途に適用 できる。

Claims

請求の範囲
[1] 音声信号を当該音声信号のピッチ周期を用いて符号化する第 1の符号化手段と、 前記ピッチ周期力 ピッチ周波数を算出する算出手段と、
前記音声信号のスペクトルのうち、前記ピッチ周波数の整数倍の周波数におけるス ベクトルに対して符号化を行う第 2の符号化手段と、
を具備するスケーラブル符号ィ匕装置。
[2] 複数のピッチ周波数が存在する音声信号のスぺ外ルに対し、前記第 2の符号化手 段で用いられるピッチ周波数と異なるピッチ周波数を用い、当該ピッチ周波数の整数 倍の周波数におけるスペクトルに対して符号ィ匕を行う第 3の符号ィ匕手段、
をさらに具備する請求項 1記載のスケーラブル符号ィ匕装置。
[3] 前記第 3の符号化手段は、
前記異なるピッチ周波数と前記第 2の符号化手段で用いられるピッチ周波数との差 をさらに符号ィ匕する、
請求項 2記載のスケーラブル符号化装置。
[4] 前記算出手段は、
前記第 1の符号化手段で得られる符号化パラメータの復号信号から前記ピッチ周 期を取得し、前記ピッチ周波数を算出する、
請求項 1記載のスケーラブル符号化装置。
[5] 前記第 2の符号化手段は、
前記音声信号のスペクトルのうち、所定周波数よりも高域のスペクトルに対して前記 符号化を行う、
請求項 1記載のスケーラブル符号化装置。
[6] 前記第 2の符号化手段は、
前記所定周波数に関する情報をさらに符号ィ匕する、
請求項 5記載のスケーラブル符号化装置。
[7] 前記ピッチ周期を当該ピッチ周期の周辺のピッチ周期に基づいて修正する修正手 段をさらに具備し、
前記算出手段は、 修正後のピッチ周期から前記ピッチ周波数を算出する、
請求項 1記載のスケーラブル符号化装置。
[8] 前記第 2の符号化手段は、
前記ピッチ周期と前記修正後のピッチ周期との差をさらに符号ィヒする、 請求項 7記載のスケーラブル符号化装置。
[9] 前記第 2の符号化手段は、
MDCT (Modified Discrete Cosine Transform ;変形離散コサイン変換)を用いる符 号化を行う、
請求項 1記載のスケーラブル符号化装置。
[10] 前記ピッチ周波数の整数倍の周波数におけるスペクトルとは、一定の帯域幅を有し て!ヽるスペクトルである、
請求項 1記載のスケーラブル符号化装置。
[11] 音声信号のピッチ周期を用いて符号化された前記音声信号の第 1の符号化パラメ ータを、前記ピッチ周期を利用して復号する第 1の復号化手段と、
前記ピッチ周期力 ピッチ周波数を算出する算出手段と、
前記音声信号のスペクトルのうちの一部のスペクトルを符号ィ匕して得られる第 2の符 号化パラメータから前記一部のスペクトルを生成する生成手段と、
前記算出手段によって算出されるピッチ周波数の整数倍の周波数に、前記生成手 段によって生成されるスペクトルを配置する配置手段と、
を具備するスケーラブル復号ィ匕装置。
[12] 請求項 1記載のスケーラブル符号化装置を具備する通信端末装置。
[13] 請求項 11記載のスケーラブル復号化装置を具備する通信端末装置。
[14] 請求項 1記載のスケーラブル符号化装置を具備する基地局装置。
[15] 請求項 11記載のスケーラブル復号化装置を具備する基地局装置。
[16] 音声信号を当該音声信号のピッチ周期を用いて符号ィヒするステップと、
前記ピッチ周期からピッチ周波数を算出するステップと、
前記音声信号のスペクトルのうち、前記ピッチ周波数の整数倍の周波数におけるス ベクトルに対して符号ィ匕を行うステップと、 を具備するスケーラブル符号化方法。
音声信号のピッチ周期を用いて符号化された前記音声信号の第 1の符号化パラメ ータを、前記ピッチ周期を利用して復号する第 1の復号化ステップと、
前記ピッチ周期力 ピッチ周波数を算出する算出ステップと、
前記音声信号のスペクトルのうちの一部のスペクトルを符号ィ匕して得られる第 2の符 号化パラメータ力も前記一部のスペクトルを生成する生成ステップと、
前記算出ステップにおいて算出されるピッチ周波数の整数倍の周波数に、前記生 成ステップにおいて生成されるスペクトルを配置する配置ステップと、
を具備するスケーラブル復号化方法。
PCT/JP2005/019661 2004-10-28 2005-10-26 スケーラブル符号化装置、スケーラブル復号化装置、およびこれらの方法 WO2006046587A1 (ja)

Priority Applications (7)

Application Number Priority Date Filing Date Title
CN2005800360148A CN101044553B (zh) 2004-10-28 2005-10-26 可扩展编码装置、可扩展解码装置及其方法
JP2006543195A JP5036317B2 (ja) 2004-10-28 2005-10-26 スケーラブル符号化装置、スケーラブル復号化装置、およびこれらの方法
BRPI0517246-2A BRPI0517246A (pt) 2004-10-28 2005-10-26 aparelho de codificação escalável, aparelho de decodificação escalável e métodos para os mesmos
AT05799294T ATE480851T1 (de) 2004-10-28 2005-10-26 Skalierbare codierungsvorrichtung, skalierbare decodierungsvorrichtung und verfahren dafür
US11/577,816 US8019597B2 (en) 2004-10-28 2005-10-26 Scalable encoding apparatus, scalable decoding apparatus, and methods thereof
EP05799294A EP1806736B1 (en) 2004-10-28 2005-10-26 Scalable encoding apparatus, scalable decoding apparatus, and methods thereof
DE602005023503T DE602005023503D1 (de) 2004-10-28 2005-10-26 Skalierbare codierungsvorrichtung, skalierbare decodierungsvorrichtung und verfahren dafür

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004-314230 2004-10-28
JP2004314230 2004-10-28

Publications (1)

Publication Number Publication Date
WO2006046587A1 true WO2006046587A1 (ja) 2006-05-04

Family

ID=36227828

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2005/019661 WO2006046587A1 (ja) 2004-10-28 2005-10-26 スケーラブル符号化装置、スケーラブル復号化装置、およびこれらの方法

Country Status (9)

Country Link
US (1) US8019597B2 (ja)
EP (1) EP1806736B1 (ja)
JP (1) JP5036317B2 (ja)
KR (1) KR20070083856A (ja)
CN (1) CN101044553B (ja)
AT (1) ATE480851T1 (ja)
BR (1) BRPI0517246A (ja)
DE (1) DE602005023503D1 (ja)
WO (1) WO2006046587A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009042739A (ja) * 2007-03-02 2009-02-26 Panasonic Corp 符号化装置、復号装置およびそれらの方法
US8880410B2 (en) 2008-07-11 2014-11-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating a bandwidth extended signal
USRE47180E1 (en) 2008-07-11 2018-12-25 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating a bandwidth extended signal

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2476992T3 (es) * 2004-11-05 2014-07-15 Panasonic Corporation Codificador, descodificador, método de codificación y método de descodificaci�n
WO2008066071A1 (en) * 2006-11-29 2008-06-05 Panasonic Corporation Decoding apparatus and audio decoding method
JPWO2008072732A1 (ja) * 2006-12-14 2010-04-02 パナソニック株式会社 音声符号化装置および音声符号化方法
US20100049512A1 (en) * 2006-12-15 2010-02-25 Panasonic Corporation Encoding device and encoding method
US20100017199A1 (en) * 2006-12-27 2010-01-21 Panasonic Corporation Encoding device, decoding device, and method thereof
US8527265B2 (en) 2007-10-22 2013-09-03 Qualcomm Incorporated Low-complexity encoding/decoding of quantized MDCT spectrum in scalable speech and audio codecs
CN101903944B (zh) * 2007-12-18 2013-04-03 Lg电子株式会社 用于处理音频信号的方法和装置
CN101552005A (zh) * 2008-04-03 2009-10-07 华为技术有限公司 编码方法、解码方法、***及装置
CN101604983B (zh) * 2008-06-12 2013-04-24 华为技术有限公司 编解码装置、***及其方法
RU2512090C2 (ru) * 2008-07-11 2014-04-10 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ генерирования сигнала с расширенной полосой пропускания
JP5295380B2 (ja) 2009-10-20 2013-09-18 パナソニック株式会社 符号化装置、復号化装置およびこれらの方法
JP2011253045A (ja) * 2010-06-02 2011-12-15 Sony Corp 符号化装置および符号化方法、復号装置および復号方法、並びにプログラム
KR101762204B1 (ko) 2012-05-23 2017-07-27 니폰 덴신 덴와 가부시끼가이샤 부호화 방법, 복호 방법, 부호화 장치, 복호 장치, 프로그램 및 기록 매체
US10410398B2 (en) * 2015-02-20 2019-09-10 Qualcomm Incorporated Systems and methods for reducing memory bandwidth using low quality tiles

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0685607A (ja) * 1992-08-31 1994-03-25 Alpine Electron Inc 高域成分復元装置
JPH0955778A (ja) * 1995-08-15 1997-02-25 Fujitsu Ltd 音声信号の広帯域化装置
JP2002229599A (ja) * 2001-02-02 2002-08-16 Nec Corp 音声符号列の変換装置および変換方法
JP2003323199A (ja) * 2002-04-26 2003-11-14 Matsushita Electric Ind Co Ltd 符号化装置、復号化装置及び符号化方法、復号化方法
JP2004053940A (ja) * 2002-07-19 2004-02-19 Matsushita Electric Ind Co Ltd オーディオ復号化装置およびオーディオ復号化方法
JP2004080635A (ja) * 2002-08-21 2004-03-11 Sony Corp 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体
JP2004517368A (ja) * 2001-01-12 2004-06-10 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 音声の帯域拡張

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4809334A (en) * 1987-07-09 1989-02-28 Communications Satellite Corporation Method for detection and correction of errors in speech pitch period estimates
KR940002854B1 (ko) * 1991-11-06 1994-04-04 한국전기통신공사 음성 합성시스팀의 음성단편 코딩 및 그의 피치조절 방법과 그의 유성음 합성장치
US5765127A (en) * 1992-03-18 1998-06-09 Sony Corp High efficiency encoding method
JP3528258B2 (ja) * 1994-08-23 2004-05-17 ソニー株式会社 符号化音声信号の復号化方法及び装置
US6064962A (en) * 1995-09-14 2000-05-16 Kabushiki Kaisha Toshiba Formant emphasis method and formant emphasis filter device
JP2778567B2 (ja) 1995-12-23 1998-07-23 日本電気株式会社 信号符号化装置及び方法
JP3840684B2 (ja) * 1996-02-01 2006-11-01 ソニー株式会社 ピッチ抽出装置及びピッチ抽出方法
US6202046B1 (en) * 1997-01-23 2001-03-13 Kabushiki Kaisha Toshiba Background noise/speech classification method
US6345246B1 (en) * 1997-02-05 2002-02-05 Nippon Telegraph And Telephone Corporation Apparatus and method for efficiently coding plural channels of an acoustic signal at low bit rates
JP3134817B2 (ja) * 1997-07-11 2001-02-13 日本電気株式会社 音声符号化復号装置
WO1999010719A1 (en) * 1997-08-29 1999-03-04 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
US6377915B1 (en) * 1999-03-17 2002-04-23 Yrp Advanced Mobile Communication Systems Research Laboratories Co., Ltd. Speech decoding using mix ratio table
US6298322B1 (en) * 1999-05-06 2001-10-02 Eric Lindemann Encoding and synthesis of tonal audio signals using dominant sinusoids and a vector-quantized residual tonal signal
FR2796189B1 (fr) 1999-07-05 2001-10-05 Matra Nortel Communications Procedes et dispositifs de codage et de decodage audio
KR100474833B1 (ko) * 1999-11-17 2005-03-08 삼성전자주식회사 예측 및 멜-스케일 이진 벡터를 이용한 가변 차원스펙트럼 진폭 양자화 방법 및 그 장치
US6633839B2 (en) * 2001-02-02 2003-10-14 Motorola, Inc. Method and apparatus for speech reconstruction in a distributed speech recognition system
US6584437B2 (en) * 2001-06-11 2003-06-24 Nokia Mobile Phones Ltd. Method and apparatus for coding successive pitch periods in speech signal
EP1351401B1 (en) 2001-07-13 2009-01-14 Panasonic Corporation Audio signal decoding device and audio signal encoding device
JP2003036097A (ja) * 2001-07-25 2003-02-07 Sony Corp 情報検出装置及び方法、並びに情報検索装置及び方法
KR100880480B1 (ko) * 2002-02-21 2009-01-28 엘지전자 주식회사 디지털 오디오 신호의 실시간 음악/음성 식별 방법 및시스템
WO2003091989A1 (en) * 2002-04-26 2003-11-06 Matsushita Electric Industrial Co., Ltd. Coding device, decoding device, coding method, and decoding method
KR100462611B1 (ko) 2002-06-27 2004-12-20 삼성전자주식회사 하모닉 성분을 이용한 오디오 코딩방법 및 장치
US8352248B2 (en) * 2003-01-03 2013-01-08 Marvell International Ltd. Speech compression method and apparatus

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0685607A (ja) * 1992-08-31 1994-03-25 Alpine Electron Inc 高域成分復元装置
JPH0955778A (ja) * 1995-08-15 1997-02-25 Fujitsu Ltd 音声信号の広帯域化装置
JP2004517368A (ja) * 2001-01-12 2004-06-10 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 音声の帯域拡張
JP2002229599A (ja) * 2001-02-02 2002-08-16 Nec Corp 音声符号列の変換装置および変換方法
JP2003323199A (ja) * 2002-04-26 2003-11-14 Matsushita Electric Ind Co Ltd 符号化装置、復号化装置及び符号化方法、復号化方法
JP2004053940A (ja) * 2002-07-19 2004-02-19 Matsushita Electric Ind Co Ltd オーディオ復号化装置およびオーディオ復号化方法
JP2004080635A (ja) * 2002-08-21 2004-03-11 Sony Corp 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009042739A (ja) * 2007-03-02 2009-02-26 Panasonic Corp 符号化装置、復号装置およびそれらの方法
US8880410B2 (en) 2008-07-11 2014-11-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating a bandwidth extended signal
USRE47180E1 (en) 2008-07-11 2018-12-25 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating a bandwidth extended signal
USRE49801E1 (en) 2008-07-11 2024-01-16 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating a bandwidth extended signal

Also Published As

Publication number Publication date
CN101044553A (zh) 2007-09-26
KR20070083856A (ko) 2007-08-24
US20090125300A1 (en) 2009-05-14
BRPI0517246A (pt) 2008-10-07
CN101044553B (zh) 2011-06-01
JPWO2006046587A1 (ja) 2008-05-22
EP1806736A1 (en) 2007-07-11
EP1806736B1 (en) 2010-09-08
ATE480851T1 (de) 2010-09-15
US8019597B2 (en) 2011-09-13
EP1806736A4 (en) 2008-03-19
DE602005023503D1 (de) 2010-10-21
JP5036317B2 (ja) 2012-09-26

Similar Documents

Publication Publication Date Title
JP5036317B2 (ja) スケーラブル符号化装置、スケーラブル復号化装置、およびこれらの方法
US7983904B2 (en) Scalable decoding apparatus and scalable encoding apparatus
US7769584B2 (en) Encoder, decoder, encoding method, and decoding method
KR101363793B1 (ko) 부호화 장치, 복호 장치 및 그 방법
US8010349B2 (en) Scalable encoder, scalable decoder, and scalable encoding method
US8099275B2 (en) Sound encoder and sound encoding method for generating a second layer decoded signal based on a degree of variation in a first layer decoded signal
JP5339919B2 (ja) 符号化装置、復号装置およびこれらの方法
JPWO2008072670A1 (ja) 符号化装置、復号装置、およびこれらの方法
KR20090117890A (ko) 부호화 장치 및 부호화 방법
JP5602769B2 (ja) 符号化装置、復号装置、符号化方法及び復号方法
KR20060131793A (ko) 음성ㆍ악음 부호화 장치 및 음성ㆍ악음 부호화 방법
US20130346073A1 (en) Audio encoder/decoder apparatus
JP2004302259A (ja) 音響信号の階層符号化方法および階層復号化方法
JP4373693B2 (ja) 音響信号の階層符号化方法および階層復号化方法
JP2005196029A (ja) 符号化装置及び方法

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BW BY BZ CA CH CN CO CR CU CZ DK DM DZ EC EE EG ES FI GB GD GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV LY MD MG MK MN MW MX MZ NA NG NO NZ OM PG PH PL PT RO RU SC SD SG SK SL SM SY TJ TM TN TR TT TZ UG US UZ VC VN YU ZA ZM

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): BW GH GM KE LS MW MZ NA SD SZ TZ UG ZM ZW AM AZ BY KG MD RU TJ TM AT BE BG CH CY DE DK EE ES FI FR GB GR HU IE IS IT LU LV MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2006543195

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 200580036014.8

Country of ref document: CN

WWE Wipo information: entry into national phase

Ref document number: 11577816

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 2005799294

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 619/MUMNP/2007

Country of ref document: IN

Ref document number: 1020077009746

Country of ref document: KR

NENP Non-entry into the national phase

Ref country code: DE

WWP Wipo information: published in national office

Ref document number: 2005799294

Country of ref document: EP

ENP Entry into the national phase

Ref document number: PI0517246

Country of ref document: BR