WO2011132368A1 - 符号化装置、復号装置、符号化方法及び復号方法 - Google Patents

符号化装置、復号装置、符号化方法及び復号方法 Download PDF

Info

Publication number
WO2011132368A1
WO2011132368A1 PCT/JP2011/001986 JP2011001986W WO2011132368A1 WO 2011132368 A1 WO2011132368 A1 WO 2011132368A1 JP 2011001986 W JP2011001986 W JP 2011001986W WO 2011132368 A1 WO2011132368 A1 WO 2011132368A1
Authority
WO
WIPO (PCT)
Prior art keywords
encoding
subband
subbands
layer
decoding
Prior art date
Application number
PCT/JP2011/001986
Other languages
English (en)
French (fr)
Inventor
山梨智史
押切正浩
Original Assignee
パナソニック株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック株式会社 filed Critical パナソニック株式会社
Priority to EP11771712.4A priority Critical patent/EP2562750B1/en
Priority to US13/641,493 priority patent/US9508356B2/en
Priority to JP2012511525A priority patent/JP5714002B2/ja
Publication of WO2011132368A1 publication Critical patent/WO2011132368A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0004Design or structure of the codebook
    • G10L2019/0006Tree or treillis structures; Delayed decisions

Definitions

  • the present invention relates to an encoding device, a decoding device, an encoding method, and a decoding method used in a communication system that encodes and transmits a signal.
  • Non-patent Document 1 A scalable encoding technique that can suppress deterioration in sound quality has been developed (Non-patent Document 1). For example, in Non-Patent Document 1, when an encoding bit rate is 16 kbps to 24 kbps and an input signal is determined to be an audio signal, a plurality of spectrum data obtained by converting the input signal for a certain period of time are obtained.
  • EAVQ embedded Algebraic Vector Vector Quantization
  • ITU-T G.718; Frame error robust narrowband and wideband embedded variable bit-rate coding of speech and audio from 8-32 kbit / s.
  • Non-Patent Document 1 the configuration of the encoding device and the decoding device disclosed in Non-Patent Document 1 has a problem that the quality of the decoded signal is insufficient when encoding / decoding is performed at a partial bit rate. Hereinafter, this problem will be described.
  • an encoding method called EAVQ is applied at an encoding bit rate of 16 kbps to 24 kbps.
  • the bit rate that can be used for EAVQ is 4 kbps to 12 kbps, excluding the bit rates of the encoding layer (layer 1) and the first enhancement layer (layer 2) as cores.
  • the encoding apparatus performs encoding at a bit rate of 4 kbps at layer 3 and performs encoding at a bit rate of 8 kbps at layer 4.
  • the encoding bit rate is 32 kbps
  • encoding is further performed at a bit rate of 8 kbps in layer 5, but since this encoding layer is not essentially related to the present invention, it will be omitted in the following description.
  • Non-Patent Document 1 the encoding device side performs the layer 3 and layer 4 encoding processing together, transmits the encoding parameters corresponding to a total bit rate of 12 kbps to the decoding device, and the decoding device side
  • the decoding process is performed at a desired bit rate.
  • it is not distinguished which part corresponds to the layer 3 encoding parameter (4 kbps) and which part corresponds to the layer 4 encoding parameter (8 kbps) among the transmission encoding parameters. .
  • the decoding apparatus is configured to simply decode only the desired bit rate (4 kbps or 12 kbps) from the beginning of the received encoding parameters (12 kbps).
  • the decoding apparatus selects a specific part that is audibly important from the encoding parameters of layer 3 and layer 4 Since the decoding process is not performed, it can be said that the quality of the decoded signal is not sufficient under this decoding condition.
  • An object of the present invention is to select a specific encoding parameter that is audibly important on the encoding device side in the scalable encoding / decoding method as described in Non-Patent Document 1, and set the audible parameter as the encoding parameter. It is to provide a scalable encoding / decoding method that improves the quality of a decoded signal when decoding at a partial bit rate by reflecting the importance.
  • An encoding apparatus is an encoding apparatus having a plurality of encoding layers that collectively perform encoding processing, and divides spectrum data input to the plurality of encoding layers. Generating a plurality of subbands and performing a neighborhood search on the plurality of subbands to calculate lattice vectors of the spectra of the plurality of subbands, and using the lattice vectors, Encoding means for performing multi-rate indexing for each subband and generating index information indicating a result of multirate indexing for each of the plurality of subbands, and encoding assigned to each of the plurality of subbands in the index information Using the number of bits and the subband energy that is the energy of each of the plurality of subbands, Among the plurality of subbands, the subband selection range is a subband selection range in which the total number of encoded bits is equal to or less than a preset value, and the total subband energy is maximum. Selecting means for a subband selection range.
  • a decoding device is a decoding device that decodes signals from an encoding device having a plurality of encoding layers that collectively perform encoding processing, and is generated by the encoding device.
  • Multirate indexing for each of the plurality of subbands using a lattice vector obtained by performing a neighborhood search on a plurality of subbands generated by dividing spectral data input to the plurality of encoding layers The index information indicating the result obtained by performing the above, the encoded bits assigned to each of the plurality of subbands, and the subband energy that is the energy for each of the plurality of subbands, Of the bands, the total number of coded bits assigned to each of the plurality of subbands in the multirate indexing is determined in advance.
  • a specific subband group that is a subband selection range that is equal to or less than a predetermined value and that is a subband selection range that maximizes the sum of subband energies for each of the plurality of subbands.
  • An encoding method is an encoding method in an encoding apparatus having a plurality of encoding layers that collectively perform encoding processing, and is a spectrum input to the plurality of encoding layers.
  • An encoding step for performing multi-rate indexing for each of the plurality of sub-bands and generating index information indicating a result of multi-rate indexing for each of the plurality of sub-bands, and for each of the plurality of sub-bands in the index information.
  • the number of encoded bits to be allocated and the sub-band energy uses the band energy, the subband selection range in which the total number of encoded bits is equal to or less than a preset value among the plurality of subbands, and the total of the subband energy is maximized. Selecting a subband selection range as a specific subband group in the plurality of coding layers.
  • a decoding method is a decoding method in a decoding apparatus that decodes signals from an encoding apparatus having a plurality of encoding layers that collectively perform encoding processing, wherein the encoding apparatus includes: For each of the plurality of subbands, using a lattice vector obtained by performing a neighborhood search on the plurality of subbands generated by dividing the spectrum data input to the plurality of encoding layers.
  • index information indicating a result obtained by performing multi-rate indexing coded bits assigned to each of the plurality of subbands, and subband energy that is energy for each of the plurality of subbands, Among the plurality of subbands, the coded bits assigned to each of the plurality of subbands in the multirate indexing.
  • a reception step of receiving band information indicating a specific subband group, and when decoding processing is performed only on a part of the plurality of coding layers, the band of the index information A decoding step of decoding only a portion corresponding to the specific subband group indicated in the information to generate a decoded signal.
  • the present invention it is possible to improve the quality of a decoded signal by performing an encoding process and an encoding parameter generation process in consideration of auditory importance.
  • FIG. 1 is a block diagram showing a configuration of a communication system having an encoding device and a decoding device according to Embodiment 1 of the present invention.
  • the block diagram which shows the main structures inside the encoding apparatus shown in FIG.
  • the block diagram which shows the main structures inside the 3-4 layer encoding part shown in FIG.
  • the block diagram which shows the main structures inside the decoding apparatus shown in FIG. FIG. 9 is a block diagram showing the main components inside the third to fourth layer decoding section shown in FIG.
  • the block diagram which shows the main structures inside the 2nd layer encoding part shown in FIG. The block diagram which shows the main structures inside the decoding apparatus which concerns on Embodiment 2 of this invention.
  • FIG. 1 is a block diagram showing a configuration of a communication system having an encoding device and a decoding device according to the present embodiment.
  • the communication system includes an encoding device 101 and a decoding device 103.
  • the encoding device 101 and the decoding device 103 can communicate with each other via the transmission path 102.
  • both the encoding device and the decoding device are usually mounted and used in a base station device or a communication terminal device.
  • the encoding apparatus 101 divides the input signal into N (N is a natural number) samples, and encodes each frame with N samples as one frame. That is, N samples are used as an encoding processing unit.
  • N samples are used as an encoding processing unit.
  • n represents the (n + 1) th signal element in the signal element group in which the input signal is divided by N samples.
  • the encoding apparatus 101 transmits information obtained by encoding (hereinafter referred to as “encoded information”) to the decoding apparatus 103 via the transmission path 102.
  • the decoding apparatus 103 receives the encoded information transmitted from the encoding apparatus 101 via the transmission path 102, decodes the received encoded information, and obtains an output signal.
  • FIG. 2 is a block diagram showing a main configuration inside the encoding apparatus 101 shown in FIG.
  • the encoding apparatus 101 is a hierarchical encoding apparatus including five encoding layers.
  • the first layer, the second layer, the third layer, the fourth layer, and the fifth layer are called in order from the lowest bit rate.
  • the configuration of the encoding device 101 described in the present embodiment is the same as the configuration of the encoding device of Non-Patent Document 1.
  • the configuration of the encoding apparatus 101 described in the present embodiment is a configuration of encoding processing when it is determined that the input signal is an audio signal.
  • the encoding device 101 performs encoding / decoding processing of the third layer and the fourth layer together, in FIG.
  • the third layer and the fourth layer are integrated and expressed as the third to fourth layers. is doing.
  • the components other than the 3-4th layer encoding unit are the same as the components disclosed in Non-Patent Document 1, and thus detailed description thereof is omitted.
  • the first layer encoding unit 201 of the encoding device 101 illustrated in FIG. 2 performs encoding on the input signal using a CELP (Code Excited Linear Prediction) method speech encoding method, and performs first layer coding. Encoding information is generated, and the generated first layer encoded information is output to the first layer decoding unit 202 and the encoded information integration unit 212.
  • CELP Code Excited Linear Prediction
  • First layer decoding section 202 decodes the first layer encoded information input from first layer encoding section 201 using a CELP speech decoding method to generate a first layer decoded signal Then, the generated first layer decoded signal is output to the adding unit 203.
  • Adder 203 calculates the difference signal between the input signal and the first layer decoded signal by inverting the polarity of the first layer decoded signal input from first layer decoding section 202 and adding it to the input signal.
  • the obtained difference signal is output to the orthogonal transformation processing unit 204 as a first layer difference signal.
  • MDCT Modified Discrete Cosine Transform. That is, orthogonal transformation
  • orthogonal transformation processing in the orthogonal transformation processing unit 204 will be described with respect to the calculation procedure and data output to the internal buffer.
  • the orthogonal transform processing unit 204 initializes the buffer buf1 (n) using “0” as an initial value according to the following equation (1).
  • the orthogonal transform processing unit 204 performs a modified discrete cosine transform (MDCT) on the first layer difference signal x1 (n) according to the following equation (2), and the MDCT coefficient (1) of the first layer difference signal x1 (n): X1 (k) is obtained (hereinafter referred to as “first layer difference spectrum”).
  • MDCT modified discrete cosine transform
  • k represents the index of each sample in one frame.
  • the orthogonal transform processing unit 204 obtains x1 ′ (n), which is a vector obtained by combining the first layer difference signal x1 (n) and the buffer buf1 (n), using the following equation (3).
  • the orthogonal transform processing unit 204 updates the buffer buf1 (n) by the following equation (4).
  • orthogonal transform processing section 204 outputs first layer differential spectrum X1 (k) (spectral data formed by orthogonal transform of the first layer differential signal) to second layer encoding section 205 and adding section 207. To do.
  • Second layer encoding section 205 generates second layer encoded information using first layer difference spectrum X1 (k) input from orthogonal transform processing section 204, and generates the generated second layer encoded information.
  • the data is output to the two-layer decoding unit 206 and the encoded information integration unit 212.
  • the details of second layer encoding section 205 are disclosed in Non-Patent Document 1, and will not be described here.
  • Second layer decoding section 206 decodes the second layer encoded information input from second layer encoding section 205, calculates a second layer decoded spectrum, and outputs the calculated second layer decoded spectrum to adding section 207. Output.
  • the details of second layer decoding section 206 are disclosed in Non-Patent Document 1, and are omitted here.
  • the adding unit 207 inverts the polarity of the second layer decoded spectrum input from the second layer decoding unit 206 and adds the result to the first layer difference spectrum input from the orthogonal transform processing unit 204, whereby the first layer A difference spectrum between the difference spectrum and the second layer decoded spectrum is calculated. Then, adding section 207 outputs the obtained difference spectrum as second layer difference spectrum to third to fourth layer encoding section 208 and adding section 210.
  • the third to fourth layer encoding unit 208 generates third to fourth layer encoded information using the second layer difference spectrum input from the adding unit 207. Then, third to fourth layer encoding section 208 outputs the generated third to fourth layer encoded information to third to fourth layer decoding section 209 and encoded information integration section 212. Details of the 3-4 layer encoding unit 208 will be described later.
  • the third to fourth layer decoding section 209 decodes the third to fourth layer encoded information input from the third to fourth layer encoding section 208, calculates the third to fourth layer decoded spectrum, and calculates the calculated third
  • the -4 layer decoded spectrum is output to the adding unit 210. The details of the 3-4 layer decoding unit 209 will be described later.
  • the adding unit 210 inverts the polarity of the third to fourth layer decoded spectrum input from the third to fourth layer decoding unit 209, and adds the result to the second layer difference spectrum input from the adding unit 207. A difference spectrum between the 2-layer difference spectrum and the 3-4th layer decoded spectrum is calculated. Then, adding section 210 outputs the obtained difference spectrum to third layer encoding section 211 as the third to fourth layer difference spectrum.
  • the fifth layer encoding unit 211 generates fifth layer encoded information using the third to fourth layer difference spectrum input from the adding unit 210. Then, the fifth layer encoding unit 211 outputs the generated fifth layer encoded information to the encoded information integration unit 212. Note that details of the fifth layer encoding unit 211 are disclosed in Non-Patent Document 1, and are omitted here.
  • the encoding information integration unit 212 includes first layer encoding information input from the first layer encoding unit 201, second layer encoding information input from the second layer encoding unit 205, and 3-4 The third to fourth layer encoded information input from the layer encoding unit 208 and the fifth layer encoded information input from the fifth layer encoding unit 211 are integrated.
  • the encoded information integration unit 212 adds a transmission error code or the like to the integrated information source code, if necessary, and outputs this to the transmission path 102 as encoded information.
  • FIG. 3 is a block diagram showing the main components inside the 3-4 layer encoding section 208 shown in FIG.
  • the third to fourth layer encoding unit 208 mainly includes a global gain calculation unit 301, a neighborhood search unit 302, a multi-rate indexing unit 303, a band selection unit 304, an index information adjustment unit 305, and a multiplexing unit 306. Each unit performs the following operations.
  • the global gain calculation unit 301 calculates a global gain for the second layer difference spectrum X2 (k) input from the addition unit 207.
  • the global gain calculation method is disclosed in Non-Patent Document 1, and the calculation method in the present embodiment is the same method. Specifically, the global gain calculation unit 301 calculates the global gain g according to the following expressions (5) and (6).
  • Global gain calculation section 301 outputs global gain g calculated according to equation (6) to multiplexing section 306.
  • NB_BITS in Equation (5) represents the number of bits that can be used for the encoding process
  • P represents the number of subbands that divide the second layer differential spectrum X2 (k).
  • the global gain g is obtained based on the offset selected in the equation (5).
  • the global gain g is output to the multiplexing unit 306.
  • the global gain calculation unit 301 normalizes the second layer difference spectrum X2 (k) according to the equation (7) using the global gain g calculated by the equation (6), and normalizes the second layer difference spectrum X ′. 2 (k) is output to the neighborhood search unit 302.
  • the neighborhood search unit 302 uses the normalized second layer difference spectrum X′2 (k) (spectrum data) input from the global gain calculation unit 301 as P number of pieces. Divide into subbands.
  • the number of samples (MDCT coefficients) constituting each of the P subbands, that is, the subband width is Q (p).
  • the case where all the subband widths are Q will be described, but of course, the present invention can be similarly applied to the case where the subband widths are different for each subband.
  • the neighborhood search unit 302 performs neighborhood search processing on the spectrum of each subband divided into P pieces.
  • BS p and BE p represent the index of the first sample and the index of the last sample of each subband, respectively.
  • the neighborhood searching unit 302 calculates a subvector (lattice point y 1p or y 2p ) included in RE 8 according to the following equation (8).
  • RE 8 means a set of so-called cyclic Gosset lattices. Refer to Non-Patent Document 1 and Non-Patent Document 2 for details of the processing of RE 8 and Expression (8).
  • the neighborhood search unit 302 outputs the calculated neighborhood vector (y 1p or y 2p in Equation (8)) to the multi-rate indexing unit 303.
  • the multi-rate indexing unit 303 uses the techniques disclosed in Non-Patent Document 1 and Non-Patent Document 3 to perform multi-rate indexing on each subband using the neighborhood vector input from the neighborhood search unit 302. To generate index information indicating the multi-rate indexing result of each subband.
  • FIG. 4 shows a processing flow of the multi-rate indexing unit 303.
  • the total number of bits allocated to layer 3 and layer 4 here, 4 kbps and 8 kbps are allocated to layer 3 and layer 4 respectively, for example.
  • the total bit rate is assumed to be 12 kbps).
  • multirate indexing section 303 calculates the energy of subspectrum SS p (k) for each subband, and calculates the energy (subband energy) for each subband. Sort in descending order.
  • the sub-band energy E p of each sub-spectrum is calculated by the following equation (9).
  • multi-rate indexing section 303 determines whether or not sub-spectra SS p (k) of all subbands has been quantized. If sub-spectra SS p (k) of all subbands has already been quantized in multirate indexing section 303 (ST1020: YES), the process proceeds to ST1070, and if not quantized (ST1020: NO), the process proceeds to ST1030. .
  • the multi-rate indexing unit 303 the multi-rate indexing performed (quantization), multi-rate indexing (quantized sub spectrum SS p (k) for each subband of the sub spectrum SS p (k) for each subband ) Generate index information indicating the result. Note that details of the multi-rate indexing process are disclosed in Non-Patent Document 3, and thus the description thereof is omitted here.
  • multirate indexing section 303 determines whether or not the total number of bits used for multirate indexing (quantization) in ST1030 exceeds the bits allocated to multirate indexing section 303.
  • BIT n indicates the total number of bits used in the multi-rate indexing process in ST 1030 from the start (start) of the process to the current time
  • m is the sub-quantization currently being quantized.
  • the number of bits used in the multi-rate indexing process of the sub-spectrum of the band is indicated, and BIT TOTAL indicates the number of bits allocated to the multi-rate indexing unit 303.
  • ST1040 when the value obtained by adding m to BIT n is equal to or less than BIT TOTAL (ST1040: YES), the process proceeds to ST1060, and when the value obtained by adding m to BIT n is greater than BIT TOTAL (ST1040: NO). The process proceeds to ST1050.
  • the multi-rate indexing unit 303 sets the sub-spectral value (spectral value) SS p (k) of the sub-band currently being quantized (the sub-band shown in FIG. 4) to zero according to the following equation (10). Set to.
  • the multi-rate indexing unit 303 updates the total value BIT n bits used in the multi-rate indexing process (BIT n + m).
  • multi-rate indexing section 303 uses sub-band energy information indicating the sub-band energy of each sub-band calculated in ST 1010, index information calculated in ST 1030, and coded bits allocated to multi-rate indexing section 303.
  • the rate is output to the band selection unit 304, and the process ends.
  • Band selection section 304 uses the index information, subband energy information, and encoding bit rate assigned to multi-rate indexing section 303 input from multi-rate indexing section 303 audibly. Select an important specific subband group (important subband group).
  • 4 kbps assigned to layer 3 will be described as an example of the coding bit rate assigned to multirate indexing section 303.
  • a band selection method in the band selection unit 304 will be described.
  • the band selection unit 304 uses a predetermined encoding in which the total number of bits used for quantization of the subspectrum of each subband included in the index information (that is, the number of encoded bits assigned to each subband) is set in advance.
  • a specific subband group in which the subband energy indicated by the subband energy information is maximum under the condition that the bit rate (the number of bits.
  • the coding bit rate (4 kbps) assigned to layer 3) is equal to or lower. Select as the important subband group.
  • the band selection unit 304 uses the number of encoded bits used for multi-rate indexing for each of a plurality of subbands (the number of encoded bits assigned to each of a plurality of subbands) and the subband energy for each of the plurality of subbands.
  • the subband range in which the sum of the subband energies is maximized is a specific subband group (important subband group) that is audibly important in layer 3 and layer 4 (encoding layers that are encoded together). decide. However, here, only when a subband is arranged in ascending order of frequency (descending order is acceptable), only a set of consecutive subbands is considered as an important subband group.
  • FIG. 5 shows an outline of processing in the band selection unit 304.
  • Each block ( ⁇ (square)) shown in FIG. 5 means each subband.
  • the numerical values in the block indicate the order of subband energy (the smaller the number, the larger the subband energy), and the numerical value Bn below each subband is the subband subspectrum. of indicates the number of bits used for quantization, E n represents the sub-band energy.
  • E n represents the sub-band energy.
  • FIG. 5 only the fifth subband from the largest subband energy is shown, but the sixth and subsequent subbands can be similarly considered.
  • Non-Patent Document 1 if the encoded bits are insufficient, some subbands on the high frequency side are not encoded and bits may not be allocated. Therefore, the number of subbands shown in FIG. 5 may be different for each frame.
  • the band selection unit 304 maximizes the total subband energy among entries in which the number of used bits for consecutive subband groups is equal to or less than the number of layer 3 encoded bits (corresponding to 4 kbps). Search for an entry.
  • Band selection section 304 then outputs the starting subband position of the searched entry (that is, the important subband group) to index information adjustment section 305 as band coding information. For example, in FIG. 5, when the second entry is selected as the important subband group, the index of the subband whose subband energy rank is “1” (the index is 4 because it is the fifth from the top in FIG. 5). Corresponds to band coding information.
  • the candidate entry on the lowest side among the candidate entries is the “candidate entry with the first subband as the first subband” and the highest band.
  • the candidate entry on the side is “entry with the end subband as the last subband”. That is, candidate entries that exceed the boundary between the first subband and the last subband are not targeted.
  • the band selection unit 304 also outputs the index information input from the multi-rate indexing unit 303 to the index information adjustment unit 305.
  • the index information adjustment unit 305 performs index information rearrangement processing using the index information and band encoding information input from the band selection unit 304. Specifically, the index information adjustment unit 305 positions the part corresponding to the important subband group including the subband indicated by the band encoding information among the index information of all subbands at the head, and indexes the remaining subbands. The index information is rearranged so that the information is positioned behind it.
  • FIG. 6 shows a conceptual diagram of the rearrangement process in the index information adjustment unit 305. Similar to the band selection unit 304, the index information adjustment unit 305 determines which subband the important subband group uses from the band coding information and the number of coding bits used for quantization of the index information. Can be calculated. FIG. 6 illustrates a case where the band selection unit 304 calculates the subband group indicated by the second entry as the important subband group.
  • the index information adjustment unit 305 calculates an important subband group for the index information sorted in ascending order of frequency using the band encoding information in Step 1 shown in FIG. 6A.
  • the important subband group selected by the index information adjustment unit 305 is the same as the important subband group selected by the band selection unit 304.
  • the index information adjustment unit 305 in step 2 shown in FIG. 6B, the important subband group selected in step 1, the subband on the lower frequency side than the important subband group (low band subband group), the important band Divide into subbands (high frequency subbands) higher than the subbands.
  • the index information adjustment unit 305 sets the important subband group selected in step 1 at the top in step 3 shown in FIG. 6C and maintains the ascending order of frequencies for the other subbands. Sort in a way that follows the group. That is, as shown in FIG. 6, the arrangement order is “important subband group”, “low band subband group”, and “high band subband group” from the low band side.
  • the index information adjustment unit 305 outputs the rearranged index information and band coding information to the multiplexing unit 306.
  • the multiplexing unit 306 multiplexes the global gain g input from the global gain calculation unit 301 with the index information and the band encoding information input from the index information adjustment unit 305, and performs the 3-4th layer encoding information Is generated. Then, multiplexing section 306 outputs the generated 3-4 layer encoding information to 3-4 layer decoding section 209 and encoding information integration section 212.
  • FIG. 7 is a block diagram showing the main components inside the 3-4 layer decoding unit 209 shown in FIG.
  • the third to fourth layer decoding unit 209 mainly includes a separation unit 701, an index information adjustment unit 702, and a multi-rate decoding unit 703.
  • Separating section 701 separates the 3-4 layer coding information input from 3-4 layer coding section 208 into index information, band coding information, and global gain. Separating section 701 then outputs the index information and band coding information to index information adjusting section 702 and outputs the global gain to multi-rate decoding section 703.
  • the index information adjustment unit 702 performs the index information rearrangement process using the index information and the band encoding information output from the separation unit 701. Specifically, the index information adjustment unit 702 performs index information rearrangement processing using band coding information. Here, the index information adjustment unit 702 performs the reverse process of the index information adjustment unit 305 (FIG. 3) in the 3-4 layer encoding unit 208. The processing of the index information adjustment unit 702 will be described below.
  • FIG. 8 shows a conceptual diagram of processing of the index information adjustment unit 702.
  • the notation in FIG. 8 is the same as the notation in FIG.
  • the subband energy ranking (number indicating the highest number from the subband energy) is not particularly required, but in FIG. It is shown so that it can be easily compared with the encoding process in the 3-4 layer encoding unit 208.
  • the index information adjustment unit 702 decodes the band encoded information output from the separation unit 701, and the frequency band (first band) of the first subband of the index information output from the separation unit 701. Which band in the frequency domain the subband corresponds to).
  • the index information adjustment unit 702 sequentially adds the number of encoded bits used in each subband in order from the first subband, and the maximum number of subbands in which the total number of bits does not exceed a predetermined number of bits. Search the position and determine the important subbands.
  • the number of bits designated in advance means the number of layer 3 encoded bits (equivalent to 4 kbps).
  • FIG. 8A shows a case where the first to fourth subbands are set as important subband groups.
  • the index information adjustment unit 702 subbands corresponding to bands lower in the frequency domain than the important subband group among the subbands subsequent to the important subband group obtained in step 1. (Low frequency subband group) is determined. This can be calculated from the frequency band of the first subband calculated in step 1. That is, the index information adjustment unit 702 obtains how many subbands are present on the lower frequency side than the head subband from the frequency band of the head subband in Step 1, and determines from the subbands subsequent to the important subband group The determined number of subbands may be determined as the low frequency side subband group.
  • the subband division method is the same as the division method performed in third to fourth layer encoding section 208.
  • a portion subsequent to the low frequency subband group determined by the above method is set as a subband (high frequency subband group) corresponding to a band higher than the important subband group in the frequency domain.
  • the index information adjustment unit 702 extracts the important subband group, the low frequency subband group, and the high frequency subband group determined in step 1 and step 2 from the low frequency side.
  • the rearrangement is made so as to be “low frequency subband group”, “important subband group”, and “high frequency subband group”.
  • the index information adjustment unit 702 outputs the index information sorted by the above processing to the multi-rate decoding unit 703.
  • the multi-rate decoding unit 703 decodes the global gain input from the separation unit 701 and the index information input from the index information adjustment unit 702, and calculates a third to fourth layer decoded spectrum. Then, multirate decoding section 703 outputs the calculated third to fourth layer decoded spectrum to adding section 210. Note that the details of the decoding process in the multi-rate decoding unit 703 are disclosed in Non-Patent Document 1, and thus the description thereof is omitted here.
  • FIG. 9 is a block diagram showing a main configuration inside decoding apparatus 103 shown in FIG.
  • the decoding apparatus 103 is a hierarchical decoding apparatus including five decoding hierarchies (layers).
  • the first layer, the second layer, the third layer, the fourth layer, and the fifth layer are referred to in order from the lowest bit rate.
  • the third and fourth layer decoding processes are collectively performed by the third to fourth layer decoding unit 804.
  • the encoded information separating unit 801 receives encoded information sent from the encoding apparatus 101 via the transmission path 102, separates the received encoded information into encoded information of each layer, and is responsible for each decoding process To the decoding unit. Specifically, the encoded information separating unit 801 outputs the first layer encoded information included in the encoded information to the first layer decoding unit 802, and the second layer encoded information included in the encoded information is changed to the first layer encoded information.
  • the second layer decoding section 803 outputs the third to fourth layer encoded information included in the encoded information to the third to fourth layer decoding section 804, and the fifth layer encoded information included in the encoded information is The data is output to the 5-layer decoding unit 806.
  • the encoding information separation unit 801 when the encoding information does not include encoding information of a certain layer, the encoding information separation unit 801 outputs nothing to the decoding unit of the corresponding layer. Also, the encoded information separation unit 801 controls the decoding operation of the 3-4 decoding layer. Specifically, the encoded information separation unit 801 includes the 3-4th layer encoded information in the encoded information, and the 3-4 encoded information includes the third layer and the fourth layer. When it is the total number of encoded bits, the decoding operation of the third to fourth decoding layers is controlled to “normal mode (L3-L4 mode)”.
  • the encoded information separation unit 801 includes the 3rd-4th layer encoded information in the encoded information, but the 3rd-4th encoded information is only the number of encoded bits of the 3rd layer. Controls the decoding operation of the 3-4 decoding layer to the “low bit rate mode (L3 mode)”. In FIG. 9, the control operation of the encoded information separation unit 801 is indicated by a broken line.
  • the first layer decoding unit 802 decodes the first layer encoded information input from the encoded information separation unit 801 using a CELP speech decoding method to generate a first layer decoded signal, The generated first layer decoded signal is output to adding section 809.
  • Second layer decoding section 803 decodes the second layer encoded information input from encoded information separating section 801, and outputs the obtained second layer decoded spectrum X2 ′′ (k) to adding section 805. Since the processing of the layer decoding unit 803 is disclosed in Non-Patent Document 1, description thereof is omitted here.
  • the third to fourth layer decoding section 804 decodes the third to fourth layer encoded information input from the encoded information separating section 801, and adds the obtained third to fourth layer decoded spectrum X34 ′′ (k) to the adding section 805.
  • the decoding operation of the 3-4 layer decoding unit 804 is controlled by the encoded information separation unit 801. Details of the processing of the 3-4 layer decoding unit 804 will be described later.
  • the adder 805 receives the second layer decoded spectrum X2 ′′ (k) from the second layer decoder 803, and receives the 3-4 layer decoded spectrum X34 ′′ (k) from the 3-4 layer decoder 804. Is done.
  • the adding unit 805 adds the input second layer decoded spectrum X2 ′′ (k) and the third to fourth layer decoded spectrum X34 ′′ (k), and adds the added spectrum as the first added spectrum Xadd1 ′′ (k) Output to the unit 807.
  • the fifth layer decoding unit 806 decodes the fifth layer encoded information input from the encoded information separation unit 801, and outputs the obtained fifth layer decoded spectrum X5 ′′ (k) to the adding unit 807. Since the processing of the layer decoding unit 806 is disclosed in Non-Patent Document 1, description thereof is omitted here.
  • the adder 807 receives the first added spectrum Xadd1 (k) from the adder 805, and receives the fifth layer decoded spectrum X5 ′′ (k) from the fifth layer decoder 806.
  • the adder 807 receives the input.
  • the first added spectrum Xadd1 ′′ (k) and the fifth layer decoded spectrum X5 ′′ (k) are added, and the added spectrum is output to the orthogonal transform processing unit 808 as the second added spectrum Xadd2 (k).
  • the orthogonal transform processing unit 808 initializes a built-in buffer buf ′ (k) to a “0” value according to the following equation (11).
  • the orthogonal transform processing unit 808 receives the second addition spectrum Xadd2 (k) and obtains the second addition decoded signal y ′′ (n) according to the following equation (12).
  • X6 (k) is a vector obtained by combining the second addition spectrum Xadd2 (k) and the buffer buf ′ (k), and is obtained using the following equation (13).
  • the orthogonal transform processing unit 808 updates the buffer buf ′ (k) according to the following equation (14).
  • the orthogonal transform processing unit 808 outputs the second addition decoded signal y ′′ (n) to the adding unit 809.
  • the addition unit 809 receives the first layer decoded signal from the first layer decoding unit 802 and the second addition decoded signal from the orthogonal transform processing unit 808. Adder 809 adds the input first layer decoded signal and second added decoded signal, and outputs the added signal as an output signal.
  • FIG. 10 is a block diagram showing a main configuration inside third-third layer decoding section 804 shown in FIG.
  • the third to fourth layer decoding section 804 mainly includes a separation section 1001, an index information adjustment section 1002, and a multi-rate decoding section 1003.
  • the demultiplexing unit 1001 demultiplexes the third to fourth layer encoded information output from the encoded information demultiplexing unit 801 into index information, band encoded information, and global gain. Next, the separation unit 1001 outputs the index information and band coding information to the index information adjustment unit 1002, and outputs the global gain to the multi-rate decoding unit 1003.
  • the index information adjustment unit 1002 performs the index information rearrangement process using the index information and band coding information output from the separation unit 1001. Further, the index information adjustment unit 1002 is controlled by the encoded information separation unit 801 (FIG. 9). Hereinafter, a process control method in the index information adjustment unit 1002 will be described.
  • the index information adjustment unit 1002 When the control by the encoded information separation unit 801 is “normal mode (L3-L4 mode)”, the index information adjustment unit 1002 performs the reverse process of the index information adjustment unit 702 in the encoding device 101. That is, when decoding processing is performed on layer 3 and layer 4, the index information adjustment unit 1002 causes the index information adjustment unit 702 in the encoding apparatus 101 to be positioned at the head corresponding to the important subband group. For the index information that has been rearranged, the rearrangement process reverse to that of the index information adjustment unit 702 is performed. Here, a specific description of the rearrangement process in the index information adjustment unit 1002 is omitted.
  • the 3rd-4th layer encoded information includes index information for the number of bits allocated to the 3rd layer. That is, the index information of the important subband group is stored.
  • the index information adjustment unit 1002 outputs band coding information indicating the frequency of the first subband of the important subband group and the index information to the multirate decoding unit 1003. That is, when the decoding process is performed only on layer 3, the index information adjustment unit 1002 is arranged so that the portion corresponding to the important subband group is positioned at the head in the index information adjustment unit 702 in the encoding apparatus 101. The rearrangement process is not performed on the changed index information.
  • Multi-rate decoding section 1003 decodes the global gain input from demultiplexing section 1001 and the index information and band coding information input from index information adjusting section 1002 to calculate the third to fourth layer decoded spectrum. .
  • the processing of the multirate decoding unit 1003 is controlled by the encoded information separation unit 801.
  • a process control method in multirate decoding section 1003 will be described.
  • the multi-rate decoding unit 1003 When the control by the encoded information separation unit 801 is “normal mode (L3-L4 mode)”, the multi-rate decoding unit 1003 performs the same processing as the multi-rate decoding unit 703 in the encoding device 101. Here, the description is omitted. At this time, band coding information may not be input from index information adjustment section 1002.
  • the multi-rate decoding unit 1003 When the control by the encoded information separation unit 801 is the “low bit rate mode (L3 mode)”, the multi-rate decoding unit 1003 performs an index on the frequency band determined from the input band encoded information. The information is decoded, and the third to fourth decoded spectrum is calculated. Specifically, the multi-rate decoding unit 1003 associates the head subband included in the index information with the frequency band indicated by the band coding information, and moves from the frequency band corresponding to the head subband to the higher frequency side in the frequency domain. In order, the index information is decoded. At this time, multirate decoding section 1003 sets the value of the third to fourth decoded spectrum to zero for the lower frequency side than the frequency band indicated by the band coding information.
  • multirate decoding section 1003 sets the value of the third to fourth decoded spectrum to zero also on the higher frequency side than the frequency band corresponding to the index information. That is, the multi-rate decoding unit 1003 stores only the index information (index information of the important subband group) for the number of bits allocated to the third layer stored in the 3-4 layer coding information, in the corresponding frequency band. Is decoded as a spectrum.
  • the multi-rate decoding unit 1003 when the decoding process is performed on only some of the plurality of encoding layers, the multi-rate decoding unit 1003 includes the important subbands indicated in the band encoding information among the index information. Only a portion corresponding to the group is decoded to generate a decoded signal (third to fourth layer decoded spectrum). Then, multirate decoding section 1003 outputs the calculated third to fourth layer decoded spectrum to adding section 805.
  • the encoding apparatus 101 identifies subband groups that are audibly important in a plurality of encoding layers (layer 3 and layer 4) that collectively perform encoding processing, and provides band encoding information. Generate. Thereby, the decoding apparatus 103 can distinguish which part corresponds to the encoding parameter of layer 3 among the encoding parameters (index information) transmitted. Therefore, for example, the decoding apparatus 103 can perform decoding processing only in a part of the encoding layers that collectively perform the encoding processing (when decoding at a bit rate (12 kbps) from layer 1 to layer 3). In addition, it is possible to select and decode a specific part that is audibly important among the encoding parameters when layer 3 and layer 4 are encoded together. Therefore, decoding apparatus 103 can improve the quality of the decoded signal even when AVQ parameters of all layers are not decoded.
  • the encoding apparatus 101 rearranges the index information so that the part corresponding to the important subband group in the index information is positioned at the head. Accordingly, when the decoding process is performed on only a part of the coding layers that collectively perform the coding process, the decoding apparatus 103 sequentially corresponds to the coding layer to be decoded in order from the top of the index information. Should be decrypted. Therefore, the decoding apparatus 103 can perform the decoding process with a smaller amount of computation when the decoding process is performed on only a part of the encoding layers that collectively perform the encoding process.
  • the present embodiment in the configuration in which the AVQ technology having a plurality of coding layers is applied to the scalable coding scheme, specific coding parameters that are audibly important on the coding device side are partially stored. And the perceptual importance is reflected in the encoding parameter. As a result, the quality of the decoded signal can be improved even when AVQ parameters of all layers are not decoded. Therefore, according to the present embodiment, it is possible to improve the quality of the decoded signal by performing an encoding process and an encoding parameter (encoding information) generation process in consideration of auditory importance.
  • the communication system (not shown) according to Embodiment 2 is basically the same as the communication system shown in FIG. 1, and part of the configuration and operation of the encoding device and the configuration and operation of the decoding device. Only a part is different from the encoding device 101 of the communication system of FIG.
  • the encoding apparatus of the communication system according to the present embodiment is denoted by reference numeral “111”, and the decoding apparatus is denoted by reference numeral “113”.
  • FIG. 11 is a block diagram illustrating a main configuration inside the encoding device 111.
  • the encoding device 111 is a hierarchical encoding device including two encoding layers.
  • the first layer and the second layer are referred to in order from the lowest bit rate.
  • the second layer adopts a multi-rate encoding method.
  • the encoding device 111 mainly includes a first layer encoding unit 201, a first layer decoding unit 202, an adding unit 203, an orthogonal transform processing unit 1104, a second layer encoding unit 1105, and an encoded information integration unit 1112. Composed.
  • the first layer encoding unit 201, the first layer decoding unit 202, and the addition unit 203 are the same as those described in the first embodiment (FIG. 2), and therefore the same reference numerals are used for explanation. Is omitted.
  • the orthogonal transform processing unit 1104 performs orthogonal transform on the first layer difference signal output from the adding unit 203, and calculates a first layer difference spectrum that is a frequency domain component. Orthogonal transform processing section 1104 outputs the calculated first layer difference spectrum to second layer encoding section 1105.
  • the orthogonal transformation processing in the orthogonal transformation processing unit 1104 is the same as the method described above (for example, the orthogonal transformation processing unit 204), and thus description thereof is omitted.
  • the second layer encoding unit 1105 receives the first layer difference spectrum output from the orthogonal transform processing unit 1104 as an input. Also, second layer encoding section 1105 receives the bit rate at the time of encoding from the outside. Second layer encoding section 1105 encodes the first layer differential spectrum based on the bit rate, and calculates second layer encoded information. Next, second layer encoding section 1105 outputs the second layer encoded information to encoded information integration section 1112. Details of processing of second layer encoding section 1105 will be described later.
  • the encoding information integration unit 1112 integrates the first layer encoding information input from the first layer encoding unit 201 and the second layer encoding information input from the second layer encoding unit 1105.
  • the encoded information integration unit 1112 adds a transmission error code or the like to the integrated information source code, if necessary, and outputs this to the transmission path 102 as encoded information.
  • FIG. 12 is a block diagram showing the main components inside second layer encoding section 1105.
  • Second layer encoding section 1105 mainly includes global gain calculation section 301, neighborhood search section 302, multirate indexing section 303, band selection section 1204, and multiplexing section 306.
  • Each unit performs the following operations.
  • global gain calculation section 301, neighborhood search section 302, multi-rate indexing section 303, and multiplexing section 306 are the same as those described in Embodiment 1 (FIG. 3), the same reference numerals are used. The description is omitted.
  • the BIT TOTAL is the number of bits corresponding to the bit rate at the time of encoding input from the outside, and the components described in the first embodiment are Different.
  • the band selection unit 1204 uses the index information and subband energy information input from the multi-rate indexing unit 303 and the bit rate at the time of encoding input from the outside to generate a specific subband group (important Subband group).
  • a case where the bit rate input from the outside is 4 kbps or 8 kbps will be described as an example.
  • a band selection method in band selection section 1204 will be described.
  • the band selection unit 1204 performs subband energy information under the condition that the total number of bits used for quantization of the subspectrum of each subband included in the index information is equal to or less than the bit rate (number of bits) input from the outside. Select the subband group (important subband group) that maximizes. That is, band selection section 1204 uses the coded bits assigned to each of the plurality of subbands and the subband energy for each of the plurality of subbands in multirate indexing, similar to band selection section 304 of the first embodiment.
  • a subband range in which the total number of encoded bits is equal to or less than a preset value (encoded bit rate input from the outside here), and the subband energy A range of subbands having the maximum sum is selected as a specific subband group (important subband group) that is audibly important.
  • important subband group only the set of consecutive subbands is the target of the important subband group in contrast to the case where the subbands are arranged in ascending order (or descending order is possible).
  • the selection method of the important subband group in the band selection unit 1204 is the same as the method described in the first embodiment (band selection unit 304), and thus description thereof is omitted.
  • Band selection section 1204 outputs band coding information indicating the frequency band of the start subband (first subband) of the selected important subband group to multiplexing section 306. Also, the band selection unit 1204 extracts only the index information corresponding to the important subband group, and outputs this to the multiplexing unit 306 as new index information.
  • the band selection unit 1204 compares “the point of searching for an important subband group according to the bit rate input from the outside” and “important subbands” as compared with the band selection unit 304 described in the first embodiment. The difference is that only the index information corresponding to the group is output to the multiplexing unit 306.
  • FIG. 13 is a block diagram showing a main configuration inside decoding apparatus 113 according to the present embodiment.
  • the decoding device 113 is a hierarchical decoding device composed of two decoding layers.
  • the first layer and the second layer are called in order from the lowest bit rate.
  • the second layer decoding unit performs multi-rate decoding processing.
  • the decoding device 113 mainly includes an encoded information separation unit 1301, a first layer decoding unit 802, a second layer decoding unit 1303, an orthogonal transform processing unit 1308, and an addition unit 1309.
  • first layer decoding section 802 is the same as the constituent elements described in Embodiment 1 (FIG. 9), the same reference numerals are assigned and description thereof is omitted.
  • the encoded information separation unit 1301 receives encoded information sent from the encoding apparatus 111 via the transmission path 102, separates the received encoded information into encoded information of each layer, and is responsible for each decoding process To the decoding unit. Specifically, the encoded information separation unit 1301 outputs the first layer encoded information included in the encoded information to the first layer decoding unit 802, and outputs the second layer encoded information included in the encoded information to the first layer. The data is output to the 2-layer decoding unit 1303.
  • Second layer decoding section 1303 decodes the second layer encoded information input from encoded information separating section 1301 and outputs the obtained second layer decoded spectrum X2 ′′ (k) to orthogonal transform processing section 1308. Details of the processing of second layer decoding section 1303 will be described later.
  • Orthogonal transform processing section 1308 performs orthogonal transform on the second layer decoded spectrum input from second layer decoding section 1303, and calculates a second layer decoded signal that is a time domain signal. Orthogonal transform processing section 1308 outputs the calculated second layer decoded signal to adding section 1309.
  • the orthogonal transformation processing in the orthogonal transformation processing unit 1308 is the same as the orthogonal transformation processing in the orthogonal transformation processing unit 808 (FIG. 9) of Embodiment 1, and thus description thereof is omitted.
  • the addition unit 1309 receives the first layer decoded signal from the first layer decoding unit 802 and the second layer decoded signal from the orthogonal transform processing unit 1308. Adder 1309 adds the input first layer decoded signal and second layer decoded signal, and outputs the added signal as an output signal.
  • FIG. 14 is a block diagram showing the main configuration inside second layer decoding section 1303 shown in FIG.
  • Second layer decoding section 1303 is mainly composed of separation section 1401 and multirate decoding section 1403.
  • the separating unit 1401 separates the second layer encoded information input from the encoded information separating unit 1301 into index information, band encoded information, and global gain. Next, the separation unit 1401 outputs the index information, band coding information, and global gain to the multi-rate decoding unit 1403.
  • the multi-rate decoding unit 1403 calculates the second layer decoded spectrum by decoding the global gain, index information, and band coding information input from the separation unit 1401. At this time, the multi-rate decoding unit 1403 performs a decoding process according to the bit rate input from the encoded information separation unit 1301. Hereinafter, a process control method in multirate decoding section 1403 will be described.
  • the multi-rate decoding unit 1403 decodes index information of the number of bits corresponding to the bit rate for the frequency band determined from the input band encoding information, and calculates a second decoded spectrum. Specifically, multirate decoding section 1403 associates the head subband included in the index information with the frequency band indicated by the band coding information, and shifts from the frequency band corresponding to the head subband to the higher frequency side in the frequency domain. In order, the index information is decoded. At this time, multirate decoding section 1403 sets the value of the second decoded spectrum to zero for the lower frequency side than the frequency band indicated by the band encoding information.
  • multirate decoding section 1403 sets the value of the second decoded spectrum to zero even on the higher frequency side than the frequency band corresponding to the index information. That is, multirate decoding section 1403 decodes only the index information (index information of the important subband group) stored in the second layer encoded information as the corresponding frequency band spectrum.
  • multirate decoding section 1403 outputs the calculated second layer decoded spectrum to orthogonal transform processing section 1308.
  • Embodiment 1 in the configuration employing the AVQ encoding scheme corresponding to a plurality of encoding bit rates, a specific code that is audibly important on the encoding device side.
  • the encoding parameter is partially selected, and the auditory importance is reflected in the encoding parameter.
  • the quality of a decoded signal can be improved according to an encoding bit rate. Therefore, according to the present embodiment, as in the first embodiment, the encoding parameter (encoding information) generation processing is performed by the encoding processing in consideration of auditory importance, and the quality of the decoded signal is improved. Can do.
  • the bandwidth selection unit does not particularly limit candidate entries when determining an important subband group (however, there is a limitation of subband groups in which important subband groups are continuous). ).
  • the present invention is not limited to this, and is similarly applied to a configuration in which candidate entries are efficiently limited in a band selection unit (for example, the band selection unit 304 (FIG. 3) or the band selection unit 1204 (FIG. 12)). it can. Specific examples will be described below.
  • the number of candidate entries can be reduced by providing a restriction that an important subband group always includes a subband having the maximum subband energy.
  • the band selection unit uses only a subband having a subband energy equal to or greater than a threshold value among a plurality of subbands, and the total number of encoded bits assigned to each subband is set in advance.
  • a subband selection range (entry) that is a subband selection range (entry) that is less than or equal to the value and that has the maximum subband energy is selected.
  • the band selection unit only needs to search for candidate entries starting from a subband whose subband energy is not zero, and the processing calculation amount can be greatly reduced.
  • the band selection unit has a restriction that the candidate entry when determining the important subband group is set so as not to exceed the boundary between the first subband and the last subband.
  • the present invention is not limited to this, and can be similarly applied to a configuration in which a candidate entry may exceed the boundary between the leading subband and the terminating subband.
  • an example is a case where a candidate entry for an important subband group is searched by cycling through subband sequences.
  • the encoding device applies a plurality of subbands generated by dividing spectral data obtained by concatenating the beginning and end of spectral data obtained by orthogonal transformation of an input signal.
  • a selection range (important subband group) to be an important subband group may be determined.
  • a selection range (important subband group) to be an important subband group may be determined.
  • the configuration has been described in which the frequency band corresponding to the first subband of the important subband group is transmitted to the decoding apparatus side as band encoded information. Therefore, an additional number of encoded bits is required compared to the prior art.
  • the present invention is not limited to this, and can be similarly applied to a configuration in which frequency band information corresponding to the first subband of the important subband group is calculated using a lower decoded spectrum. Thereby, the quality of the decoded signal can be improved without using additional bits. Specifically, an example using the subband energy of the decoded spectrum is given.
  • the encoding apparatus performs the selection process of specific subband groups (important subband groups) that are important perceptually independently for each frame.
  • the present invention is not limited to this, and can be similarly applied to a configuration in which the encoding apparatus selects an important subband group in the current frame in consideration of the selection result of the previous frame in time.
  • a configuration in which a band near a band selected as an important subband group in the previous frame is selected as an important subband group selection candidate in the current frame is an example.
  • the encoding device uses a weight that makes a subband closer to the subband selected as the important subband group in the previous frame, more easily selected as the important subband group in the current frame, from a plurality of subbands. You may determine the selection range (selection candidate) used as an important subband group. With these configurations, it is possible to suppress a significant change in the band of the important subband group between frames, and as a result, it is possible to suppress degradation in quality of the decoded signal.
  • the encoding apparatus selects a specific band that is audibly important after the multi-rate indexing process.
  • the present invention is not limited to this, and before the multi-rate indexing process is performed.
  • the present invention can be similarly applied to a configuration in which a specific band that is audibly important is selected.
  • this configuration when the band is selected, the number of bits to be used for encoding each subband is not fixed, so an estimated value of the number of encoded bits is provisionally used.
  • a configuration in which all subbands have the same number of encoded bits can be given as an example.
  • the encoding device uses the fixed number of bits set in advance as the number of encoding bits assigned to each of the plurality of subbands, and selects an important subband group from the plurality of subbands. Determine the range (selection candidates).
  • the encoding device uses the fixed number of bits set in advance as the number of encoding bits assigned to each of the plurality of subbands, and selects an important subband group from the plurality of subbands. Determine the range (selection candidates).
  • the number of bits used for encoding each subband is unified, it is possible to reduce the amount of processing calculation at the time of band selection.
  • the spectral data represented by vectors is representatively described as an encoding target, but the present invention is not necessarily limited thereto. Even if different data capable of expressing the characteristics of an input signal by a vector is used as an encoding target, the same effect as in the present embodiment can be obtained.
  • the decoding apparatus 103 performs processing using the encoded information transmitted from the encoding apparatus 101.
  • the present invention is not limited to this, and the decoding apparatus 103 can perform processing even if it is not the encoding information from the encoding apparatus 101 as long as the encoding information includes necessary parameters and data. Is possible.
  • the input signal to be encoded and the output signal that is decoded and output are used as the audio signal, but the present invention is not limited to this.
  • the input signal / output signal may be a music signal, or a signal in which an audio signal and a music signal are mixed.
  • the present invention is also applicable to the case where a signal processing program capable of executing the above functions is recorded and written on a machine-readable recording medium such as a memory, a disk, a tape, a CD, a DVD, and the like. Thus, the same operation and effect as the present embodiment can be obtained.
  • each functional block used in the description of each embodiment is typically realized as an LSI which is an integrated circuit. These may be individually made into one chip, or may be made into one chip so as to include a part or all of them. Although referred to as LSI here, it may be referred to as IC, system LSI, super LSI, or ultra LSI depending on the degree of integration.
  • the method of circuit integration is not limited to LSI, and may be realized by a dedicated circuit or a general-purpose processor.
  • An FPGA Field Programmable Gate Array
  • a reconfigurable / processor that can reconfigure the connection and setting of circuit cells inside the LSI may be used.
  • the encoding apparatus, decoding apparatus, encoding method, and decoding method according to the present invention perform encoding parameter generation processing by encoding processing that takes auditory importance into consideration, thereby achieving a very low bit rate and low
  • the amount of processing computation can improve the quality of the decoded signal, and is suitable for packet communication systems, mobile communication systems, and the like.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

 聴感的な重要度を考慮した符号化処理による符号化パラメータ生成処理を行い、復号信号の品質を改善することができる符号化装置。この装置において、近傍探索部(302)は、スペクトルデータを分割して生成した複数のサブバンドに対して近傍探索を行い、複数のサブバンドのスペクトルのラティスベクトルを算出する。マルチレートインデキシング部(303)は、ラティスベクトルを用いて複数のサブバンド毎にマルチレートインデキシングを行い、その結果を示すインデックス情報を生成する。帯域選択部(304)は、複数のサブバンドのうち、インデックス情報において複数のサブバンド毎に割り当てられる符号化ビット数の合計が予め設定された値以下となるサブバンドの選択範囲であり、かつ、複数のサブバンド毎のエネルギの合計が最大となるサブバンドの選択範囲を、複数の符号化レイヤにおける、聴感的に重要なサブバンド群として決定する。

Description

符号化装置、復号装置、符号化方法及び復号方法
 本発明は、信号を符号化して伝送する通信システムに用いられる符号化装置、復号装置、符号化方法及び復号方法に関する。
 インターネット通信に代表されるパケット通信システム又は移動通信システム等で音声信号又は楽音信号を伝送する場合、音声信号又は楽音信号の伝送効率を高めるために、圧縮技術又は符号化技術がよく使われる。また、近年では、単に低ビットレートで音声信号又は楽音信号を符号化するという一方で、より広帯域の音声信号又は楽音信号を高品質に符号化する技術に対するニーズが高まっている。
 このようなニーズに対して、音声信号又は楽音信号の符号化において、符号化情報の一部からでも音声信号又は楽音信号を復号することが可能であり、パケット損失が発生するような状況においても音質劣化を抑制することができるスケーラブル符号化技術が開発されている(非特許文献1)。例えば、非特許文献1には、符号化ビットレートが16kbps~24kbpsである時、入力信号が音声信号と判定された場合に、一定時間分の入力信号を変換して得られるスペクトルデータを複数のサブベクトルに分割し、各サブベクトルに対してマルチレート符号化する技術「EAVQ(Embedded Algebraic Vector Quantization)」が開示されている。なお、上記非特許文献1に開示されているEAVQに関連する技術は非特許文献2、非特許文献3及び特許文献1にも開示されている。
特表2005-528839号公報
ITU-T:G.718; Frame error robust narrowband and wideband embedded variable bit-rate coding of speech and audio from 8-32 kbit/s. ITU-T Recommendation G.718(2008) Stephane Ragot, Bruno Bessette, and Roch Lefebvre, "Low-complexity Multi-rate Lattice Vector Quantization with Application to Wideband TCX Speech Coding", ICASSP 2004 Minjie Xie and Jean-Pierre Adoul, "Embedded Algebraic Vector Quantizers (EAVQ) with Application to Wideband Speech Coding", IEEE 1996
 しかしながら、上記非特許文献1に開示された符号化装置及び復号装置の構成では、一部のビットレートで符号化/復号する場合において、復号信号の品質が不十分であるという問題点がある。以下、この問題点について説明する。
 上記非特許文献1に開示された符号化装置及び復号装置では、入力信号が音声信号であると判定された場合、16kbps~24kbpsの符号化ビットレートにおいて、EAVQという符号化方式が適用される。このとき、EAVQに利用できるビットレートは、コアとなる符号化レイヤ(レイヤ1)及び第1拡張レイヤ(レイヤ2)のビットレートを除いた、4kbps~12kbpsである。より詳細には、符号化装置は、レイヤ3にて4kbpsのビットレートで符号化を行い、レイヤ4にて8kbpsのビットレートで符号化を行う。符号化ビットレートが32kbpsの時に、レイヤ5ではさらに8kbpsのビットレートで符号化が行われるが、この符号化レイヤについては本発明とは本質的に関係しないため、以降の説明では省略する。
 ここで、上記非特許文献1では、符号化装置側でレイヤ3及びレイヤ4の符号化処理をまとめて行い、合計12kbpsのビットレートに相当する符号化パラメータを復号装置に伝送し、復号装置側において所望のビットレートで復号するという処理を行う。このとき、伝送される符号化パラメータのうち、どの部分がレイヤ3の符号化パラメータ(4kbps)に相当し、どの部分がレイヤ4の符号化パラメータ(8kbps)に相当するかの区別はされていない。このため、復号装置は、受信した符号化パラメータ(12kbps)のうち、先頭部分から所望のビットレート(4kbps又は12kbps)分のみを単純に復号処理する構成になっている。よって、例えば、復号装置は、レイヤ1からレイヤ3までのビットレート(12kbps)で復号する場合には、レイヤ3及びレイヤ4の符号化パラメータのうち聴感的に重要な特定の部分を選択して復号処理していないので、この復号条件では復号信号の品質が十分ではないと言える。
 本発明の目的は、非特許文献1のようなスケーラブル符号化/復号方法において、符号化装置側で聴感的に重要な特定の符号化パラメータを部分的に選択し、符号化パラメータに前記聴感的な重要度を反映させることにより、一部のビットレートで復号する際に復号信号の品質を改善するスケーラブル符号化/復号方法を提供することである。
 本発明の第1の態様に係る符号化装置は、符号化処理をまとめて行う複数の符号化レイヤを有する符号化装置であって、前記複数の符号化レイヤに入力されるスペクトルデータを分割して複数のサブバンドを生成し、前記複数のサブバンドに対して近傍探索を行うことにより、前記複数のサブバンドのスペクトルのラティスベクトルを算出する探索手段と、前記ラティスベクトルを用いて、前記複数のサブバンド毎にマルチレートインデキシングを行い、前記複数のサブバンド毎のマルチレートインデキシングの結果を示すインデックス情報を生成する符号化手段と、前記インデックス情報において前記複数のサブバンド毎に割り当てられる符号化ビット数、及び、前記複数のサブバンド毎のエネルギであるサブバンドエネルギを用いて、前記複数のサブバンドのうち、前記符号化ビット数の合計が予め設定された値以下となるサブバンドの選択範囲であり、かつ、前記サブバンドエネルギの合計が最大となる前記サブバンドの選択範囲を、前記複数の符号化レイヤにおける、特定サブバンド群として決定する選択手段と、を備える。
 本発明の第2の態様に係る復号装置は、符号化処理をまとめて行う複数の符号化レイヤを有する符号化装置からの信号を復号する復号装置であって、前記符号化装置で生成された、前記複数の符号化レイヤに入力されたスペクトルデータを分割して生成された複数のサブバンドに対する近傍探索を行うことにより得られたラティスベクトルを用いた、前記複数のサブバンド毎のマルチレートインデキシングを行って得られた結果を示すインデックス情報と、前記複数のサブバンド毎に割り当てられた符号化ビット、及び、前記複数のサブバンド毎のエネルギであるサブバンドエネルギを用いて、前記複数のサブバンドのうち、前記マルチレートインデキシングにおいて前記複数のサブバンド毎に割り当てられた符号化ビット数の合計が予め設定された値以下となるサブバンドの選択範囲であり、かつ、前記複数のサブバンド毎のエネルギであるサブバンドエネルギの合計が最大となる前記サブバンドの選択範囲である、特定サブバンド群を示す帯域情報と、を受信する受信手段と、前記複数の符号化レイヤのうち一部の符号化レイヤのみに対して復号処理が行われる場合、前記インデックス情報のうち、前記帯域情報に示される前記特定サブバンド群に対応する部分のみを復号して復号信号を生成する復号手段と、を備える。
 本発明の第3の態様に係る符号化方法は、符号化処理をまとめて行う複数の符号化レイヤを有する符号化装置における符号化方法であって、前記複数の符号化レイヤに入力されるスペクトルデータを分割して複数のサブバンドを生成し、前記複数のサブバンドに対して近傍探索を行うことにより、前記複数のサブバンドのスペクトルのラティスベクトルを算出する探索ステップと、前記ラティスベクトルを用いて、前記複数のサブバンド毎にマルチレートインデキシングを行い、前記複数のサブバンド毎のマルチレートインデキシングの結果を示すインデックス情報を生成する符号化ステップと、前記インデックス情報において前記複数のサブバンド毎に割り当てられる符号化ビット数、及び、前記複数のサブバンド毎のエネルギであるサブバンドエネルギを用いて、前記複数のサブバンドのうち、前記符号化ビット数の合計が予め設定された値以下となるサブバンドの選択範囲であり、かつ、前記サブバンドエネルギの合計が最大となる前記サブバンドの選択範囲を、前記複数の符号化レイヤにおける、特定サブバンド群として決定する選択ステップと、を備える。
 本発明の第4の態様に係る復号方法は、符号化処理をまとめて行う複数の符号化レイヤを有する符号化装置からの信号を復号する復号装置における復号方法であって、前記符号化装置で生成された、前記複数の符号化レイヤに入力されたスペクトルデータを分割して生成された複数のサブバンドに対する近傍探索を行うことにより得られたラティスベクトルを用いた、前記複数のサブバンド毎のマルチレートインデキシングを行って得られた結果を示すインデックス情報と、前記複数のサブバンド毎に割り当てられた符号化ビット、及び、前記複数のサブバンド毎のエネルギであるサブバンドエネルギを用いて、前記複数のサブバンドのうち、前記マルチレートインデキシングにおいて前記複数のサブバンド毎に割り当てられた符号化ビット数の合計が予め設定された値以下となるサブバンドの選択範囲であり、かつ、前記複数のサブバンド毎のエネルギであるサブバンドエネルギの合計が最大となる前記サブバンドの選択範囲である、特定サブバンド群を示す帯域情報と、を受信する受信ステップと、前記複数の符号化レイヤのうち一部の符号化レイヤのみに対して復号処理が行われる場合、前記インデックス情報のうち、前記帯域情報に示される前記特定サブバンド群に対応する部分のみを復号して復号信号を生成する復号ステップと、を備える。
 本発明によれば、聴感的な重要度を考慮した符号化処理、符号化パラメータ生成処理を行い、復号信号の品質を改善することができる。
本発明の実施の形態1に係る符号化装置及び復号装置を有する通信システムの構成を示すブロック図 図1に示した符号化装置の内部の主要な構成を示すブロック図 図2に示した第3-4レイヤ符号化部の内部の主要な構成を示すブロック図 図3に示したマルチレートインデキシング部における処理のフローチャート 図3に示した帯域選択部における処理の概要を示す図 図3に示したインデックス情報調整部における処理の概要を示す図 図2に示した第3-4レイヤ復号部の内部の主要な構成を示すブロック図 図7に示したインデックス情報調整部における処理の概要を示す図 図1に示した復号装置の内部の主要な構成を示すブロック図 図9に示した第3-4レイヤ復号部の内部の主要な構成を示すブロック図 本発明の実施の形態2に係る符号化装置の内部の主要な構成を示すブロック図 図11に示した第2レイヤ符号化部の内部の主要な構成を示すブロック図 本発明の実施の形態2に係る復号装置の内部の主要な構成を示すブロック図 図13に示した第2レイヤ復号部の内部の主要な構成を示すブロック図
 以下、本発明の各実施の形態について、図面を参照して詳細に説明する。なお、本発明に係る符号化装置及び復号装置として、音声符号化装置及び音声復号装置を例にとって説明する。
 (実施の形態1)
 図1は、本実施の形態に係る符号化装置及び復号装置を有する通信システムの構成を示すブロック図である。図1において、通信システムは、符号化装置101と復号装置103とを備える。符号化装置101と復号装置103とは、伝送路102を介して通信可能な状態となっている。なお、符号化装置及び復号装置はいずれも、通常、基地局装置又は通信端末装置等に搭載されて用いられる。
 符号化装置101は、入力信号をN(Nは自然数)サンプルずつ区切り、Nサンプルを1フレームとしてフレーム毎に符号化を行う。すなわち、Nサンプルが符号化処理単位とされる。ここで、各符号化処理単位に対応する入力信号をx(n=0、…、N-1)と表す。nは、入力信号がNサンプルずつ区切られた信号要素群のうち、(n+1)番目の信号要素を示す。符号化装置101は、符号化によって得られた情報(以下「符号化情報」という)を、伝送路102を介して復号装置103に送信する。
 復号装置103は、伝送路102を介して符号化装置101から送信された符号化情報を受信し、受信した符号化情報を復号し出力信号を得る。
 図2は、図1に示した符号化装置101の内部の主要な構成を示すブロック図である。符号化装置101は、一例として5つの符号化階層(レイヤ)からなる階層符号化装置とする。ここでは、ビットレートの低い方から順に、第1レイヤ、第2レイヤ、第3レイヤ、第4レイヤ、第5レイヤと呼ぶ。なお、本実施の形態で説明する符号化装置101の構成は、非特許文献1の符号化装置と同様の構成である。ただし、本実施の形態で説明する符号化装置101の構成は、入力信号が音声信号であると判定された場合の符号化処理の構成である。また、符号化装置101において、第3レイヤと第4レイヤの符号化/復号処理はまとめて行われるため、図2では、第3レイヤと第4レイヤを統合し、第3-4レイヤとして表記している。また、符号化装置101において、第3-4レイヤ符号化部以外の構成要素については、非特許文献1に開示されている構成要素と同一であるため、詳細な説明は省略する。
 図2に示す符号化装置101の第1レイヤ符号化部201は、入力信号に対して、CELP(Code Excited Linear Prediction)方式の音声符号化方法を用いて符号化を行って、第1レイヤ符号化情報を生成し、生成した第1レイヤ符号化情報を第1レイヤ復号部202及び符号化情報統合部212に出力する。
 第1レイヤ復号部202は、第1レイヤ符号化部201から入力される第1レイヤ符号化情報に対して、CELP方式の音声復号方法を用いて復号を行って、第1レイヤ復号信号を生成し、生成した第1レイヤ復号信号を加算部203に出力する。
 加算部203は、第1レイヤ復号部202から入力される第1レイヤ復号信号の極性を反転させて、入力信号に加算することにより、入力信号と第1レイヤ復号信号との差分信号を算出し、得られた差分信号を第1レイヤ差分信号として直交変換処理部204に出力する。
 直交変換処理部204は、バッファbuf1(n)(n=0、…、N-1)を内部に有し、加算部203から入力される第1レイヤ差分信号x1(n)を修正離散コサイン変換(MDCT:Modified Discrete Cosine Transform。つまり、直交変換)することにより、周波数領域パラメータ(周波数領域信号。つまり、スペクトルデータ)に変換する。
 ここで、直交変換処理部204における直交変換処理について、その計算手順及び内部バッファへのデータ出力に関して説明する。
 まず、直交変換処理部204は、次式(1)によりバッファbuf1(n)を、「0」を初期値として初期化する。
Figure JPOXMLDOC01-appb-M000001
 次いで、直交変換処理部204は、次式(2)に従って、第1レイヤ差分信号x1(n)に対し修正離散コサイン変換(MDCT)を行い、第1レイヤ差分信号x1(n)のMDCT係数(以下「第1レイヤ差分スペクトル」と呼ぶ)X1(k)を求める。
Figure JPOXMLDOC01-appb-M000002
 ここで、kは1フレームにおける各サンプルのインデックスを示す。直交変換処理部204は、第1レイヤ差分信号x1(n)とバッファbuf1(n)とを結合させたベクトルであるx1’(n)を次式(3)により求める。
Figure JPOXMLDOC01-appb-M000003
 次いで、直交変換処理部204は、次式(4)によりバッファbuf1(n)を更新する。
Figure JPOXMLDOC01-appb-M000004
 そして、直交変換処理部204は、第1レイヤ差分スペクトルX1(k)(第1レイヤ差分信号を直交変換して形成されるスペクトルデータ)を、第2レイヤ符号化部205及び加算部207に出力する。
 第2レイヤ符号化部205は、直交変換処理部204から入力される第1レイヤ差分スペクトルX1(k)を用いて第2レイヤ符号化情報を生成し、生成した第2レイヤ符号化情報を第2レイヤ復号部206及び符号化情報統合部212に出力する。なお、第2レイヤ符号化部205の詳細については非特許文献1に開示されているため、ここでは省略する。
 第2レイヤ復号部206は、第2レイヤ符号化部205から入力される第2レイヤ符号化情報を復号し、第2レイヤ復号スペクトルを算出し、算出した第2レイヤ復号スペクトルを加算部207に出力する。なお、第2レイヤ復号部206の詳細については非特許文献1に開示されているため、ここでは省略する。
 加算部207は、第2レイヤ復号部206から入力される第2レイヤ復号スペクトルの極性を反転させて、直交変換処理部204から入力される第1レイヤ差分スペクトルに加算することにより、第1レイヤ差分スペクトルと第2レイヤ復号スペクトルとの差分スペクトルを算出する。そして、加算部207は、得られた差分スペクトルを第2レイヤ差分スペクトルとして第3-4レイヤ符号化部208及び加算部210に出力する。
 第3-4レイヤ符号化部208は、加算部207から入力される第2レイヤ差分スペクトルを用いて第3-4レイヤ符号化情報を生成する。そして、第3-4レイヤ符号化部208は、生成した第3-4レイヤ符号化情報を第3-4レイヤ復号部209及び符号化情報統合部212に出力する。なお、第3-4レイヤ符号化部208の詳細については後述する。
 第3-4レイヤ復号部209は、第3-4レイヤ符号化部208から入力される第3-4レイヤ符号化情報を復号し、第3-4レイヤ復号スペクトルを算出し、算出した第3-4レイヤ復号スペクトルを加算部210に出力する。なお、第3-4レイヤ復号部209の詳細については後述する。
 加算部210は、第3-4レイヤ復号部209から入力される第3-4レイヤ復号スペクトルの極性を反転させて、加算部207から入力される第2レイヤ差分スペクトルに加算することにより、第2レイヤ差分スペクトルと第3-4レイヤ復号スペクトルとの差分スペクトルを算出する。そして、加算部210は、得られた差分スペクトルを第3-4レイヤ差分スペクトルとして第5レイヤ符号化部211に出力する。
 第5レイヤ符号化部211は、加算部210から入力される第3-4レイヤ差分スペクトルを用いて第5レイヤ符号化情報を生成する。そして、第5レイヤ符号化部211は、生成した第5レイヤ符号化情報を符号化情報統合部212に出力する。なお、第5レイヤ符号化部211の詳細については非特許文献1に開示されているため、ここでは省略する。
 符号化情報統合部212は、第1レイヤ符号化部201から入力される第1レイヤ符号化情報と、第2レイヤ符号化部205から入力される第2レイヤ符号化情報と、第3-4レイヤ符号化部208から入力される第3-4レイヤ符号化情報と、第5レイヤ符号化部211から入力される第5レイヤ符号化情報とを統合する。そして、符号化情報統合部212は、統合された情報源符号に対し、必要であれば伝送誤り符号などを付加した上でこれを符号化情報として伝送路102に出力する。
 図3は、図2に示す第3-4レイヤ符号化部208の内部の主要な構成を示すブロック図である。第3-4レイヤ符号化部208は、グローバルゲイン算出部301、近傍探索部302、マルチレートインデキシング部303、帯域選択部304、インデックス情報調整部305及び多重化部306から主に構成される。各部は以下の動作を行う。
 グローバルゲイン算出部301は、加算部207から入力される第2レイヤ差分スペクトルX2(k)に対するグローバルゲインを算出する。グローバルゲインの算出方法については、非特許文献1に開示されており、本実施の形態における算出方法も同一方法である。具体的には、グローバルゲイン算出部301は、次式(5)及び次式(6)に従って、グローバルゲインgを算出する。グローバルゲイン算出部301は、式(6)に従って算出したグローバルゲインgを多重化部306に出力する。ここで、式(5)におけるNB_BITSは符号化処理に利用できるビット数を表し、Pは第2レイヤ差分スペクトルX2(k)を分割するサブバンド数を表す。
Figure JPOXMLDOC01-appb-M000005
Figure JPOXMLDOC01-appb-M000006
 より詳細には、式(5)における1段目には、初期化に関する式が記載されている。そして、初期化の後に、式(5)では、3段目に記載された式による、第1のオフセット計算が行われる。一方で、式(5)では、6,7段目に記載された式による、第2のオフセット計算も行われる。また、式(5)における4段目に記載された式により、nbitsが求められる。そして、式(5)における5段目の条件に基づいて、第1のオフセット計算によって求められたオフセット(offset)、又は、第2のオフセット計算によって求められたオフセット(offset)が選択される。すなわち、式(5)における5段目の条件が満たされない場合には、第1のオフセット計算によって求められたオフセットが選択される。一方、式(5)における5段目の条件が満たされる場合には、第2のオフセット計算によって求められたオフセットが選択される。
 そして、式(6)では、式(5)で選択されたオフセット(offset)に基づいて、グローバルゲインgが求められる。このグローバルゲインgは、多重化部306へ出力される。
 また、グローバルゲイン算出部301は、式(6)により算出したグローバルゲインgを用いて第2レイヤ差分スペクトルX2(k)を式(7)に従って正規化し、正規化した第2レイヤ差分スペクトルX’2(k)を近傍探索部302に出力する。
Figure JPOXMLDOC01-appb-M000007
 近傍探索部302は、グローバルゲイン算出部301における処理と同様にして、グローバルゲイン算出部301から入力される正規化された第2レイヤ差分スペクトルX’2(k)(スペクトルデータ)をP個のサブバンドに分割する。ここで、P個の各サブバンドを構成するサンプル(MDCT係数)の数、つまり、サブバンド幅をそれぞれQ(p)とする。なお、以下では、説明の簡略化のため、各サブバンド幅が全てQである場合について説明するが、もちろん本発明はサブバンド毎にサブバンド幅が異なる場合についても同様に適用できる。
 近傍探索部302は、P個に分割した各サブバンドのスペクトルに対して、近傍探索処理を行う。なお、以下の説明では、各サブバンドのスペクトルをサブスペクトルSS(k)(p=0、・・・、P-1、k=BS、・・・、BE)と呼ぶ。ここで、BS、及びBEは各サブバンドの先頭サンプルのインデックス、及び最終サンプルのインデックスをそれぞれ表す。近傍探索部302は、サブスペクトルSS(k)に対して、非特許文献1及び非特許文献3で開示されている技術を用いて、サブスペクトルSS(k)の近傍ベクトル(ラティス(lattice)ベクトル(格子ベクトル))を算出する。具体的には、近傍探索部302は、次式(8)に従い、REに含まれるサブベクトル(ラティスベクトル(lattice point)y1p又はy2p)を算出する。ここで、REはいわゆる循環Gosset格子(rotated Gosset lattice)の集合を意味する。RE及び式(8)の処理の詳細については、非特許文献1、非特許文献2を参照されたい。
Figure JPOXMLDOC01-appb-M000008
 近傍探索部302は、算出した近傍ベクトル(式(8)におけるy1p又はy2p)をマルチレートインデキシング部303に出力する。
 マルチレートインデキシング部303は、非特許文献1及び非特許文献3で開示されている技術を用いて、近傍探索部302から入力される近傍ベクトルを用いて、各サブバンドに対してマルチレートインデキシングを行い、各サブバンドのマルチレートインデキシング結果を示すインデックス情報を生成する。
 ここで、図4に、マルチレートインデキシング部303の処理フローを示す。なお、以下では、非特許文献1に記載されているAVQ符号化部と同様に、レイヤ3及びレイヤ4に割り当てられる合計ビット数(ここでは例えばレイヤ3及びレイヤ4にそれぞれ4kbps、8kbpsが割り当てられ、合計のビットレートが12kbpsとする)に対して符号化処理する場合について説明する。
 ステップ(以下、STと記す)1010では、マルチレートインデキシング部303は、サブバンド毎に、サブスペクトルSS(k)のエネルギを算出し、算出したサブバンド毎のエネルギ(サブバンドエネルギ)をエネルギの降順にソートする。ここで、各サブスペクトルのサブバンドエネルギEは次式(9)により算出される。
Figure JPOXMLDOC01-appb-M000009
 ST1020では、マルチレートインデキシング部303は、全サブバンドのサブスペクトルSS(k)が量子化済みか否かを判定する。マルチレートインデキシング部303において全サブバンドのサブスペクトルSS(k)が既に量子化済みである場合(ST1020:YES)にはST1070に進み、量子化済みでない場合(ST1020:NO)はST1030に進む。
 ST1030では、マルチレートインデキシング部303は、各サブバンドのサブスペクトルSS(k)のマルチレートインデキシング(量子化)を行い、各サブバンドのサブスペクトルSS(k)のマルチレートインデキシング(量子化)結果を示すインデックス情報を生成する。なお、マルチレートインデキシング処理の詳細については、非特許文献3に開示されているため、ここでは説明を省略する。
 ST1040では、マルチレートインデキシング部303は、ST1030でマルチレートインデキシング(量子化)に使用したビットの合計がマルチレートインデキシング部303に割り当てられているビットを超えていないかどうかの判定を行う。ここで、図4に示すST1040において、BITは、処理を開始(スタート)してから現時点までのST1030においてマルチレートインデキシング処理で使用したビットの合計を示し、mは現在量子化対象であるサブバンドのサブスペクトルのマルチレートインデキシング処理で使用したビット数を示し、BITTOTALはマルチレートインデキシング部303に割り当てられているビット数を示す。つまり、ST1040では、BITにmを加算した値がBITTOTAL以下である場合(ST1040:YES)にはST1060に進み、BITにmを加算した値がBITTOTALより大きい場合(ST1040:NO)にはST1050に進む。
 ST1050では、マルチレートインデキシング部303は、現在量子化対象であるサブバンド(図4に示す当該サブバンド)のサブスペクトルの値(スペクトル値)SS(k)を次式(10)に従って、ゼロに設定する。
Figure JPOXMLDOC01-appb-M000010
 ST1060では、マルチレートインデキシング部303は、マルチレートインデキシング処理で使用したビットの合計値BITを(BIT+m)に更新する。
 ST1070では、マルチレートインデキシング部303は、ST1010で算出した各サブバンドのサブバンドエネルギを示すサブバンドエネルギ情報、ST1030で算出したインデックス情報、及び、マルチレートインデキシング部303に割り当てられている符号化ビットレートを帯域選択部304に出力し、処理を終了する。
 帯域選択部304(図3)は、マルチレートインデキシング部303から入力されるインデックス情報、サブバンドエネルギ情報、及び、マルチレートインデキシング部303に割り当てられている符号化ビットレートを用いて、聴感的に重要な特定のサブバンド群(重要サブバンド群)を選択する。ここで、マルチレートインデキシング部303に割り当てられている符号化ビットレートとして、レイヤ3に割り当てられている4kbpsを例に挙げて説明する。以下、帯域選択部304における帯域選択方法について説明する。
 帯域選択部304は、インデックス情報に含まれる各サブバンドのサブスペクトルの量子化に使用したビット数(つまり、各サブバンドに割り当てられた符号化ビット数)の合計が、予め設定された符号化ビットレート(ビット数。ここでは、レイヤ3に割り当てられている符号化ビットレート(4kbps))以下である条件において、サブバンドエネルギ情報に示されるサブバンドエネルギが最大となる特定のサブバンド群を、重要サブバンド群として選択する。
 つまり、帯域選択部304は、複数のサブバンド毎のマルチレートインデキシングに使用した符号化ビット数(複数のサブバンド毎に割り当てられる符号化ビット数)、及び、複数のサブバンド毎のサブバンドエネルギを用いて、複数のサブバンドのうち、符号化ビット数の合計が予め設定された値(ここではレイヤ3に割り当てられている符号化ビットレート)以下となるサブバンドの範囲であり、かつ、サブバンドエネルギの合計が最大となるサブバンドの範囲を、レイヤ3及びレイヤ4(まとめて符号化処理される符号化レイヤ)における聴感的に重要な特定のサブバンド群(重要サブバンド群)として決定する。ただし、ここでは、サブバンドを周波数の昇順に並べた場合に対して(降順でも可)、連続するサブバンドの集合のみを重要サブバンド群の対象にするものとする。
 図5に帯域選択部304における処理の概要を示す。図5に示す各ブロック(□(四角))は各サブバンドを意味する。また、図5において、ブロック内の数値はサブバンドエネルギの順位(数字が小さいほど、サブバンドエネルギが大きいものとする。)を示し、各サブバンドの下の数値Bはサブバンドのサブスペクトルの量子化に使用するビット数を示し、Eはサブバンドエネルギを示す。また、図5では、サブバンドエネルギが大きい方から5番目までのサブバンドしか示していないが、6番目以降についても同様に考えることができる。
 なお、非特許文献1に記載されているマルチレートインデキシング部の方法では、符号化ビットが不足すると、高域側の幾つかのサブバンドは符号化されず、ビットも割り当てられないことがある。従って、図5に示すサブバンド数はフレーム毎に異なることがあり得る。
 また、図5に示す第nエントリ(n=1,2,3,…)とは、重要サブバンド群の選択候補(サブバンドの選択範囲)を意味する。図5に示したように、帯域選択部304は、連続するサブバンド群に対する使用ビット数がレイヤ3の符号化ビット数(4kbps相当)以下となるエントリのうち、合計サブバンドエネルギが最大となるエントリを探索する。そして、帯域選択部304は、探索したエントリ(つまり、重要サブバンド群)の開始サブバンド位置を帯域符号化情報としてインデックス情報調整部305に出力する。例えば、図5において、第2エントリが重要サブバンド群として選択された場合、サブバンドエネルギの順位が「1」であるサブバンドのインデックス(図5では先頭から5番目であるのでインデックスは4)が帯域符号化情報に相当する。
 なお、重要サブバンド群は連続するサブバンドを対象とするため、候補エントリのうち、最も低域側の候補エントリは「先頭サブバンドを最初のサブバンドとする候補エントリ」であり、最も高域側の候補エントリは「終端サブバンドを最後のサブバンドとするエントリ」である。つまり、先頭サブバンド又は終端サブバンドの境界を超えるような候補エントリは対象としないものとする。
 また、帯域選択部304は、マルチレートインデキシング部303から入力されたインデックス情報もインデックス情報調整部305に出力する。
 インデックス情報調整部305は、帯域選択部304から入力されるインデックス情報及び帯域符号化情報を用いて、インデックス情報の並び替え処理を行う。具体的には、インデックス情報調整部305は、全サブバンドのインデックス情報のうち帯域符号化情報が示すサブバンドを含む重要サブバンド群に対応する部分が先頭に位置し、残りのサブバンドのインデックス情報がその後ろに位置するように、インデックス情報の並び替え処理を行う。
 図6にインデックス情報調整部305における並び替え処理の概念図を示す。なお、インデックス情報調整部305は、帯域選択部304と同様にして、帯域符号化情報と、インデックス情報の量子化に使用された符号化ビット数とから、上記重要サブバンド群がどのサブバンドを含むのかを算出できる。図6では、帯域選択部304において、第2エントリが示すサブバンド群が重要サブバンド群として算出された場合について説明する。
 まず、インデックス情報調整部305は、図6Aに示すステップ1において、帯域符号化情報を用いて、周波数の昇順にソートしたインデックス情報に対して、重要サブバンド群を算出する。インデックス情報調整部305で選択される重要サブバンド群は、帯域選択部304で選択された重要サブバンド群と同一である。
 次いで、インデックス情報調整部305は、図6Bに示すステップ2において、ステップ1で選択した重要サブバンド群、前記重要サブバンド群よりも低域側のサブバンド(低域サブバンド群)、前記重要サブバンド群よりも高域側のサブバンド(高域サブバンド群)に切り分ける。
 次いで、インデックス情報調整部305は、図6Cに示すステップ3において、ステップ1で選択した重要サブバンド群を先頭にし、それ以外のサブバンドについては、周波数の昇順を維持したまま、前記重要サブバンド群に後続させる形で並び替える。つまり、並び順としては、図6に示すように、低域側から、「重要サブバンド群」、「低域サブバンド群」、「高域サブバンド群」となる。
 以上が、インデックス情報調整部305における、インデックス情報の並び替え処理の説明である。次いで、インデックス情報調整部305は、並び替え後のインデックス情報と帯域符号化情報とを多重化部306に出力する。
 多重化部306は、グローバルゲイン算出部301から入力されるグローバルゲインgと、インデックス情報調整部305から入力されるインデックス情報及び帯域符号化情報と、を多重化して第3-4レイヤ符号化情報を生成する。そして、多重化部306は、生成した第3-4レイヤ符号化情報を、第3-4レイヤ復号部209及び符号化情報統合部212に出力する。
以上が、第3-4レイヤ符号化部208の処理の説明である。
 図7は、図2に示す第3-4レイヤ復号部209の内部の主要な構成を示すブロック図である。第3-4レイヤ復号部209は、分離部701、インデックス情報調整部702及びマルチレート復号部703から主に構成される。
分離部701は、第3-4レイヤ符号化部208から入力される第3-4レイヤ符号化情報を、インデックス情報と、帯域符号化情報と、グローバルゲインとに分離する。そして、分離部701は、インデックス情報及び帯域符号化情報をインデックス情報調整部702に出力し、グローバルゲインをマルチレート復号部703に出力する。
 インデックス情報調整部702は、分離部701から出力されるインデックス情報及び帯域符号化情報を用いて、インデックス情報の並び替え処理を行う。具体的には、インデックス情報調整部702は、帯域符号化情報を用いて、インデックス情報の並び替え処理を行う。ここで、インデックス情報調整部702は、第3-4レイヤ符号化部208内のインデックス情報調整部305(図3)と逆の処理を行う。以下にインデックス情報調整部702の処理について説明する。
 図8にインデックス情報調整部702の処理の概念図を示す。ここで、図8中の表記は、図6中の表記と同様である。なお、第3-4レイヤ復号部209内の復号処理(図8)では、サブバンドエネルギの順位(サブバンドエネルギの大きい方から何番目かを示す番号)は特に必要ないが、図8では、第3-4レイヤ符号化部208内の符号化処理と対比しやすいように表記している。
 まず、インデックス情報調整部702は、図8Aに示すステップ1において、分離部701から出力される帯域符号化情報を復号し、分離部701から出力されるインデックス情報の先頭サブバンドの周波数帯域(先頭サブバンドが周波数領域のどの帯域に対応するか)を算出する。次いで、インデックス情報調整部702は、先頭サブバンドから順に、各サブバンドで使用する符号化ビット数を加算していき、合計ビット数が予め指定されたビット数を超えない最大となるサブバンドの位置を探索し、重要サブバンド群を決定する。ここで、予め指定されたビット数とは、レイヤ3の符号化ビット数(4kbps相当)を意味する。図8Aでは、先頭から4番目までのサブバンドを重要サブバンド群とした場合を示している。
 次いで、インデックス情報調整部702は、図8Bに示すステップ2において、ステップ1で求めた重要サブバンド群に後続するサブバンドのうち、重要サブバンド群よりも周波数領域で低い帯域に相当するサブバンド(低域サブバンド群)を決定する。これは、ステップ1において算出した先頭サブバンドの周波数帯域から算出することができる。つまり、インデックス情報調整部702は、ステップ1における先頭サブバンドの周波数帯域から、先頭サブバンドよりも低域側に幾つのサブバンドが存在するかを求め、重要サブバンド群に後続するサブバンドから求めたサブバンド数分を低域側サブバンド群と判定すればよい。このとき、サブバンドの分割方法は、第3-4レイヤ符号化部208において行った分割方法と同様である。インデックス情報調整部702では、上記方法によって決定した低域サブバンド群に後続する部分を、周波数領域で重要サブバンド群よりも高い帯域に相当するサブバンド(高域サブバンド群)とする。
 次いで、インデックス情報調整部702は、図8Cに示すステップ3において、ステップ1及びステップ2で決定した、重要サブバンド群、低域サブバンド群、高域サブバンド群を、低域側から、「低域サブバンド群」、「重要サブバンド群」、「高域サブバンド群」となるように並び替える。
 インデックス情報調整部702は、以上の処理によって並び替えを行ったインデックス情報をマルチレート復号部703に出力する。
 マルチレート復号部703は、分離部701から入力されるグローバルゲイン、及び、インデックス情報調整部702から入力されるインデックス情報を復号し、第3-4レイヤ復号スペクトルを算出する。そして、マルチレート復号部703は、算出した第3-4レイヤ復号スペクトルを加算部210に出力する。なお、マルチレート復号部703における復号処理の詳細については、非特許文献1に開示されているため、ここでは説明を省略する。
 以上が、符号化装置101における処理の説明である。
 図9は、図1に示した復号装置103の内部の主要な構成を示すブロック図である。復号装置103は、一例として5つの復号階層(レイヤ)からなる階層復号装置とする。ここでは、符号化装置101と同様、ビットレートの低い方から順に、第1レイヤ、第2レイヤ、第3レイヤ、第4レイヤ、第5レイヤと呼ぶことにする。また、符号化装置101に対応して、第3レイヤ及び第4レイヤの復号処理をまとめて第3-4レイヤ復号部804にて行う。
 符号化情報分離部801は、伝送路102を介して符号化装置101から送られる符号化情報を受信し、受信した符号化情報を各レイヤの符号化情報に分離し、それぞれの復号処理を担当する復号部に出力する。具体的には、符号化情報分離部801は、符号化情報に含まれる第1レイヤ符号化情報を第1レイヤ復号部802に出力し、符号化情報に含まれる第2レイヤ符号化情報を第2レイヤ復号部803に出力し、符号化情報に含まれる第3-4レイヤ符号化情報を第3-4レイヤ復号部804に出力し、符号化情報に含まれる第5レイヤ符号化情報を第5レイヤ復号部806に出力する。なお、符号化情報分離部801は、符号化情報に、或るレイヤの符号化情報が含まれていない場合には、該当するレイヤの復号部には何も出力しない。また、符号化情報分離部801は、第3-4復号レイヤの復号動作の制御を行う。具体的には、符号化情報分離部801は、符号化情報に第3-4レイヤ符号化情報が含まれており、かつ、前記第3-4符号化情報が第3レイヤと第4レイヤの符号化ビット数の合計ビット数である場合には、第3-4復号レイヤの復号動作を「通常モード(L3-L4モード)」に制御する。また、符号化情報分離部801は、符号化情報に第3-4レイヤ符号化情報が含まれているが、第3-4符号化情報が第3レイヤの符号化ビット数のみである場合には、第3-4復号レイヤの復号動作を「低ビットレートモード(L3モード)」に制御する。図9では、この符号化情報分離部801の制御動作を破線で示している。
 第1レイヤ復号部802は、符号化情報分離部801から入力される第1レイヤ符号化情報に対して、CELP方式の音声復号方法を用いて復号を行って第1レイヤ復号信号を生成し、生成した第1レイヤ復号信号を加算部809に出力する。
 第2レイヤ復号部803は、符号化情報分離部801から入力される第2レイヤ符号化情報を復号し、得られる第2レイヤ復号スペクトルX2”(k)を加算部805に出力する。第2レイヤ復号部803の処理については非特許文献1に開示されているため、ここでは説明を省略する。
 第3-4レイヤ復号部804は、符号化情報分離部801から入力される第3-4レイヤ符号化情報を復号し、得られる第3-4レイヤ復号スペクトルX34”(k)を加算部805に出力する。また、第3-4レイヤ復号部804は、符号化情報分離部801によって、その復号動作を制御される。第3-4レイヤ復号部804の処理の詳細については後述する。
 加算部805には、第2レイヤ復号部803から第2レイヤ復号スペクトルX2”(k)が入力され、第3-4レイヤ復号部804から第3-4レイヤ復号スペクトルX34”(k)が入力される。加算部805は、入力された第2レイヤ復号スペクトルX2”(k)及び第3-4レイヤ復号スペクトルX34”(k)を加算し、加算したスペクトルを第1加算スペクトルXadd1”(k)として加算部807に出力する。
 第5レイヤ復号部806は、符号化情報分離部801から入力される第5レイヤ符号化情報を復号し、得られる第5レイヤ復号スペクトルX5”(k)を加算部807に出力する。第5レイヤ復号部806の処理については非特許文献1に開示されているため、ここでは説明を省略する。
 加算部807には、加算部805から第1加算スペクトルXadd1(k)が入力され、第5レイヤ復号部806から第5レイヤ復号スペクトルX5”(k)が入力される。加算部807は、入力された第1加算スペクトルXadd1”(k)及び第5レイヤ復号スペクトルX5”(k)を加算し、加算したスペクトルを第2加算スペクトルXadd2(k)として直交変換処理部808に出力する。
 直交変換処理部808は、まず、次式(11)に従い内蔵のバッファbuf’(k)を「0」値に初期化する。
Figure JPOXMLDOC01-appb-M000011
 次いで、直交変換処理部808は、第2加算スペクトルXadd2(k)を入力とし、次式(12)に従い第2加算復号信号y”(n)を求める。
Figure JPOXMLDOC01-appb-M000012
 式(12)において、X6(k)は、第2加算スペクトルXadd2(k)とバッファbuf’(k)とを結合させたベクトルであり、次式(13)を用いて求められる。
Figure JPOXMLDOC01-appb-M000013
 次いで、直交変換処理部808は、次式(14)に従いバッファbuf’(k)を更新する。
Figure JPOXMLDOC01-appb-M000014
 そして、直交変換処理部808は、第2加算復号信号y”(n)を加算部809に出力する。
 加算部809には、第1レイヤ復号部802から第1レイヤ復号信号が入力され、直交変換処理部808から第2加算復号信号が入力される。加算部809は、入力された第1レイヤ復号信号及び第2加算復号信号を加算し、加算した信号を出力信号として出力する。
 図10は、図9に示した第3-4レイヤ復号部804の内部の主要な構成を示すブロック図である。第3-4レイヤ復号部804は、分離部1001、インデックス情報調整部1002及びマルチレート復号部1003から主に構成される。
 分離部1001は、符号化情報分離部801から出力される第3-4レイヤ符号化情報を、インデックス情報と、帯域符号化情報と、グローバルゲインとに分離する。次いで、分離部1001は、インデックス情報及び帯域符号化情報をインデックス情報調整部1002に出力し、グローバルゲインをマルチレート復号部1003に出力する。
 インデックス情報調整部1002は、分離部1001から出力されるインデックス情報及び帯域符号化情報を用いて、インデックス情報の並び替え処理を行う。また、インデックス情報調整部1002は、符号化情報分離部801(図9)によって、その処理を制御される。以下、インデックス情報調整部1002における処理の制御方法について説明する。
 符号化情報分離部801による制御が「通常モード(L3-L4モード)」である場合、インデックス情報調整部1002は、符号化装置101内のインデックス情報調整部702と逆の処理を行う。つまり、インデックス情報調整部1002は、レイヤ3及びレイヤ4に対して復号処理が行われる場合、符号化装置101内のインデックス情報調整部702において重要サブバンド群に対応する部分が先頭に位置するように並び替えられたインデックス情報に対して、インデックス情報調整部702と逆の並び替え処理を行う。なお、ここではインデックス情報調整部1002における並べ替え処理の具体的な説明を省略する。
 一方、符号化情報分離部801による制御が「低ビットレートモード(L3モード)」である場合には、第3-4レイヤ符号化情報には、第3レイヤに割り当てられるビット数分のインデックス情報、つまり、重要サブバンド群のインデックス情報が格納されている。このとき、インデックス情報調整部1002は、重要サブバンド群の先頭サブバンドの周波数がどの帯域であるかを示す帯域符号化情報と、インデックス情報をマルチレート復号部1003に出力する。つまり、インデックス情報調整部1002は、レイヤ3に対してのみ復号処理が行われる場合、符号化装置101内のインデックス情報調整部702において重要サブバンド群に対応する部分が先頭に位置するように並び替えられたインデックス情報に対して、並び替え処理を行わない。
 マルチレート復号部1003は、分離部1001から入力されるグローバルゲインと、インデックス情報調整部1002から入力されるインデックス情報及び帯域符号化情報とを、復号して第3-4レイヤ復号スペクトルを算出する。また、マルチレート復号部1003は、符号化情報分離部801によって、その処理を制御される。以下、マルチレート復号部1003における処理の制御方法について説明する。
 符号化情報分離部801による制御が「通常モード(L3-L4モード)」である場合、マルチレート復号部1003は、符号化装置101内のマルチレート復号部703と同様の処理を行う。ここでは、説明を省略する。なお、このときは、インデックス情報調整部1002から帯域符号化情報は入力されなくてもよい。
 符号化情報分離部801による制御が「低ビットレートモード(L3モード)」である場合には、マルチレート復号部1003は、入力される帯域符号化情報から決定される周波数帯域に対して、インデックス情報を復号し、第3-4復号スペクトルを算出する。具体的には、マルチレート復号部1003は、インデックス情報に含まれる先頭サブバンドを、帯域符号化情報が示す周波数帯域に対応させ、先頭サブバンドに対応する周波数帯域から周波数領域で高域側に順に、インデックス情報を復号する。このとき、マルチレート復号部1003は、帯域符号化情報が示す周波数帯域よりも低域側については、第3-4復号スペクトルの値をゼロとする。同様に、マルチレート復号部1003は、インデックス情報に対応する周波数帯域よりも高域側についても、第3-4復号スペクトルの値をゼロとする。つまり、マルチレート復号部1003は、第3-4レイヤ符号化情報に格納されている第3レイヤに割り当てられるビット数分のインデックス情報(重要サブバンド群のインデックス情報)のみを、対応する周波数帯域のスペクトルとして復号する。
 このように、マルチレート復号部1003は、複数の符号化レイヤのうち一部の符号化レイヤのみに対して復号処理が行われる場合、インデックス情報のうち、帯域符号化情報に示される重要サブバンド群に対応する部分のみを復号し、復号信号(第3-4レイヤ復号スペクトル)を生成する。そして、マルチレート復号部1003は、算出した第3-4レイヤ復号スペクトルを加算部805に出力する。
 以上が、復号装置103における処理の説明である。
 このようにして、符号化装置101は、符号化処理をまとめて行う複数の符号化レイヤ(レイヤ3及びレイヤ4)において、聴感的に重要であるサブバンド群を特定して帯域符号化情報を生成する。これにより、復号装置103は、伝送される符号化パラメータ(インデックス情報)のうち、どの部分がレイヤ3の符号化パラメータに相当するかを区別することができる。よって、例えば、復号装置103は、符号化処理をまとめて行う符号化レイヤのうち一部のみで復号処理が行われる場合(レイヤ1からレイヤ3までのビットレート(12kbps)で復号する場合)でも、レイヤ3及びレイヤ4をまとめて符号化処理した際の符号化パラメータのうち聴感的に重要な特定の部分を選択して復号処理することができる。よって、復号装置103では、全レイヤのAVQパラメータを復号しない場合でも、復号信号の品質を向上させることができる。
 また、符号化装置101は、インデックス情報のうち重要サブバンド群に対応する部分を先頭に位置するように、インデックス情報を並び替える。これにより、復号装置103は、符号化処理をまとめて行う符号化レイヤのうち一部のみで復号処理が行われる場合には、インデックス情報の先頭から順に、復号対象の符号化レイヤに対応する部分を復号すればよい。よって、復号装置103では、符号化処理をまとめて行う符号化レイヤのうち一部のみで復号処理が行われる場合には、より低演算量で復号処理を行うことができる。
 よって、本実施の形態によれば、スケーラブル符号化方式に対して、複数の符号化レイヤを持つAVQ技術を適用する構成において、符号化装置側で聴感的に重要な特定の符号化パラメータを部分的に選択し、符号化パラメータに前記聴感的な重要度を反映させる。これにより、全レイヤのAVQパラメータを復号しない場合でも、復号信号の品質を向上させることができる。よって、本実施の形態によれば、聴感的な重要度を考慮した符号化処理、符号化パラメータ(符号化情報)生成処理を行い、復号信号の品質を改善することができる。
 (実施の形態2)
 実施の形態1では、AVQ符号化部が複数の符号化レイヤから構成される場合(スケーラブルである場合)について説明したのに対し、本実施の形態では、AVQ符号化部がマルチレート符号化方式である場合に対して本発明を適用した構成について説明する。
 実施の形態2に係る通信システム(図示せず)は、図1に示した通信システムと基本的に同様であり、符号化装置の構成及び動作の一部、及び、復号装置の構成及び動作の一部のみにおいて、図1の通信システムの符号化装置101と相違する。以下、本実施の形態に係る通信システムの符号化装置に対し符号「111」を付し、復号装置に対し符号「113」を付して説明を行う。
 図11は、符号化装置111の内部の主要な構成を示すブロック図である。符号化装置111は、一例として2つの符号化階層(レイヤ)からなる階層符号化装置とする。ここで、ビットレートの低い方から順に、第1レイヤ、第2レイヤと呼ぶことにする。なお、第2レイヤはマルチレート符号化方式を採るものとする。
 符号化装置111は、第1レイヤ符号化部201、第1レイヤ復号部202、加算部203、直交変換処理部1104、第2レイヤ符号化部1105、及び符号化情報統合部1112とから主に構成される。ここで、第1レイヤ符号化部201、第1レイヤ復号部202、及び加算部203については、実施の形態1(図2)で説明した構成と同様のため、同一の符号を付し、説明を省略する。
 直交変換処理部1104は、加算部203から出力される第1レイヤ差分信号に対して直交変換を施し、周波数領域の成分である第1レイヤ差分スペクトルを算出する。直交変換処理部1104は、算出した第1レイヤ差分スペクトルを第2レイヤ符号化部1105に出力する。直交変換処理部1104における直交変換処理については、上述した方法(例えば、直交変換処理部204)と同様であるため、説明は省略する。
 第2レイヤ符号化部1105は、直交変換処理部1104から出力される第1レイヤ差分スペクトルを入力とする。また、第2レイヤ符号化部1105には、外部より符号化時のビットレートが入力される。第2レイヤ符号化部1105は、前記ビットレートに基づいて、第1レイヤ差分スペクトルの符号化を行い、第2レイヤ符号化情報を算出する。次いで、第2レイヤ符号化部1105は、第2レイヤ符号化情報を符号化情報統合部1112に出力する。第2レイヤ符号化部1105の処理の詳細については後述する。
 符号化情報統合部1112は、第1レイヤ符号化部201から入力される第1レイヤ符号化情報と、第2レイヤ符号化部1105から入力される第2レイヤ符号化情報とを統合する。そして、符号化情報統合部1112は、統合された情報源符号に対し、必要であれば伝送誤り符号などを付加した上でこれを符号化情報として伝送路102に出力する。
 図12は、第2レイヤ符号化部1105の内部の主要な構成を示すブロック図である。第2レイヤ符号化部1105は、グローバルゲイン算出部301、近傍探索部302、マルチレートインデキシング部303、帯域選択部1204、及び多重化部306から主に構成される。各部は以下の動作を行う。ここで、グローバルゲイン算出部301、近傍探索部302、マルチレートインデキシング部303及び多重化部306については、実施の形態1(図3)で説明した構成要素と同一であるため、同一の符号を付し、説明を省略する。但し、図12に示すマルチレートインデキシング部303においては、BITTOTALは外部から入力される符号化時のビットレートに対応するビット数であるという点のみ、実施の形態1で説明した構成要素とは異なる。
 帯域選択部1204は、マルチレートインデキシング部303から入力されるインデックス情報、サブバンドエネルギ情報と、外部から入力される符号化時のビットレートとから、聴感的に重要な特定のサブバンド群(重要サブバンド群)を選択する。ここで、外部から入力されるビットレートとしては、4kbps又は8kbpsである場合を例に挙げて説明する。以下に、帯域選択部1204における帯域選択方法について説明する。
 帯域選択部1204は、インデックス情報に含まれる各サブバンドのサブスペクトルの量子化に使用したビット数の合計が、外部から入力されるビットレート(ビット数)以下である条件において、サブバンドエネルギ情報が最大となるサブバンド群(重要サブバンド群)を選択する。つまり、帯域選択部1204は、実施の形態1の帯域選択部304と同様、マルチレートインデキシングにおいて複数のサブバンド毎に割り当てられた符号化ビット、及び、複数のサブバンド毎のサブバンドエネルギを用いて、複数のサブバンドのうち、符号化ビット数の合計が予め設定された値(ここでは外部から入力される符号化ビットレート)以下となるサブバンドの範囲であり、かつ、サブバンドエネルギの合計が最大となるサブバンドの範囲を、聴感的に重要な特定のサブバンド群(重要サブバンド群)として選択する。但し、ここでは、サブバンドを周波数の昇順(降順でも可)に並べた場合に対して、連続するサブバンドの集合のみを重要サブバンド群の対象にする。帯域選択部1204における重要サブバンド群の選択方法は、実施の形態1で説明した方法(帯域選択部304)と同一であるため、説明は省略する。帯域選択部1204は、選択した重要サブバンド群の開始サブバンド(先頭サブバンド)の周波数帯域を示す帯域符号化情報を多重化部306に出力する。また、帯域選択部1204は、重要サブバンド群に対応するインデックス情報のみを抜き出し、これを新たなインデックス情報として多重化部306に出力する。
 つまり、帯域選択部1204は、実施の形態1で説明した帯域選択部304と比較して、「外部から入力されるビットレートに応じて、重要サブバンド群を探索する点」と「重要サブバンド群に対応するインデックス情報のみを多重化部306に出力する点」が異なる。
 以上が、第2レイヤ符号化部1105における処理の説明である。
 図13は、本実施の形態に係る復号装置113の内部の主要な構成を示すブロック図である。復号装置113は、一例として2つの復号階層(レイヤ)からなる階層復号装置とする。ここでは、符号化装置111と同様、ビットレートの低い方から順に、第1レイヤ、第2レイヤと呼ぶことにする。また、符号化装置101に対応して、第2レイヤ復号部では、マルチレート復号処理を行う。
 図13に示すように、復号装置113は、符号化情報分離部1301、第1レイヤ復号部802、第2レイヤ復号部1303、直交変換処理部1308及び加算部1309とから主に構成される。ここで、第1レイヤ復号部802については、実施の形態1(図9)で説明した構成要素と同一であるため、同一の符号を付し説明を省略する。
 符号化情報分離部1301は、伝送路102を介して符号化装置111から送られる符号化情報を受信し、受信した符号化情報を各レイヤの符号化情報に分離し、それぞれの復号処理を担当する復号部に出力する。具体的には、符号化情報分離部1301は、符号化情報に含まれる第1レイヤ符号化情報を第1レイヤ復号部802に出力し、符号化情報に含まれる第2レイヤ符号化情報を第2レイヤ復号部1303に出力する。
 第2レイヤ復号部1303は、符号化情報分離部1301から入力される第2レイヤ符号化情報を復号し、得られる第2レイヤ復号スペクトルX2”(k)を直交変換処理部1308に出力する。第2レイヤ復号部1303の処理の詳細については後述する。
 直交変換処理部1308は、第2レイヤ復号部1303から入力される第2レイヤ復号スペクトルに対して直交変換を施し、時間領域の信号である第2レイヤ復号信号を算出する。直交変換処理部1308は、算出した第2レイヤ復号信号を加算部1309に出力する。ここで、直交変換処理部1308における直交変換処理は、実施の形態1の直交変換処理部808(図9)での直交変換処理と同様であるため、説明は省略する。
 加算部1309には、第1レイヤ復号部802から第1レイヤ復号信号が入力され、直交変換処理部1308から第2レイヤ復号信号が入力される。加算部1309は、入力された第1レイヤ復号信号及び第2レイヤ復号信号を加算し、加算した信号を出力信号として出力する。
 図14は、図13に示した第2レイヤ復号部1303の内部の主要な構成を示すブロック図である。第2レイヤ復号部1303は、分離部1401及びマルチレート復号部1403から主に構成される。
 分離部1401は、符号化情報分離部1301から入力される第2レイヤ符号化情報を、インデックス情報と、帯域符号化情報と、グローバルゲインとに分離する。次いで、分離部1401は、インデックス情報、帯域符号化情報及びグローバルゲインをマルチレート復号部1403に出力する。
 マルチレート復号部1403は、分離部1401から入力されるグローバルゲイン、インデックス情報及び帯域符号化情報を復号して第2レイヤ復号スペクトルを算出する。このとき、マルチレート復号部1403は、符号化情報分離部1301から入力されるビットレートに応じた復号処理を行う。以下、マルチレート復号部1403における処理の制御方法について説明する。
 マルチレート復号部1403は、入力される帯域符号化情報から決定される周波数帯域に対して、ビットレートに対応するビット数のインデックス情報を復号し、第2復号スペクトルを算出する。具体的には、マルチレート復号部1403は、インデックス情報に含まれる先頭サブバンドを、帯域符号化情報が示す周波数帯域に対応させ、先頭サブバンドに対応する周波数帯域から周波数領域で高域側に順に、インデックス情報を復号する。このとき、マルチレート復号部1403は、帯域符号化情報が示す周波数帯域よりも低域側については、第2復号スペクトルの値をゼロとする。同様に、マルチレート復号部1403は、インデックス情報に対応する周波数帯域よりも高域側についても、第2復号スペクトルの値をゼロとする。つまり、マルチレート復号部1403は、第2レイヤ符号化情報に格納されているインデックス情報(重要サブバンド群のインデックス情報)のみを、対応する周波数帯域のスペクトルとして復号する。
 そして、マルチレート復号部1403は、算出した第2レイヤ復号スペクトルを直交変換処理部1308に出力する。
 以上が、復号装置113における処理の説明である。
 このように、本実施の形態によれば、実施の形態1と同様、複数の符号化ビットレートに対応するAVQ符号化方式を採る構成において、符号化装置側で聴感的に重要な特定の符号化パラメータを部分的に選択し、符号化パラメータに前記聴感的な重要度を反映させる。これにより、符号化ビットレートに応じて、復号信号の品質を向上させることができる。よって、本実施の形態によれば、実施の形態1と同様、聴感的な重要度を考慮した符号化処理により符号化パラメータ(符号化情報)生成処理を行い、復号信号の品質を改善することができる。
 以上、本発明の各実施の形態について説明した。
 なお、各実施の形態では、帯域選択部において、重要サブバンド群を決定する際の候補エントリについては特に制限しない場合について説明した(但し、重要サブバンド群が連続するサブバンド群という制限は有り)。しかし、本発明はこれに限らず、帯域選択部(例えば、帯域選択部304(図3)又は帯域選択部1204(図12))において、候補エントリを効率的に制限する構成についても同様に適用できる。以下、その具体例を説明する。例えば、帯域選択部では、重要サブバンド群が、サブバンドエネルギが最大であるサブバンドを必ず含むというような制限を設けることによって、候補エントリの数を減少させることができる。このように、候補エントリの数を減少させることによって、重要サブバンド群を探索する際の処理演算量を減らすことができる。また、帯域選択部において、サブバンドエネルギが或る閾値以下であるサブバンドに対しては、そのサブバンドのエネルギを考慮しない(0と見積もる)ことにより、候補エントリの数を減少させることができる。具体的には、帯域選択部は、複数のサブバンドのうち、サブバンドエネルギが閾値以上であるサブバンドのみを用いて、サブバンド毎に割り当てられた符号化ビット数の合計が予め設定された値以下となるサブバンドの選択範囲(エントリ)であり、かつ、サブバンドエネルギの合計が最大となるサブバンドの選択範囲(エントリ)を選択する。これにより、帯域選択部は、サブバンドエネルギがゼロでないサブバンドを始点とした候補エントリのみを探索すればよくなり、処理演算量を大きく減らすことができる。
 また、各実施の形態では、帯域選択部において、重要サブバンド群を決定する際の候補エントリについて、先頭サブバンド及び終端サブバンドのそれぞれの境界を超えないようにするという制限を設けていた。しかし、本発明はこれに限らず、候補エントリが先頭サブバンド及び終端サブバンドの境界を越えてもよいような構成についても同様に適用できる。具体的には、サブバンドの列を巡回させて、重要サブバンド群の候補エントリを探索する場合が例に挙げられる。例えば、符号化装置(帯域選択部)は、入力信号を直交変換して得られるスペクトルデータの先頭と終端とを連結させて巡回させたスペクトルデータを分割して生成される複数のサブバンドに対して、重要なサブバンド群となる選択範囲(重要サブバンド群)を決定してもよい。このようにサブバンドの列を巡回させることで、候補エントリに対する制限がなくなり、本実施の形態で説明した重要サブバンド群よりも、さらに聴感的に重要な特定のサブバンド群を探索できる可能性がある。但し、上記構成の場合、復号処理において、サブバンドの列が巡回しているという条件で、サブバンド群を並び替え直す必要があり、本実施の形態で説明した構成よりも処理演算量がかかってしまうことが有り得る。
 また、各実施の形態では、重要サブバンド群の先頭サブバンドに対応する周波数帯域を帯域符号化情報として復号装置側に伝送する構成について説明した。従って、従来技術に対して、追加の符号化ビット数が必要になる。しかし、本発明はこれに限らず、重要サブバンド群の先頭サブバンドに対応する周波数帯域情報を、下位の復号スペクトルを利用して算出する構成についても同様に適用できる。これにより、追加ビットを使用しなくても復号信号の品質を向上させることができる。具体的には、復号スペクトルのサブバンドエネルギを利用する例が挙げられる。
 また、各実施の形態では、符号化装置が、聴感的に重要な特定のサブバンド群(重要サブバンド群)の選択処理を、フレーム毎に独立に行う場合に対して説明した。しかし、本発明はこれに限らず、符号化装置が、時間的に前のフレームの選択結果を考慮して、現フレームで重要サブバンド群の選択をする構成についても同様に適用できる。例えば、前フレームにおいて重要サブバンド群として選択した帯域の近隣の帯域を、現フレームの重要サブバンド群の選択候補とする構成が一例に挙げられる。又は、符号化装置は、前回のフレームで重要サブバンド群として選択されたサブバンドに近いサブバンドほど、現時点のフレームにおける重要サブバンド群として選択されやすくなる重みを用いて、複数のサブバンドから重要サブバンド群となる選択範囲(選択候補)を決定してもよい。これらの構成により、フレーム間で、重要サブバンド群の帯域が大きく変動することを抑制することができ、結果として、復号信号の品質劣化を抑えることができる。
 また、各実施の形態では、符号化装置が、マルチレートインデキシング処理した後に、聴感的に重要な特定の帯域を選択しているが、本発明はこれに限らず、マルチレートインデキシング処理する前に、聴感的に重要な特定の帯域を選択するという構成についても同様に適用できる。但し、この構成の場合には、帯域選択時には、各サブバンドの符号化に使用するビット数が確定していないため、暫定的に符号化ビット数の推定値を利用する。具体的には、全サブバンドが同一の符号化ビット数であるとする構成が一例として挙げられる。つまり、符号化装置(帯域選択部)は、予め設定された固定のビット数を、複数のサブバンド毎に割り当てられる符号化ビット数として用いて、複数のサブバンドから重要サブバンド群となる選択範囲(選択候補)を決定する。この構成では、各サブバンドの符号化に使用するビット数が統一されるため、帯域選択時の処理演算量を減少させることができる。
 また、各実施の形態では、符号化対象として、ベクトルで表されるスペクトルデータを代表的に用いて説明したが、必ずしもこれに限定されない。符号化対象として、ベクトルにより入力信号の特性を表現することが可能な異なるデータを用いても、本実施の形態と同様の作用効果が得られる。
 また、各実施の形態に係る復号装置103は、上記符号化装置101から伝送された符号化情報を用いて処理を行うとした。しかし、本発明はこれに限定されず、必要なパラメータやデータを含む符号化情報であれば、必ずしも上記符号化装置101からの符号化情報でなくても、復号装置103は処理を行うことが可能である。
 また、各実施の形態では、符号化対象の入力信号及び復号されて出力される出力信号を音声信号としたが、これに限定されない。例えば、入力信号/出力信号は、音楽信号であってもよく、又は、音声信号と音楽信号とが混在した信号であってもよい。
 また、上記機能を実行可能な信号処理プログラムを、メモリ、ディスク、テープ、CD、DVD等の機械読み取り可能な記録媒体に記録、書き込みをし、動作を行う場合についても、本発明は適用することができ、本実施の形態と同様の作用及び効果を得ることができる。
 また、各実施の形態では、本発明をハードウェアで構成する場合を例にとって説明したが、本発明はハードウェアとの連携においてソフトウェアでも実現することも可能である。
 また、各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるLSIとして実現される。これらは個別に1チップ化されてもよいし、一部又は全てを含むように1チップ化されてもよい。ここでは、LSIとしたが、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。
 また、集積回路化の手法はLSIに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル/プロセッサを利用してもよい。
 さらには、半導体技術の進歩又は派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適用等が可能性としてありえる。
 2010年4月19日出願の特願2010-096095の日本出願に含まれる明細書、図面および要約書の開示内容は、すべて本願に援用される。
 本発明に係る符号化装置、復号装置、符号化方法及び復号方法は、聴感的な重要度を考慮した符号化処理による符号化パラメータ生成処理を行うことにより、非常に低いビットレートで、かつ低い処理演算量で、復号信号の品質を改善することができ、例えば、パケット通信システム、移動通信システムなどに好適である。
 101,111 符号化装置
 102 伝送路
 103,113 復号装置
 201 第1レイヤ符号化部
 202,802 第1レイヤ復号部
 203,207,210,805,807,809,1309 加算部
 204,808,1104,1308 直交変換処理部
 205,1105 第2レイヤ符号化部
 206,803,1303 第2レイヤ復号部
 208 第3-4レイヤ符号化部
 209,804 第3-4レイヤ復号部
 211 第5レイヤ符号化部
 212,1112 符号化情報統合部
 301 グローバルゲイン算出部
 302 近傍探索部
 303 マルチレートインデキシング部
 304,1204 帯域選択部
 305,702,1002 インデックス情報調整部
 306 多重化部
 701,1001,1401 分離部
 703,1003,1403 マルチレート復号部
 801,1301 符号化情報分離部
 806 第5レイヤ復号部

Claims (15)

  1.  符号化処理をまとめて行う複数の符号化レイヤを有する符号化装置であって、
     前記複数の符号化レイヤに入力されるスペクトルデータを分割して複数のサブバンドを生成し、前記複数のサブバンドに対して近傍探索を行うことにより、前記複数のサブバンドのスペクトルのラティスベクトルを算出する探索手段と、
     前記ラティスベクトルを用いて、前記複数のサブバンド毎にマルチレートインデキシングを行い、前記複数のサブバンド毎のマルチレートインデキシングの結果を示すインデックス情報を生成する符号化手段と、
     前記インデックス情報において前記複数のサブバンド毎に割り当てられる符号化ビット数、及び、前記複数のサブバンド毎のエネルギであるサブバンドエネルギを用いて、前記複数のサブバンドのうち、前記符号化ビット数の合計が予め設定された値以下となるサブバンドの選択範囲であり、かつ、前記サブバンドエネルギの合計が最大となる前記サブバンドの選択範囲を、前記複数の符号化レイヤにおける、特定サブバンド群として決定する選択手段と、
     を具備する符号化装置。
  2.  前記インデックス情報のうち前記特定サブバンド群に対応する部分が先頭に位置するように、前記インデックス情報を並び変える調整手段、を更に具備する、
     請求項1記載の符号化装置。
  3.  前記選択手段は、前記複数のサブバンドのうち、前回のフレームで前記特定サブバンド群として選択されたサブバンドに近いサブバンドほど、現時点のフレームにおける前記特定サブバンド群として選択されやすくなる重みを用いて、前記複数のサブバンドから前記特定サブバンド群となる前記選択範囲を決定する、
     請求項1記載の符号化装置。
  4.  前記選択手段は、前記複数のサブバンド毎のマルチレートインデキシングに使用したビット数を、前記複数のサブバンド毎に割り当てられる符号化ビット数として用いて、前記複数のサブバンドから前記特定サブバンド群となる前記選択範囲を決定する、
     請求項1記載の符号化装置。
  5.  前記選択手段は、予め設定された固定のビット数を、前記複数のサブバンド毎に割り当てられる符号化ビット数として用いて、前記複数のサブバンドから前記特定サブバンド群となる前記選択範囲を決定する、
     請求項1記載の符号化装置。
  6.  前記選択手段は、前記複数のサブバンドのうち、サブバンドエネルギが閾値以上であるサブバンドのみを用いて、前記複数のサブバンドから前記特定サブバンド群となる前記選択範囲を決定する、
     請求項1記載の符号化装置。
  7.  前記選択手段は、前記スペクトルデータの先頭と終端とを連結させて巡回させたスペクトルデータを分割して生成される前記複数のサブバンドに対して、前記特定サブバンド群となる前記選択範囲を決定する、
     請求項1記載の符号化装置。
  8.  請求項1記載の符号化装置を具備する通信端末装置。
  9.  請求項1記載の符号化装置を具備する基地局装置。
  10.  符号化処理をまとめて行う複数の符号化レイヤを有する符号化装置からの信号を復号する復号装置であって、
     前記符号化装置で生成された、
     前記複数の符号化レイヤに入力されたスペクトルデータを分割して生成された複数のサブバンドに対する近傍探索を行うことにより得られたラティスベクトルを用いた、前記複数のサブバンド毎のマルチレートインデキシングを行って得られた結果を示すインデックス情報と、
     前記複数のサブバンド毎に割り当てられた符号化ビット、及び、前記複数のサブバンド毎のエネルギであるサブバンドエネルギを用いて、前記複数のサブバンドのうち、前記マルチレートインデキシングにおいて前記複数のサブバンド毎に割り当てられた符号化ビット数の合計が予め設定された値以下となるサブバンドの選択範囲であり、かつ、前記複数のサブバンド毎のエネルギであるサブバンドエネルギの合計が最大となる前記サブバンドの選択範囲である、特定サブバンド群を示す帯域情報と、を受信する受信手段と、
     前記複数の符号化レイヤのうち一部の符号化レイヤのみに対して復号処理が行われる場合、前記インデックス情報のうち、前記帯域情報に示される前記特定サブバンド群に対応する部分のみを復号して復号信号を生成する復号手段と、
     を具備する復号装置。
  11.  前記受信手段は、前記符号化装置において前記特定サブバンド群に対応する部分が先頭に位置するように並び替えられた前記インデックス情報を受信し、
     前記複数の符号化レイヤに対して復号処理が行われる場合、前記インデックス情報に対して、前記符号化装置における並び替え処理と逆の並び替え処理を行い、前記複数の符号化レイヤのうち一部の符号化レイヤのみに対して復号処理が行われる場合、前記インデックス情報に対して並び替え処理を行わない調整手段、を更に具備する、
     請求項10記載の復号装置。
  12.  請求項10記載の復号装置を具備する通信端末装置。
  13.  請求項10記載の復号装置を具備する基地局装置。
  14.  符号化処理をまとめて行う複数の符号化レイヤを有する符号化装置における符号化方法であって、
     前記複数の符号化レイヤに入力されるスペクトルデータを分割して複数のサブバンドを生成し、前記複数のサブバンドに対して近傍探索を行うことにより、前記複数のサブバンドのスペクトルのラティスベクトルを算出する探索ステップと、
     前記ラティスベクトルを用いて、前記複数のサブバンド毎にマルチレートインデキシングを行い、前記複数のサブバンド毎のマルチレートインデキシングの結果を示すインデックス情報を生成する符号化ステップと、
     前記インデックス情報において前記複数のサブバンド毎に割り当てられる符号化ビット数、及び、前記複数のサブバンド毎のエネルギであるサブバンドエネルギを用いて、前記複数のサブバンドのうち、前記符号化ビット数の合計が予め設定された値以下となるサブバンドの選択範囲であり、かつ、前記サブバンドエネルギの合計が最大となる前記サブバンドの選択範囲を、前記複数の符号化レイヤにおける、特定サブバンド群として決定する選択ステップと、
     を具備する符号化方法。
  15.  符号化処理をまとめて行う複数の符号化レイヤを有する符号化装置からの信号を復号する復号装置における復号方法であって、
     前記符号化装置で生成された、
     前記複数の符号化レイヤに入力されたスペクトルデータを分割して生成された複数のサブバンドに対する近傍探索を行うことにより得られたラティスベクトルを用いた、前記複数のサブバンド毎のマルチレートインデキシングを行って得られた結果を示すインデックス情報と、
     前記複数のサブバンド毎に割り当てられた符号化ビット、及び、前記複数のサブバンド毎のエネルギであるサブバンドエネルギを用いて、前記複数のサブバンドのうち、前記マルチレートインデキシングにおいて前記複数のサブバンド毎に割り当てられた符号化ビット数の合計が予め設定された値以下となるサブバンドの選択範囲であり、かつ、前記複数のサブバンド毎のエネルギであるサブバンドエネルギの合計が最大となる前記サブバンドの選択範囲である、特定サブバンド群を示す帯域情報と、を受信する受信ステップと、
     前記複数の符号化レイヤのうち一部の符号化レイヤのみに対して復号処理が行われる場合、前記インデックス情報のうち、前記帯域情報に示される前記特定サブバンド群に対応する部分のみを復号して復号信号を生成する復号ステップと、
     を具備する復号方法。
PCT/JP2011/001986 2010-04-19 2011-04-01 符号化装置、復号装置、符号化方法及び復号方法 WO2011132368A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP11771712.4A EP2562750B1 (en) 2010-04-19 2011-04-01 Encoding device, decoding device, encoding method and decoding method
US13/641,493 US9508356B2 (en) 2010-04-19 2011-04-01 Encoding device, decoding device, encoding method and decoding method
JP2012511525A JP5714002B2 (ja) 2010-04-19 2011-04-01 符号化装置、復号装置、符号化方法及び復号方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2010-096095 2010-04-19
JP2010096095 2010-04-19

Publications (1)

Publication Number Publication Date
WO2011132368A1 true WO2011132368A1 (ja) 2011-10-27

Family

ID=44833913

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2011/001986 WO2011132368A1 (ja) 2010-04-19 2011-04-01 符号化装置、復号装置、符号化方法及び復号方法

Country Status (4)

Country Link
US (1) US9508356B2 (ja)
EP (1) EP2562750B1 (ja)
JP (1) JP5714002B2 (ja)
WO (1) WO2011132368A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9830919B2 (en) 2013-10-04 2017-11-28 Panasonic Intellectual Property Corporation Of America Acoustic signal coding apparatus, acoustic signal decoding apparatus, terminal apparatus, base station apparatus, acoustic signal coding method, and acoustic signal decoding method

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9076434B2 (en) 2010-06-21 2015-07-07 Panasonic Intellectual Property Corporation Of America Decoding and encoding apparatus and method for efficiently encoding spectral data in a high-frequency portion based on spectral data in a low-frequency portion of a wideband signal
KR101398189B1 (ko) * 2012-03-27 2014-05-22 광주과학기술원 음성수신장치 및 음성수신방법
US9460729B2 (en) 2012-09-21 2016-10-04 Dolby Laboratories Licensing Corporation Layered approach to spatial audio coding
CN104282312B (zh) 2013-07-01 2018-02-23 华为技术有限公司 信号编码和解码方法以及设备
US10559315B2 (en) 2018-03-28 2020-02-11 Qualcomm Incorporated Extended-range coarse-fine quantization for audio coding
US10762910B2 (en) 2018-06-01 2020-09-01 Qualcomm Incorporated Hierarchical fine quantization for audio coding

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11219197A (ja) * 1998-02-02 1999-08-10 Fujitsu Ltd オーディオ信号符号化方法及び装置
WO2007063913A1 (ja) * 2005-11-30 2007-06-07 Matsushita Electric Industrial Co., Ltd. サブバンド符号化装置およびサブバンド符号化方法
JP2008224902A (ja) * 2007-03-09 2008-09-25 Fujitsu Ltd 符号化装置および符号化方法
JP2010096095A (ja) 2008-10-16 2010-04-30 Nippon Soken Inc 内燃機関装置およびこれを備える車両並びに内燃機関装置の始動制御方法

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0551705A3 (en) * 1992-01-15 1993-08-18 Ericsson Ge Mobile Communications Inc. Method for subbandcoding using synthetic filler signals for non transmitted subbands
JP3307138B2 (ja) * 1995-02-27 2002-07-24 ソニー株式会社 信号符号化方法及び装置、並びに信号復号化方法及び装置
US6353808B1 (en) * 1998-10-22 2002-03-05 Sony Corporation Apparatus and method for encoding a signal as well as apparatus and method for decoding a signal
CA2388358A1 (en) 2002-05-31 2003-11-30 Voiceage Corporation A method and device for multi-rate lattice vector quantization
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
US7272567B2 (en) * 2004-03-25 2007-09-18 Zoran Fejzo Scalable lossless audio codec and authoring tool
KR100738077B1 (ko) * 2005-09-28 2007-07-12 삼성전자주식회사 계층적 오디오 부호화 및 복호화 장치와 방법
EP2068307B1 (en) * 2006-10-16 2011-12-07 Dolby International AB Enhanced coding and parameter representation of multichannel downmixed object coding
AU2007332508B2 (en) * 2006-12-13 2012-08-16 Iii Holdings 12, Llc Encoding device, decoding device, and method thereof
FR2912249A1 (fr) * 2007-02-02 2008-08-08 France Telecom Codage/decodage perfectionnes de signaux audionumeriques.
JP4871894B2 (ja) * 2007-03-02 2012-02-08 パナソニック株式会社 符号化装置、復号装置、符号化方法および復号方法
US8046214B2 (en) * 2007-06-22 2011-10-25 Microsoft Corporation Low complexity decoder for complex transform coding of multi-channel sound
JP5395066B2 (ja) * 2007-06-22 2014-01-22 ヴォイスエイジ・コーポレーション 音声区間検出および音声信号分類ための方法および装置
US8428957B2 (en) * 2007-08-24 2013-04-23 Qualcomm Incorporated Spectral noise shaping in audio coding based on spectral dynamics in frequency sub-bands
US8515767B2 (en) * 2007-11-04 2013-08-20 Qualcomm Incorporated Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs
WO2009068087A1 (en) * 2007-11-27 2009-06-04 Nokia Corporation Multichannel audio coding
DE602008005250D1 (de) * 2008-01-04 2011-04-14 Dolby Sweden Ab Audiokodierer und -dekodierer
EP2254110B1 (en) * 2008-03-19 2014-04-30 Panasonic Corporation Stereo signal encoding device, stereo signal decoding device and methods for them
JP5383676B2 (ja) * 2008-05-30 2014-01-08 パナソニック株式会社 符号化装置、復号装置およびこれらの方法
WO2010031003A1 (en) * 2008-09-15 2010-03-18 Huawei Technologies Co., Ltd. Adding second enhancement layer to celp based core layer
WO2010053728A1 (en) * 2008-10-29 2010-05-14 Dolby Laboratories Licensing Corporation Signal clipping protection using pre-existing audio gain metadata
US8200496B2 (en) * 2008-12-29 2012-06-12 Motorola Mobility, Inc. Audio signal decoder and method for producing a scaled reconstructed audio signal

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11219197A (ja) * 1998-02-02 1999-08-10 Fujitsu Ltd オーディオ信号符号化方法及び装置
WO2007063913A1 (ja) * 2005-11-30 2007-06-07 Matsushita Electric Industrial Co., Ltd. サブバンド符号化装置およびサブバンド符号化方法
JP2008224902A (ja) * 2007-03-09 2008-09-25 Fujitsu Ltd 符号化装置および符号化方法
JP2010096095A (ja) 2008-10-16 2010-04-30 Nippon Soken Inc 内燃機関装置およびこれを備える車両並びに内燃機関装置の始動制御方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ITU-T RECOMMENDATION G.718, 2008
MINJIE XIE; JEAN-PIERRE ADOUL: "Embedded Algebraic Vector Quantizers (EAVQ) with Application to Wideband Speech Coding", IEEE, 1996
See also references of EP2562750A4
STEPHANE RAGOT; BRUNO BESSETTE; ROCH LEFEBVRE: "Low-complexity Multi-rate Lattice Vector Quantization with Application to Wideband TCX Speech Coding", ICASSP, 2004

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9830919B2 (en) 2013-10-04 2017-11-28 Panasonic Intellectual Property Corporation Of America Acoustic signal coding apparatus, acoustic signal decoding apparatus, terminal apparatus, base station apparatus, acoustic signal coding method, and acoustic signal decoding method

Also Published As

Publication number Publication date
EP2562750A1 (en) 2013-02-27
EP2562750B1 (en) 2020-06-10
JPWO2011132368A1 (ja) 2013-07-18
US9508356B2 (en) 2016-11-29
US20130035943A1 (en) 2013-02-07
JP5714002B2 (ja) 2015-05-07
EP2562750A4 (en) 2014-07-30

Similar Documents

Publication Publication Date Title
US8560328B2 (en) Encoding device, decoding device, and method thereof
CA2679192C (en) Speech encoding device, speech decoding device, and method thereof
JP5714002B2 (ja) 符号化装置、復号装置、符号化方法及び復号方法
EP1988544B1 (en) Coding device and coding method
JP5511785B2 (ja) 符号化装置、復号装置およびこれらの方法
KR101274802B1 (ko) 오디오 신호를 인코딩하기 위한 장치 및 방법
KR20110100237A (ko) 다중채널 오디오 코딩 시스템 내에 인핸스먼트 레이어를 생성하기 위한 방법 및 장치
JPWO2007132750A1 (ja) Lspベクトル量子化装置、lspベクトル逆量子化装置、およびこれらの方法
CN102598125B (zh) 编码装置、解码装置及其方法
JP5629319B2 (ja) スペクトル係数コーディングの量子化パラメータを効率的に符号化する装置及び方法
JP5544370B2 (ja) 符号化装置、復号装置およびこれらの方法
WO2012035781A1 (ja) 量子化装置及び量子化方法
JP5606457B2 (ja) 符号化装置および符号化方法
JP5544371B2 (ja) 符号化装置、復号装置およびこれらの方法
CN112352277B (zh) 编码装置及编码方法
JPWO2011058752A1 (ja) 符号化装置、復号装置およびこれらの方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11771712

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2012511525

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 13641493

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 2011771712

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE