WO2006041055A1 - スケーラブル符号化装置、スケーラブル復号装置及びスケーラブル符号化方法 - Google Patents

スケーラブル符号化装置、スケーラブル復号装置及びスケーラブル符号化方法 Download PDF

Info

Publication number
WO2006041055A1
WO2006041055A1 PCT/JP2005/018693 JP2005018693W WO2006041055A1 WO 2006041055 A1 WO2006041055 A1 WO 2006041055A1 JP 2005018693 W JP2005018693 W JP 2005018693W WO 2006041055 A1 WO2006041055 A1 WO 2006041055A1
Authority
WO
WIPO (PCT)
Prior art keywords
spectrum
coding
lower layer
layer
outline
Prior art date
Application number
PCT/JP2005/018693
Other languages
English (en)
French (fr)
Inventor
Masahiro Oshikiri
Original Assignee
Matsushita Electric Industrial Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co., Ltd. filed Critical Matsushita Electric Industrial Co., Ltd.
Priority to US11/576,659 priority Critical patent/US8010349B2/en
Priority to JP2006540931A priority patent/JP4606418B2/ja
Priority to EP05793144A priority patent/EP1801785A4/en
Priority to BRPI0518133-0A priority patent/BRPI0518133A/pt
Publication of WO2006041055A1 publication Critical patent/WO2006041055A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction

Definitions

  • Scalable coding device Scalable coding device, scalable decoding device, and scalable coding method
  • the present invention relates to a scalable coding apparatus and the like that hierarchically encode speech signals and the like.
  • a first layer coding unit that encodes speech components at a low bit rate according to a model specified for speech signals, and a first general-purpose model that encodes signal components other than speech components.
  • Such a hierarchical coding scheme is called a scalable coding scheme because the encoded bitstream has scalability (a characteristic that even a part of the information strength of the bitstream can obtain a decoded signal).
  • a scalable coding scheme by its nature, can flexibly cope with communications between networks of different bit rates. This feature is suitable for the future network environment where various networks are integrated by IP protocol.
  • Non-Patent Document 1 As means for realizing scalable coding, means using a technology standardized by MPEG-4 (Moving Picture Experts Group phase-4) is known (see, for example, Non-Patent Document 1).
  • CELP Code Excited Linear Prediction
  • AAC Advanced Audio Coder
  • TwinVQ Transform Do main Weighted Interleave Vector Quantization
  • the two methods applied to the second layer are different methods, basically, the large power of the spectrum is obtained when the MDCT (Modified Discrete Cosine Transform) coefficient is quantized. It is common in that it separates into spectral outline information representing the shape and spectral detail information representing the remaining fine spectrum shape, and encodes them separately.
  • MDCT Modified Discrete Cosine Transform
  • Non-Patent Document 1 Miki, Akira ed., "MPEG-4 Best", First Edition, Industrial Research Association, Inc., September 30, 1998, p. 126-127
  • the residual signal obtained by subtracting the first layer decoded signal from the original signal that is the input signal is obtained in the second layer.
  • the sign will be done.
  • the characteristic of such a residual signal is a characteristic close to a noise sequence because the main information contained in the original signal is removed by passing through the first layer section. Therefore, in the technique described in Non-Patent Document 1, even if the code efficiency in the second layer is lowered, the original signal is decoded using the code signal in the second layer as well. There is a problem that the quality of the signal is difficult to improve.
  • a scalable coding apparatus comprises lower layer coding means for coding an input signal to generate lower layer coding parameters, and decoding the lower layer coding parameters to generate a lower layer.
  • Lower layer decoding means for generating a decoded signal, first spectral outline calculation means for calculating the outer shape of the input signal based on the input signal, and the lower layer decoded signal Means for calculating a spectrum outline of the lower layer decoded signal; and a spectrum outline of the lower layer decoded signal.
  • a prediction information coding unit for obtaining prediction information by predicting a spectrum outline of the input signal and encoding the prediction information to generate upper layer coding parameters; the lower layer coding parameters; An output means for outputting the upper layer code parameter is adopted.
  • a scalable decoding apparatus is a scalable decoding apparatus that decodes a coding parameter generated by a scalable coding apparatus that scalable-codes an input signal, and decodes the coding parameter.
  • lower layer decoding means for generating a lower layer decoded signal, and prediction information decoding for generating prediction information for predicting the outer shape of the input signal by decoding the code parameter.
  • a spectrum generation unit configured to generate a spectral outline of the input signal based on the lower layer decoded signal and the prediction information.
  • the prediction information coding means generates, codes, and codes prediction information for predicting the spectrum outline of the lower layer decoded signal and the spectrum outline of the input signal. Since the prediction information is output as the upper layer coding parameter, the coding efficiency of the upper layer coding parameter can be improved, and the quality of the input signal decoded using the upper layer coding parameter can be improved. it can.
  • FIG. 1 is a block diagram showing a main configuration of a scalable coding device according to Embodiment 1.
  • FIG. 2 a block diagram showing a main configuration of a second layer coding portion in Embodiment 1.
  • FIG. 3 A block diagram showing the main configuration of the prediction coefficient code portion in the first embodiment.
  • FIG. 4 A diagram for explaining the relationship between a spectrum and a spectrum outline in Embodiment 1.
  • FIG. 5 A block diagram showing the main configuration of the scalable decoding device according to the first embodiment
  • FIG. 6 A block diagram showing the main configuration of the second layer decoding block in the first embodiment
  • FIG. 7 A block diagram showing an application example of a prediction coefficient code block in Embodiment 1.
  • FIG. 8 A block diagram showing an application example of the prediction coefficient code part in Embodiment 1
  • FIG. 9A A diagram for explaining the relationship between the sine wave code system and the generated spectrum in Embodiment 2.
  • FIG. 9B A diagram for explaining the relationship between the sine wave code system and the generated spectrum in Embodiment 2.
  • FIG. 9C A diagram for explaining the relationship between the sine wave code system and the generated spectrum in Embodiment 2.
  • FIG. 10 A block diagram showing the main configuration of the second layer code layer in Embodiment 2
  • FIG. 11 A block diagram showing the main configuration of a spectrum smoothing unit in Embodiment 2
  • FIG. 12 A block diagram showing a main configuration of a scalable decoding device according to Embodiment 2.
  • FIG. 13 A diagram showing an aspect before and after smoothing a spectrum by MDCT in Embodiment 2.
  • FIG. 14 A block diagram showing the main configuration of the second layer code block in Embodiment 3.
  • FIG. 15 A block diagram showing the configuration of the main components in the speech code processing apparatus according to the reference example.
  • FIG. 16 A block diagram showing the configuration of the main components in the speech decoding apparatus according to the reference example.
  • FIG. 17 A diagram showing an example of the result of calculating the quantization performance of the scale factor in the second embodiment by computer simulation.
  • the spectrum outline that roughly captures the spectrum shape of the original signal that is the input signal for each predetermined frequency band and the first layer decoding
  • the spectrum outline of the first layer decoded signal is predicted using the strong correlation between the spectrum outline of the signal and the spectrum outline of the first layer decoded signal, and the prediction information of the original signal is encoded.
  • the second layer code parameter of the input signal is reduced in bit rate.
  • the input signal band is divided into a plurality of sub-bands (frequency bands), and coding is performed in units of each sub-band.
  • the MDCT coefficients included in each sub-band are information representing the spectral outline and the shape of the fine MDCT coefficients within the sub-band that can not be expressed in the spectral outline. It is separately encoded into the spectrum fine information to represent.
  • the average amplitude for each sub-band is used as information representing the spectrum outline. Note that this sub-band average amplitude is called a scale factor.
  • sub-band division is performed in association with the critical band, and is divided at equal intervals on the Bark scale.
  • FIG. 1 is a block diagram showing the main configuration of a scalable coding device 100 according to Embodiment 1 of the present invention.
  • the scalable coding device 100 includes a first layer coding unit 101, a delay unit 102, a first layer decoding unit 103, a second layer coding unit 104, and a multiplexing unit 105.
  • First layer coding section 101 generates a first layer coding parameter by coding the original signal of the voice signal to which the microphone equal power not shown is also input to generate a first layer code generated. Optimization parameters to first layer decoding section 103 and multiplexing section 105 respectively
  • the delay unit 102 delays the input original signal by a predetermined length in order to correct the time delay occurring between the first layer coding unit 101 and the first layer decoding unit 103.
  • the supplied and delayed original signal is input to second layer code input unit 104.
  • First layer decoding section 103 decodes a first layer coding parameter input from first layer coding section 101 to generate a first layer decoded signal, and generates a first layer.
  • the decoded signal is input to second layer coding section 104.
  • Second layer code decoding section 104 is configured to receive a first layer decoded signal input from first layer decoding section 103 and an original signal delayed for a predetermined time input from delay section 102. Based on the above, the spectral outline of the first layer decoded signal is predicted. In order to determine the prediction coefficients necessary for coding, and to code them, and to generate spectral fine information necessary to express the spectral shape that can not be expressed by these spectral outlines, to code these codes. The input parameters are input to the multiplexing unit 105. The specific generation mode of these coding parameters in second layer coding section 104 will be described later.
  • Multiplexing section 105 is configured to receive the first layer coding parameter input from first layer coding section 101 and the coding parameter input from second layer coding section 104. Are multiplexed and output to the outside of the scalable coding device 100 as a bit stream. Therefore, the multiplexing unit 105 functions as an output means in the present invention.
  • FIG. 2 is a block diagram showing the main configuration of second layer coding section 104 in scalable coding apparatus 100.
  • Second layer coding unit 104 includes MDCT analysis units 201 and 203, scale factor calculating units 202 and 204, prediction coefficient coding unit 205, prediction coefficient decoding unit 206, and spectral fine information coding unit 208. Prepare.
  • MDCT analysis section 201 calculates MDCT coefficients of the first layer decoded signal input from first layer decoding section 103, and calculates MDCT coefficients of the first layer decoded signal as scale factor calculation section 202. And spectral fine information code section 208.
  • Scale factor calculation unit 202 calculates the scale factor of each subband in the first layer decoded signal based on the MDCT coefficients of the first layer decoded signal input from MDCT analysis unit 201. Then, scale factor calculation section 202 inputs the calculated scale factor of the first layer decoded signal to prediction coefficient code section 205.
  • the scale factor represents the average amplitude of the MDCT coefficients included in each sub-band, and is an important parameter that affects the sound quality of the decoded signal. Further, in the present embodiment, the spectrum outline is a shape when scale factors of respective sub-bands are connected in the frequency direction.
  • the MDCT analysis unit 203 calculates MDCT coefficients of the original signal input from the delay unit 102, and calculates the calculated MDCT coefficients of the original signal as the scale factor calculation unit 204 and the spectral fine information code unit 208. Enter each one.
  • the scale factor calculation unit 204 calculates and calculates the scale factor of each subband of the original signal based on the M DCT coefficients of the original signal input from the MDCT analysis unit 203.
  • the scale factor of the original signal is input to the prediction coefficient code unit 205.
  • the prediction coefficient code table 205 includes a prediction coefficient codebook in which candidates for the prediction coefficient are recorded, searches this prediction coefficient codebook, and is input from the scale factor calculation unit 202. By multiplying the scale factor of the layer decoded signal, the prediction coefficient that most closely approximates the scale factor of the original signal input from the scale factor calculation unit 204 is determined, and the determined prediction coefficient is encoded. Then, the coding parameters are input to the multiplexing unit 105 and the prediction coefficient decoding unit 206, respectively. The specific determination mode of the prediction coefficient in the prediction coefficient code section 205 will be described later.
  • the prediction coefficient decoding unit 206 decodes the prediction coefficient using the coding parameter input from the prediction coefficient coding unit 205, and the decoded prediction coefficient is extra-fine information code Fill in the input section 208.
  • Spectrum fine information code section 208 includes MDCT coefficients of the first layer decoded signal input from MDCT analysis section 201 and M DCT coefficients of the original signal input from MDCT analysis section 203. Then, using the decoded prediction coefficients input from the prediction coefficient decoding unit 206, spectral fine information representing the shape of fine MDCT coefficients in the sub-band is generated and encoded, and the code parameter thereof is generated. Are input to the multiplexing unit 105. Note that the MDCT coefficients of the first layer decoded signal input from the MDCT analysis unit 201 are multiplied by the prediction coefficient decoding input unit 206 input decoding prediction coefficients to obtain the spectral envelope of the original signal. Since the same spectral shape is generated, the spectral fine information code unit 208 compares the generated spectral shape with the MDCT coefficients of the original signal input from the MDCT analysis unit 203 to obtain spectral fineness. Information can be generated.
  • FIG. 3 is a block diagram showing the main configuration of prediction coefficient coding section 205 in scalable coding device 100 according to the present embodiment.
  • the prediction coefficient code unit 205 includes a multiplier 301, an adder 302, a search unit 303, and a prediction coefficient codebook 304.
  • Multiplier 301 multiplies the scale factor of the first layer decoded signal inputted from scale factor calculation section 202 by the prediction coefficient inputted from prediction coefficient codebook 304, and then adds the multiplication result.
  • the adder 302 is a scale factor calculation unit 204.
  • the scale of the original signal input is An error signal is generated by subtracting the scale factor of the first layer decoded signal multiplied by the prediction coefficient input from the multiplier 301, and the generated error signal is input to the search unit 303. Do.
  • the search unit 303 instructs the prediction coefficient codebook 304 to sequentially input the candidates of all the held prediction coefficients to the multiplier 301. Then, the search unit 303 observes the error signal input to the multiplier 301 power, determines the prediction coefficient that minimizes the error, codes the determined prediction coefficient, and calculates its code parameter. Is input to the multiplexing unit 105
  • the prediction coefficient codebook 304 holds prediction coefficient candidates, and sequentially inputs the prediction coefficients to the multiplier 301 in accordance with an instruction from the search unit 303.
  • the estimated value of the scale factor of the original signal ie, the value obtained by multiplying the scale factor of the first layer decoded signal by the prediction coefficient is “X, (m)”, and the scale factor of the first layer decoded signal is “ Assuming that Y (m) ”, the prediction coefficient is“ a (m) ”, and the subband number is“ m ”, the estimated value X, (m) of the scale factor of the original signal is calculated by“ Equation 1 ”below Be done.
  • the search unit 303 minimizes the error E represented by the following “Equation 2”.
  • the prediction coefficient a (m) is determined, and the determined prediction coefficient is encoded, and the encoding parameter is output to the multiplexing unit 105.
  • the scale factor of the original signal is expressed as “X (m)”.
  • FIG. 4 shows an example of the relationship between the spectrum of the original signal and the scale factor (a) of the original signal, and the spectrum of the first layer decoded signal and the scale factor (b) of the first layer decoded signal.
  • the spectrum of the original signal and the spectrum of the first layer decoded signal are different in fine parts, when they are compared in scale factor, they have almost the same shape, so these scale It can be said that the factors have a strong correlation. That is, if prediction is performed focusing on spectral outline information represented by a scale factor, improvement in coding efficiency is higher than prediction based on spectral fine information.
  • the scale factor and the prediction coefficient of the first layer decoded signal are used, the scale of the original signal is It can be seen that the factor can be generated with high accuracy.
  • the spectrum of the original signal and the spectrum of the first layer decoded signal shown in FIG. 4 are plotted by calculating the spectral amplitudes of the MDCT coefficients.
  • FIG. 5 is a block diagram showing a main configuration of scalable decoding apparatus 500 according to the present embodiment.
  • the scalable decoding apparatus 500 includes a separating unit 501, a first layer decoding unit 502, and a second layer decoding unit 503.
  • Demultiplexing section 501 demultiplexes the bit stream transmitted from scalable coding device 100, and inputs the first layer coding parameter to first layer decoding section 502, while the prediction coefficient is input.
  • the second layer decoding unit 503 is input with the coding parameters of the first frame and the coding parameters of the spectral fine information.
  • First layer decoding section 502 generates a first layer decoded signal input from separation section 501 and generates a first layer decoded signal, and this first layer decoded signal is subjected to second layer decoding. Input to the field section 503.
  • the first layer decoded signal is also directly output to the outside of the scalable decoding apparatus 500. Thus, when it is necessary to output the first layer decoded signal generated by the first layer decoding unit 502, this output can be used.
  • Second layer decoding section 503 applies the coding parameters received from separation section 501 and the first layer decoded signal received from first layer decoding section 502, to be described later.
  • the second layer decoding signal is generated and output. Note that the minimum quality of reproduced speech is secured by the first layer decoded signal, and the quality of reproduced speech can be enhanced by the second layer decoded signal. Whether or not the second layer decoded signal is used depends on application settings and the like.
  • FIG. 6 is a block diagram showing a main configuration of second layer decoding section 503 in scalable decoding apparatus 500 according to the present embodiment.
  • the second layer decoding unit 503 includes a prediction coefficient decoding unit 601, an MDCT analysis unit 602, a spectrum fine information decoding unit 605, a decoding spectrum generation unit 606, and a time domain conversion unit 607.
  • the prediction coefficient decoding unit 601 decodes the coding parameters input from the separating unit 501 into prediction coefficients, and inputs the decoded prediction coefficients to the decoded spectrum generation unit 606.
  • the MDCT analysis unit 602 receives the time domain signal input from the first layer decoding unit 502.
  • the first layer decoded signal is subjected to frequency conversion by modified discrete cosine transform (MDCT) to calculate MDCT coefficients, and the MDCT coefficients of the calculated first layer decoded signal are input to the decoded spectrum generation unit 606. .
  • MDCT modified discrete cosine transform
  • the spectral fine information decoding unit 605 decodes the encoding parameters input from the separation unit 501 to generate spectral fine information, and generates the spectral fine information to the decoded spectral generation unit 606. input.
  • Decoded spectrum generation section 606 is configured to receive the predicted coefficients decoded from prediction coefficient decoding section 601, the fine spectrum information input from spectral fine information decoding section 605, and the MDCT analysis section.
  • the MDCT coefficients of the first layer decoded signal input from 602 and the decoded spectrum of the source signal are generated, and the decoded spectrum of the generated source signal is input to the time domain transform unit 607.
  • the decoded spectrum generation unit 606 calculates the decoded spectrum U (k) of the original signal using the following “Expression 3”.
  • C (k) is spectral fine information
  • ⁇ , (m) is the predicted prediction coefficient of the mth sub-band
  • B (k) Represents the MDCT coefficients of the first layer decoded signal
  • k represents the frequency included in the mth sub-band.
  • the time domain conversion unit 607 converts the decoded spectrum input from the decoded spectrum generation unit 606 into a time domain signal, and then performs appropriate windowing on the converted signal as necessary. Finally, a second layer decoded signal is generated and output by performing processing such as superposition addition to eliminate discontinuities occurring between frames.
  • the scale factor of the original signal there is a strong correlation between the scale factor of the original signal and the scale factor of the first layer decoded signal, and if the scale factor of the first layer decoded signal is multiplied by the prediction coefficient, The scale factor of the signal can be generated with high accuracy. Furthermore, the data amount of the sign parameter of this prediction coefficient is significantly smaller than that of the error signal generated by subtracting the first layer decoded signal from the original signal in the prior art.
  • scalable coding apparatus 100 is configured to perform the first layer coding.
  • the parameters of prediction coefficients derived from the first layer coding parameters are transmitted to the scalable decoding apparatus 500 together with the parameters.
  • scalable coding / decoding device 100 when scalable coding / decoding device 100 performs scalable coding of an audio signal and transmits it to scalable decoding device 500, the bit rate required for transmission of this audio signal is reduced. can do.
  • the code efficiency of the second layer can be improved in the scalable code ⁇ of the speech signal.
  • the quality of speech reproduced by scalable decoding apparatus 500 can be enhanced.
  • the scalable coding device 100 or the scalable decoding device 500 according to the present embodiment may be modified or applied as follows!
  • prediction coefficient code unit 205 outputs the coding parameter of prediction coefficient a (m) for which error E represented by equation 2 is minimized to multiplexing unit 105
  • the prediction coefficient coding unit 205 uses the scale factor X (m) of the original signal and the scale factor Y (m) of the first layer decoded signal. You can calculate the ideal coefficient a opt (m) and quantize this ideal coefficient a opt (m).
  • the ideal coefficient a opt (m) is expressed by the following “Expression 4”.
  • FIG. 7 is a block diagram showing a main configuration of a prediction coefficient code unit 705 used in place of the prediction coefficient code unit 205 in this application example.
  • the prediction coefficient code calculation unit 705 includes a search unit 303, a prediction coefficient codebook 304, an ideal coefficient calculation unit 711 and an adder 712.
  • the ideal coefficient calculation unit 711 includes the scale factor Y (m) of the first layer decoded signal input from the scale factor calculation unit 202 and the scale factor X (m) of the original signal input from the MDCT analysis unit 203. Also, the ideal coefficient a opt (m) is calculated by the equation 4 and the calculated ideal coefficient a opt (m) is input to the adder 712.
  • the adder 712 generates an error signal indicating the difference between the ideal coefficient ex opt (m) input from the ideal coefficient calculation unit 711 and the prediction coefficient input from the prediction coefficient codebook 304, and this error
  • the signal is input to search unit 303.
  • the prediction coefficient code ⁇ unit 705 inputs, to the multiplexing unit 105, the coding parameter of the prediction coefficient which minimizes the difference indicated by the error signal generated by the adder 712.
  • the search unit 303 and the prediction coefficient codebook 304 are components that perform the same operation as the corresponding components in the prediction coefficient coding unit 205, so the description thereof is omitted.
  • FIG. 8 shows an application example different from the application example shown in FIG. 7 in the present embodiment.
  • FIG. 8 is a block diagram showing the main configuration of prediction coefficient code section 805 used instead of prediction coefficient code section 205.
  • the prediction coefficient code unit 805 includes a multiplier 301, adders 302 and 815, a search unit 303, a prediction coefficient codebook 304, and a residual component codebook 814.
  • the residual component codebook 814 holds a codebook indicating residual components, and in accordance with the instruction from the search unit 303, the residual components to be held are sequentially input to the adder 815.
  • the adder 815 adds the residual component input from the residual component codebook 814 to the scale factor of the first layer decoded signal multiplied by the prediction coefficient input from the multiplier 301, and The addition result is input to the adder 302.
  • the prediction coefficient code unit 805 determines a combination of a prediction coefficient and a residual component that minimizes the difference indicated by the error signal generated by the adder 302, and multiplexes those code parameter Input to 105.
  • the estimated value X of the scale factor of the original signal, X (m) is the scale factor Y (m) of the first layer decoded signal, the prediction coefficient a (m) and the residual component e (m). Calculated using the following equation 5.
  • the prediction coefficients a (m) of a plurality of subbands are regarded as one solid, and this vector is selected from among the candidates included in the prediction coefficient vector codebook. Appropriate candidates may be determined by search. In this way, the prediction coefficients a (m) of a plurality of sub-bands are represented by one code parameter, and the data amount of the coding parameters of the prediction coefficient a (m) is reduced. You can reduce the bit rate.
  • scalable coding device 100 outputs the first layer coding parameter and the second layer coding parameter of the speech signal as a bit stream.
  • the present invention is not limited to this case.
  • the scalable coder 100 does not show the first layer code parameter and the second layer code parameter of the speech signal. Accumulate and save in the data storage unit etc.
  • search section 303 determines prediction coefficient a (m) that minimizes error E expressed in equation 2, but the present invention is limited to this case.
  • the search unit 303 may search for the prediction coefficient a (m) in the logarithmic domain as expressed by the following “Expression 6”.
  • searching section 303 searches for all candidates of prediction coefficient a (m) held by prediction coefficient codebook 304
  • the present invention is limited to this case.
  • the search unit 303 may search only for some of the candidates held by the prediction coefficient codebook 304.
  • the speech signal is a sine wave as shown in FIG. 9A
  • its spectrum should be represented as a single line spectrum.
  • the speech signal is subjected to FFT transform and spectrum analysis, it is represented as a single line spectrum regardless of the analysis position as shown in FIG. 9B.
  • the calculated spectrum changes depending on the analysis position.
  • the spectrum calculated by spectrum analysis using MDCT will be influenced by the phase of the waveform.
  • the first layer coding parameters are And since quantization is performed in generation of the first layer decoded signal, quantization distortion is latent in this first layer coding parameter or signal. Therefore, in the scalable coding scheme shown in the first embodiment, there is a possibility that the phases of the original signal input to the second layer coding scheme unit 104 and the first layer decoded signal are not synchronized, which is otherwise stated. For example, there is room to enhance the correlation between the spectral outline of the original signal and the spectral outline of the first layer decoded signal. Such a tendency is particularly pronounced when a high efficiency coding method such as CELP is applied to the first layer.
  • a high efficiency coding method such as CELP is applied to the first layer.
  • Embodiment 2 even when a high efficiency coding method such as CELP is applied to the first layer, the spectrum outline of the original signal and the amplitude of the first layer decoded signal are used. Take measures to improve the correlation with the vector outline.
  • a high efficiency coding method such as CELP
  • FIG. 10 is a block diagram showing a main configuration of second layer coding section 1004 in the scalable coding apparatus according to the present embodiment.
  • the second layer coding unit 1004 is used in place of the second layer coding unit 104 in the scalable code decoding apparatus 100 and is an MDCT analysis unit in the second layer coding unit 104.
  • a spectrum smoothing unit 1011 is further provided between 201 and the scale factor calculation unit 202. Therefore, since the second layer code block 1004 has many components having the same functions as the components of the second layer code block 104, duplication of components having such identical functions is The explanation is omitted to avoid
  • Spectrum smoothing section 1011 smoothes the MDCT coefficients of the first layer decoded signal input from MDCT analysis section 201, that is, the spectrum, using the spectrum in the vicinity of the analysis position, and smoothes the spectrum Input to scale factor calculation unit 202.
  • the scale factor of the first layer decoded signal smoothed from scale factor calculation unit 202 to spectral fine information code unit 208 is input, the smoothed first layer is input.
  • the scale factor of the decoded signal is input for reference, and the function of spectrum fine information code unit 208 is substantially the same as that in the first embodiment.
  • FIG. 11 is a block diagram showing the main configuration of spectrum smoothing section 1011.
  • the spectrum smoothing unit 1011 includes a smoothing processing unit 1121 and an energy adjustment unit 1122. The operation of spectrum smoothing section 1011 will be described later.
  • FIG. 12 is a block diagram showing the main configuration of second layer decoding section 1203 in the scalable decoding apparatus according to the present embodiment.
  • the second layer decoding unit 1203 is used in place of the second layer decoding unit 503 in the scalable decoding apparatus 500, and further, in the second layer decoding unit 503, a decoded spectrum is generated.
  • a decoded spectrum generation part 1216 is provided, and a spectrum smoothing part 1212 and a scale factor calculation part 1213 are newly provided between the MDCT analysis part 602 and the decoded spectrum generation part 606.
  • the spectrum smoothing unit 1212 includes a smoothing processing unit 1121 and an energy adjustment unit 1122 shown in FIG. 11, as with the spectrum smoothing unit 1011. Therefore, the second layer decoding unit 1203 has many components having the same functions as the components of the second layer decoding unit 503 and the spectrum smoothing unit 1011, and thus has the same functions. The description of the components is omitted to avoid duplication.
  • Spectrum smoothing sections 1011 and 1212 are used to smooth the spectrum of the first layer decoded signal input from MDCT analysis section 201 or MDCT analysis section 602, the spectrum of interest and its neighborhood Calculate the weighted average value of the spectrum of
  • the smoothing processing unit 1121 in the spectrum smoothing units 1011 and 1212 performs spectrum smoothing according to the following “Expression 7”.
  • S (k) is the MDCT spectrum before smoothing
  • S ′ (k) is the MDCT spectrum after smoothing
  • ⁇ (i) is the weighting factor
  • L is the range to be averaged .
  • the spectrum smoothing units 1011 and 1212 smooth the spectrum of the first layer decoded signal input from the MDCT analysis unit 201 or the MDCT analysis unit 602
  • the spectrum of interest and its vicinity are Calculate the average of the difference from the spectrum.
  • the smoothing processing unit 1121 in the spectrum smoothing units 1011 and 1212 performs spectrum smoothing in accordance with the following “Expression 8”.
  • ⁇ 1 and ⁇ 2 represent weighting factors.
  • the energy adjusting unit 1122 in the spectrum smoothing units 1011 and 1212 is such that the spectrum energy of the first layer decoded signal smoothed by the smoothing processing unit 1121 matches the spectrum energy before and after the smoothing. To adjust.
  • the scale factor calculation unit 1213 functions in the same manner as the scale factor calculation unit 202, and based on the MDC ⁇ coefficient of the smoothed first layer decoded signal input from the spectrum smoothing unit 1212. Calculates the scale factor of each subband in the layer decoded signal. Then, scale factor calculation section 1213 inputs the calculated scale factor of the first layer decoded signal to decoded spectrum generation section 1216.
  • Decoded spectrum generation section 1216 receives the predicted coefficients decoded from prediction coefficient decoding section 601, the MDC coefficients of the first layer decoded signal input from MDCT analysis section 602, and Scale factor calculation unit 1213 generates a scale factor of the first layer decoded signal input from the first layer, a spectral fine information input from the spectral fine information decoding unit 605, and a decoded spectrum of the source signal,
  • the generated decoded spectrum of the original signal is input to the time domain conversion unit 607.
  • the decoded spectrum generation unit 1216 calculates the decoded spectrum U (k) of the original signal using the following “Expression 9”.
  • C (k) is spectral fine information
  • ⁇ , (m) is the predicted prediction coefficient of the mth sub-band
  • B (k) Represents the MDCT coefficients of the first layer decoded signal
  • k represents the frequency included in the mth sub-band
  • Y (m) represents the scale factor of the first layer decoded signal in the mth subband
  • Z (m) represents the scale factor of the first layer decoded signal in the mth subband after smoothing.
  • the left frame (A) of FIG. 13 conceptually shows spectra when the sine wave shown in FIG. 9 is subjected to spectrum analysis using MDCT at four analysis positions phO, phl, ph2 and ph3.
  • Figure 13 The spectrum shown in the right frame (B) of FIG. 13 is obtained by the spectrum smoothing unit 1011 or the spectrum smoothing unit 1212 performing smoothing processing according to equation 7 or equation 8 on the spectrum shown in the left frame (A).
  • the turtle is calculated.
  • the spectrum calculated by spectrum analysis using MDCT has a variation as shown in the left frame (A) of FIG.
  • spectrum smoothing section 1011 or spectrum smoothing section 1212 performs spectrum smoothing processing on the spectrum of the first layer decoded signal, the spectrum after smoothing is performed.
  • Spectral force The correlation between the calculated spectral envelope and the spectral envelope of the original signal computed by the scale factor calculator 204 becomes stronger.
  • the coding efficiency in the prediction coefficient coding section 205 is further improved.
  • FIG. 17 shows an example of the result of calculating the quantization performance of the scale factor by computer simulation.
  • the prediction factor a (m) of the scale factor of each subband is quantized using a 4-bit scalar quantizer.
  • SNR Signal to Noise Ratio
  • the human auditory characteristic has an auditory masking characteristic that when a certain signal is heard, it is difficult to hear a sound close in frequency to the signal. Therefore, in the present embodiment, the auditory masking characteristic is used to improve the coding efficiency of the prediction coefficient, which is a component of the second layer coding parameter, and the spectral fine information.
  • FIG. 14 is a block diagram showing the main configuration of second layer coding section 1404 in the scalable coding apparatus according to Embodiment 3 of the present invention.
  • Second layer code layer unit 1404 is replaced with prediction coefficient code line unit 1405 in place of prediction coefficient code line unit 205 in second layer code layer unit 1004 according to the second embodiment.
  • a spectrum fine information code portion 1408 is provided instead of the sound portion 208, and an auditory masking calculation portion 1411 is newly provided. Therefore, the second layer code layer 1404 includes many components having the same functions as the components of the second layer code layers 104 and 1004, and therefore, for the components having the same functions, , I omit the explanation to avoid duplication.
  • the auditory masking calculation unit 1411 determines the auditory masking T (m) defined in advance for each sub-band of the original signal input from the delay unit 102, the prediction coefficient code unit 1405, and the spectral fineness.
  • the information code unit 1408 is notified of each.
  • the prediction coefficient code 1 portion 1405 compares the magnitude of the auditory masking T (m) notified from the auditory masking calculation unit 1411 with the error scale factor E (m) for each subband, and the error scale If the factor E (m) exceeds the auditory masking T (m), it is determined that the quantization distortion occurring in the sub-band can be perceived by human hearing, and the prediction coefficient is determined for the sub-band. Then, the code is input and the code parameter is input to the multiplexing unit 105.
  • the error scale factor E (m) is calculated as the difference between the scale factor of the original signal and the scale factor of the first layer decoded signal.
  • the prediction coefficient coding unit 1405 performs coding on information indicating whether the prediction coefficient has been coded for each sub-band and inputs the coded information to the multiplexing unit 105 for scalable processing. It is preferable to transmit to the decryption device 500.
  • the spectral fine information code input unit 1408 is also erroneous. Only when the difference scale factor E (m) exceeds the auditory masking T (m), it is judged that the quantization distortion occurring in the sub-band can be perceived by human hearing, and the spectral fineness for that sub-band is determined. Information is encoded and input to the multiplexing unit 105. Also, spectral fine information code section 1408 encodes information indicating whether or not spectral fine information is encoded for each subband, and inputs the encoded information to multiplexing section 105. , Preferably to transmit to the scalable decoding device 500.
  • second layer coding section 1404 determines the state power for effectively achieving the auditory masking effect for each subband of the original signal, and the auditory masking effect is obtained.
  • the coding coefficient of the second layer coding parameter of the speech signal can be improved since the coding coefficient of the prediction coefficient and the spectral fine information is not performed.
  • the prediction coefficient code 1 portion 1405 or the spectral fine information code portion 1408 includes perceptual masking T (m) and error scale factor E (m) for each subband.
  • the prediction coefficient code unit 1405 or the spectral fine information code unit 1408 is a scalable decoding device for information indicating the number of bits allocated to the prediction coefficient or spectral fine information for each subband. Preferred to send to 500 ,.
  • the scalable code device according to the present invention may be modified or applied as follows.
  • scalable coding is performed in two layers of the first layer (lower layer) and the second layer (upper layer), but the present invention is not limited to this. Ming is not limited to this case.
  • scalable coding may be performed in three or more layers.
  • the sampling rate of the signal in the nth layer is expressed as Fs (n), and the sampling rate of each layer is adjusted so that the relationship of Fs (n) ⁇ Fs (n + 1) holds.
  • Fs (n) the sampling rate in first layer coding section 101 or first layer decoding section 502 is set lower than the sampling rate in second layer coding section 104 or second layer decoding section 503. It is also good. In this way, bandwidth scalability can be realized, and the sense of reality formed by the decoded signal can be further enhanced when the network condition is good or when the capability of the device used by the user is high.
  • FIG. 15 is a block diagram showing the main configuration of speech encoding apparatus 1504 according to this reference example.
  • Speech coding apparatus 1504 includes MDCT analysis section 203, scale factor calculation section 204, prediction coefficient code section 205, prediction coefficient decoding section 206, and spectral fine information code section 208 in second layer coding section 1004.
  • a spectral fine information decoding unit 1511 a decoded spectrum generation unit 1512, a buffer 1 513, a spectrum smoothing unit 1514 and a scale factor calculation unit 1515.
  • the spectral fine information decoding unit 1511 functions in the same manner as the spectral fine information decoding unit 605 in the second layer decoding unit 1203, and the decoding spectrum generation unit 1512 functions as a decoding vector generation unit 1216.
  • the spectrum smoothing unit 1514 functions in the same manner as the spectrum smoothing unit 1011 in the second layer coding unit 1004, and the scale factor calculation unit 1515 functions in the same manner as the scale factor calculation unit 202.
  • the speech coding apparatus 1504 will be described below, but for the components having the same functions as the components of the second layer coding section 1004 and the second layer decoding section 1203, duplication will be applied. The description is omitted to avoid it.
  • the knotter 1513 receives the decoded spectrum input from the decoded spectrum generation unit 1512. When one frame of data is stored and a new decoded spectrum is input, the stored spectrum of the previous frame is input to spectrum smoothing unit 1514, spectrum fine information code unit 208, and decoded spectrum generation unit 1512. input.
  • speech coding apparatus 1504 spectral smoothing is performed on the decoded spectrum of the previous frame stored in buffer 1513 to calculate a scale factor, and as a result, prediction In the coefficient code unit 205, the prediction coefficient of the current frame is calculated based on the scale factor related to the previous frame. Also, in the fine spectrum information coding unit 208 and the decoded spectrum generation unit 1512, coding of fine spectrum information and generation of a decoded spectrum are performed using the decoding spectrum of the previous frame.
  • FIG. 16 is a block diagram showing the main configuration of speech decoding apparatus 1603 according to this reference example.
  • Speech decoding apparatus 1603 has the same function as prediction coefficient decoding section 601, spectrum fine information decoding section 605, decoded spectrum generation section 1216 and time domain conversion section 607 in second layer decoding section 1203. It comprises elements, and additionally comprises a buffer 1611, a spatial smoothing unit 1612 and a scale factor calculation unit 1613. Also, the spectrum smoothing unit 1612 functions in the same manner as the spectrum smoothing unit 1212 in the second layer decoding unit 1203 and the scale factor calculation unit 1613 functions as the scale factor calculation unit 1213.
  • the speech decoding apparatus 1603 will be described below, but in order to avoid duplication, the description of components having the same functions as the components of the second layer decoding module 1203 will be omitted.
  • Buffer 1611 stores one frame of the decoded spectrum input from decoded spectrum generation section 1216, and when a new decoded spectrum is input, stores the decoded spectrum of the previous frame.
  • the signal is input to the spectrum smoothing unit 1612 and the decoded spectrum generation unit 1216.
  • spectrum smoothing is performed on the decoded spectrum of the previous frame stored in buffer 1611 to calculate a scale factor, and as a result, the decoded spectrum is obtained.
  • the generation unit 1216 predicts the scale factor of the current frame based on the scale factor of the previous frame, and It will be decrypted using.
  • the decoded spectrum generation unit 1216 calculates the decoded spectrum U (k) of the original signal using the following “Expression 11”.
  • C (k) is spectral fine information
  • ⁇ , (m) is a prediction coefficient obtained by decoding the m-th sub-band
  • B prv (k) Represents the MDCT coefficient of the previous frame
  • k represents the frequency included in the m-th subband
  • Yprv (m) is the scale factor of the previous frame in the mth subband
  • rzprv (m) is the scale factor of the previous frame after smoothing in the mth subband.
  • the scalable coding apparatus and the like according to the present invention are not limited to the above embodiments, and can be implemented with various modifications.
  • the embodiments can be implemented in combination as appropriate.
  • the scalable encoding apparatus and the scalable decoding apparatus according to the present invention can be mounted on a communication terminal apparatus and a base station apparatus in a mobile communication system, and thereby have the same function and effect as described above.
  • a communication terminal apparatus, a base station apparatus, and a mobile communication system can be provided.
  • the present invention has been described by way of example using nodeware as an example, it is also possible to realize the present invention by software.
  • the algorithm of the scalable code method according to the present invention is described in a programming language, and this program is stored in memory and executed by information processing means, whereby the scalable code information according to the present invention is stored.
  • the same function as the device can be realized.
  • Each function block employed in the description of each of the aforementioned embodiments is typically an integrated circuit. It is realized as an LSI. These may be individually made into one chip, or may be made into one chip so as to include some or all of them.
  • LSI is used to refer to “IC,” “system LSI,” “super LSI,” and “monolithor LSI” depending on the degree of integration.
  • the method of circuit integration is not limited to LSI's, and implementation using dedicated circuitry or general purpose processors is also possible. It is also possible to use an FPGA (Field Programmable Gate Array) that can be programmed after LSI manufacture, or a reconfigurable chip processor that can reconfigure connection and settings of circuit cells inside the LSI.
  • FPGA Field Programmable Gate Array
  • the scalable coding apparatus improves the coding efficiency in the second layer, and improves the quality of the original signal decoded using the coding parameters in the second layer. It is useful for mobile communication systems and the like which have a low bit rate and high reproduction quality.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

 第2レイヤでの符号化効率を改善すると共に、第2レイヤでの符号化信号を用いて復号した原信号の品質を向上させることができるスケーラブル符号化装置等を提供する。この装置において、予測係数符号化部(205)は、予測係数の候補が記録された予測係数符号帳を具備し、この予測係数符号帳を探索して、スケールファクタ算出部(202)から入力されてくる第1レイヤ復号信号のスケールファクタに乗じることにより、その乗算結果をスケールファクタ算出部(204)から入力されてくる原信号のスケールファクタに最も近似させる予測係数を決定し、決定した予測係数を符号化して、その符号化コードを多重化部と予測係数復号化部(206)とにそれぞれ入力する。

Description

スケーラブル符号化装置、スケーラブル復号装置及びスケーラブル符号 化方法
技術分野
[0001] 本発明は、音声信号等を階層化して符号化するスケーラブル符号化装置等に関 する。
背景技術
[0002] 従来、移動体通信システムでは、電波資源等の有効利用のために、音声信号を低 ビットレートで圧縮することが要求されている。その一方で、通話音声の品質向上や 臨場感の高い通話サービスの実現も望まれており、その実現には、音声信号の高品 質ィ匕のみならず、より帯域の広いオーディオ信号等の音声成分以外の信号成分も高 品質に符号ィ匕する必要がある。
[0003] このような相反する要求を共に満たす手段として、複数の符号ィ匕技術を階層的に 統合するアプローチが有望視されている。具体的には、音声信号に特ィ匕したモデル で音声成分を低ビットレートで符号化する第 1レイヤ符号化部と、音声成分以外の信 号成分をより汎用的なモデルで符号化する第 2レイヤ符号化部と、を組み合わせるァ ブローチが検討されている。このような階層的符号ィ匕方式は、符号化されたビットスト リームがスケーラビリティ性 (ビットストリームの一部の情報力もでも復号信号が得られ る特性)を有するため、スケーラブル符号ィ匕方式と呼ばれる。
[0004] スケーラブル符号ィ匕方式は、その性質から、ビットレートの異なるネットワーク間の通 信に柔軟に対応できる。この特徴は、 IPプロトコルで多様なネットワークが統合されて いく今後のネットワーク環境に適したものであると言える。
[0005] スケーラブル符号化の実現手段として、 MPEG— 4 (Moving Picture Experts Grou p phase-4)で規格ィ匕された技術を用いる手段が知られて 、る(例えば非特許文献 1 参照)。非特許文献 1に記載の技術では、音声信号に特化した代表的な符号化方式 である CELP (Code Excited Linear Prediction :符号励信線形予測)方式を第 1レイヤ に適用し、原信号から第 1レイヤ復号信号を減じた残差信号に対してより汎用的な符 号化モデルである AAC (Advanced Audio Coder)方式又は TwinVQ (Transform Do main Weighted Interleave Vector Quantization :周波数領域重み付きインターリーブ ベクトル量子化)方式を第 2レイヤに適用する。この第 2レイヤに適用される 2つの方 式は、異なる方式であるものの、基本的には MDCT (Modified Discrete Cosine Tran sform;変形離散コサイン変換)係数の量子化を行う際にスペクトルの大ま力な形状を 表すスペクトル概形情報と、残りの細かなスペクトル形状を表すスペクトル微細情報と 、に分離し、それぞれ符号化する点で共通する。
非特許文献 1 :三木弼ー編著、「MPEG— 4のすベて」、初版、(株)工業調査会、 19 98年 9月 30日、 p. 126 - 127
発明の開示
発明が解決しょうとする課題
[0006] し力しながら、非特許文献 1に記載の技術では、第 2レイヤにぉ 、て、入力信号で ある原信号からその第 1レイヤ復号信号を減じて得られる残差信号に対して符号ィ匕 が行われることになる。このような残差信号の特性は、第 1レイヤ部を介することにより 原信号に含まれる主要な情報が取り除かれるため、雑音系列に近い特性となる。この ため、非特許文献 1に記載の技術では、第 2レイヤでの符号ィ匕効率が低下すると共 に、第 2レイヤでの符号ィヒ信号を用いて原信号を復号しても、その原信号の品質が 向上し難いという問題がある。
[0007] よって、本発明の目的は、第 2レイヤでの符号化効率を改善すると共に、第 2レイヤ での符号ィ匕信号を用いて復号した原信号の品質を向上させるスケーラブル符号ィ匕 装置等を提供することである。
課題を解決するための手段
[0008] 本発明に係るスケーラブル符号ィ匕装置は、入力信号を符号ィ匕して下位レイヤ符号 化パラメータを生成する下位レイヤ符号化手段と、前記下位レイヤ符号ィ匕パラメータ を復号して下位レイヤ復号信号を生成する下位レイヤ復号ィヒ手段と、前記入力信号 に基づいて前記入力信号のスぺ外ル概形を算出する第 1スペクトル概形算出手段 と、前記下位レイヤ復号信号に基づ ヽて前記下位レイヤ復号信号のスペクトル概形 を算出する第 2スぺ外ル概形算出手段と、前記下位レイヤ復号信号のスペクトル概 形力 前記入力信号のスペクトル概形を予測することにより予測情報を得、この予測 情報を符号化して上位レイヤ符号化パラメータを生成する予測情報符号化手段と、 前記下位レイヤ符号ィ匕パラメータと前記上位レイヤ符号ィ匕パラメータとを出力する出 力手段と、を具備する構成を採る。
[0009] 本発明に係るスケーラブル復号装置は、入力信号をスケーラブル符号化するスケ ーラブル符号ィ匕装置によって生成された符号ィ匕パラメータを復号するスケーラブル 復号装置であって、前記符号ィ匕パラメータを復号して下位レイヤ復号信号を生成す る下位レイヤ復号化手段と、前記符号ィヒパラメータを復号することにより、前記入力 信号のスぺ外ル概形を予測させる予測情報を生成する予測情報復号化手段と、前 記下位レイヤ復号信号と前記予測情報とに基づいて前記入力信号のスペクトル概形 を生成するスペクトル生成手段と、を具備する構成を採る。
発明の効果
[0010] 本発明によれば、予測情報符号化手段が、下位レイヤ復号信号のスペクトル概形 力 入力信号のスペクトル概形を予測させる予測情報を生成して符号ィ匕し、符号化さ れた予測情報を上位レイヤ符号化パラメータとして出力するため、この上位レイヤ符 号化パラメータの符号ィ匕効率を改善できると共に、この上位レイヤ符号ィ匕パラメータ を用いて復号した入力信号の品質を高めることができる。
図面の簡単な説明
[0011] [図 1]実施の形態 1に係るスケーラブル符号ィ匕装置の主要な構成を示すブロック図 [図 2]実施の形態 1における第 2レイヤ符号ィ匕部の主要な構成を示すブロック図
[図 3]実施の形態 1における予測係数符号ィ匕部の主要な構成を示すブロック図
[図 4]実施の形態 1においてスペクトルとスペクトル概形との関係を説明する図
[図 5]実施の形態 1に係るスケーラブル復号装置の主要な構成を示すブロック図 [図 6]実施の形態 1における第 2レイヤ復号ィ匕部の主要な構成を示すブロック図
[図 7]実施の形態 1における予測係数符号ィ匕部の応用例を示すブロック図
[図 8]実施の形態 1における予測係数符号ィ匕部の応用例を示すブロック図
[図 9A]実施の形態 2において正弦波の符号ィ匕方式と生成されたスペクトルとの関係 を説明する図 [図 9B]実施の形態 2において正弦波の符号ィ匕方式と生成されたスペクトルとの関係 を説明する図
[図 9C]実施の形態 2において正弦波の符号ィ匕方式と生成されたスペクトルとの関係 を説明する図
[図 10]実施の形態 2における第 2レイヤ符号ィ匕部の主要な構成を示すブロック図 [図 11]実施の形態 2におけるスペクトル平滑部の主要な構成を示すブロック図
[図 12]実施の形態 2に係るスケーラブル復号装置の主要な構成を示すブロック図 [図 13]実施の形態 2において MDCTによるスペクトルを平滑ィ匕する前後の態様を示 す図
[図 14]実施の形態 3における第 2レイヤ符号ィ匕部の主要な構成を示すブロック図 [図 15]参考例に係る音声符号ィ匕装置における主要な構成要素の構成を示すブロッ ク図
[図 16]参考例に係る音声復号装置における主要な構成要素の構成を示すブロック 図
[図 17]実施の形態 2におけるスケールファクタの量子化性能を計算機シミュレーショ ンにより算出した結果の一例を示す図
発明を実施するための最良の形態
[0012] 本発明は、スケーラブル符号ィ匕の第 2レイヤ符号ィ匕部において、入力信号である原 信号のスペクトル形状を所定の周波数帯域毎に大まかに捉えたスペクトル概形と、第 1レイヤ復号信号のスペクトル概形と、の間に強い相関があることを利用して、第 1レ ィャ復号信号のスペクトル概形を用いて原信号のスペクトル概形を予測し、その予測 情報を符号ィ匕することにより、入力信号の第 2レイヤ符号ィ匕パラメータを低ビットレート 化するものである。
[0013] 以下、本発明の実施の形態について、図を参照しつつ詳細に説明する。なお、各 実施の形態では、以下の前提条件の下で、入力信号がスケーラブル符号化されるも のとする。
(1)第 1レイヤ(下位レイヤ)と第 2レイヤ (上位レイヤ)との 2階層。
(2)第 2レイヤの符号ィ匕では、周波数領域で符号化を行う (変換符号化)。 (3)第 2レイヤの符号ィ匕における変換方式には、 MDCTを使用する。
(4)第 2レイヤの符号ィ匕では、入力信号帯域を複数のサブバンド (周波数帯域)に 分割し、各々のサブバンド単位で符号ィ匕する。
(5)第 2レイヤの符号ィ匕では、各サブバンドに含まれる MDCT係数は、スペクトル 概形を表す情報と、スペクトル概形で表しきれな 、サブバンド内の細かな MDCT係 数の形状を表すスペクトル微細情報と、に分離して符号化される。
(6)第 2レイヤの符号ィ匕では、スペクトル概形を表す情報としてサブバンド毎の平均 振幅を用いる。なお、このサブバンド平均振幅のことをスケールファクタと称する。
(7)第 2レイヤの符号ィ匕では、サブバンド分割は、臨界帯域に対応付けて行われ、 Barkスケールで等間隔に分割される。
[0014] (実施の形態 1)
図 1は、本発明の実施の形態 1に係るスケーラブル符号ィ匕装置 100の主要な構成 を示すブロック図である。スケーラブル符号ィ匕装置 100は、第 1レイヤ符号ィ匕部 101、 遅延部 102、第 1レイヤ復号ィ匕部 103、第 2レイヤ符号ィ匕部 104及び多重化部 105を 具備する。
[0015] 第 1レイヤ符号ィ匕部 101は、図示しないマイクロフォン等力も入力されてくる音声信 号の原信号を符号ィ匕して第 1レイヤ符号化パラメータを生成し、生成した第 1レイヤ 符号化パラメータを第 1レイヤ復号ィ匕部 103及び多重化部 105にそれぞれ入力する
[0016] 遅延部 102は、第 1レイヤ符号ィ匕部 101と第 1レイヤ復号ィ匕部 103との間で生じる 時間遅れを補正するため、入力された原信号に所定の長さの遅延を与え、遅延させ た原信号を第 2レイヤ符号ィ匕部 104に入力する。
[0017] 第 1レイヤ復号ィ匕部 103は、第 1レイヤ符号ィ匕部 101から入力されてくる第 1レイヤ 符号化パラメータを復号して第 1レイヤ復号信号を生成し、生成した第 1レイヤ復号 信号を第 2レイヤ符号ィ匕部 104に入力する。
[0018] 第 2レイヤ符号ィ匕部 104は、第 1レイヤ復号ィ匕部 103から入力されてくる第 1レイヤ 復号信号と、遅延部 102から入力されてくる所定時間遅延させた原信号と、に基づい て、第 1レイヤ復号信号のスペクトル概形力 原信号のスペクトル概形を予測するた めに必要な予測係数を決定して符号ィ匕し、またこれらのスペクトル概形では表せな!/ヽ スペクトル形状を表すために必要なスペクトル微細情報を生成して符号ィ匕し、これら の符号ィ匕パラメータを多重化部 105に入力する。なお、第 2レイヤ符号ィ匕部 104にお けるこれらの符号化パラメータの具体的な生成態様については後述する。
[0019] 多重化部 105は、第 1レイヤ符号ィ匕部 101から入力されてくる第 1レイヤ符号化パラ メータと、第 2レイヤ符号ィ匕部 104から入力されてくる符号ィ匕パラメータと、を多重して ビットストリームとしてスケーラブル符号ィ匕装置 100の外部に出力する。従って、多重 化部 105は、本発明における出力手段として機能する。
[0020] 図 2は、スケーラブル符号ィ匕装置 100における第 2レイヤ符号ィ匕部 104の主要な構 成を示すブロック図である。第 2レイヤ符号ィ匕部 104は、 MDCT分析部 201、 203、 スケールファクタ算出部 202、 204、予測係数符号ィ匕部 205、予測係数復号化部 20 6及びスペクトル微細情報符号ィ匕部 208を具備する。
[0021] MDCT分析部 201は、第 1レイヤ復号ィ匕部 103から入力されてくる第 1レイヤ復号 信号の MDCT係数を算出し、算出した第 1レイヤ復号信号の MDCT係数をスケー ルファクタ算出部 202とスペクトル微細情報符号ィ匕部 208とにそれぞれ入力する。
[0022] スケールファクタ算出部 202は、 MDCT分析部 201から入力されてくる第 1レイヤ 復号信号の MDCT係数に基づいて第 1レイヤ復号信号における各サブバンドのスケ ールファクタを算出する。そして、スケールファクタ算出部 202は、算出した第 1レイヤ 復号信号のスケールファクタを予測係数符号ィ匕部 205に入力する。なお、このスケー ルファクタは、各サブバンドに含まれる MDCT係数の平均振幅を表し、復号信号の 音質を左右する重要なパラメータである。また、本実施の形態において、スペクトル 概形とは、各サブバンドのスケールファクタを周波数方向に連結したときの形状であ る。
[0023] MDCT分析部 203は、遅延部 102から入力されてくる原信号の MDCT係数を算 出し、算出した原信号の MDCT係数をスケールファクタ算出部 204とスペクトル微細 情報符号ィ匕部 208とにそれぞれ入力する。
[0024] スケールファクタ算出部 204は、 MDCT分析部 203から入力されてくる原信号の M DCT係数に基づいて原信号の各サブバンドのスケールファクタを算出し、算出した 原信号のスケールファクタを予測係数符号ィ匕部 205に入力する。
[0025] 予測係数符号ィ匕部 205は、予測係数の候補が記録された予測係数符号帳を具備 し、この予測係数符号帳を探索して、スケールファクタ算出部 202から入力されてくる 第 1レイヤ復号信号のスケールファクタに乗じることにより、その乗算結果をスケール ファクタ算出部 204から入力されてくる原信号のスケールファクタに最も近似させる予 測係数を決定し、決定した予測係数を符号ィ匕して、その符号化パラメータを多重化 部 105と予測係数復号ィ匕部 206とにそれぞれ入力する。なお、予測係数符号ィ匕部 2 05における予測係数の具体的な決定態様については後述する。
[0026] 予測係数復号ィ匕部 206は、予測係数符号ィ匕部 205から入力されてくる符号化パラ メータを用いて予測係数を復号し、復号した予測係数をスぺ外ル微細情報符号ィ匕 部 208に入力する。
[0027] スペクトル微細情報符号ィ匕部 208は、 MDCT分析部 201から入力されてくる第 1レ ィャ復号信号の MDCT係数と、 MDCT分析部 203から入力されてくる原信号の M DCT係数と、予測係数復号ィ匕部 206から入力されてくる復号予測係数と、を用いて 、サブバンド内の細かな MDCT係数の形状を表すスペクトル微細情報を生成して符 号化し、その符号ィ匕パラメータを多重化部 105に入力する。なお、 MDCT分析部 20 1から入力されてくる第 1レイヤ復号信号の MDCT係数に、予測係数復号ィ匕部 206 力 入力されてくる復号予測係数を乗じることにより、原信号のスペクトル概形とほぼ 同一のスペクトル形状が生成されるため、スペクトル微細情報符号ィ匕部 208は、この 生成したスペクトル形状と MDCT分析部 203から入力されてくる原信号の MDCT係 数とを比較することにより、スペクトル微細情報を生成することができる。
[0028] 図 3は、本実施の形態に係るスケーラブル符号ィ匕装置 100における予測係数符号 化部 205の主要な構成を示すブロック図である。予測係数符号ィ匕部 205は、乗算器 301、加算器 302、探索部 303及び予測係数符号帳 304を具備する。
[0029] 乗算器 301は、スケールファクタ算出部 202から入力されてくる第 1レイヤ復号信号 のスケールファクタに予測係数符号帳 304から入力されてくる予測係数を乗じた後に 、その乗算結果を加算器 302に入力する。
[0030] 加算器 302は、スケールファクタ算出部 204力 入力されてくる原信号のスケール ファクタ力ゝら、乗算器 301から入力されてくる予測係数を乗じられた第 1レイヤ復号信 号のスケールファクタを減じることにより、誤差信号を生成し、生成した誤差信号を探 索部 303に入力する。
[0031] 探索部 303は、予測係数符号帳 304に対して、その保有する全ての予測係数の候 補を順に乗算器 301に入力するように指示する。そして、探索部 303は、乗算器 301 力 入力されてくる誤差信号を観察して、その誤差が最小となる予測係数を決定し、 決定した予測係数を符号ィ匕して、その符号ィ匕パラメータを多重化部 105に入力する
[0032] 予測係数符号帳 304は、予測係数の候補を保有しており、探索部 303からの指示 に従って予測係数を順に乗算器 301に入力する。
[0033] ここで、原信号のスケールファクタの推定値即ち第 1レイヤ復号信号のスケールファ クタに予測係数を乗じた値を「X,(m)」、第 1レイヤ復号信号のスケールファクタを「Y (m)」、予測係数を「 a (m)」、サブバンド番号を「m」と表記すると、原信号のスケー ルファクタの推定値 X, (m)は、次の「式 1」で算出される。
X' (m) = a (m) XY(m) …(式 1)
[0034] そして、式 1で算出された原信号のスケールファクタの推定値 X, (m)を用いて、探 索部 303は、次の「式 2」で表される誤差 Eが最小となる予測係数 a (m)を決定し、決 定した予測係数を符号ィ匕して、その符号ィ匕パラメータを多重化部 105に出力する。 なお、式 2では、原信号のスケールファクタを「X(m)」と表記する。
E= (X(m) -X' (m) ) 2 …(式 2)
[0035] 図 4に、原信号のスペクトル及び原信号のスケールファクタ(a)と、第 1レイヤ復号信 号のスペクトル及び第 1レイヤ復号信号のスケールファクタ (b)と、の関係の一例を示 す。図 4から明らかなように、原信号のスペクトルと第 1レイヤ復号信号のスペクトルと は微細な部分で相違するものの、これらをスケールファクタで比較すると、ほぼ同様 の形状を持つことから、これらのスケールファクタ同士では相関が強いと言える。つま り、スケールファクタに代表されるスペクトル概形情報に着目して予測を行えば、スぺ タトル微細情報に着目して予測を行うよりも、符号ィ匕効率の改善効果が高い。よって 、第 1レイヤ復号信号のスケールファクタと予測係数とを用いれば、原信号のスケー ルファクタを高精度で生成できることが判る。なお、図 4に記載の原信号のスペクトル と第 1レイヤ復号信号のスペクトルとは、 MDCT係数のスペクトル振幅を算出してプロ ットしたちのである。
[0036] 図 5は、本実施の形態に係るスケーラブル復号装置 500の主要な構成を示すプロ ック図である。スケーラブル復号装置 500は、分離部 501、第 1レイヤ復号ィ匕部 502 及び第 2レイヤ復号化部 503を具備する。
[0037] 分離部 501は、スケーラブル符号ィ匕装置 100から送信されてくるビットストリームを 分離して、第 1レイヤ符号化パラメータを第 1レイヤ復号ィ匕部 502に入力し、一方で予 測係数の符号ィ匕パラメータとスペクトル微細情報の符号化パラメータとを第 2レイヤ復 号ィ匕部 503に入力する。
[0038] 第 1レイヤ復号ィ匕部 502は、分離部 501から入力されてくる第 1レイヤ符号ィ匕パラメ 一タカ 第 1レイヤ復号信号を生成し、この第 1レイヤ復号信号を第 2レイヤ復号ィ匕部 503に入力する。また、この第 1レイヤ復号信号は、直接スケーラブル復号装置 500 の外部にも出力される。これにより、第 1レイヤ復号ィ匕部 502で生成される第 1レイヤ 復号信号を出力する必要が生じた場合には、この出力を利用することができる。
[0039] 第 2レイヤ復号ィ匕部 503は、分離部 501から入力されてくる符号ィ匕パラメータと第 1 レイヤ復号ィ匕部 502から入力されてくる第 1レイヤ復号信号とに対して、後述する復 号化処理を施し、第 2レイヤ復号信号を生成して出力する。なお、第 1レイヤ復号信 号によって再生音声の最低限の品質が担保され、第 2レイヤ復号信号によって再生 音声の品質を高めることができる。また、第 2レイヤ復号信号が用いられる力否かは、 アプリケーションの設定等に依存する。
[0040] 図 6は、本実施の形態に係るスケーラブル復号装置 500における第 2レイヤ復号ィ匕 部 503の主要な構成を示すブロック図である。第 2レイヤ復号ィ匕部 503は、予測係数 復号化部 601、 MDCT分析部 602、スペクトル微細情報復号ィ匕部 605、復号スぺク トル生成部 606及び時間領域変換部 607を具備する。
[0041] 予測係数復号ィ匕部 601は、分離部 501から入力されてくる符号ィ匕パラメータを予測 係数に復号し、復号した予測係数を復号スペクトル生成部 606に入力する。
[0042] MDCT分析部 602は、第 1レイヤ復号化部 502から入力されてくる時間領域信号 である第 1レイヤ復号信号に対して変形離散コサイン変換 (MDCT)による周波数変 換を施して MDCT係数を算出し、算出した第 1レイヤ復号信号の MDCT係数を復 号スペクトル生成部 606に入力する。
[0043] スペクトル微細情報復号ィ匕部 605は、分離部 501から入力されてくる符号化パラメ 一タを復号してスペクトル微細情報を生成し、生成したスペクトル微細情報を復号ス ベクトル生成部 606に入力する。
[0044] 復号スペクトル生成部 606は、予測係数復号ィ匕部 601から入力されてくる復号した 予測係数と、スペクトル微細情報復号ィ匕部 605から入力されてくるスペクトル微細情 報と、 MDCT分析部 602から入力されてくる第 1レイヤ復号信号の MDCT係数と、 力 原信号の復号スペクトルを生成し、生成した原信号の復号スペクトルを時間領域 変換部 607に入力する。例えば、復号スペクトル生成部 606は、原信号の復号スぺ タトル U (k)を次の「式 3」を用いて算出する。
[数 1]
U{k) = C{k) + ' ( ) · B{k)…(式 3)
[0045] ここで、式 3にお!/、て、「C (k)」はスペクトル微細情報、「 α,(m)」は第 mサブバンド の復号した予測係数、「B (k)」は第 1レイヤ復号信号の MDCT係数を表し、「k」は第 mサブバンドに含まれる周波数を表す。
[0046] 時間領域変換部 607は、復号スペクトル生成部 606から入力されてくる復号スぺク トルを時間領域の信号に変換した後、変換後の信号に対して必要に応じて適切な窓 掛けや重ね合わせ加算等の処理を施してフレーム間に生じる不連続を解消すること により、最終的に第 2レイヤ復号信号を生成して出力する。
[0047] このように、原信号のスケールファクタと第 1レイヤ復号信号のスケールファクタとの 間には強 、相関があり、また第 1レイヤ復号信号のスケールファクタに予測係数を乗 じれば、原信号のスケールファクタを高い精度で生成することができる。さらに、この 予測係数の符号ィ匕パラメータのデータ量は、従来技術における原信号から第 1レイ ャ復号信号を減じることによって生成した誤差信号の符号ィ匕パラメータのデータ量に 比べて著しく少ない。
[0048] そこで、本実施の形態では、スケーラブル符号ィ匕装置 100が、第 1レイヤ符号化パ ラメータと共に、この第 1レイヤ符号化パラメータに由来する予測係数の符号ィ匕パラメ ータをスケーラブル復号装置 500に送信するようにした。
[0049] 従って、本実施の形態によれば、スケーラブル符号ィ匕装置 100が音声信号をスケ ーラブル符号化してスケーラブル復号装置 500に送信する場合に、この音声信号の 送信に要求なビットレートを削減することができる。換言すれば、本実施の形態によ れば、音声信号のスケーラブル符号ィ匕において、第 2レイヤの符号ィ匕効率を高めるこ とができる。さらに、本実施の形態によれば、スケーラブル復号装置 500によって再 生される音声の品質を高めることができる。
[0050] なお、本実施の形態に係るスケーラブル符号ィ匕装置 100又はスケーラブル復号装 置 500につ 、て、以下のように変形したり応用したりしてもよ!、。
[0051] 本実施の形態では、予測係数符号ィ匕部 205が、式 2で表される誤差 Eが最小となる 予測係数 a (m)の符号化パラメータを多重化部 105に出力する場合について説明 したが、本発明はこの場合に限定されるものではなぐ例えば予測係数符号化部 20 5力 原信号のスケールファクタ X (m)と第 1レイヤ復号信号のスケールファクタ Y (m) を用いて理想係数 a opt (m)を算出し、この理想係数 a opt (m)を量子化するように してもょ 、。ここで、理想係数 a opt (m)は、次の「式 4」で表される。
a opt (m) = X (m) /Y (m) · · · (式 4)
[0052] 図 7は、この応用例において、予測係数符号ィ匕部 205の代わりに用いられる予測係 数符号ィ匕部 705の主要な構成を示すブロック図である。予測係数符号ィ匕部 705は、 探索部 303、予測係数符号帳 304、理想係数算出部 711及び加算器 712を具備す る。理想係数算出部 711は、スケールファクタ算出部 202から入力されてくる第 1レイ ャ復号信号のスケールファクタ Y(m)と、 MDCT分析部 203から入力されてくる原信 号のスケールファクタ X (m)と、力も式 4により理想係数 a opt (m)を算出し、算出した 理想係数 a opt (m)を加算器 712に入力する。加算器 712は、理想係数算出部 711 から入力されてくる理想係数 ex opt (m)と、予測係数符号帳 304から入力されてくる 予測係数と、の差分を示す誤差信号を生成し、この誤差信号を探索部 303に入力す る。そして、予測係数符号ィ匕部 705は、加算器 712によって生成される誤差信号の 示す差分が最小となる予測係数の符号ィ匕パラメータを多重化部 105に入力する。な お、探索部 303及び予測係数符号帳 304は、予測係数符号化部 205における対応 構成要素と同一の動作を行う構成要素であるため、その説明を省略する。
[0053] また、図 8に、本実施の形態における図 7に示す応用例とは異なる応用例を示す。
図 8は、予測係数符号ィ匕部 205の代わりに用いられる予測係数符号ィ匕部 805の主要 な構成を示すブロック図である。予測係数符号ィ匕部 805は、乗算器 301、加算器 30 2、 815、探索部 303、予測係数符号帳 304及び残差成分符号帳 814を具備する。 残差成分符号帳 814は、残差成分を示す符号帳を保有しており、探索部 303からの 指示に従い、保有する残差成分を順に加算器 815に入力する。加算器 815は、乗算 器 301から入力されてくる予測係数を乗じられた第 1レイヤ復号信号のスケールファ クタに、残差成分符号帳 814から入力されてくる残差成分を加算して、その加算結果 を加算器 302に入力する。そして、予測係数符号ィ匕部 805は、加算器 302において 生成される誤差信号の示す差分が最小となる予測係数と残差成分との組み合わせ を決定し、それらの符号ィ匕パラメータを多重化部 105に入力する。なお、この応用例 について、原信号のスケールファクタの推定値 X,(m)は、第 1レイヤ復号信号のスケ ールファクタ Y(m)、予測係数 a (m)及び残差成分 e (m)を用いて、次の「式 5」で算 出される。
X' (m) = a (m) XY(m) +e (m) …(式 5)
[0054] このように、図 8に示す応用例であれば、誤差信号用の符号が別途必要になりビッ トレートが増加するものの、その一方で原信号のスケールファクタの推定精度が改善 される。
[0055] また、さらに別の応用例として、複数のサブバンドの予測係数 a (m)を一つのベタト ルとみなし、このベクトルに対して、予測係数ベクトル符号帳に含まれる候補の中で 最も適当な候補を探索により決定するようにしてもよい。このようにすれば、複数のサ ブバンドの予測係数 a (m)がーつの符号ィ匕パラメータで表されるようになり、予測係 数 a (m)の符号化パラメータのデータ量が削減され、ビットレートを低下させることが できる。
[0056] また、本実施の形態では、スケーラブル符号ィ匕装置 100が、音声信号の第 1レイヤ 符号化パラメータと第 2レイヤ符号化パラメータとをビットストリームとして出力する場 合について説明した力 本発明はこの場合に限定されるものではなぐ例えばスケー ラブル符号ィ匕装置 100が、音声信号の第 1レイヤ符号ィ匕パラメータと第 2レイヤ符号 ィ匕パラメータとを図示しな 、データ保存部等に蓄積し保存するようにしてもょ 、。
[0057] また、本実施の形態では、探索部 303が、式 2に表される誤差 Eが最小となる予測 係数 a (m)を決定する場合について説明したが、本発明はこの場合に限定されるも のではなぐ例えば探索部 303が次の「式 6」に表されるように対数領域で予測係数 a (m)を探索するようにしてもよい。
[数 2]
E = (log10 Χ(πί)一 log10 X'(m)f…(式 6 )
[0058] また、本実施の形態では、探索部 303が、予測係数符号帳 304の保有する予測係 数 a (m)の全候補を探索する場合について説明したが、本発明はこの場合に限定さ れるものではなぐ例えば探索部 303が予測係数符号帳 304の保有する一部の候補 に限定して探索するようにしてもょ 、。
[0059] (実施の形態 2)
図 9A〜Cに、正弦波信号を高速フーリエ変換(Fast Fourier Transform: FFT)処理 又は MDCT処理を用いてスペクトル分析を行う際に、その分析位置を変えたとき各 処理によって得られるスペクトル振幅の差異を示す。
[0060] ここで、音声信号は、図 9Aに示すように正弦波であるので、そのスペクトルは 1本の 線スペクトルとして表されるはずである。実際に、音声信号を FFT変換してスペクトル 分析した場合には、図 9Bに示すように、その分析位置に関わらず、 1本の線スぺタト ルとして表されることになる。ところが、 MDCTを用いたスペクトル分析では、図 9Cに 示すように、算出されるスペクトルが分析位置に依存して変化する。つまり、 MDCT を用いたスペクトル分析で算出されるスペクトルは、その波形の位相に影響されること になる。そのため、実施の形態 1で示したように、スケールファクタ算出部 202、 204 が MDCT分析部 201、 203から入力されてくる第 1レイヤ復号信号の MDCT係数に 基づ 、てスケールファクタ (スペクトル概形)を生成する場合には、生成されたスケー ルファクタは、その基となったスペクトルを忠実に反映していないおそれがある。
[0061] さらに、実施の形態 1に示すスケーラブル符号ィ匕では、第 1レイヤ符号化パラメータ 及び第 1レイヤ復号信号の生成において量子化が行われるため、この第 1レイヤ符 号化パラメータ又は信号には量子化歪が潜在することになる。従って、実施の形態 1 に示すスケーラブル符号ィ匕では、第 2レイヤ符号ィ匕部 104に入力される原信号と第 1 レイヤ復号信号との位相が同期していないおそれがあり、これは換言すれば、原信 号のスペクトル概形と第 1レイヤ復号信号のスペクトル概形との相関を高める余地が 残されている、ということである。特に、第 1レイヤに CELP方式のような高能率符号ィ匕 法が適用された場合には、このような傾向が強くなる。
[0062] そこで、本発明に係る実施の形態 2では、第 1レイヤに CELP方式のような高能率 符号化法が適用された場合でも、原信号のスペクトル概形と第 1レイヤ復号信号のス ベクトル概形との相関をより高めることのできる手段を講ずる。
[0063] 図 10は、本実施の形態に係るスケーラブル符号ィ匕装置における第 2レイヤ符号ィ匕 部 1004の主要な構成を示すブロック図である。第 2レイヤ符号ィ匕部 1004は、スケー ラブル符号ィ匕装置 100において、第 2レイヤ符号ィ匕部 104の代わりに使用されるもの であって、第 2レイヤ符号ィ匕部 104における MDCT分析部 201とスケールファクタ算 出部 202との間にスペクトル平滑部 1011をさらに具備するものである。従って、第 2 レイヤ符号ィ匕部 1004は第 2レイヤ符号ィ匕部 104の構成要素と同一の機能を有する 構成要素を多く具備するため、このような同一の機能を有する構成要素については、 重複を避けるため、その説明を省略する。
[0064] スペクトル平滑部 1011は、 MDCT分析部 201から入力されてくる第 1レイヤ復号 信号の MDCT係数即ちスペクトルを、分析位置の近傍のスペクトルを用いて平滑ィ匕 し、平滑ィ匕したスペクトルをスケールファクタ算出部 202に入力する。なお、本実施の 形態では、スケールファクタ算出部 202からスペクトル微細情報符号ィ匕部 208に平滑 ィ匕された第 1レイヤ復号信号のスケールファクタが入力されるが、この平滑化された 第 1レイヤ復号信号のスケールファクタは参照用に入力されるものであり、スペクトル 微細情報符号ィ匕部 208の機能は、実施の形態 1におけるそれとほぼ同様である。
[0065] 図 11は、スペクトル平滑部 1011の主要な構成を示すブロック図である。スペクトル 平滑部 1011は、平滑処理部 1121及びエネルギー調整部 1122を具備する。なお、 スペクトル平滑部 1011の動作については、後述する。 [0066] 図 12は、本実施の形態に係るスケーラブル復号装置における第 2レイヤ復号ィ匕部 1203の主要な構成を示すブロック図である。第 2レイヤ復号ィ匕部 1203は、スケーラ ブル復号装置 500において、第 2レイヤ復号ィ匕部 503の代わりに使用されるものであ つて、さらに第 2レイヤ復号ィ匕部 503において、復号スペクトル生成部 606の代わりに 復号スペクトル生成部 1216を具備し、また MDCT分析部 602と復号スペクトル生成 部 606との間にスペクトル平滑部 1212及びスケールファクタ算出部 1213を新たに 具備するものである。また、スペクトル平滑部 1212は、スペクトル平滑部 1011と同様 に、図 11に示す平滑処理部 1121とエネルギー調整部 1122とを具備する。従って、 第 2レイヤ復号ィ匕部 1203は第 2レイヤ復号ィ匕部 503やスペクトル平滑部 1011の構 成要素と同一の機能を有する構成要素を多く具備するため、このような同一の機能を 有する構成要素については、重複を避けるため、その説明を省略する。
[0067] スペクトル平滑部 1011、 1212は、 MDCT分析部 201又は MDCT分析部 602力 ら入力されてくる第 1レイヤ復号信号のスペクトルを平滑ィ匕する際に、着目のスぺタト ルとその近傍のスペクトルの重み付き平均値を算出する。例えば、スペクトル平滑部 1011、 1212における平滑処理部 1121は、次の「式 7」に従ってスペクトルの平滑化 を行う。
[数 3]
Figure imgf000017_0001
[0068] ここで、 S (k)は平滑化前の MDCTスペクトル、 S ' (k)は平滑化後の MDCTスぺク トル、 β (i)は重み係数、 Lは平均を求める範囲を表す。
[0069] 或いは、スペクトル平滑部 1011、 1212は、 MDCT分析部 201又は MDCT分析 部 602から入力されてくる第 1レイヤ復号信号のスペクトルを平滑ィ匕する際に、着目 のスペクトルと、その近傍のスペクトルとの差の平均を算出する。例えば、スペクトル 平滑部 1011、 1212における平滑処理部 1121は、次の「式 8」に従ってスペクトルの 平滑化を行う。
[数 4] S k) = ^l - S2(k) + Y2 - (S(k— 1)一 S(k + 1))2 …(式 8)
[0070] ここで、 γ 1、 γ 2は、重み係数を表す。
[0071] そして、スペクトル平滑部 1011、 1212におけるエネルギー調整部 1122は、平滑 処理部 1121によって平滑ィ匕された第 1レイヤ復号信号のスペクトルを、その平滑ィ匕 の前後でスペクトルエネルギーが一致するように、調整する。
[0072] スケールファクタ算出部 1213は、スケールファクタ算出部 202と同様に機能して、 スペクトル平滑部 1212から入力されてくる平滑ィ匕された第 1レイヤ復号信号の MDC Τ係数に基づいて第 1レイヤ復号信号における各サブバンドのスケールファクタを算 出する。そして、スケールファクタ算出部 1213は、算出した第 1レイヤ復号信号のス ケールファクタを復号スペクトル生成部 1216に入力する。
[0073] 復号スペクトル生成部 1216は、予測係数復号ィ匕部 601から入力されてくる復号さ れた予測係数と、 MDCT分析部 602から入力されてくる第 1レイヤ復号信号の MDC Τ係数と、スケールファクタ算出部 1213から入力されてくる第 1レイヤ復号信号のス ケールファクタと、スペクトル微細情報復号ィ匕部 605から入力されてくるスペクトル微 細情報と、力 原信号の復号スペクトルを生成し、生成した原信号の復号スペクトル を時間領域変換部 607に入力する。例えば、復号スペクトル生成部 1216は、原信号 の復号スペクトル U (k)を次の「式 9」を用いて算出する。
[数 5] ひ ( ) = C(k) + a m) · )… (式 9 )
f m)
[0074] ここで、式 9にお!/、て、「C (k)」はスペクトル微細情報、「 α,(m)」は第 mサブバンド の復号した予測係数、「B (k)」は第 1レイヤ復号信号の MDCT係数を表し、「k」は第 mサブバンドに含まれる周波数を表す。また、「Y(m)」は第 mサブバンドにおける第 1レイヤ復号信号のスケールファクタ、「Z (m)」は第 mサブバンドにおける平滑ィ匕後 の第 1レイヤ復号信号のスケールファクタを表す。
[0075] 図 13の左枠 (A)に、図 9に示す正弦波を 4つの分析位置 phO、 phl、 ph2、 ph3で MDCTを用いたスペクトル分析を行ったときのスペクトルを概念的に示す。図 13の 左枠 (A)に示すスペクトルに対して、スペクトル平滑部 1011又はスペクトル平滑部 1 212が式 7又は式 8に従う平滑ィ匕処理を行うことにより、図 13の右枠 (B)に示すスぺ タトルが算出される。元々、 MDCTを用いるスペクトル分析によって算出されるスぺク トルには、図 13の左枠 (A)に示すようにばらつきが生じている。これに対し、スぺタト ル平滑部 1011又はスペクトル平滑部 1212によって平滑化された後のスペクトルで は、図 13の右枠(B)に示すように、このばらつきが少なくなる。 MDCTを用いるスぺ タトル分析によって算出されるスペクトルのばらつきが少なくなれば、その平滑化され たスペクトルについては、原信号のスペクトル力 大きく乖離してしまう場合が減り、大 局的に見れば原信号のスペクトルがより正確に反映されることになる。
[0076] このように、本実施の形態によれば、スペクトル平滑部 1011又はスペクトル平滑部 1212が、第 1レイヤ復号信号のスペクトルに対してスペクトル平滑ィ匕処理を施すため 、平滑ィ匕後のスペクトル力 算出されるスペクトル概形と、スケールファクタ算出部 20 4によって算出される原信号のスぺ外ル概形と、の相関が一層強くなる。その結果、 本実施の形態によれば、予測係数符号ィ匕部 205での符号ィ匕効率が一層向上する。
[0077] 参考として、図 17に、スケールファクタの量子化性能を計算機シミュレーションによ り算出した結果の一例を示す。図 17に示す例では、各サブバンドのスケールファクタ の予測係数 a (m)は、 4bitのスカラー量子化器を用いて量子化される。また、図 17 に示す例では、量子化前の原信号のスケールファクタ X(m)に対する量子化後のス ケールファクタ X (m)を用いて次の「式 10」に従い SNR(SignaH:o- Noise Ratio)を算
q
出する。
[数 6] 网… (式 1 0 )
Figure imgf000019_0001
[0078] 図 17に示すように、平滑化処理のある場合と無い場合とを比較すると、平滑化処理 のある場合ではクリーン音声で僅かに SNRが低下して 、るものの、オーディオや車 内雑音音声では SNRが大きく改善している。従って全体的にみると、スペクトル平滑 化による効果は大き 、と言える。 [0079] (実施の形態 3)
人間の聴覚特性には、ある信号が聞こえているときに、その信号と周波数の近い音 が耳に入ってきても聞こえ難い、という聴覚マスキング特性がある。そこで、本実施の 形態では、この聴覚マスキング特性を利用して、第 2レイヤ符号化パラメータの構成 要素である予測係数とスペクトル微細情報との符号ィヒ効率の向上を図る。
[0080] 図 14は、本発明の実施の形態 3に係るスケーラブル符号ィ匕装置における第 2レイ ャ符号ィ匕部 1404の主要な構成を示すブロック図である。第 2レイヤ符号ィ匕部 1404 は、実施の形態 2における第 2レイヤ符号ィ匕部 1004において、予測係数符号ィ匕部 2 05の代わりに予測係数符号ィ匕部 1405を、またスペクトル微細情報符号ィ匕部 208の 代わりにスペクトル微細情報符号ィ匕部 1408を、そして新たに聴覚マスキング算出部 1411を具備するものである。従って、第 2レイヤ符号ィ匕部 1404は第 2レイヤ符号ィ匕 部 104、 1004の構成要素と同一の機能を有する構成要素を多く具備するため、この ような同一の機能を有する構成要素については、重複を避けるため、その説明を省 略する。
[0081] 聴覚マスキング算出部 1411は、遅延部 102から入力されてくる原信号について、 そのサブバンド毎に予め規定されている聴覚マスキング T(m)を、予測係数符号ィ匕 部 1405とスペクトル微細情報符号ィ匕部 1408とにそれぞれ通知する。
[0082] 予測係数符号ィ匕部 1405は、聴覚マスキング算出部 1411から通知される聴覚マス キング T(m)と誤差スケールファクタ E (m)との大きさをサブバンド毎に比較し、誤差 スケールファクタ E (m)が聴覚マスキング T(m)を超える場合には、そのサブバンドで 生じている量子化歪が人間の聴覚で知覚されうると判定して、そのサブバンドについ て予測係数を決定して符号ィ匕し、その符号ィ匕パラメータを多重化部 105に入力する 。なお、誤差スケールファクタ E (m)は、原信号のスケールファクタと第 1レイヤ復号信 号のスケールファクタとの差として算出される。また、予測係数符号ィ匕部 1405は、サ ブバンド毎に予測係数を符号ィ匕したか否かを示す情報を符号ィ匕し、その符号化した 情報を多重化部 105に入力して、スケーラブル復号装置 500に送信することが好ま しい。
[0083] スペクトル微細情報符号ィ匕部 1408も、予測係数符号ィ匕部 1405と同様にして、誤 差スケールファクタ E (m)が聴覚マスキング T(m)を超える場合に限り、そのサブバン ドで生じている量子化歪が人間の聴覚で知覚されうると判定して、そのサブバンドに ついてスペクトル微細情報を符号ィ匕して多重化部 105に入力する。また、スペクトル 微細情報符号ィ匕部 1408は、サブバンド毎にスペクトル微細情報を符号ィ匕したカゝ否 かを示す情報を符号化し、その符号ィ匕した情報を多重化部 105に入力して、スケー ラブル復号装置 500に送信することが好ま 、。
[0084] このように、本実施の形態によれば、第 2レイヤ符号ィ匕部 1404が、原信号のサブバ ンド毎に聴覚マスキング効果が有効に奏される状態力判定し、聴覚マスキング効果 が有効に奏される状態のサブバンドについては、予測係数とスペクトル微細情報との 符号ィ匕を行なわないため、音声信号の第 2レイヤ符号ィ匕パラメータの符号ィ匕効率を 改善することができる。その結果、本実施の形態によれば、音声信号のより一層の低 ビットレート化と高音質化とを両立できる。
[0085] なお、本実施の形態にぉ 、て、予測係数符号ィ匕部 1405又はスペクトル微細情報 符号ィ匕部 1408が、聴覚マスキング T(m)と誤差スケールファクタ E (m)をサブバンド 毎に比較して、誤差スケールファクタ E (m)が聴覚マスキング T(m)を超える程度に 応じて、予測係数又はスペクトル微細情報を符号ィ匕する際のビット数を増やして、そ のサブバンドの誤差スケールファクタ E (m)を小さくするようにしてもよい。また、このよ うにする場合も、予測係数符号ィ匕部 1405又はスペクトル微細情報符号ィ匕部 1408は 、サブバンド毎に予測係数又はスペクトル微細情報に配分したビット数を示す情報を 、スケーラブル復号装置 500に送信することが好ま 、。
[0086] なお、本発明に係るスケーラブル符号ィ匕装置について、以下のように変形したり応 用したりしてちよい。
[0087] 本発明に係る各実施の形態では、音声信号を第 1レイヤ(下位レイヤ)と第 2レイヤ( 上位レイヤ)との 2階層でスケーラブル符号ィ匕を行う場合について説明したが、本発 明はこの場合に限定されるものではなぐ例えば 3階層以上でスケーラブル符号ィ匕を 行うようにしてもよい。
[0088] また、本発明において、第 nレイヤにおける信号のサンプリングレートを Fs (n)と表し て、 Fs (n)≤Fs (n+ l)の関係が成り立つように、各レイヤのサンプリングレートを調 節してもよい。つまり、第 1レイヤ符号ィ匕部 101又は第 1レイヤ復号ィ匕部 502における サンプリングレートを、第 2レイヤ符号ィ匕部 104又は第 2レイヤ復号ィ匕部 503における サンプリングレートよりも低く設定してもよい。このようにすれば、帯域スケーラブルを 実現できることから、ネットワークの状況が良いときやユーザの使用している機器の能 力が高いときには、復号信号によって形成される臨場感を一層高めることができる。
[0089] また、本発明の各実施の形態では、 MDCTを用いてスペクトル分析を行う場合に ついて説明したが、本発明はこの場合に限定されるものではなぐ他の方式、例えば DFT、コサイン変換又は Wavelet変換等を用いてスペクトル分析を行うようにしても よい。
[0090] (参考例)
この参考例では、音声信号のスケーラブル符号ィ匕は行わないものの、過去のフレ ームのスケールファクタを使って現フレームのスケールファクタを予測する際に、本発 明の実施の形態 2で用いたように、スペクトル平滑ィ匕処理を用いてスケールファクタの 予測を行う。
[0091] 図 15は、この参考例に係る音声符号化装置 1504の主要な構成を示すブロック図 である。音声符号化装置 1504は、第 2レイヤ符号ィ匕部 1004における MDCT分析 部 203、スケールファクタ算出部 204、予測係数符号ィ匕部 205、予測係数復号化部 206及びスペクトル微細情報符号ィ匕部 208と同一の機能を有する構成要素を具備し 、さらにスペクトル微細情報復号化部 1511、復号スペクトル生成部 1512、バッファ 1 513、スペクトル平滑部 1514及びスケールファクタ算出部 1515を新たに具備する。 また、スペクトル微細情報復号ィ匕部 1511は、第 2レイヤ復号ィ匕部 1203におけるスぺ タトル微細情報復号ィ匕部 605と同様に機能し、復号スペクトル生成部 1512は復号ス ベクトル生成部 1216と、スペクトル平滑部 1514は第 2レイヤ符号ィ匕部 1004におけ るスペクトル平滑部 1011と、スケールファクタ算出部 1515はスケールファクタ算出部 202と、同様に機能する。以下、音声符号ィ匕装置 1504について説明するが、第 2レ ィャ符号ィ匕部 1004及び第 2レイヤ復号ィ匕部 1203の構成要素と同様の機能を有す る構成要素については、重複を避けるため、その説明を省略する。
[0092] ノ ッファ 1513は、復号スペクトル生成部 1512から入力されてくる復号スペクトルを 1フレーム分格納して、新たな復号スペクトルが入力されてくると、格納している前フレ 一ムの復号スペクトルをスペクトル平滑部 1514、スペクトル微細情報符号ィ匕部 208 及び復号スペクトル生成部 1512に入力する。
[0093] 従って、音声符号化装置 1504では、バッファ 1513に格納されている前フレームの 復号スペクトルに対してスペクトル平滑ィ匕が施されてスケールファクタが算出されるこ とになり、その結果、予測係数符号ィ匕部 205では、この前フレームに係るスケールフ ァクタに基づいて現フレームの予測係数が算出されることになる。また、スペクトル微 細情報符号ィ匕部 208と復号スペクトル生成部 1512とでは、前フレームの復号スぺク トルを用いて、スペクトル微細情報の符号化と復号スペクトルの生成とがそれぞれ行 われる。
[0094] 図 16は、この参考例に係る音声復号装置 1603の主要な構成を示すブロック図で ある。音声復号装置 1603は、第 2レイヤ復号ィ匕部 1203における予測係数復号ィ匕部 601、スペクトル微細情報復号ィ匕部 605、復号スペクトル生成部 1216及び時間領域 変換部 607と同一の機能を有する構成要素を具備し、さらにバッファ 1611、スぺタト ル平滑部 1612及びスケールファクタ算出部 1613を新たに具備する。また、スぺタト ル平滑部 1612は第 2レイヤ復号ィ匕部 1203におけるスペクトル平滑部 1212と、スケ ールファクタ算出部 1613はスケールファクタ算出部 1213と、同様に機能する。以下 、音声復号装置 1603について説明するが、第 2レイヤ復号ィ匕部 1203の構成要素と 同様の機能を有する構成要素については、重複を避けるため、その説明を省略する
[0095] バッファ 1611は、復号スペクトル生成部 1216から入力されてくる復号スペクトルを 1フレーム分格納して、新たな復号スペクトルが入力されてくると、格納している前フレ 一ムの復号スペクトルをスペクトル平滑部 1612及び復号スペクトル生成部 1216に 入力する。
[0096] 従って、音声復号装置 1603では、バッファ 1611に格納されている前フレームの復 号スペクトルに対してスペクトル平滑ィ匕が施されてスケールファクタが算出されること になり、その結果、復号スペクトル生成部 1216では、この前フレームに係るスケール ファクタに基づいて現フレームのスケールファクタが予測され、このスケールファクタを 使用して復号することになる。
[0097] ちなみに、復号スペクトル生成部 1216は、原信号の復号スペクトル U (k)を次の「 式 11」を用いて算出する。
[数 7] ひ (ん) = C(k) + a m) - Zp Bprv{k)…(式 11)
Yprv(m)
[0098] ここで、式 11にお!/、て、 「C (k)」はスペクトル微細情報、「 α,(m)」は第 mサブバン ドの復号した予測係数、「Bprv(k)」は前フレームの MDCT係数を表し、「k」は第 m サブバンドに含まれる周波数を表す。また、「Yprv(m)」は第 mサブバンドにおける 前フレームのスケールファクタ、 rzprv(m)」は第 mサブバンドにおける平滑化後の前 フレームのスケールファクタを表す。
[0099] このように、この参考例の構成によれば、スペクトル概形の時間的な相関を利用して 、スペクトル概形の予測を行うため、スケールファクタの符号ィ匕を効率的に行えると共 に、その低ビットレートイ匕を図ることができる。
[0100] 以上、本発明の各実施の形態について説明した。
[0101] 本発明に係るスケーラブル符号化装置等は、上記各実施の形態に限定されず、種 々変更して実施することが可能である。例えば、各実施の形態は、適宜組み合わせ て実施することが可能である。
[0102] 本発明に係るスケーラブル符号化装置およびスケーラブル復号装置は、移動体通 信システムにおける通信端末装置および基地局装置に搭載することが可能であり、こ れにより上記と同様の作用効果を有する通信端末装置、基地局装置、および移動体 通信システムを提供することができる。
[0103] なお、ここでは、本発明をノヽードウエアで構成する場合を例にとって説明したが、本 発明をソフトウェアで実現することも可能である。例えば、本発明に係るスケーラブル 符号ィ匕方法のアルゴリズムをプログラミング言語によって記述し、このプログラムをメ モリに記憶してぉ 、て情報処理手段によって実行させることにより、本発明に係るス ケーラブル符号ィ匕装置と同様の機能を実現することができる。
[0104] また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路 である LSIとして実現される。これらは個別に 1チップ化されても良いし、一部又は全 てを含むように 1チップィ匕されても良い。
[0105] ここでは、 LSIとした力 集積度の違いにより、 IC、システム LSI、スーパー LSI、ゥ ノレ卜ラ LSIと呼称されることちある。
[0106] また、集積回路化の手法は LSIに限るものではなぐ専用回路又は汎用プロセッサ で実現しても良い。 LSI製造後に、プログラムすることが可能な FPGA (Field Program mable Gate Array)や、 LSI内部の回路セルの接続や設定を再構成可能なリコンフィ ギュラブノレ ·プロセッサーを利用しても良 、。
[0107] さらには、半導体技術の進歩又は派生する別技術により LSIに置き換わる集積回 路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積ィ匕を行って も良い。バイオ技術の適応等が可能性としてありえる。
[0108] 本明細書は、 2004年 10月 13日出願の特願 2004— 298942に基づく。この内容 はすべてここに含めておく。
産業上の利用可能性
[0109] 本発明に係るスケーラブル符号ィ匕装置は、第 2レイヤでの符号ィ匕効率を改善すると 共に、第 2レイヤでの符号化パラメータを用いて復号した原信号の品質を向上させる という効果を有し、低ビットレートで、かつ、高い再生音質が要求される移動体通信シ ステム等に有用である。

Claims

請求の範囲
[1] 入力信号を符号ィ匕して下位レイヤ符号ィ匕パラメータを生成する下位レイヤ符号ィ匕 手段と、
前記下位レイヤ符号化パラメータを復号して下位レイヤ復号信号を生成する下位レ ィャ復号化手段と、
前記入力信号に基づいて前記入力信号のスペクトル概形を算出する第 1スペクトル 概形算出手段と、
前記下位レイヤ復号信号に基づいて前記下位レイヤ復号信号のスペクトル概形を 算出する第 2スペクトル概形算出手段と、
前記下位レイヤ復号信号のスペクトル概形力 前記入力信号のスペクトル概形を予 測することにより予測情報を得、この予測情報を符号ィ匕して上位レイヤ符号ィ匕パラメ ータを生成する予測情報符号化手段と、
前記下位レイヤ符号化パラメータと前記上位レイヤ符号化パラメータとを出力する 出力手段と、
を具備するスケーラブル符号ィ匕装置。
[2] 符号化された前記予測情報を復号する予測情報復号化手段と、
前記下位レイヤ復号信号のスペクトル概形と復号された前記予測情報とに基づい て前記入力信号のスペクトル概形を推定し、前記入力信号のスペクトルと前記下位レ ィャ復号信号のスペクトルと推定された前記入力信号のスペクトル概形とに基づいて 前記入力信号のスペクトル概形に表れない前記入力信号のスペクトルの特徴を示す スペクトル微細情報を生成し符号化するスペクトル微細情報符号化手段と、
をさらに具備し、
前記出力手段は、
符号化された前記予測情報及び前記スペクトル微細情報を上位レイヤ符号化パラ メータとして出力する、
ことを特徴とする請求項 1記載のスケーラブル符号ィ匕装置。
[3] 前記第 2スペクトル概形算出手段は、
前記下位レイヤ復号信号に基づいて生成された下位レイヤ復号信号のスペクトル を平滑ィ匕した後に、前記下位レイヤ復号信号のスペクトル概形を算出する、 請求項 1記載のスケーラブル符号化装置。
[4] 前記予測情報符号化手段は、
前記下位レイヤ復号信号のスペクトル概形に乗じられたときに、その乗算結果を前 記入力信号のスペクトル概形に最も近似させる予測係数を符号ィ匕する、
請求項 1記載のスケーラブル符号化装置。
[5] 前記予測情報符号化手段は、
前記下位レイヤ復号信号のスペクトル概形に乗じられたときに、その乗算結果を前 記入力信号のスぺ外ル概形に最も近似させる予測係数が前記入力信号の所定の 周波数帯域毎に複数存在する場合に、前記複数の予測係数をまとめてベクトル量子 化する、
請求項 4記載のスケーラブル符号化装置。
[6] 前記予測情報符号化手段は、
前記入力信号の所定の周波数帯域毎に聴覚マスキング効果が有効に奏されるか 判定し、聴覚マスキング効果が有効に奏されると判定したときに限り、前記下位レイヤ 復号信号のスぺ外ル概形力 前記入力信号のスぺ外ル概形を予測して予測情報 を得、この予測情報を符号ィ匕して上位レイヤ符号ィ匕パラメータを生成する、
請求項 1記載のスケーラブル符号化装置。
[7] 前記予測情報符号化手段は、
前記入力信号の所定の周波数帯域毎に聴覚マスキング効果の有効性を判定し、 判定された有効性の程度に応じて符号ィヒビット数を調節することにより、前記下位レ ィャ復号信号のスペクトル概形力 前記入力信号のスペクトル概形を予測して予測 情報を得、この予測情報を符号ィ匕して上位レイヤ符号ィ匕パラメータを生成する、 請求項 1記載のスケーラブル符号化装置。
[8] 前記下位レイヤ符号ィ匕手段におけるサンプリングレートが、前記第 1スペクトル概形 算出手段におけるサンプリングレートよりも低い、
請求項 1記載のスケーラブル符号化装置。
[9] 入力信号をスケーラブル符号ィ匕するスケーラブル符号ィ匕装置によって生成された 符号化パラメータを復号するスケーラブル復号装置であって、 前記符号化パラメータを復号して下位レイヤ復号信号を生成する下位レイヤ復号 化手段と、
前記符号化パラメータを復号することにより、前記入力信号のスペクトル概形を予測 させる予測情報を生成する予測情報復号化手段と、
前記下位レイヤ復号信号と前記予測情報とに基づいて前記入力信号のスペクトル 概形を生成するスペクトル生成手段と、
を具備するスケーラブル復号装置。
入力信号を符号ィ匕して下位レイヤ符号ィ匕パラメータを生成するステップと、 前記下位レイヤ符号化パラメータを復号して下位レイヤ復号信号を生成するステツ プと、
前記入力信号に基づいて前記入力信号のスペクトル概形を算出するステップと、 前記下位レイヤ復号信号に基づいて前記下位レイヤ復号信号のスペクトル概形を 算出するステップと、
前記下位レイヤ復号信号のスペクトル概形力 前記入力信号のスペクトル概形を予 測することにより予測情報を得、この予測情報を符号ィ匕して上位レイヤ符号ィ匕パラメ ータを生成するステップと、
を具備するスケーラブル符号化方法。
PCT/JP2005/018693 2004-10-13 2005-10-11 スケーラブル符号化装置、スケーラブル復号装置及びスケーラブル符号化方法 WO2006041055A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
US11/576,659 US8010349B2 (en) 2004-10-13 2005-10-11 Scalable encoder, scalable decoder, and scalable encoding method
JP2006540931A JP4606418B2 (ja) 2004-10-13 2005-10-11 スケーラブル符号化装置、スケーラブル復号装置及びスケーラブル符号化方法
EP05793144A EP1801785A4 (en) 2004-10-13 2005-10-11 MODULAR ENCODER, MODULAR DECODER AND MODULATING CODING METHOD
BRPI0518133-0A BRPI0518133A (pt) 2004-10-13 2005-10-11 codificador escalável, decodificador escalável, e método de codificação escalável

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004298942 2004-10-13
JP2004-298942 2004-10-13

Publications (1)

Publication Number Publication Date
WO2006041055A1 true WO2006041055A1 (ja) 2006-04-20

Family

ID=36148347

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2005/018693 WO2006041055A1 (ja) 2004-10-13 2005-10-11 スケーラブル符号化装置、スケーラブル復号装置及びスケーラブル符号化方法

Country Status (7)

Country Link
US (1) US8010349B2 (ja)
EP (1) EP1801785A4 (ja)
JP (1) JP4606418B2 (ja)
KR (1) KR20070070174A (ja)
CN (1) CN101044554A (ja)
BR (1) BRPI0518133A (ja)
WO (1) WO2006041055A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009038158A1 (ja) * 2007-09-21 2009-03-26 Nec Corporation 音声復号装置、音声復号方法、プログラム及び携帯端末
WO2012005212A1 (ja) * 2010-07-05 2012-01-12 日本電信電話株式会社 符号化方法、復号方法、符号化装置、復号装置、プログラム、及び記録媒体

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1887567B1 (en) * 2005-05-31 2010-07-14 Panasonic Corporation Scalable encoding device, and scalable encoding method
CN101199005B (zh) * 2005-06-17 2011-11-09 松下电器产业株式会社 后置滤波器、解码装置以及后置滤波处理方法
CN101273403B (zh) * 2005-10-14 2012-01-18 松下电器产业株式会社 可扩展编码装置、可扩展解码装置以及其方法
JP4969454B2 (ja) * 2005-11-30 2012-07-04 パナソニック株式会社 スケーラブル符号化装置およびスケーラブル符号化方法
US8103516B2 (en) * 2005-11-30 2012-01-24 Panasonic Corporation Subband coding apparatus and method of coding subband
JP5173795B2 (ja) * 2006-03-17 2013-04-03 パナソニック株式会社 スケーラブル符号化装置およびスケーラブル符号化方法
EP1841072B1 (de) * 2006-03-30 2016-06-01 Unify GmbH & Co. KG Verfahren und Einrichtung zum Dekodieren von schichtkodierten Daten
WO2007114291A1 (ja) * 2006-03-31 2007-10-11 Matsushita Electric Industrial Co., Ltd. 音声符号化装置、音声復号化装置、およびこれらの方法
DE602007013026D1 (de) * 2006-04-27 2011-04-21 Panasonic Corp Audiocodierungseinrichtung, audiodecodierungseinrichtung und verfahren dafür
US8560328B2 (en) * 2006-12-15 2013-10-15 Panasonic Corporation Encoding device, decoding device, and method thereof
CN101771417B (zh) * 2008-12-30 2012-04-18 华为技术有限公司 信号编码、解码方法及装置、***
JP5269195B2 (ja) * 2009-05-29 2013-08-21 日本電信電話株式会社 符号化装置、復号装置、符号化方法、復号方法及びそのプログラム
JP5295380B2 (ja) 2009-10-20 2013-09-18 パナソニック株式会社 符号化装置、復号化装置およびこれらの方法
CN103582913B (zh) * 2011-04-28 2016-05-11 杜比国际公司 有效内容分类及响度估计

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002042416A (ja) * 2000-07-28 2002-02-08 Victor Co Of Japan Ltd 音声信号の記録方法、伝送方法、記録装置、伝送装置、記録媒体及び伝送媒体
JP2004093772A (ja) * 2002-08-30 2004-03-25 Sony Corp データ変換方法および装置、データ処理方法および装置、並びにプログラム
JP2004102186A (ja) * 2002-09-12 2004-04-02 Matsushita Electric Ind Co Ltd 音響符号化装置及び音響符号化方法
JP2004523790A (ja) * 2001-01-18 2004-08-05 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン ビットセイビングバンク、エンコーダおよびスケーラブルエンコーダを備えたスケーラブルデータストリームを生成する方法と装置および復号化する方法と装置

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA1197619A (en) * 1982-12-24 1985-12-03 Kazunori Ozawa Voice encoding systems
US5388181A (en) * 1990-05-29 1995-02-07 Anderson; David J. Digital audio compression system
US5317672A (en) * 1991-03-05 1994-05-31 Picturetel Corporation Variable bit rate speech encoder
JP3395311B2 (ja) * 1993-02-03 2003-04-14 ソニー株式会社 双方向レートコンバータ及び撮像装置
US5764698A (en) * 1993-12-30 1998-06-09 International Business Machines Corporation Method and apparatus for efficient compression of high quality digital audio
US5684920A (en) * 1994-03-17 1997-11-04 Nippon Telegraph And Telephone Acoustic signal transform coding method and decoding method having a high efficiency envelope flattening method therein
TW271524B (ja) * 1994-08-05 1996-03-01 Qualcomm Inc
DE69619284T3 (de) * 1995-03-13 2006-04-27 Matsushita Electric Industrial Co., Ltd., Kadoma Vorrichtung zur Erweiterung der Sprachbandbreite
JP3481027B2 (ja) * 1995-12-18 2003-12-22 沖電気工業株式会社 音声符号化装置
US6345246B1 (en) * 1997-02-05 2002-02-05 Nippon Telegraph And Telephone Corporation Apparatus and method for efficiently coding plural channels of an acoustic signal at low bit rates
US6167375A (en) * 1997-03-17 2000-12-26 Kabushiki Kaisha Toshiba Method for encoding and decoding a speech signal including background noise
US6064954A (en) * 1997-04-03 2000-05-16 International Business Machines Corp. Digital audio signal coding
KR100198476B1 (ko) * 1997-04-23 1999-06-15 윤종용 노이즈에 견고한 스펙트럼 포락선 양자화기 및 양자화 방법
JP3134817B2 (ja) * 1997-07-11 2001-02-13 日本電気株式会社 音声符号化復号装置
US6792542B1 (en) * 1998-05-12 2004-09-14 Verance Corporation Digital system for embedding a pseudo-randomly modulated auxiliary data sequence in digital samples
US6675140B1 (en) * 1999-01-28 2004-01-06 Seiko Epson Corporation Mellin-transform information extractor for vibration sources
US6226616B1 (en) * 1999-06-21 2001-05-01 Digital Theater Systems, Inc. Sound quality of established low bit-rate audio coding systems without loss of decoder compatibility
US6446037B1 (en) * 1999-08-09 2002-09-03 Dolby Laboratories Licensing Corporation Scalable coding method for high quality audio
JP2005509928A (ja) * 2001-11-23 2005-04-14 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ信号帯域幅拡張
KR100908114B1 (ko) * 2002-03-09 2009-07-16 삼성전자주식회사 스케일러블 무손실 오디오 부호화/복호화 장치 및 그 방법
WO2003091989A1 (en) * 2002-04-26 2003-11-06 Matsushita Electric Industrial Co., Ltd. Coding device, decoding device, coding method, and decoding method
FR2852172A1 (fr) 2003-03-04 2004-09-10 France Telecom Procede et dispositif de reconstruction spectrale d'un signal audio

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002042416A (ja) * 2000-07-28 2002-02-08 Victor Co Of Japan Ltd 音声信号の記録方法、伝送方法、記録装置、伝送装置、記録媒体及び伝送媒体
JP2004523790A (ja) * 2001-01-18 2004-08-05 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン ビットセイビングバンク、エンコーダおよびスケーラブルエンコーダを備えたスケーラブルデータストリームを生成する方法と装置および復号化する方法と装置
JP2004093772A (ja) * 2002-08-30 2004-03-25 Sony Corp データ変換方法および装置、データ処理方法および装置、並びにプログラム
JP2004102186A (ja) * 2002-09-12 2004-04-02 Matsushita Electric Ind Co Ltd 音響符号化装置及び音響符号化方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP1801785A4 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009038158A1 (ja) * 2007-09-21 2009-03-26 Nec Corporation 音声復号装置、音声復号方法、プログラム及び携帯端末
JPWO2009038158A1 (ja) * 2007-09-21 2011-01-06 日本電気株式会社 音声復号装置、音声復号方法、プログラム及び携帯端末
WO2012005212A1 (ja) * 2010-07-05 2012-01-12 日本電信電話株式会社 符号化方法、復号方法、符号化装置、復号装置、プログラム、及び記録媒体
JP5337305B2 (ja) * 2010-07-05 2013-11-06 日本電信電話株式会社 符号化方法、復号方法、符号化装置、復号装置、プログラム、及び記録媒体
US8711012B2 (en) 2010-07-05 2014-04-29 Nippon Telegraph And Telephone Corporation Encoding method, decoding method, encoding device, decoding device, program, and recording medium

Also Published As

Publication number Publication date
EP1801785A4 (en) 2010-01-20
CN101044554A (zh) 2007-09-26
BRPI0518133A (pt) 2008-10-28
US8010349B2 (en) 2011-08-30
JP4606418B2 (ja) 2011-01-05
EP1801785A1 (en) 2007-06-27
KR20070070174A (ko) 2007-07-03
JPWO2006041055A1 (ja) 2008-05-15
US20070253481A1 (en) 2007-11-01

Similar Documents

Publication Publication Date Title
US7769584B2 (en) Encoder, decoder, encoding method, and decoding method
JP4606418B2 (ja) スケーラブル符号化装置、スケーラブル復号装置及びスケーラブル符号化方法
US7983904B2 (en) Scalable decoding apparatus and scalable encoding apparatus
US8099275B2 (en) Sound encoder and sound encoding method for generating a second layer decoded signal based on a degree of variation in a first layer decoded signal
JP5036317B2 (ja) スケーラブル符号化装置、スケーラブル復号化装置、およびこれらの方法
JP5413839B2 (ja) 符号化装置および復号装置
JPWO2009057329A1 (ja) 符号化装置、復号装置およびこれらの方法
US20100017199A1 (en) Encoding device, decoding device, and method thereof
US20100017197A1 (en) Voice coding device, voice decoding device and their methods
JPWO2008132850A1 (ja) ステレオ音声符号化装置、ステレオ音声復号装置、およびこれらの方法
WO2011045926A1 (ja) 符号化装置、復号装置およびこれらの方法
JP5774490B2 (ja) 符号化装置、復号装置およびこれらの方法

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KM KP KR KZ LC LK LR LS LT LU LV LY MA MD MG MK MN MW MX MZ NA NG NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SM SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LT LU LV MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2006540931

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 2005793144

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 11576659

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 505/MUMNP/2007

Country of ref document: IN

WWE Wipo information: entry into national phase

Ref document number: 200580035066.3

Country of ref document: CN

Ref document number: 1020077008457

Country of ref document: KR

NENP Non-entry into the national phase

Ref country code: DE

WWP Wipo information: published in national office

Ref document number: 2005793144

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 11576659

Country of ref document: US

ENP Entry into the national phase

Ref document number: PI0518133

Country of ref document: BR