WO2006118178A1 - 音声符号化装置および音声符号化方法 - Google Patents

音声符号化装置および音声符号化方法 Download PDF

Info

Publication number
WO2006118178A1
WO2006118178A1 PCT/JP2006/308811 JP2006308811W WO2006118178A1 WO 2006118178 A1 WO2006118178 A1 WO 2006118178A1 JP 2006308811 W JP2006308811 W JP 2006308811W WO 2006118178 A1 WO2006118178 A1 WO 2006118178A1
Authority
WO
WIPO (PCT)
Prior art keywords
channel
signal
prediction
intra
monaural
Prior art date
Application number
PCT/JP2006/308811
Other languages
English (en)
French (fr)
Inventor
Koji Yoshida
Original Assignee
Matsushita Electric Industrial Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co., Ltd. filed Critical Matsushita Electric Industrial Co., Ltd.
Priority to US11/912,357 priority Critical patent/US8433581B2/en
Priority to DE602006014957T priority patent/DE602006014957D1/de
Priority to EP06745739A priority patent/EP1876585B1/en
Priority to JP2007514798A priority patent/JP4850827B2/ja
Priority to CN2006800142383A priority patent/CN101167124B/zh
Priority to KR1020077024701A priority patent/KR101259203B1/ko
Publication of WO2006118178A1 publication Critical patent/WO2006118178A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques

Definitions

  • the present invention relates to a speech coding apparatus and speech coding method, and more particularly to a speech coding apparatus and speech coding method for stereo speech.
  • a voice coding scheme having a scalable configuration is desired in order to control traffic on the network and realize multicast communication.
  • a scalable configuration is a configuration in which speech data can be decoded even with a partial code and data power on the receiving side.
  • mono-rural stereo can be selected by allowing the receiving side to perform decoding of a stereo signal and decoding of a monaural signal using a part of the encoded data. Coding with a scalable configuration between them (monaural stereo 'scalable configuration) is desired.
  • Non-Patent Document 1 when the correlation between both channels is small, the prediction performance (prediction gain) between channels decreases, and the coding is performed. Efficiency is degraded.
  • An object of the present invention is to provide a speech encoding apparatus and speech encoding method capable of efficiently encoding stereo speech in a speech code having a monaural / stereo configuration. It is.
  • the speech coding apparatus of the present invention includes first coding means for performing core layer coding for monaural signals, and second coding for performing enhancement layer coding for stereo signals. And the first encoding means generates a monaural signal from the first channel signal and the second channel signal constituting the stereo signal, and the second encoding means Of the first channel and the second channel, a configuration is employed in which a prediction signal generated by intra-channel prediction of a channel having a higher intra-channel correlation is used to perform code coding for the first channel.
  • stereo sound can be efficiently encoded.
  • FIG. 1 is a block diagram showing a configuration of a speech encoding apparatus according to Embodiment 1 of the present invention.
  • FIG. 2 is an operation flow diagram of an enhancement layer code key unit according to Embodiment 1 of the present invention.
  • FIG. 3 is an operation conceptual diagram of an enhancement layer code key section according to Embodiment 1 of the present invention.
  • FIG. 4 is an operation conceptual diagram of an enhancement layer code key section according to Embodiment 1 of the present invention.
  • FIG. 5 is a block diagram showing the configuration of the speech decoding apparatus according to Embodiment 1 of the present invention.
  • FIG. 6 is a block diagram showing a configuration of a speech coding apparatus according to Embodiment 2 of the present invention.
  • FIG. 7 is a block diagram showing a configuration of an IchCELP code key unit according to Embodiment 2 of the present invention.
  • FIG. 8 is an operation flow diagram of the IchCELP code key unit according to Embodiment 2 of the present invention. Best mode for carrying out
  • a speech coding apparatus 100 shown in FIG. 1 includes a core layer coding unit 200 for monaural signals and an enhancement layer coding unit 300 for stereo signals. In the following description, the operation is assumed to be performed in units of frames.
  • the monaural signal encoding unit 202 performs encoding for the monaural signal s_mono (n), and outputs the encoding signal data of the monaural signal to the monaural signal decoding unit 203. Also, the code signal data of the monaural signal is multiplexed with the quantized code, the encoded data, and the selection information output from the enhancement layer code key unit 300, and is used as audio data to be described later as encoded data. Is transmitted to the signal device.
  • the monaural signal decoding unit 203 generates a monaural signal code data power monaural decoded signal and outputs the monaural decoded signal to the enhancement layer coding unit 300.
  • inter-channel prediction parameter analysis section 301 calculates a prediction parameter (inter-channel prediction parameter) of the l-channel audio signal for the monaural signal from the first channel audio signal and the monaural decoded signal. Is quantized and output to the inter-channel prediction unit 302.
  • inter-channel prediction parameter analysis section 301 obtains the delay difference (D sample) and amplitude ratio (g) of the l-th speech signal relative to the monaural signal (monaural decoded signal) as the inter-channel prediction parameters.
  • the inter-channel prediction parameter analysis unit 301 outputs an inter-channel prediction parameter quantized code obtained by quantizing and encoding the inter-channel prediction parameter.
  • This inter-channel prediction parameter quantization code is multiplexed with other quantization codes, encoded data, and selection information, and transmitted as code data to a speech decoding apparatus to be described later.
  • the inter-channel prediction unit 302 uses the quantized inter-channel prediction parameter to also predict the lch signal in monaural decoding signal power, and subtracts the lch prediction signal (inter-channel prediction) by the subtractor 303 and Output to the l-th prediction residual signal sign key section 308.
  • inter-channel prediction unit 302 the prediction of the formula (2), from the decoded monaural signal sd_m ono (n), synthesized the 1 ch prediction signal S P_chl a (n).
  • Correlation level comparison section 304 calculates the intra-channel correlation of the lch audio signal power (correlation between the past signal in the lch and the current signal) and outputs the second channel audio signal 2c from the second channel audio signal.
  • Calculate the intra-channel correlation of h (the degree of correlation between the past signal and the current signal in channel 2).
  • the intra-channel correlation of each channel for example, the normal maximum autocorrelation coefficient value for the corresponding audio signal, the pitch prediction gain value for the corresponding audio signal, the corresponding audio signal power, and the normal for the LPC prediction residual signal obtained
  • the maximum autocorrelation coefficient value Corresponding speech signal power The pitch prediction gain value for the required LPC prediction residual signal can be used.
  • Correlation degree comparison section 304 compares the intra-channel correlation of the lch and the intra-channel correlation of the second ch, and selects a channel having a larger correlation. Selection information indicating the result of this selection is output to selection sections 305 and 306. Also, this selection information is multiplexed with the quantized code and the encoded data, and transmitted as encoded data to the audio decoding device to be described later.
  • the l-ch intra prediction unit 307 performs the l-ch ch by intra-channel prediction on the lch from the l-ch speech signal and the l-ch decoded signal input from the l-ch prediction residual signal encoding unit 308. The signal is predicted, and this l-th channel prediction signal is output to the selection unit 305.
  • intra lch prediction unit 303 outputs the lch intra channel prediction parameter quantization code obtained by quantizing the intra channel prediction parameter necessary for intra channel prediction in lch to selection unit 306. . Details of intra-channel prediction will be described later.
  • Second channel signal generation section 309 is represented by the above equation from the monaural decoding signal input from monaural signal decoding section 203 and the first channel decoded signal input from first channel prediction residual signal code section 308. Based on the relationship of (1), the 2nd channel decoded signal is generated. That is, second channel signal generation section 309 generates second channel decoded signal S d_ch2 (n) from monaural decoded signal sd_mono (n) and lth channel decoded signal sd_chl (n) according to equation (3). To the second channel prediction unit 310.
  • the second channel prediction unit 310 predicts the second channel signal from the second channel speech signal and the second channel decoded signal by intra channel prediction on the second channel, and uses the second channel prediction signal as the first channel signal. Output to the generator 311.
  • second channel intra prediction section 310 outputs to channel selection section 306 the second channel intra channel prediction parameter quantization code obtained by quantization of intra channel prediction parameters required for intra channel prediction in second channel. Details of intra-channel prediction will be described later.
  • the lch signal generation unit 311 is input from the second channel prediction signal and the monaural signal decoding unit 203. Based on the monaural decoded signal, the 1st channel prediction signal is generated based on the relationship of the above equation (1). That is, the lch signal generation unit 311 generates and selects the lch predicted signal s_chl_p (n) from the monaural decoded signal sd_m ono (n) and the 2nd channel predicted signal s_ch2_p (n) according to Equation (4). Output to part 30-5.
  • the selection unit 305 outputs the lch prediction signal output from the lch intra prediction unit 307 or the lch prediction output from the lch signal generation unit 311.
  • the signal! / I s selected and output to the subtracter 303 and the l-th prediction residual signal encoding unit 308.
  • the selection unit 305 outputs the first channel output from the intra-lch prediction unit 307.
  • the correlation comparison unit 304 When the lch prediction signal is selected and the second channel is selected by the correlation comparison unit 304 (that is, when the intra-channel correlation of the first channel is equal to or smaller than the intra-channel correlation of the second channel), it is output from the first channel signal generator 311. Select the first lch prediction signal.
  • Selection section 306 receives from lch intra-channel prediction parameter quantization code output from intra lch intra prediction section 307 or second intra channel prediction section 310 according to the selection result in correlation comparison section 304. Select one of the output channel 2 intra-channel prediction parameter quantization codes and output it as the intra-channel prediction parameter quantization code.
  • This intra-channel prediction parameter quantization code is multiplexed with other quantization codes, encoded data and selection information, and transmitted as encoded data to a speech decoding apparatus to be described later.
  • selecting section 306 when correlation level comparing section 304 selects lch (that is, when the intrachannel correlation of lch is larger than intrachannel correlation of 2ch), When the intra-channel prediction parameter quantization code for the l-th channel output from the intra-prediction unit 307 is selected and the second channel is selected by the correlation comparison unit 304 (that is, the intra-channel correlation of the l-channel is the second channel) In the case of the inner correlation or less), the second channel intra-channel prediction parameter quantization code output from the second channel intra prediction unit 310 is selected.
  • the subtractor 303 is a residual signal (the lch prediction residual signal) between the lch speech signal and the lch prediction signal that are input signals, that is, the lch prediction that is output from the inter-channel prediction unit 302.
  • the remaining signal obtained by subtracting the signal and the l-th channel prediction signal output from the selection unit 305 from the l-channel audio signal is obtained and output to the l-channel prediction residual signal code unit 308.
  • First lch prediction residual signal code key section 308 outputs lth prediction residual encoded data obtained by encoding the lch prediction residual signal.
  • This l-th channel prediction residual encoded data is multiplexed with other encoded data, a quantized code and selection information, and transmitted as encoded data to a speech decoding apparatus to be described later.
  • the l-th channel prediction residual signal encoding unit 308 receives a signal obtained by decoding the l-channel prediction residual encoded data, the l-th prediction signal output from the inter-channel prediction unit 302, and the selection unit 305. The output of the lch prediction signal is added to obtain the lch decoded signal, and this lch decoded signal is output to the intra lch prediction unit 307 and the second ch signal generation unit 309.
  • the intra-lch intra prediction unit 307 and the second intra-channel prediction unit 310 use the correlation of signals in each channel, and the channel that predicts the signal of the target frame with the past signal power as well. Make an internal prediction.
  • the signal of each channel predicted by intra-channel prediction is expressed by Equation (5).
  • Sp (n) is the predicted signal of each channel
  • s (n) is the decoded signal (the 1st channel decoded signal or the 2nd channel decoded signal) of each channel.
  • T and gp are the lag and prediction coefficient of the first-order pitch prediction filter obtained from the decoded signal of each channel and the input signal of each channel (the 1st channel audio signal or the 2nd channel audio signal).
  • the intra-channel correlation corl of the lch and the intra-channel correlation cor2 of the second ch are calculated (ST11).
  • corl and cor2 are compared (ST12), and the channel with the higher degree of intra-channel correlation In-channel prediction is used.
  • the l-th channel prediction signal obtained by performing intra-channel prediction on the l-th channel is selected as the target of coding.
  • the l-th lch signal 22 of the n-th frame is predicted from the n-th 1-th frame lch decoded signal 21 according to the above equation (5) (ST13).
  • the predicted lch prediction signal 22 is output from the selection unit 305 as a sign target (ST17).
  • the lch signal is directly predicted from the lch decode signal.
  • the second channel decoded signal is generated (ST14), and intra channel prediction is performed on the second channel to obtain the second channel predicted signal (ST15).
  • the 1st channel prediction signal is obtained from the 2nd channel prediction signal and the monaural decoded signal (ST16), and the 1st channel prediction signal obtained in this way is output from the selection unit 305 as a code target (ST17).
  • ST17 code target
  • the second channel signal 34 of the nth frame is predicted from the second channel decoded signal 33 of the (n ⁇ 1) th frame according to the above equation (5).
  • an n-th frame l-channel prediction signal 36 is generated according to the above equation (4).
  • the l-th channel prediction signal 36 predicted in this way is selected as an encoding target. In other words, in the case of C Orl ⁇ cor2, from the first 2ch prediction signal and the monaural decoded signal, it predicts the first lch signal indirectly.
  • Speech decoding apparatus 400 shown in FIG. 5 includes core layer decoding section 410 for monaural signals and enhancement layer decoding section 420 for stereo signals.
  • the monaural signal decoding unit 411 decodes the encoded data of the input monaural signal, outputs the monaural decoded signal to the enhancement layer decoding unit 420, and outputs it as a final output.
  • Inter-channel prediction parameter decoding section 421 decodes the input inter-channel prediction parameter quantization code and outputs the decoded inter-channel prediction parameter quantization code to inter-channel prediction section 422.
  • the inter-channel prediction unit 422 also predicts the lch signal with monaural decoding signal power using the quantized inter-channel prediction parameter, and sends this lch prediction signal (inter-channel prediction) to the adder 423. Output.
  • the inter-channel prediction unit 422 synthesizes the l-th channel prediction signal sp_chl (n) from the monaural decoded signal sd_mono (n) by the prediction expressed by the above equation (2).
  • First channel prediction residual signal decoding section 424 decodes input first channel prediction residual code signal data and outputs the decoded data to adder 423.
  • Adder 423 outputs the lch prediction signal output from inter-channel prediction section 422, the lch prediction residual signal output from lch prediction residual signal decoding section 424, and selection section 426.
  • the lch decoded signal is added to obtain the lch decoded signal, and this lch decoded signal is output to the intra lch predicting unit 425 and the second ch signal generating unit 427 and output as the final output. To do.
  • the intra lch prediction unit 425 predicts the lch signal by the same intra channel prediction from the lch decoded signal and the lch intra-channel prediction parameter quantization code, and this lch h The prediction signal is output to the selection unit 426.
  • Second channel signal generation section 427 generates a second channel decoded signal from the monaural decoded signal and the first channel decoded signal according to the above equation (3), and outputs the second channel decoded signal to intra-second channel prediction section 428.
  • the second channel intra prediction unit 428 predicts the second channel signal by the same intra channel prediction from the second channel decoded signal and the second channel intra channel prediction parameter quantization code, and this second channel.
  • the prediction signal is output to the l-th channel signal generation unit 429.
  • the lch signal generation unit 429 generates the lch prediction signal from the monaural decoded signal and the 2ch prediction signal according to the above equation (4), and outputs the lch prediction signal to the selection unit 426.
  • Selection unit 426 selects either the l-th channel prediction signal output from intra-l-ch prediction unit 425 or the l-channel prediction signal output from l-ch signal generation unit 429 according to the selection result indicated by the selection information. Is selected and output to the adder 423.
  • selection section 426 receives from intra lch prediction section 425.
  • the 1st channel signal Generator 429 Selects the l-th channel prediction signal to be output.
  • audio decoding apparatus 400 employing such a configuration, in a monaural-stereo 'scalable configuration, when the output audio is monaural, a decoded signal obtained only from the code signal data of the monaural signal is monaurally decoded. When output as a signal and the output sound is stereo, all the received code data and quantized code are used to decode and output the lch decoded signal and the 2ch ch decoded signal.
  • the force enhancement layer code key unit 300 that describes the configuration in which the inter channel prediction parameter analysis unit 301 and the inter channel prediction unit 302 are provided in the enhancement layer code key unit 300 has these components. It is also possible to adopt a configuration that does not. In this case, the enhancement layer code key unit 300 directly inputs the monaural decoded signal output from the core layer code key unit 200 to the subtracter 303, and the subtractor 303 converts the monaural decoded signal and the monaural decoded signal from the lch speech signal. A prediction residual signal is obtained by subtracting the lch prediction signal.
  • the 1st ch prediction signal directly obtained by intra-channel prediction at the 1st ch or the intra-channel prediction at the 2nd ch
  • the second channel prediction signal power obtained was selected either indirectly from the first channel prediction signal (indirect prediction), but the intra channel prediction error of the first channel, which is the target channel (ie, the input signal)
  • the error of the lch prediction signal with respect to a certain lch speech signal may be selected.
  • code enhancement is performed in the enhancement layer using both first channel prediction signals, and the resulting code distortion is smaller. You can select the lch prediction signal.
  • FIG. 6 shows the configuration of speech coding apparatus 500 according to the present embodiment.
  • the monaural signal generation unit 511 generates a monaural signal according to the above equation (1) and outputs the monaural signal to the monaural signal CELP coding unit 512.
  • Monaural signal CELP code key unit 512 performs CELP code processing on the monaural signal generated by monaural signal generation unit 511, and obtains the monaural signal code key data and CELP code key. Output a monaural drive sound source signal.
  • the monaural signal encoded data is output to the monaural signal decoding unit 513, multiplexed with the l-th code data, and transmitted to the speech decoding apparatus.
  • the monaural driving sound source signal is held in the monaural driving sound source signal holding unit 521.
  • the monaural signal decoding unit 513 generates a monaural decoded signal with respect to the code signal power of the monaural signal, and outputs it to the monaural decoded signal holding unit 522.
  • the monaural decoded signal is held in the monaural decoded signal holding unit 522.
  • Ich CELP code key unit 523 performs CELP code keying on the lch audio signal and outputs lch code key data.
  • the Ich CELP code input unit 523 receives the monaural signal code key data, the monaural decoded signal, the monaural driving excitation signal, the second channel audio signal, and the second channel decoded signal input from the second channel signal generation unit 525. It is used to predict the driving sound source signal corresponding to the lch audio signal and to perform CELP coding on the prediction residual component.
  • the Ich CELP encoding unit 523 switches the codebook for performing the adaptive codebook search based on the intra-channel correlation of each channel of the stereo signal in the CELP excitation coding for the prediction residual component (that is, the coding Switch the channel for the intra-channel prediction used for the above). Details of the IchCELP code key section 523 will be described later.
  • the lch decoding unit 524 decodes the lch code key data to obtain the lch decoded signal, and outputs the lch decoded signal to the second channel signal generation unit 525.
  • Second channel signal generation section 525 generates a second channel decoded signal from the monaural decoded signal and the first channel decoded signal according to the above equation (3) and outputs the second channel decoded signal to first Ich CELP code encoding section 523.
  • IchCELP code key unit 523 The configuration of IchCELP encoding unit 523 is shown in FIG.
  • the Ich LPC analysis unit 601 performs LPC analysis on the lch speech signal V, and quantizes the obtained LPC parameters to generate an Ich LPC prediction residual signal generation unit 602 and a synthesis filter 615. And the first ch LPC quantized code is output as the first ch encoded data.
  • the IchLPC analysis unit 601 uses the fact that the LPC parameter for the monaural signal and the LPC parameter (the IchLPC parameter) that can also obtain the lch speech signal power are highly correlated when the LPC parameter is quantized. The detaka also decodes the monaural signal quantization LPC parameter and quantizes the differential component of the Ich LPC parameter for that monaural signal quantization LPC meter to perform efficient quantization.
  • First Ich LPC prediction residual signal generation section 602 calculates an LPC prediction residual signal for the first ch speech signal using the first ch quantized LPC parameter and outputs it to inter-channel prediction parameter analysis section 603.
  • the inter-channel prediction parameter analysis unit 603 obtains and quantizes the prediction parameter (inter-channel prediction parameter) of the l-th speech signal for the monaural signal from the LPC prediction residual signal and the monaural driving sound source signal, and performs quantization. It outputs to the driving sound source signal prediction unit 604. Also, the inter-channel prediction parameter analysis unit 603 outputs an inter-channel prediction parameter quantized code obtained by quantizing and encoding the inter-channel prediction parameter as the 1st ch code data.
  • the lch drive excitation signal prediction unit 604 synthesizes a predicted drive excitation signal corresponding to the lch speech signal, using the monaural drive excitation signal and the quantized inter-channel prediction parameter.
  • the predicted driving sound source signal is multiplied by a gain by a multiplier 612-1 and output to an adder 614.
  • inter-channel prediction parameter analysis section 603 corresponds to inter-channel prediction parameter analysis section 301 in Embodiment 1 (Fig. 1), and their operations are the same.
  • the lch drive sound source signal prediction unit 604 corresponds to the inter-channel prediction unit 302 in the first embodiment (FIG. 1), and their operations are the same.
  • the monaural decoded signal This is different from the first embodiment in that the prediction of the monaural driving sound source signal is performed instead of synthesizing the lch prediction signal and the lch prediction driving sound signal is synthesized.
  • the excitation signal of the residual component (error component that cannot be predicted) for the predicted driving excitation signal is encoded by excitation search using the CELP code.
  • Correlation degree comparison section 605 calculates the intra-channel correlation of the lch audio signal power as well as the lch audio signal power, and calculates the intra-channel correlation of the 2ch audio signal power. Correlation degree comparing section 605 compares the intra-channel correlation of the lch with the intra-channel correlation of the 2nd ch, and selects a channel having a larger correlation. Selection information indicating the result of the selection is output to the selection unit 613. This selection information is output as the l-th code data.
  • Second channel LPC prediction residual signal generation section 606 generates an LPC prediction residual signal for the second channel decoded signal from the first channel quantized LPC parameters and the second channel decoded signal, and outputs the previous subframe (n ⁇ 1).
  • a second channel adaptive codebook 607 composed of the second channel LPC prediction residual signals up to (subframe) is generated.
  • the monaural LPC prediction residual signal generation unit 609 generates an LPC prediction residual signal (monaural LPC prediction residual signal) for the monaural decoded signal from the lch quantized LPC parameter and the monaural decoded signal. And output to the l-th channel signal generation unit 608.
  • the lch signal generation unit 608 outputs the second channel code vector Vacb_ch2 (2) output from the second channel adaptive codebook 607 based on the adaptive codebook lag corresponding to the instructed from the distortion minimizing unit 618.
  • n 0 to NSUB-1; NSUB is the subframe length (section length unit when searching for CELP sound source)
  • Vres_mono the residual signal
  • a code vector Vacb_ C hl (n) corresponding to the adaptive excitation of the lch code Output as a book vector.
  • the code vector Vacb_ C hl (n) is outputted to the selection unit 613 is multiplied by the adaptive codebook gain at multiplier 612- 2.
  • the lch adaptive codebook 610 uses, as an adaptive codebook vector, the 1st ch code vector for one subframe based on the adaptive codebook lag corresponding to the data indicated by the distortion minimizing section 618. Output to multiplier 612-3. This adaptive codebook vector is multiplied by the adaptive codebook gain by multiplier 61 2 3 and output to selection section 613.
  • Selection section 613 according to the selection result in correlation degree comparison section 605, adaptive codebook vector output from multiplier 612-2 or adaptive codebook vector output from multiplier 612-3 Is selected and output to the multiplier 612-4.
  • the selecting unit 613 outputs the output from the multiplier 6213.
  • the multiplier 612 Select the adaptive codebook vector output from 2.
  • Multiplier 612-4 multiplies the adaptive codebook vector output from selection section 613 by another gain, and outputs the result to adder 614.
  • First lch fixed codebook 611 outputs a code vector corresponding to the instructed from distortion minimizing section 618 to multiplier 612-5 as a fixed codebook vector.
  • Multiplier 612-5 multiplies the fixed codebook vector output from lch fixed codebook 611 by a fixed codebook gain, and outputs the result to multiplier 612-6.
  • Multiplier 612-6 multiplies the fixed codebook vector by another gain and outputs the result to adder 614.
  • the adder 614 includes the predicted driving excitation signal output from the multiplier 612-1 and the multiplier 612.
  • the adaptive codebook vector output from 4 and the fixed codebook vector output from the multiplier 612-6 are added, and the added excitation vector is output to the synthesis filter 615 as a driving excitation.
  • the synthesis filter 615 performs synthesis by the LPC synthesis filter using the lch quantized LPC parameter as the driving sound source output from the adder 614, and subtracts the synthesized signal obtained by this synthesis. Output to 616.
  • the component corresponding to the prediction drive sound source signal of the lch in the synthesized signal is the inter-channel prediction in the first embodiment (Fig. 1). This corresponds to the l-th channel prediction signal output from unit 302.
  • the subtractor 616 calculates an error signal by subtracting the synthesized signal output from the synthesis filter 615 from the lch audio signal, and outputs this error signal to the auditory weighting unit 617.
  • This error signal corresponds to coding distortion.
  • the auditory weighting unit 617 performs auditory weighting on the sign distortion output from the subtractor 616 and outputs the result to the distortion minimizing unit 618.
  • Distortion minimizing section 618 minimizes the code distortion that is output from perceptual weighting section 617 with respect to second channel adaptive codebook 607, first channel adaptive codebook 610, and first channel fixed codebook 611. Such an index is determined, and the second channel adaptive codebook 607, the lch adaptive codebook 610, and the lch fixed codebook 611 are instructed. Also, distortion minimizing section 618 generates gains (adaptive codebook gain and fixed codebook gain;) corresponding to those indentations, and outputs them to multipliers 612-2, 612-3, and 612-5, respectively. .
  • distortion minimizing section 618 outputs the predicted driving excitation signal output from l-th channel driving excitation signal prediction section 604, the adaptive codebook vector output from selection section 613, and the output from multiplier 6125.
  • Each gain for adjusting the gain between the three types of signals of the fixed codebook vector to be generated is generated and output to the multipliers 612-1, 612-4, and 612-6, respectively.
  • the three types of gains for adjusting the gains among these three types of signals are preferably generated with a relationship between their gain values. For example, when the inter-channel correlation between the 1st channel audio signal and the 2nd channel audio signal is large, the contribution of the predictive driving excitation signal is the contribution of the adaptive codebook vector after gain multiplication and the fixed codebook vector after gain multiplication. On the other hand, when the correlation between channels is small, the contribution of the predicted driving excitation signal is the contribution of the adaptive codebook vector after gain multiplication and the fixed codebook vector after gain multiplication. Make it relatively small with respect to minutes.
  • distortion minimizing section 618 outputs the indices, the codes of the gains corresponding to the indices, and the code of the inter-signal adjustment gain as the lch excitation code data.
  • This l-th channel excitation code data is output as the l-th channel code data.
  • the intra-channel correlation corl of the lch and the intra-channel correlation cor2 of the second ch are calculated. (ST41).
  • corl and cor2 are compared (ST42), and an adaptive codebook search using an adaptive codebook of a channel having a higher intra-channel correlation is performed.
  • corl ⁇ cor2 (ST42: NO)
  • a monaural LPC prediction residual signal is generated (ST44)
  • a second chLPC prediction residual signal is generated (ST45)
  • a second chLPC prediction residual signal is generated.
  • the second channel adaptive codebook is generated from (ST46)
  • an adaptive codebook search using the monaural LPC prediction residual signal and the second channel adaptive codebook is performed (ST47), and the search result is output (ST48).
  • CELP code key suitable for speech code key is used, more efficient code key can be performed as compared with the first embodiment.
  • the configuration in which the Ich LLP prediction residual signal generation unit 602, the inter-channel prediction parameter analysis unit 603, and the lch drive excitation signal prediction unit 604 are provided in the Ich CELP code base unit 523 has been described. It is also possible for the first IchCELP code section 523 to have a configuration without these parts. In this case, the IchCELP code key unit 523 directly multiplies the monaural driving sound source signal output from the monaural driving sound source signal holding unit 521 by the gain and outputs the result to the adder 614.
  • adaptive codebook search using the lch adaptive codebook 610 or adaptive codebook search using the second ch adaptive codebook 607 is performed based on the magnitude of intra-channel correlation. Although selected, the adaptive codebook search for both of these may be performed, and the search result with the smaller code distortion of the channel to be encoded (the lch in this embodiment) may be selected.
  • the speech encoding apparatus and speech decoding apparatus may be mounted on a wireless communication apparatus such as a wireless communication mobile station apparatus or a wireless communication base station apparatus used in a mobile communication system. Is possible.
  • each functional block used in the description of the above embodiments is typically an integrated circuit. It is realized as an LSI. These may be individually made into one chip, or may be made into one chip so as to include a part or all of them.
  • IC integrated circuit
  • system LSI system LSI
  • super LSI super LSI
  • non-linear LSI depending on the difference in power integration as LSI.
  • circuit integration is not limited to LSI's, and implementation using dedicated circuitry or general purpose processors is also possible.
  • An FPGA Field Programmable Gate Array
  • reconfigurable 'processor that can reconfigure the connection and settings of circuit cells inside the LSI may be used.
  • the present invention can be applied to the use of a communication device in a mobile communication system or a packet communication system using the Internet protocol.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

 モノラル-ステレオ・スケーラブル構成を有する音声符号化において、効率的にステレオ音声を符号化することができる音声符号化装置。この装置では、相関度比較部(304)が、第1ch音声信号から第1chのチャネル内相関(第1ch内の過去の信号と現在の信号との相関度)を算出するとともに、第2ch音声信号から第2chのチャネル内相関(第2ch内の過去の信号と現在の信号との相関度)を算出し、第1chのチャネル内相関と第2chのチャネル内相関とを比較して、より大きい相関をもつチャネルを選択し、選択部(305)が、相関度比較部(304)での選択結果に従って、第1ch内予測部(307)から出力される第1ch予測信号、または、第1ch信号生成部(311)から出力される第1ch予測信号のいずれかを選択して、減算器(303)および第1ch予測残差信号符号化部(308)に出力する。

Description

明 細 書
音声符号化装置および音声符号化方法
技術分野
[0001] 本発明は、音声符号化装置および音声符号化方法に関し、特に、ステレオ音声の ための音声符号化装置および音声符号化方法に関する。
背景技術
[0002] 移動体通信や IP通信での伝送帯域の広帯域化、サービスの多様化に伴 1、、音声 通信において高音質化、高臨場感化のニーズが高まっている。例えば、今後、テレ ビ電話サービスにおけるハンズフリー形態での通話、テレビ会議における音声通信、 多地点で複数話者が同時に会話を行うような多地点音声通信、臨場感を保持したま ま周囲の音環境を伝送できるような音声通信などの需要が増加すると見込まれる。そ の場合、モノラル信号より臨場感があり、また複数話者の発話位置が認識できるよう な、ステレオ音声による音声通信を実現することが望まれる。このようなステレオ音声 による音声通信を実現するためには、ステレオ音声の符号ィ匕が必須となる。
[0003] また、 IPネットワーク上での音声データ通信において、ネットワーク上のトラフィック 制御やマルチキャスト通信実現のために、スケーラブルな構成を有する音声符号ィ匕 が望まれている。スケーラブルな構成とは、受信側で部分的な符号ィ匕データ力もでも 音声データの復号が可能な構成を 、う。
[0004] よって、ステレオ音声を符号化し伝送する場合にも、ステレオ信号の復号と、符号 化データの一部を用いたモノラル信号の復号とを受信側にぉ 、て選択可能な、モノ ラルーステレオ間でのスケーラブル構成(モノラル ステレオ'スケーラブル構成)を 有する符号化が望まれる。
[0005] このような、モノラル一ステレオ'スケーラブル構成を有する音声符号ィ匕方法として は、例えば、チャネル (以下、適宜「ch」と略す)間の信号の予測 (第 lch信号から第 2 ch信号の予測、または、第 2ch信号力も第 lch信号の予測)を、チャネル相互間のピ ツチ予測により行う、すなわち、 2チャネル間の相関を利用して符号ィ匕を行うものがあ る (非特許文献 1参照)。 非特言午文献 1 : Ramprashad, S.A., "Stereophonic CELP coding using cross channel p rediction", Proc. IEEE Workshop on Speech Coding, pp.136- 138, Sep. 2000.
発明の開示
発明が解決しょうとする課題
[0006] し力しながら、上記非特許文献 1記載の音声符号化方法では、双方のチャネル間 の相関が小さい場合には、チャネル間の予測性能(予測ゲイン)が低下してしまい、 符号化効率が劣化する。
[0007] また、モノラル一ステレオ'スケーラブル構成を有する音声符号ィ匕方法におけるステ レオ拡張レイヤでの符号ィ匕にチャネル間の予測を用いた符号ィ匕を適用する場合、双 方のチャネル間の相関が小さぐかつ、ステレオ拡張レイヤで符号ィ匕の対象となるチ ャネルのチャネル内相関(すなわち、チャネル内の過去の信号と現在の信号との相 関度)が小さ!、場合には、チャネル間の予測のみでは十分な予測性能 (予測ゲイン) が得られず符号化効率が劣化する。
[0008] 本発明の目的は、モノラル一ステレオ'スケーラブル構成を有する音声符号ィ匕にお いて、効率的にステレオ音声を符号化することができる音声符号化装置および音声 符号化方法を提供することである。
課題を解決するための手段
[0009] 本発明の音声符号ィ匕装置は、モノラル信号のためのコアレイヤの符号ィ匕を行う第 1 符号ィヒ手段と、ステレオ信号のための拡張レイヤの符号ィヒを行う第 2符号ィヒ手段と、 を具備し、前記第 1符号化手段は、ステレオ信号を構成する第 1チャネルの信号およ び第 2チャネルの信号からモノラル信号を生成し、前記第 2符号化手段は、前記第 1 チャネルおよび前記第 2チャネルのうち、チャネル内相関がより大きいチャネルのチ ャネル内予測により生成した予測信号を用いて前記第 1チャネルに対する符号ィ匕を 行う構成を採る。
発明の効果
[0010] 本発明によれば、効率的にステレオ音声を符号ィ匕することができる。
図面の簡単な説明 [0011] [図 1]本発明の実施の形態 1に係る音声符号化装置の構成を示すブロック図
[図 2]本発明の実施の形態 1に係る拡張レイヤ符号ィ匕部の動作フロー図
[図 3]本発明の実施の形態 1に係る拡張レイヤ符号ィ匕部の動作概念図
[図 4]本発明の実施の形態 1に係る拡張レイヤ符号ィ匕部の動作概念図
[図 5]本発明の実施の形態 1に係る音声復号装置の構成を示すブロック図
[図 6]本発明の実施の形態 2に係る音声符号ィ匕装置の構成を示すブロック図
[図 7]本発明の実施の形態 2に係る第 IchCELP符号ィ匕部の構成を示すブロック図 [図 8]本発明の実施の形態 2に係る第 IchCELP符号ィ匕部の動作フロー図 発明を実施するための最良の形態
[0012] 以下、モノラル一ステレオ'スケーラブル構成を有する音声符号ィ匕に関する本発明 の実施の形態について、添付図面を参照して詳細に説明する。
[0013] (実施の形態 1)
本実施の形態に係る音声符号化装置の構成を図 1に示す。図 1に示す音声符号 化装置 100は、モノラル信号のためのコアレイヤ符号ィ匕部 200とステレオ信号のため の拡張レイヤ符号ィ匕部 300とを備える。なお、以下の説明では、フレーム単位での動 作を前提にして説明する。
[0014] コアレイヤ符号ィ匕部 200において、モノラル信号生成部 201は、入力される第 lch 音声信号 s_chl(n)、第 2ch音声信号 s_ch2(n) (但し、 n=0〜NF- 1 ;NFはフレーム長)か ら、式(1)に従ってモノラル信号 s_mono(n)を生成し、モノラル信号符号ィ匕部 202に出 力する。
[数 1] s_mono (n) = ( s_chl (n) + s_ch2 (n) ) / 2 … (1 )
[0015] モノラル信号符号ィ匕部 202は、モノラル信号 s_mono(n)に対する符号ィ匕を行 、、この モノラル信号の符号ィ匕データをモノラル信号復号部 203に出力する。また、このモノ ラル信号の符号ィ匕データは、拡張レイヤ符号ィ匕部 300から出力される量子化符号、 符号化データおよび選択情報と多重されて、符号化データとして、後述する音声復 号装置へ伝送される。
[0016] モノラル信号復号部 203は、モノラル信号の符号ィ匕データ力 モノラルの復号信号 を生成して拡張レイヤ符号ィ匕部 300に出力する。
[0017] 拡張レイヤ符号ィ匕部 300において、チャネル間予測パラメータ分析部 301は、第 1 ch音声信号とモノラル復号信号とから、モノラル信号に対する第 lch音声信号の予 測パラメータ(チャネル間予測パラメータ)を求めて量子化し、チャネル間予測部 302 に出力する。ここでは、チャネル間予測パラメータ分析部 301は、チャネル間予測パ ラメータとして、モノラル信号 (モノラル復号信号)に対する第 lch音声信号の遅延差 (Dサンプル)および振幅比 (g)を求める。また、チャネル間予測パラメータ分析部 30 1は、チャネル間予測パラメータを量子化および符号ィ匕したチャネル間予測パラメ一 タ量子化符号を出力する。このチャネル間予測パラメータ量子化符号は、他の量子 化符号、符号化データおよび選択情報と多重されて、符号ィ匕データとして、後述する 音声復号装置へ伝送される。
[0018] チャネル間予測部 302は、量子化されたチャネル間予測パラメータを用いて、モノ ラル復号信号力も第 lch信号を予測し、この第 lch予測信号 (チャネル間予測)を減 算器 303および第 lch予測残差信号符号ィ匕部 308に出力する。例えば、チャネル間 予測部 302は、式(2)で表される予測により、モノラル復号信号 sd_mono(n)から、第 1 ch予測信号 Sp_chl(n)を合成する。
[数 2] sp_chl (n) = g · sd_mono (n - D) … ( 2 )
[0019] 相関度比較部 304は、第 lch音声信号力も第 lchのチャネル内相関(第 lch内の 過去の信号と現在の信号との相関度)を算出するとともに、第 2ch音声信号から第 2c hのチャネル内相関(第 2ch内の過去の信号と現在の信号との相関度)を算出する。 各チャネルのチャネル内相関としては、例えば、対応する音声信号に対する正規ィ匕 最大自己相関係数値、対応する音声信号に対するピッチ予測ゲイン値、対応する音 声信号力 求められる LPC予測残差信号に対する正規ィ匕最大自己相関係数値、対 応する音声信号力 求められる LPC予測残差信号に対するピッチ予測ゲイン値など を用いることができる。そして、相関度比較部 304は、第 lchのチャネル内相関と第 2 chのチャネル内相関とを比較して、より大きい相関をもつチャネルを選択する。この 選択の結果を示す選択情報は選択部 305、 306に出力される。また、この選択情報 は、量子化符号および符号化データと多重されて、符号化データとして、後述する音 声復号装置へ伝送される。
[0020] 第 lch内予測部 307は、第 lch音声信号と、第 lch予測残差信号符号化部 308か ら入力される第 lch復号信号とから、第 lchでのチャネル内予測により、第 lch信号 を予測して、この第 lch予測信号を選択部 305に出力する。また、第 lch内予測部 3 07は、第 lchでのチャネル内予測に必要なチャネル内予測パラメータの量子化によ り得られる第 lchのチャネル内予測パラメータ量子化符号を選択部 306に出力する。 なお、チャネル内予測の詳細については後述する。
[0021] 第 2ch信号生成部 309は、モノラル信号復号部 203から入力されるモノラル復号信 号と、第 lch予測残差信号符号ィ匕部 308から入力される第 lch復号信号とから、上 式(1)の関係に基づいて、第 2ch復号信号を生成する。つまり、第 2ch信号生成部 3 09は、モノラル復号信号 sd_mono(n)と第 lch復号信号 sd_chl(n)とから、式(3)に従つ て第 2ch復号信号 Sd_ch2(n)を生成して、第 2ch内予測部 310に出力する。
[数 3] sd_ch2 (n) = 2 · sd_mono (n) - sd_chl (n) … 、3 )
[0022] 第 2ch内予測部 310は、第 2ch音声信号と第 2ch復号信号とから、第 2chでのチヤ ネル内予測により、第 2ch信号を予測して、この第 2ch予測信号を第 lch信号生成 部 311に出力する。また、第 2ch内予測部 310は、第 2chでのチャネル内予測に必 要なチャネル内予測パラメータの量子化により得られる第 2chのチャネル内予測パラ メータ量子化符号を選択部 306に出力する。なお、チャネル内予測の詳細について は後述する。
[0023] 第 lch信号生成部 311は、第 2ch予測信号と、モノラル信号復号部 203から入力さ れるモノラル復号信号とから、上式(1)の関係に基づいて、第 lch予測信号を生成す る。つまり、第 lch信号生成部 311は、モノラル復号信号 sd_mono(n)と第 2ch予測信 号 s_ch2_p(n)とから、式 (4)に従って第 lch予測信号 s_chl_p(n)を生成して、選択部 30 5に出力する。
画 s_chl_p (n) = 2 · sd_mono (n) - s_ch2_p (n … ( 4 )
[0024] 選択部 305は、相関度比較部 304での選択結果に従って、第 lch内予測部 307か ら出力される第 lch予測信号、または、第 lch信号生成部 311から出力される第 lch 予測信号の!/、ずれかを選択して、減算器 303および第 lch予測残差信号符号化部 308に出力する。選択部 305は、相関度比較部 304により第 lchが選択された場合( つまり、第 lchのチャネル内相関が第 2chのチャネル内相関より大きい場合)、第 lch 内予測部 307から出力される第 lch予測信号を選択し、相関度比較部 304により第 2chが選択された場合(つまり、第 lchのチャネル内相関が第 2chのチャネル内相関 以下の場合)、第 lch信号生成部 311から出力される第 lch予測信号を選択する。
[0025] 選択部 306は、相関度比較部 304での選択結果に従って、第 lch内予測部 307か ら出力される第 lchのチャネル内予測パラメータ量子化符号、または、第 2ch内予測 部 310から出力される第 2chのチャネル内予測パラメータ量子化符号のいずれかを 選択して、チャネル内予測パラメータ量子化符号として出力する。このチャネル内予 測パラメータ量子化符号は、他の量子化符号、符号化データおよび選択情報と多重 されて、符号化データとして、後述する音声復号装置へ伝送される。
[0026] 具体的には、選択部 306は、相関度比較部 304により第 lchが選択された場合 (つ まり、第 lchのチャネル内相関が第 2chのチャネル内相関より大きい場合)、第 lch内 予測部 307から出力される第 lchのチャネル内予測パラメータ量子化符号を選択し 、相関度比較部 304により第 2chが選択された場合 (つまり、第 lchのチャネル内相 関が第 2chのチャネル内相関以下の場合)、第 2ch内予測部 310から出力される第 2 chのチャネル内予測パラメータ量子化符号を選択する。 [0027] 減算器 303は、入力信号である第 lch音声信号と第 lch予測信号との残差信号( 第 lch予測残差信号)、すなわち、チャネル間予測部 302から出力された第 lch予 測信号と、選択部 305から出力された第 lch予測信号とを、第 lch音声信号から差し 引いた残りの信号を求め、第 lch予測残差信号符号ィ匕部 308に出力する。
[0028] 第 lch予測残差信号符号ィ匕部 308は、第 lch予測残差信号を符号化した第 lch 予測残差符号化データを出力する。この第 lch予測残差符号化データは、他の符号 化データ、量子化符号および選択情報と多重されて、符号ィ匕データとして、後述する 音声復号装置へ伝送される。また、第 lch予測残差信号符号ィ匕部 308は、第 lch予 測残差符号化データを復号した信号と、チャネル間予測部 302から出力された第 lc h予測信号と、選択部 305から出力された第 lch予測信号とを加算して、第 lch復号 信号を求め、この第 lch復号信号を第 lch内予測部 307および第 2ch信号生成部 3 09に出力する。
[0029] ここで、第 lch内予測部 307および第 2ch内予測部 310は、各チャネル内の信号 の相関性を利用して、過去の信号力も符号ィ匕対象フレームの信号を予測するチヤネ ル内予測を行う。例えば、 1次のピッチ予測フィルタを用いる場合は、チャネル内予測 により予測される各チャネルの信号は式(5)で表される。ここで、 Sp(n)は各チャネル の予測信号、 s(n)は各チャネルの復号信号 (第 lch復号信号または第 2ch復号信号) である。また、 Tおよび gpは、各チャネルの復号信号と各チャネルの入力信号 (第 lch 音声信号または第 2ch音声信号)とから求められる、 1次のピッチ予測フィルタのラグ および予測係数であり、これらはチャネル内予測パラメータを構成する。
[数 5]
Sp (n) = gp · s (n-T) … ( 5 )
[0030] 次 、で、図 2〜4を用いて、拡張レイヤ符号ィ匕部 300の動作にっ 、て説明する。
[0031] まず、第 lchのチャネル内相関度 corlおよび第 2chのチャネル内相関度 cor2を算 出する(ST11)。
[0032] 次いで、 corlと cor2とを比較して(ST12)、チャネル内相関度がより大きいチャネル でのチャネル内予測を用いる。
[0033] すなわち、 corl >cor2の場合は(ST12 : YES)、第 lchでのチャネル内予測を行つ て求めた第 lch予測信号を符号ィ匕対象として選択する。具体的には、図 3に示すよう に、第 n— 1フレームの第 lch復号信号 21から上式(5)に従って第 nフレームの第 lc h信号 22を予測し (ST13)、このようにして予測した第 lch予測信号 22を符号ィ匕対 象として選択部 305から出力する(ST17)。つまり、 corl >cor2の場合は、第 lch復 号信号から第 lch信号を直接的に予測する。
[0034] 一方、 corl≤ cor2の場合は(ST12: NO)、第 2ch復号信号を生成し(ST14)、第 2 chでのチャネル内予測を行って第 2チャネル予測信号を求め(ST15)、第 2ch予測 信号とモノラル復号信号とから第 lch予測信号を求め(ST16)、このようにして求め た第 lch予測信号を符号ィ匕対象として選択部 305から出力する (ST17)。具体的に は、図 4に示すように、第 n—lフレームの第 lch復号信号 31および第 n—lフレーム のモノラル復号信号 32から、上式(3)に従って、第 n— 1フレームの第 2ch復号信号 を生成する。次いで、第 n—1フレームの第 2ch復号信号 33から上式 (5)に従って第 nフレームの第 2ch信号 34を予測する。次いで、第 nフレームの第 2ch予測信号 34 および第 nフレームのモノラル復号信号 35から、上式 (4)に従って、第 nフレームの 第 lch予測信号 36を生成する。そして、このようにして予測した第 lch予測信号 36を 符号化対象として選択する。つまり、 Corl≤cor2の場合は、第 2ch予測信号とモノラ ル復号信号とから、第 lch信号を間接的に予測する。
[0035] 次いで、本実施の形態に係る音声復号装置について説明する。本実施の形態に 係る音声復号装置の構成を図 5に示す。図 5に示す音声復号装置 400は、モノラル 信号のためのコアレイヤ復号部 410と、ステレオ信号のための拡張レイヤ復号部 420 とを備える。
[0036] モノラル信号復号部 411は、入力されるモノラル信号の符号化データを復号し、モ ノラル復号信号を拡張レイヤ復号部 420に出力するとともに、最終出力として出力す る。
[0037] チャネル間予測パラメータ復号部 421は、入力されるチャネル間予測パラメータ量 子化符号を復号してチャネル間予測部 422に出力する。 [0038] チャネル間予測部 422は、量子化されたチャネル間予測パラメータを用いて、モノ ラル復号信号力も第 lch信号を予測し、この第 lch予測信号 (チャネル間予測)を加 算器 423に出力する。例えば、チャネル間予測部 422は、上式(2)で表される予測 により、モノラル復号信号 sd_mono(n)から、第 lch予測信号 sp_chl(n)を合成する。
[0039] 第 lch予測残差信号復号部 424は、入力される第 lch予測残差符号ィ匕データを復 号して加算器 423に出力する。
[0040] 加算器 423は、チャネル間予測部 422から出力される第 lch予測信号と、第 lch予 測残差信号復号部 424から出力される第 lch予測残差信号と、選択部 426から出力 される第 lch予測信号とを加算して、第 lch復号信号を求め、この第 lch復号信号を 、第 lch内予測部 425および第 2ch信号生成部 427に出力するとともに、最終出力と して出力する。
[0041] 第 lch内予測部 425は、第 lch復号信号と、第 lchのチャネル内予測パラメータ量 子化符号とから、上記同様のチャネル内予測により第 lch信号を予測して、この第 lc h予測信号を選択部 426に出力する。
[0042] 第 2ch信号生成部 427は、モノラル復号信号と第 lch復号信号とから、上式 (3)に 従って第 2ch復号信号を生成して、第 2ch内予測部 428に出力する。
[0043] 第 2ch内予測部 428は、第 2ch復号信号と、第 2chのチャネル内予測パラメータ量 子化符号とから、上記同様のチャネル内予測により第 2ch信号を予測して、この第 2c h予測信号を第 lch信号生成部 429に出力する。
[0044] 第 lch信号生成部 429は、モノラル復号信号と第 2ch予測信号とから、上式 (4)に 従って第 lch予測信号を生成して、選択部 426に出力する。
[0045] 選択部 426は、選択情報が示す選択結果に従って、第 lch内予測部 425から出力 される第 lch予測信号、または、第 lch信号生成部 429から出力される第 lch予測信 号のいずれかを選択して、加算器 423に出力する。選択部 426は、図 1の音声符号 化装置 100にて第 lchが選択された場合 (つまり、第 lchのチャネル内相関が第 2ch のチャネル内相関より大きい場合)、第 lch内予測部 425から出力される第 lch予測 信号を選択し、音声符号ィ匕装置 100にて第 2chが選択された場合 (つまり、第 lchの チャネル内相関が第 2chのチャネル内相関以下の場合)、第 lch信号生成部 429か ら出力される第 lch予測信号を選択する。
[0046] このような構成を採る音声復号装置 400では、モノラル—ステレオ'スケーラブル構 成において、出力音声をモノラルとする場合は、モノラル信号の符号ィ匕データのみか ら得られる復号信号をモノラル復号信号として出力し、出力音声をステレオとする場 合は、受信される符号ィ匕データおよび量子化符号のすべてを用いて第 lch復号信 号および第 2ch復号信号を復号して出力する。
[0047] このように、本実施の形態では、チャネル内相関がより大き 、チャネルでのチャネル 内予測により求めた予測信号を用いて拡張レイヤでの符号ィ匕を行うため、符号ィ匕対 象チャネル (本実施形態では第 lch)の符号ィ匕対象フレームにおけるチャネル内相 関(チャネル内予測性能)が小さく予測が有効に行えない場合でも、他方のチャネル (本実施形態では第 2ch)のチャネル内相関が大きい場合には、その他方のチヤネ ルでのチャネル内予測により求めた予測信号を用いて符号ィ匕対象チャネルの信号を 予測することができるため、符号ィ匕対象チャネルのチャネル内相関が小さ 、場合でも 、十分な予測性能 (予測ゲイン)を得ることができ、その結果、符号化効率の劣化を防 ぐことができる。
[0048] なお、上記説明では、拡張レイヤ符号ィ匕部 300にチャネル間予測パラメータ分析 部 301およびチャネル間予測部 302を設ける構成について説明した力 拡張レイヤ 符号ィ匕部 300はこれらの各部を有しない構成を採ることも可能である。この場合、拡 張レイヤ符号ィ匕部 300では、コアレイヤ符号ィ匕部 200から出力されたモノラル復号信 号が直接減算器 303に入力され、減算器 303は、第 lch音声信号からモノラル復号 信号および第 lch予測信号を減算して予測残差信号を求める。
[0049] また、上記説明では、チャネル内相関の大きさに基づいて、第 lchでのチャネル内 予測により直接求めた第 lch予測信号 (直接的予測)、または、第 2chでのチャネル 内予測により求めた第 2ch予測信号力も間接的に求めた第 lch予測信号 (間接的予 測)のいずれかを選択したが、符号ィ匕対象チャネルである第 lchのチャネル内予測 誤差 (すなわち、入力信号である第 lch音声信号に対する第 lch予測信号の誤差) 力 S小さい方の第 lch予測信号を選択してもよい。または、双方の第 lch予測信号を 用いて拡張レイヤでの符号ィ匕を行 、、その結果生じる符号ィ匕歪みがより小さ 、方の 第 lch予測信号を選択してもよ 、。
[0050] (実施の形態 2)
図 6に本実施の形態に係る音声符号ィ匕装置 500の構成を示す。
[0051] コアレイヤ符号ィ匕部 510において、モノラル信号生成部 511は、上式(1)に従って モノラル信号を生成し、モノラル信号 CELP符号ィ匕部 512に出力する。
[0052] モノラル信号 CELP符号ィ匕部 512は、モノラル信号生成部 511で生成されたモノラ ル信号に対して CELP符号ィ匕を行い、モノラル信号符号ィ匕データ、および、 CELP 符号ィ匕によって得られるモノラル駆動音源信号を出力する。モノラル信号符号化デ ータは、モノラル信号復号部 513に出力されるとともに、第 lch符号ィ匕データと多重さ れて音声復号装置へ伝送される。また、モノラル駆動音源信号は、モノラル駆動音源 信号保持部 521に保持される。
[0053] モノラル信号復号部 513は、モノラル信号の符号ィ匕データ力もモノラルの復号信号 を生成して、モノラル復号信号保持部 522に出力する。このモノラル復号信号は、モ ノラル復号信号保持部 522に保持される。
[0054] 拡張レイヤ符号ィ匕部 520において、第 IchCELP符号ィ匕部 523は、第 lch音声信 号に対して CELP符号ィ匕を行って第 lch符号ィ匕データを出力する。第 IchCELP符 号ィ匕部 523は、モノラル信号符号ィ匕データ、モノラル復号信号、モノラル駆動音源信 号、第 2ch音声信号、および、第 2ch信号生成部 525から入力される第 2ch復号信 号を用いて、第 lch音声信号に対応する駆動音源信号の予測、および、その予測残 差成分に対する CELP符号化を行う。第 IchCELP符号化部 523は、その予測残差 成分に対する CELP音源符号化にお 、て、ステレオ信号の各チャネルのチャネル内 相関に基づき、適応符号帳探索を行う符号帳を切替える (すなわち、符号化に用い るチャネル内予測を行うチャネルを切替える)。第 IchCELP符号ィ匕部 523の詳細に ついては後述する。
[0055] 第 lch復号部 524は、第 lch符号ィ匕データを復号して第 lch復号信号を求め、この 第 lch復号信号を第 2ch信号生成部 525に出力する。
[0056] 第 2ch信号生成部 525は、モノラル復号信号と第 lch復号信号とから、上式(3)に 従って第 2ch復号信号を生成して、第 IchCELP符号ィ匕部 523に出力する。 [0057] 次いで、第 IchCELP符号ィ匕部 523の詳細について説明する。第 IchCELP符号 化部 523の構成を図 7に示す。
[0058] 図 7において、第 IchLPC分析部 601は、第 lch音声信号に対する LPC分析を行 V、、得られた LPCパラメータを量子化して第 IchLPC予測残差信号生成部 602およ び合成フィルタ 615に出力するとともに、第 1 chLPC量子化符号を第 1 ch符号化デ ータとして出力する。第 IchLPC分析部 601では、 LPCパラメータの量子化に際し、 モノラル信号に対する LPCパラメータと第 lch音声信号力も得られる LPCパラメータ (第 IchLPCパラメータ)との相関が大きいことを利用して、モノラル信号の符号化デ 一タカもモノラル信号量子化 LPCパラメータを復号し、そのモノラル信号量子化 LPC ノ メータに対する第 IchLPCパラメータの差分成分を量子化することにより効率的 な量子化を行う。
[0059] 第 IchLPC予測残差信号生成部 602は、第 lch量子化 LPCパラメータを用いて、 第 lch音声信号に対する LPC予測残差信号を算出してチャネル間予測パラメータ 分析部 603に出力する。
[0060] チャネル間予測パラメータ分析部 603は、 LPC予測残差信号とモノラル駆動音源 信号とから、モノラル信号に対する第 lch音声信号の予測パラメータ (チャネル間予 測パラメータ)を求めて量子化し、第 lch駆動音源信号予測部 604に出力する。また 、チャネル間予測パラメータ分析部 603は、チャネル間予測パラメータを量子化およ び符号ィ匕したチャネル間予測パラメータ量子化符号を第 lch符号ィ匕データとして出 力する。
[0061] 第 lch駆動音源信号予測部 604は、モノラル駆動音源信号および量子化されたチ ャネル間予測パラメータを用いて、第 lch音声信号に対応する予測駆動音源信号を 合成する。この予測駆動音源信号は、乗算器 612— 1でゲインを乗じられて加算器 6 14に出力される。
[0062] ここで、チャネル間予測パラメータ分析部 603は、実施の形態 1 (図 1)におけるチヤ ネル間予測パラメータ分析部 301に対応し、それらの動作は同様になる。また、第 lc h駆動音源信号予測部 604は、実施の形態 1 (図 1)におけるチャネル間予測部 302 に対応し、それらの動作は同様になる。但し、本実施の形態では、モノラル復号信号 に対する予測を行って第 lch予測信号を合成するのではなぐモノラル駆動音源信 号に対する予測を行って第 lchの予測駆動音源信号を合成する点において実施の 形態 1と異なる。そして、本実施の形態では、その予測駆動音源信号に対する残差 成分 (予測しきれない誤差成分)の音源信号を、 CELP符号ィ匕における音源探索に より符号化する。
[0063] 相関度比較部 605は、第 lch音声信号力も第 lchのチャネル内相関を算出すると ともに、第 2ch音声信号力も第 2chのチャネル内相関を算出する。そして、相関度比 較部 605は、第 lchのチャネル内相関と第 2chのチャネル内相関とを比較して、より 大きい相関をもつチャネルを選択する。この選択の結果を示す選択情報は選択部 6 13に出力される。また、この選択情報は、第 lch符号ィ匕データとして出力される。
[0064] 第 2chLPC予測残差信号生成部 606は、第 lch量子化 LPCパラメータおよび第 2 ch復号信号から第 2ch復号信号に対する LPC予測残差信号を生成し、前サブフレ ーム (第 n— 1サブフレーム)までの第 2chLPC予測残差信号で構成される第 2ch適 応符号帳 607を生成する。
[0065] モノラル LPC予測残差信号生成部 609は、第 lch量子化 LPCパラメータおよびモ ノラル復号信号カゝらモノラル復号信号に対する LPC予測残差信号 (モノラル LPC予 測残差信号)を生成して、第 lch信号生成部 608に出力する。
[0066] 第 lch信号生成部 608は、歪最小化部 618から指示されたインデタスに対応する 適応符号帳ラグに基づいて第 2ch適応符号帳 607から出力される第 2chの符号べク トル Vacb_ch2(n) (但し、 n=0〜NSUB- 1; NSUBはサブフレーム長(CELP音源探索時 の区間長単位) )と、符号ィ匕対象の現サブフレーム(第 nサブフレーム)のモノラル LP C予測残差信号 Vres_mono(n)とを用いて、上式(1)の関係に基づき、式 (6)に従って 、第 lchの適応音源に対応する符号ベクトル Vacb_Chl(n)を算出して適応符号帳べク トルとして出力する。この符号ベクトル Vacb_Chl(n)は、乗算器 612— 2で適応符号帳 ゲインを乗じられて選択部 613に出力される。
[数 6]
Vacb chl (n) = 2 · Vres_raono (n) - Vacb_ch2 (n) … ( 6 ) [0067] 第 lch適応符号帳 610は、歪最小化部 618から指示されたインデタスに対応する 適応符号帳ラグに基づ 、て、 1サブフレーム分の第 lchの符号ベクトルを適応符号 帳ベクトルとして乗算器 612— 3へ出力する。この適応符号帳ベクトルは、乗算器 61 2 3で適応符号帳ゲインを乗じられて選択部 613に出力される。
[0068] 選択部 613は、相関度比較部 605での選択結果に従って、乗算器 612— 2から出 力される適応符号帳ベクトル、または、乗算器 612— 3から出力される適応符号帳べ タトルのいずれかを選択して、乗算器 612— 4に出力する。選択部 613は、相関度比 較部 605により第 lchが選択された場合 (つまり、第 lchのチャネル内相関が第 2ch のチャネル内相関より大き!/、場合)、乗算器 612 3から出力される適応符号帳べク トルを選択し、相関度比較部 605により第 2chが選択された場合 (つまり、第 lchのチ ャネル内相関が第 2chのチャネル内相関以下の場合)、乗算器 612— 2から出力さ れる適応符号帳ベクトルを選択する。
[0069] 乗算器 612— 4は、選択部 613から出力された適応符号帳ベクトルに別のゲインを 乗じ、加算器 614に出力する。
[0070] 第 lch固定符号帳 611は、歪最小化部 618から指示されたインデタスに対応する 符号ベクトルを固定符号帳ベクトルとして乗算器 612— 5に出力する。
[0071] 乗算器 612— 5は、第 lch固定符号帳 611から出力された固定符号帳ベクトルに 固定符号帳ゲインを乗じ、乗算器 612— 6に出力する。
[0072] 乗算器 612— 6は、固定符号帳ベクトルに別のゲインを乗じ、加算器 614に出力す る。
[0073] 加算器 614は、乗算器 612— 1から出力された予測駆動音源信号と、乗算器 612
4から出力された適応符号帳ベクトルと、乗算器 612— 6から出力された固定符号 帳ベクトルとを加算し、加算後の音源ベクトルを駆動音源として合成フィルタ 615に出 力する。
[0074] 合成フィルタ 615は、第 lch量子化 LPCパラメータを用いて、加算器 614から出力 される音源ベクトルを駆動音源として LPC合成フィルタによる合成を行 ヽ、この合成 により得られる合成信号を減算器 616に出力する。なお、合成信号のうち第 lchの予 測駆動音源信号に対応する成分は、実施の形態 1 (図 1)においてチャネル間予測 部 302から出力される第 lch予測信号に相当する。
[0075] 減算器 616は、合成フィルタ 615から出力された合成信号を第 lch音声信号から 減算することにより誤差信号を算出し、この誤差信号を聴覚重み付け部 617に出力 する。この誤差信号が符号化歪みに相当する。
[0076] 聴覚重み付け部 617は、減算器 616から出力された符号ィ匕歪みに対して聴覚的な 重み付けを行い、歪最小化部 618へ出力する。
[0077] 歪最小化部 618は、第 2ch適応符号帳 607、第 lch適応符号帳 610および第 lch 固定符号帳 611に対して、聴覚重み付け部 617から出力される符号ィ匕歪みを最小と するようなインデクスを決定し、第 2ch適応符号帳 607、第 lch適応符号帳 610およ び第 lch固定符号帳 611が使用するインデクスを指示する。また、歪最小化部 618 は、それらのインデタスに対応するゲイン (適応符号帳ゲインおよび固定符号帳ゲイ ン;)を生成し、それぞれ乗算器 612— 2、 612- 3, 612— 5へ出力する。
[0078] また、歪最小化部 618は、第 lch駆動音源信号予測部 604から出力される予測駆 動音源信号、選択部 613から出力される適応符号帳ベクトル、および、乗算器 612 5から出力される固定符号帳ベクトル、の 3種類の信号間のゲインを調整する各ゲ インを生成し、それぞれ乗算器 612— 1、 612— 4、 612— 6に出力する。それら 3種 類の信号間のゲインを調整する 3種類のゲインは、好ましくはそれらのゲイン値間〖こ 相互に関係性をもたせて生成することが望ましい。例えば、第 lch音声信号と第 2ch 音声信号とのチャネル間相関が大きい場合は、予測駆動音源信号の寄与分がゲイ ン乗算後の適応符号帳ベクトルおよびゲイン乗算後の固定符号帳ベクトルの寄与分 に対して相対的に大きくなるように、逆に、チャネル間相関が小さい場合は、予測駆 動音源信号の寄与分がゲイン乗算後の適応符号帳ベクトルおよびゲイン乗算後の 固定符号帳ベクトルの寄与分に対して相対的に小さくなるようにする。
[0079] また、歪最小化部 618は、それらのインデタス、それらのインデタスに対応する各ゲ インの符号、および、信号間調整用ゲインの符号を第 lch音源符号ィ匕データとして 出力する。この第 lch音源符号ィ匕データは、第 lch符号ィ匕データとして出力される。
[0080] 次いで、図 8を用いて、第 IchCELP符号ィ匕部 523の動作について説明する。
[0081] まず、第 lchのチャネル内相関度 corlおよび第 2chのチャネル内相関度 cor2を算 出する(ST41)。
[0082] 次いで、 corlと cor2とを比較して(ST42)、チャネル内相関度がより大きいチャネル の適応符号帳を用いた適応符号帳探索を行う。
[0083] すなわち、 corl >cor2の場合は(ST42 :YES)、第 lch適応符号帳を用いた適応 符号帳探索を行って (ST43)、探索結果を出力する (ST48)。
[0084] 一方、 corl≤ cor2の場合は(ST42: NO)、モノラル LPC予測残差信号を生成し(S T44)、第 2chLPC予測残差信号を生成し (ST45)、第 2chLPC予測残差信号から 第 2ch適応符号帳を生成し (ST46)、モノラル LPC予測残差信号と第 2ch適応符号 帳とを用いた適応符号帳探索を行って (ST47)、探索結果を出力する(ST48)。
[0085] このように、本実施の形態によれば、音声符号ィ匕に適した CELP符号ィ匕を用いるた め、実施の形態 1に比べ、さらに効率的な符号ィ匕を行うことができる。
[0086] なお、上記説明では、第 IchCELP符号ィ匕部 523に第 IchLPC予測残差信号生 成部 602、チャネル間予測パラメータ分析部 603および第 lch駆動音源信号予測部 604を設ける構成について説明した力 第 IchCELP符号ィ匕部 523はこれらの各部 を有しない構成を採ることも可能である。この場合、第 IchCELP符号ィ匕部 523では 、モノラル駆動音源信号保持部 521から出力されたモノラル駆動音源信号に直接ゲ インが乗算されて加算器 614に出力される。
[0087] また、上記説明では、チャネル内相関の大きさに基づいて、第 lch適応符号帳 610 を用いた適応符号帳探索または第 2ch適応符号帳 607を用いた適応符号帳探索の いずれかを選択したが、これら双方の適応符号帳探索を行い、符号化対象チャネル (本実施形態では第 lch)の符号ィ匕歪みがより小さい方の探索結果を選択してもよい
[0088] 上記各実施の形態に係る音声符号化装置、音声復号装置を、移動体通信システ ムにおいて使用される無線通信移動局装置や無線通信基地局装置等の無線通信 装置に搭載することも可能である。
[0089] また、上記各実施の形態では、本発明をノヽードウエアで構成する場合を例にとって 説明したが、本発明はソフトウェアで実現することも可能である。
[0090] また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路 である LSIとして実現される。これらは個別に 1チップ化されてもよいし、一部または全 てを含むように 1チップィ匕されてもよい。
[0091] ここでは、 LSIとした力 集積度の違いにより、 IC、システム LSI、スーパー LSI、ゥ ノレ卜ラ LSIと呼称されることちある。
[0092] また、集積回路化の手法は LSIに限るものではなぐ専用回路または汎用プロセッ サで実現してもよい。 LSI製造後に、プログラムすることが可能な FPGA (Field Progra mmable Gate Array)や、 LSI内部の回路セルの接続や設定を再構成可能なリコンフ ィギユラブル'プロセッサーを利用してもよい。
[0093] さらには、半導体技術の進歩または派生する別技術により LSIに置き換わる集積回 路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積ィ匕を行って もよい。バイオ技術の適応等が可能性としてありえる。
[0094] 本明細書は、 2005年 4月 28日出願の特願 2005— 132365に基づくものである。
この内容はすべてここに含めておく。
産業上の利用可能性
[0095] 本発明は、移動体通信システムやインターネットプロトコルを用いたパケット通信シ ステム等における通信装置の用途に適用できる。

Claims

請求の範囲
[1] モノラル信号のためのコアレイヤの符号ィ匕を行う第 1符号ィ匕手段と、
ステレオ信号のための拡張レイヤの符号ィ匕を行う第 2符号ィ匕手段と、を具備し、 前記第 1符号化手段は、ステレオ信号を構成する第 1チャネルの信号および第 2チ ャネルの信号からモノラル信号を生成し、
前記第 2符号化手段は、前記第 1チャネルおよび前記第 2チャネルのうち、チヤネ ル内相関がより大きいチャネルのチャネル内予測により生成した予測信号を用いて 前記第 1チャネルに対する符号ィヒを行う、
音声符号化装置。
[2] 前記第 2符号化手段は、
前記第 2チャネルのチャネル相関がより大き 、場合は、前記第 2チャネルのチヤネ ル内予測により生成した予測信号と、前記モノラル信号とから前記第 1チャネルの信 号を予測する、
請求項 1記載の音声符号化装置。
[3] 請求項 1記載の音声符号化装置を具備する無線通信移動局装置。
[4] 請求項 1記載の音声符号化装置を具備する無線通信基地局装置。
[5] モノラル信号のためのコアレイヤの符号ィ匕とステレオ信号のための拡張レイヤの符 号化とを行う音声符号化方法であって、
前記コアレイヤにおいて、ステレオ信号を構成する第 1チャネルの信号および第 2 チャネルの信号力 モノラル信号を生成し、
前記拡張レイヤにおいて、前記第 1チャネルおよび前記第 2チャネルのうち、チヤネ ル内相関がより大きいチャネルのチャネル内予測により生成した予測信号を用いて 前記第 1チャネルに対する符号ィヒを行う、
音声符号化方法。
PCT/JP2006/308811 2005-04-28 2006-04-27 音声符号化装置および音声符号化方法 WO2006118178A1 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
US11/912,357 US8433581B2 (en) 2005-04-28 2006-04-27 Audio encoding device and audio encoding method
DE602006014957T DE602006014957D1 (de) 2005-04-28 2006-04-27 Audiocodierungseinrichtung und audiocodierungsverfahren
EP06745739A EP1876585B1 (en) 2005-04-28 2006-04-27 Audio encoding device and audio encoding method
JP2007514798A JP4850827B2 (ja) 2005-04-28 2006-04-27 音声符号化装置および音声符号化方法
CN2006800142383A CN101167124B (zh) 2005-04-28 2006-04-27 语音编码装置和语音编码方法
KR1020077024701A KR101259203B1 (ko) 2005-04-28 2006-04-27 음성 부호화 장치와 음성 부호화 방법, 무선 통신 이동국 장치 및 무선 통신 기지국 장치

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2005-132365 2005-04-28
JP2005132365 2005-04-28

Publications (1)

Publication Number Publication Date
WO2006118178A1 true WO2006118178A1 (ja) 2006-11-09

Family

ID=37307976

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2006/308811 WO2006118178A1 (ja) 2005-04-28 2006-04-27 音声符号化装置および音声符号化方法

Country Status (7)

Country Link
US (1) US8433581B2 (ja)
EP (1) EP1876585B1 (ja)
JP (1) JP4850827B2 (ja)
KR (1) KR101259203B1 (ja)
CN (1) CN101167124B (ja)
DE (1) DE602006014957D1 (ja)
WO (1) WO2006118178A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008090970A1 (ja) * 2007-01-26 2008-07-31 Panasonic Corporation ステレオ符号化装置、ステレオ復号装置、およびこれらの方法
WO2010098120A1 (ja) * 2009-02-26 2010-09-02 パナソニック株式会社 チャネル信号生成装置、音響信号符号化装置、音響信号復号装置、音響信号符号化方法及び音響信号復号方法
JP5153791B2 (ja) * 2007-12-28 2013-02-27 パナソニック株式会社 ステレオ音声復号装置、ステレオ音声符号化装置、および消失フレーム補償方法
JP5413839B2 (ja) * 2007-10-31 2014-02-12 パナソニック株式会社 符号化装置および復号装置
WO2017109865A1 (ja) * 2015-12-22 2017-06-29 三菱電機株式会社 データ圧縮装置、データ伸長装置、データ圧縮プログラム、データ伸長プログラム、データ圧縮方法及びデータ伸長方法

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MY145282A (en) * 2005-01-11 2012-01-13 Agency Science Tech & Res Encoder, decoder, method for encoding/decoding, computer readable media and computer program elements
EP2048658B1 (en) * 2006-08-04 2013-10-09 Panasonic Corporation Stereo audio encoding device, stereo audio decoding device, and method thereof
KR101412255B1 (ko) * 2006-12-13 2014-08-14 파나소닉 인텔렉츄얼 프로퍼티 코포레이션 오브 아메리카 부호화 장치, 복호 장치 및 이들의 방법
WO2008072732A1 (ja) * 2006-12-14 2008-06-19 Panasonic Corporation 音声符号化装置および音声符号化方法
JP4871894B2 (ja) 2007-03-02 2012-02-08 パナソニック株式会社 符号化装置、復号装置、符号化方法および復号方法
KR101414341B1 (ko) * 2007-03-02 2014-07-22 파나소닉 인텔렉츄얼 프로퍼티 코포레이션 오브 아메리카 부호화 장치 및 부호화 방법
JP4708446B2 (ja) 2007-03-02 2011-06-22 パナソニック株式会社 符号化装置、復号装置およびそれらの方法
RU2463674C2 (ru) * 2007-03-02 2012-10-10 Панасоник Корпорэйшн Кодирующее устройство и способ кодирования
EP2133872B1 (en) 2007-03-30 2012-02-29 Panasonic Corporation Encoding device and encoding method
EP2144228A1 (en) 2008-07-08 2010-01-13 Siemens Medical Instruments Pte. Ltd. Method and device for low-delay joint-stereo coding
GB2470059A (en) * 2009-05-08 2010-11-10 Nokia Corp Multi-channel audio processing using an inter-channel prediction model to form an inter-channel parameter
EP2439736A1 (en) * 2009-06-02 2012-04-11 Panasonic Corporation Down-mixing device, encoder, and method therefor
EP2830052A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, audio encoder, method for providing at least four audio channel signals on the basis of an encoded representation, method for providing an encoded representation on the basis of at least four audio channel signals and computer program using a bandwidth extension

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0675590A (ja) * 1992-03-02 1994-03-18 American Teleph & Telegr Co <Att> 知覚モデルに基づく音声信号符号化方法とその装置
JPH10105193A (ja) * 1996-09-26 1998-04-24 Yamaha Corp 音声符号化伝送方式
WO1998046045A1 (fr) * 1997-04-10 1998-10-15 Sony Corporation Procede et dispositif de codage, procede et dispositif de decodage et support d'enregistrement
JPH1132399A (ja) * 1997-05-13 1999-02-02 Sony Corp 符号化方法及び装置、並びに記録媒体
JPH11317672A (ja) * 1997-11-20 1999-11-16 Samsung Electronics Co Ltd ビット率の調節可能なステレオオーディオ符号化/復号化方法及び装置
JP2001209399A (ja) * 1999-12-03 2001-08-03 Lucent Technol Inc 第1成分と第2成分を含む信号を処理する装置と方法
JP2001255892A (ja) * 2000-03-13 2001-09-21 Nippon Telegr & Teleph Corp <Ntt> ステレオ信号符号化方法
JP2002244698A (ja) * 2000-12-14 2002-08-30 Sony Corp 符号化装置および方法、復号装置および方法、並びに記録媒体

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5434948A (en) 1989-06-15 1995-07-18 British Telecommunications Public Limited Company Polyphonic coding
US5274740A (en) * 1991-01-08 1993-12-28 Dolby Laboratories Licensing Corporation Decoder for variable number of channel presentation of multidimensional sound fields
DE19526366A1 (de) * 1995-07-20 1997-01-23 Bosch Gmbh Robert Verfahren zur Redundanzreduktion bei der Codierung von mehrkanaligen Signalen und Vorrichtung zur Dekodierung von redundanzreduzierten, mehrkanaligen Signalen
US6356211B1 (en) * 1997-05-13 2002-03-12 Sony Corporation Encoding method and apparatus and recording medium
US5924062A (en) * 1997-07-01 1999-07-13 Nokia Mobile Phones ACLEP codec with modified autocorrelation matrix storage and search
DE19742655C2 (de) * 1997-09-26 1999-08-05 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Codieren eines zeitdiskreten Stereosignals
SE519552C2 (sv) * 1998-09-30 2003-03-11 Ericsson Telefon Ab L M Flerkanalig signalkodning och -avkodning
US6961432B1 (en) * 1999-04-29 2005-11-01 Agere Systems Inc. Multidescriptive coding technique for multistream communication of signals
SE519981C2 (sv) * 2000-09-15 2003-05-06 Ericsson Telefon Ab L M Kodning och avkodning av signaler från flera kanaler
SE519985C2 (sv) * 2000-09-15 2003-05-06 Ericsson Telefon Ab L M Kodning och avkodning av signaler från flera kanaler
US6614365B2 (en) * 2000-12-14 2003-09-02 Sony Corporation Coding device and method, decoding device and method, and recording medium
US6934676B2 (en) 2001-05-11 2005-08-23 Nokia Mobile Phones Ltd. Method and system for inter-channel signal redundancy removal in perceptual audio coding
KR100711989B1 (ko) * 2002-03-12 2007-05-02 노키아 코포레이션 효율적으로 개선된 스케일러블 오디오 부호화
US20030231799A1 (en) * 2002-06-14 2003-12-18 Craig Schmidt Lossless data compression using constraint propagation
US7392195B2 (en) * 2004-03-25 2008-06-24 Dts, Inc. Lossless multi-channel audio codec
KR101117336B1 (ko) * 2004-05-19 2012-03-08 파나소닉 주식회사 오디오 신호 부호화 장치 및 오디오 신호 복호화 장치
EP1761915B1 (en) * 2004-06-21 2008-12-03 Koninklijke Philips Electronics N.V. Method and apparatus to encode and decode multi-channel audio signals
US7930184B2 (en) * 2004-08-04 2011-04-19 Dts, Inc. Multi-channel audio coding/decoding of random access points and transients
US7904292B2 (en) * 2004-09-30 2011-03-08 Panasonic Corporation Scalable encoding device, scalable decoding device, and method thereof
MY145282A (en) * 2005-01-11 2012-01-13 Agency Science Tech & Res Encoder, decoder, method for encoding/decoding, computer readable media and computer program elements
SG160390A1 (en) * 2005-03-11 2010-04-29 Agency Science Tech & Res Predictor
ATE406651T1 (de) * 2005-03-30 2008-09-15 Koninkl Philips Electronics Nv Audiokodierung und audiodekodierung
US8032368B2 (en) * 2005-07-11 2011-10-04 Lg Electronics Inc. Apparatus and method of encoding and decoding audio signals using hierarchical block swithcing and linear prediction coding

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0675590A (ja) * 1992-03-02 1994-03-18 American Teleph & Telegr Co <Att> 知覚モデルに基づく音声信号符号化方法とその装置
JPH10105193A (ja) * 1996-09-26 1998-04-24 Yamaha Corp 音声符号化伝送方式
WO1998046045A1 (fr) * 1997-04-10 1998-10-15 Sony Corporation Procede et dispositif de codage, procede et dispositif de decodage et support d'enregistrement
JPH1132399A (ja) * 1997-05-13 1999-02-02 Sony Corp 符号化方法及び装置、並びに記録媒体
JPH11317672A (ja) * 1997-11-20 1999-11-16 Samsung Electronics Co Ltd ビット率の調節可能なステレオオーディオ符号化/復号化方法及び装置
JP2001209399A (ja) * 1999-12-03 2001-08-03 Lucent Technol Inc 第1成分と第2成分を含む信号を処理する装置と方法
JP2001255892A (ja) * 2000-03-13 2001-09-21 Nippon Telegr & Teleph Corp <Ntt> ステレオ信号符号化方法
JP2002244698A (ja) * 2000-12-14 2002-08-30 Sony Corp 符号化装置および方法、復号装置および方法、並びに記録媒体

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP1876585A4 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008090970A1 (ja) * 2007-01-26 2008-07-31 Panasonic Corporation ステレオ符号化装置、ステレオ復号装置、およびこれらの方法
JP5413839B2 (ja) * 2007-10-31 2014-02-12 パナソニック株式会社 符号化装置および復号装置
JP5153791B2 (ja) * 2007-12-28 2013-02-27 パナソニック株式会社 ステレオ音声復号装置、ステレオ音声符号化装置、および消失フレーム補償方法
WO2010098120A1 (ja) * 2009-02-26 2010-09-02 パナソニック株式会社 チャネル信号生成装置、音響信号符号化装置、音響信号復号装置、音響信号符号化方法及び音響信号復号方法
US9053701B2 (en) 2009-02-26 2015-06-09 Panasonic Intellectual Property Corporation Of America Channel signal generation device, acoustic signal encoding device, acoustic signal decoding device, acoustic signal encoding method, and acoustic signal decoding method
WO2017109865A1 (ja) * 2015-12-22 2017-06-29 三菱電機株式会社 データ圧縮装置、データ伸長装置、データ圧縮プログラム、データ伸長プログラム、データ圧縮方法及びデータ伸長方法
JPWO2017109865A1 (ja) * 2015-12-22 2018-02-01 三菱電機株式会社 データ圧縮装置、データ伸長装置、データ圧縮プログラム、データ伸長プログラム、データ圧縮方法及びデータ伸長方法

Also Published As

Publication number Publication date
CN101167124B (zh) 2011-09-21
EP1876585B1 (en) 2010-06-16
CN101167124A (zh) 2008-04-23
JP4850827B2 (ja) 2012-01-11
DE602006014957D1 (de) 2010-07-29
EP1876585A1 (en) 2008-01-09
JPWO2006118178A1 (ja) 2008-12-18
KR20080003839A (ko) 2008-01-08
KR101259203B1 (ko) 2013-04-29
EP1876585A4 (en) 2008-05-21
US20090076809A1 (en) 2009-03-19
US8433581B2 (en) 2013-04-30

Similar Documents

Publication Publication Date Title
JP4850827B2 (ja) 音声符号化装置および音声符号化方法
JP5046652B2 (ja) 音声符号化装置および音声符号化方法
JP5046653B2 (ja) 音声符号化装置および音声符号化方法
WO2006118179A1 (ja) 音声符号化装置および音声符号化方法
JP5413839B2 (ja) 符号化装置および復号装置
JP5153791B2 (ja) ステレオ音声復号装置、ステレオ音声符号化装置、および消失フレーム補償方法
JP4963965B2 (ja) スケーラブル符号化装置、スケーラブル復号装置、及びこれらの方法
JP4555299B2 (ja) スケーラブル符号化装置およびスケーラブル符号化方法
WO2006059567A1 (ja) ステレオ符号化装置、ステレオ復号装置、およびこれらの方法
WO2006104017A1 (ja) 音声符号化装置および音声符号化方法
US8271275B2 (en) Scalable encoding device, and scalable encoding method
US9053701B2 (en) Channel signal generation device, acoustic signal encoding device, acoustic signal decoding device, acoustic signal encoding method, and acoustic signal decoding method
JP2006072269A (ja) 音声符号化装置、通信端末装置、基地局装置および音声符号化方法

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 200680014238.3

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2007514798

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 11912357

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 2006745739

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 1020077024701

Country of ref document: KR

NENP Non-entry into the national phase

Ref country code: DE

NENP Non-entry into the national phase

Ref country code: RU

WWP Wipo information: published in national office

Ref document number: 2006745739

Country of ref document: EP