WO2007052612A1 - ステレオ符号化装置およびステレオ信号予測方法 - Google Patents

ステレオ符号化装置およびステレオ信号予測方法 Download PDF

Info

Publication number
WO2007052612A1
WO2007052612A1 PCT/JP2006/321673 JP2006321673W WO2007052612A1 WO 2007052612 A1 WO2007052612 A1 WO 2007052612A1 JP 2006321673 W JP2006321673 W JP 2006321673W WO 2007052612 A1 WO2007052612 A1 WO 2007052612A1
Authority
WO
WIPO (PCT)
Prior art keywords
channel signal
low
prediction
frequency component
cross
Prior art date
Application number
PCT/JP2006/321673
Other languages
English (en)
French (fr)
Inventor
Michiyo Goto
Koji Yoshida
Hiroyuki Ehara
Original Assignee
Matsushita Electric Industrial Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co., Ltd. filed Critical Matsushita Electric Industrial Co., Ltd.
Priority to JP2007542732A priority Critical patent/JP5025485B2/ja
Priority to US12/091,793 priority patent/US8112286B2/en
Priority to EP06812182A priority patent/EP1953736A4/en
Publication of WO2007052612A1 publication Critical patent/WO2007052612A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/12Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients

Definitions

  • the present invention relates to a stereo coding apparatus and a stereo signal prediction method.
  • Non-Patent Document 1 There is a method described in Non-Patent Document 1 as a method for encoding a stereo audio signal. This encoding method uses the following equation (1) to predict one channel signal X and the other channel signal y and encode the prediction parameters a and d that minimize the prediction error. K
  • Non-Patent Literature 1 Hendrik Fucns, Improving Joint btereo Audio and omng by Adaptive Inter— Channel Prediction, Applications of Signal Processing to Audio and Acoustics, Final Program and Paper Summaries, 1993 IEEE Workshop on 17—20 Oct. 1993, Pages (s) 39-42.
  • An object of the present invention is to provide a stereo coding apparatus and a stereo signal prediction method that can improve the prediction performance between channels of a stereo signal and improve the sound quality of a decoded signal.
  • the stereo encoding device of the present invention includes a first-mouth one-pass filter that passes a low-frequency component of a first channel signal, a second low-pass filter that passes a low-frequency component of a second channel signal, Prediction means for generating a prediction parameter by predicting a low frequency component of the second channel signal from a low frequency component of the one channel signal, a first encoding means for encoding the first channel signal, and the prediction And a second encoding means for encoding the parameter.
  • the stereo signal prediction method of the present invention includes a step of passing a low-frequency component of a first channel signal, a step of passing a low-frequency component of a second channel signal, and the step of passing the low-frequency component of the first channel signal. Predicting the low-frequency component of the second channel signal from the low-frequency component.
  • FIG. 1 is a block diagram showing the main configuration of a stereo coding apparatus according to Embodiment 1
  • FIG. 2B Diagram showing an example of the spectrum of the second channel signal
  • FIG. 4 is a block diagram showing the main configuration of a stereo coding apparatus according to another nore of Embodiment 1
  • FIG. 5 is a block diagram showing a main configuration of a stereo coding apparatus according to a further variation of the first embodiment.
  • FIG. 6 is a block diagram showing the main configuration of a stereo coding apparatus according to Embodiment 2.
  • FIG. 7 is a block diagram showing the main configuration of a stereo coding apparatus according to Embodiment 3
  • FIG. 8 is a block diagram showing a main configuration of a stereo coding apparatus according to another nomination of the third embodiment.
  • FIG. 9 is a block diagram showing the main configuration of a stereo coding apparatus according to Embodiment 4.
  • FIG. 10 is a block diagram showing the main configuration of a stereo coding apparatus according to Embodiment 5.
  • FIG. 13 is a block diagram showing the main configuration of a stereo coding apparatus according to Embodiment 6
  • FIG. 16 is a block diagram showing the main configuration of a stereo encoding device according to Embodiment 7.
  • FIG. 19 is a block diagram showing the main configuration of a stereo coding apparatus according to Embodiment 8.
  • FIG. 20 is a block diagram showing the main configuration of a stereo encoding device according to Embodiment 9.
  • FIG.21 A diagram showing an example where the maximum cross-correlation value is obtained by weighting the local peak of the cross-correlation function
  • the threshold th is weighted by the maximum cross-correlation value that does not exceed the threshold ⁇ .
  • FIG. 23 A diagram showing an example in which the threshold ⁇ is not exceeded by th th even if the maximum cross-correlation value that has not exceeded the threshold ⁇ is weighted
  • FIG. 1 is a block diagram showing the main configuration of stereo coding apparatus 100 according to Embodiment 1 of the present invention.
  • Stereo encoding apparatus 100 includes LPF 101-1, LPF 101-2, prediction unit 102, first channel code channel unit 103, and prediction parameter code channel unit 104, and includes the first channel signal and A stereo signal as the second channel signal strength is input, encoded, and encoded. Outputs the meter. Note that in this specification, the same reference numerals are assigned to a plurality of components having the same functions, and each branch is followed by a different branch number to distinguish each other.
  • Each part of the stereo encoding device 100 performs the following operations.
  • LPF101-1 is a low-pass filter that passes only the low-frequency component of the input signal (original signal). Specifically, the LPF101-1 is based on the cutoff frequency (cut-off frequency) of the input first channel signal S1. The first channel signal S 1 ′ in which only the low frequency component remains and the high frequency component is blocked is output to the prediction unit 102. Similarly, LPF101-2 uses the same cutoff frequency as LPF101-1 to block the high-frequency component of the input second channel signal S2, and to predict the second channel signal S2 'with only the low-frequency component. Output to 102.
  • Prediction section 102 uses first channel signal S1 '(low frequency component) output from LPF 101-1 and second channel signal S2' (low frequency component) output from LPF 101-2. First channel signal power The second channel signal is predicted, and information (prediction parameter) related to the prediction is output to the prediction parameter encoding unit 104. Specifically, the prediction unit 102 compares the signal S1 ′ and the signal S2 ′ to obtain a delay time difference ⁇ and an amplitude ratio g (both values based on the first channel signal) between these two signals. These are obtained as prediction parameters and output to the prediction parameter encoder 104.
  • the first channel code key unit 103 performs a predetermined coding process on the original signal S 1 and outputs a code key parameter obtained for the first channel. If the original signal is a speech signal, the first channel coding section 103 performs code coding according to the CELP (Code-Excited Linear Prediction) method, and obtains an adaptive codebook lag, LPC coefficients, etc. Output CELP parameters as encoding parameters. Further, if the original signal is an audio signal, the first channel encoding unit 103 performs encoding by an AAC (Advanced Audio Coding) method defined in MPEG-4 (Moving Picture Experts Group phase-4), for example. And output the resulting encoding parameters.
  • CELP Code-Excited Linear Prediction
  • MPEG-4 Moving Picture Experts Group phase-4
  • the prediction parameter encoding unit 104 performs a predetermined encoding process on the prediction parameters output from the prediction unit 102, and outputs the obtained encoding parameters. For example, as a predetermined encoding process, a code book in which prediction parameter candidates are stored in advance is provided. Force Select the optimal prediction parameter and output the index corresponding to this prediction parameter.
  • the prediction unit 102 When determining the delay time difference ⁇ and the amplitude ratio g, the prediction unit 102 first determines the delay time difference ⁇ .
  • Equation 2 n and m are sample numbers, and FL is a frame length (number of samples).
  • the cross-correlation function is obtained by shifting one signal by m and calculating the correlation value between the two signals.
  • the prediction unit 102 obtains the amplitude ratio g between S1 ′ and S2 ′ according to the following equation (3).
  • the above equation (3) calculates the amplitude ratio between S2 ′ and S1 ′ shifted by the delay time difference, and the prediction unit 102 uses ⁇ and g to calculate the low frequency component of the first channel signal. Predict the low-frequency component S2 "of the second channel signal from S1 'according to the following equation (4).
  • the prediction unit 102 predicts the low-frequency component of the second channel signal using the low-frequency component of the first channel signal, thereby improving the prediction performance of the stereo signal. This principle will be described in detail below.
  • FIG. 2A and FIG. 2B are diagrams showing an example of each of the vectors of the first channel signal and the second channel signal that are the original signals.
  • a power source sound generation source
  • a stereo signal is a signal obtained by collecting sounds generated by a certain sound source common to all channels with a plurality of (two in the present embodiment) microphones installed apart from each other. Therefore, the farther away the sound source is from the microphone, the more the signal energy is attenuated and the arrival time is also delayed. Therefore, as shown in Fig. 2A and Fig. 2B, the spectrum of each channel shows a different waveform, but if the delay time difference ⁇ t and amplitude difference ⁇ A are corrected, the signals of both channels will be very similar. Become.
  • the delay time difference and amplitude difference parameters are characteristic parameters determined by the microphone installation position. Therefore, one set of values corresponds to the signal collected by one microphone.
  • the audio signal or the audio signal has a characteristic that the energy of the signal is biased toward the lower range than the high range. For this reason, when prediction is performed as part of the encoding process, it is desirable to focus on the low-frequency component rather than the high-frequency component in order to improve the prediction performance.
  • the high frequency component of the input signal is cut off, and the prediction parameter is obtained using the remaining low frequency component. Then, the encoding parameter of the obtained prediction parameter is output to the decoding side. That is, the prediction parameter itself is a force obtained based on the low frequency component of the input signal, and is output as a prediction parameter for the entire band including the high frequency. As described above, the prediction parameter is obtained based on only the low-frequency component because one set of values corresponds to the signal collected by one microphone. However, the prediction parameter itself is a force that is considered effective for the entire band.
  • the stereo decoding apparatus receives the first channel code key parameter output from first channel code key section 103, and receives this code key.
  • the first channel decoded signal is obtained, and by using the code key parameter (prediction parameter) output from the prediction parameter code unit 104 and the first channel decoded signal, It is possible to obtain the decoded signal of the second channel of the entire band.
  • LPF 101-1 blocks the high frequency component of the first channel signal
  • LPF 101-2 blocks the high frequency component of the second channel signal
  • predicts unit 102 The prediction parameters are obtained by predicting the low-frequency component of the second channel signal from the low-frequency component of the first channel signal. Then, by outputting the code key parameter of this prediction parameter together with the code key parameter of the first channel signal, the prediction performance between each channel of the stereo signal can be improved and the sound quality of the decoded signal can be improved. it can. In addition, since the high frequency component of the original signal is blocked, the order of the prediction coefficient can be kept low.
  • the first channel code key unit 103 applies the code key to the first channel signal of the original signal, and the prediction unit 102 uses the first channel signal S1 'to the second channel signal.
  • the case where the signal S2 ′ is predicted has been described as an example. However, as a mode in which a second channel encoding unit is provided instead of the first channel encoding unit 103, and the second channel signal of the original signal is encoded. Also good. In such a case, the prediction unit 102 is configured to predict the second channel signal S2 and the force first channel signal S1 ′.
  • FIG. 4 is a block diagram showing a main configuration of stereo coding apparatus 100a according to another nomination of the present embodiment.
  • the first channel signal S1 and the second channel signal S2 are Stereo Z monaural converter No is input to the stereo Z monaural converter 1 10
  • the stereo signals S 1 and S 2 are converted into a monaural signal S and output.
  • the target of the signal y is the monaural signal S and the first channel signal S 1.
  • the LPF 111 cuts the high-frequency portion of the monaural signal S to obtain the monaural signal S ′.
  • the predicting unit 102a also predicts the first channel signal S 1 with the monaural signal S ′ force,
  • a prediction parameter is calculated.
  • a monaural code key 112 is provided instead of the first channel code key 103, and the monaural code key 112 is added to the monaural signal S.
  • a predetermined encoding process is performed. Other operations are the same as those of the stereo encoder 100.
  • FIG. 5 is a block diagram showing a main configuration of stereo coding apparatus 100b according to the further nomination of the present embodiment.
  • a smoothing unit 120 is provided after the prediction unit 102, and smoothing processing is performed on the prediction parameters output from the prediction unit 102.
  • a memory 121 is provided, and smoothed prediction parameters output from the smoothing unit 120 are stored.
  • the smoothing unit 120 includes ⁇ (i), g (i) of the current frame input from the prediction unit 102, and (i-1), g ( Using both i-1), smoothing processing shown in the following formulas (5) and (6) is performed, and the smoothed prediction parameter is output to the prediction parameter coding unit 104b.
  • the delay time difference and the amplitude ratio g are used as prediction parameters as an example, the delay time difference and the prediction system sequence a are used instead of these parameters.
  • the first channel signal strength and the second channel signal are
  • the amplitude ratio is used as one of the prediction parameters as an example.
  • an amplitude difference, an energy ratio, an energy difference, or the like is used as a parameter indicating similar characteristics. May be.
  • FIG. 6 is a block diagram showing the main configuration of stereo coding apparatus 200 according to Embodiment 2 of the present invention.
  • Stereo encoding apparatus 200 has the same basic configuration as stereo encoding apparatus 100 shown in Embodiment 1, and the same components are denoted by the same reference numerals, and the description thereof is omitted. Is omitted.
  • Stereo encoding apparatus 200 further includes memory 201, and data stored in memory 201 is appropriately referred to by prediction unit 202, and performs an operation different from that of prediction unit 102 according to Embodiment 1.
  • the memory 201 has a prediction parameter (delay time) output from the prediction unit 202.
  • the difference ⁇ and the amplitude ratio g) are accumulated for a past predetermined frame (the number of frames ⁇ ), and this is output to the prediction unit 202 as appropriate.
  • Prediction parameters of past frames are input from the memory 201 to the prediction unit 202.
  • the prediction unit 202 determines a search range when searching for a prediction parameter in the current frame according to the prediction parameter value of the past frame input from the memory 201.
  • the prediction unit 202 searches for a prediction parameter within the determined search range, and outputs the finally obtained prediction parameter to the prediction parameter encoding unit 104.
  • the past delay time difference is calculated as (i 1), (i 2), (i
  • the past amplitude ratios are g (i-1), g (i-1), g (i-2), g (i-3), ..., g (i-j), ...
  • the current frame amplitude ratio g (i) is searched within the range shown in the following equation (10).
  • the search range for obtaining the prediction parameter is determined based on the value of the prediction parameter in the past frame, and more specifically, prediction of the current frame is performed.
  • FIG. 7 is a block diagram showing the main configuration of stereo coding apparatus 300 according to Embodiment 3 of the present invention.
  • Stereo encoding device 300 also has the same basic configuration as stereo encoding device 100 shown in the first embodiment, and the same components are denoted by the same reference numerals, and the description thereof is omitted. Omitted.
  • Stereo encoding apparatus 300 further includes a power detection unit 301 and a cut-off frequency determination unit 302. Based on the detection result of power detection unit 301, cut-off frequency determination unit 302 uses LPFs 10-1 and 101-2. Adaptively controls the cut-off frequency.
  • the power detection unit 301 monitors both the power of the first channel signal S 1 and the second channel signal S 2, and outputs the monitoring result to the cutoff frequency determination unit 302.
  • the average value for each subband is used as the power.
  • the cut-off frequency determination unit 302 first calculates the average power of all the bands by averaging the power of each subband over the entire band for the first channel signal S1. Next, the cutoff frequency determination unit 302 compares the calculated average power of all bands with a threshold value, and compares the size of each subband of the first channel signal S1 with the threshold value. Then, a cutoff frequency fl that includes all subbands larger than the threshold is determined.
  • the second channel signal S2 is processed in the same manner as the first channel signal S1, and the cutoff frequency determination unit 302 determines the value of the cutoff frequency f2 of the LPF 101-2. Based on the cut-off frequencies fl and f2, the final cut-off frequency fc common to the LPFs 101-1 and 101-2 is determined and indicated to LPF101-1 and 101-2. As a result, all the components in the frequency band with relatively large power can be output to the prediction unit 102 until LPF101-1, 101-2 ⁇ .
  • FIG. 8 is a block diagram showing the main configuration of stereo coding apparatus 300a according to another nomination of the present embodiment.
  • Stereo encoding device 300a includes SZN ratio detection section 301a instead of power detection section 301, and monitors the SZN ratio for each subband of the input signal.
  • the noise level is estimated from the input signal.
  • the cutoff frequency determination unit 302a determines the cutoff frequency of the low-pass filter so as to include all subbands having a relatively high SZN ratio.
  • the cutoff frequency can be adaptively controlled in an environment where ambient noise exists. Therefore, the delay time difference and the amplitude ratio can be calculated based on subbands with relatively low ambient noise levels, and the prediction parameter calculation accuracy can be improved.
  • the cutoff frequency fluctuates discontinuously from frame to frame, the characteristics of the signal after passing through the low-pass filter change, and the values of ⁇ and g become discontinuous from frame to frame, resulting in poor prediction performance. Therefore, the cutoff frequency itself may be smoothed so that the cutoff frequency is kept continuous between frames.
  • FIG. 9 is a block diagram showing the main configuration of stereo coding apparatus 400 according to Embodiment 4 of the present invention.
  • the input signal is an audio signal
  • the stereo encoding device 400 is a scalable encoding device that generates a monaural signal encoding parameter and a stereo signal encoding parameter.
  • a part of the configuration of the stereo encoding device 400 is the same as that of the stereo encoding device 100a shown in the nomination of the first embodiment (see FIG. 4).
  • the first channel code key unit 410 which is a component of the stereo coding device 100a, uses a CELP code key method suitable for the voice code key. It is designed to be applicable to the sign of the first channel signal.
  • stereo encoding apparatus 400 uses the first channel signal and the second channel signal as input signals, performs mono signal encoding in the core layer, and transmits the stereo signal in the enhancement layer.
  • the first channel signal is subjected to sign ⁇ and the monaural signal.
  • Both the coding parameters and the coding parameters of the first channel signal are output to the decoding side.
  • the second channel signal can also be decoded by using the monkey signal coding parameter and the first channel signal coding parameter.
  • the core layer includes a stereo Z monaural conversion unit 110, an LPF 111, and a monaural encoding unit 112, and these configurations are basically the same as the configuration shown in the stereo encoding device 100a, but the monaural Further, the encoding unit 112 outputs a driving excitation signal of a monaural signal obtained during the encoding process to the enhancement layer.
  • the enhancement layer includes LPF 101-1, a prediction unit 102a, a prediction parameter code unit 104, and a first channel code unit 410.
  • the prediction unit 102a predicts the low-frequency component of the first channel signal from the low-frequency component of the monaural signal and outputs the generated prediction parameter to the prediction parameter coding unit 104. At the same time, it is also output to the drive sound source prediction unit 401.
  • First channel coding section 410 divides the first channel signal into sound source information and vocal tract information and performs coding.
  • the driving sound source prediction unit 401 uses the prediction parameter output from the prediction unit 102a, and uses the monaural signal driving sound source signal output from the monaural coding unit 112 to drive the first channel signal. Predict sound source signals.
  • the first channel coding unit 410 performs excitation search using the excitation codebook 402, the synthesis filter 405, the distortion minimizing unit 408, etc., in the same way as normal CELP encoding, and encodes excitation information. Get the parameters.
  • LPC analysis Z quantization unit 404 performs linear prediction analysis of the first channel signal and quantization of the analysis result! ⁇ Obtained encoding parameters of vocal tract information, Used to generate a synthesized signal in the synthesis filter 405.
  • the stereo Z monaural converter 110 also generates the first channel signal and the second channel signal power as a monaural signal, and the LPF 111 blocks the high frequency component of the monaural signal. Produces a mono low-frequency component.
  • the prediction unit 102a obtains a prediction parameter by predicting the low-frequency component of the first channel signal from the low-frequency component power of the monaural signal by the same processing as in Embodiment 1, and uses this prediction parameter to obtain the CELP
  • the first channel signal is encoded by a method in accordance with the code key to obtain the first channel signal encoding parameters.
  • the sign key parameter of the first channel signal is the encoding parameter of the monaural signal. It is output to the decoding side together with the meter.
  • FIG. 10 is a block diagram showing the main configuration of stereo coding apparatus 500 according to Embodiment 5 of the present invention.
  • Stereo encoding device 500 also has the same basic configuration as stereo encoding device 100 shown in Embodiment 1, and the same components are denoted by the same reference numerals, and the description thereof is omitted. Omitted.
  • Stereo encoding apparatus 500 includes threshold setting unit 501 and prediction unit 502, and includes prediction unit 50.
  • the prediction unit 502 first determines the low frequency component S1 'of the first channel signal after passing through LPF101-1 and the low frequency component S2' of the second channel signal after passing through LPF101-2. Is used to find the cross-correlation function ⁇ expressed by the following equation (11).
  • the cross-correlation function ⁇ is assumed to be normalized by the autocorrelation function of each channel signal.
  • N and m are sample numbers, and FL is the frame length (number of samples).
  • the maximum value of ⁇ is 1, as is clear from the force.
  • the prediction unit 502 cross-correlates with the threshold ⁇ set in the threshold setting unit 501 in advance.
  • the maximum value of the function ⁇ is compared, and if this is greater than or equal to the threshold value, this cross-correlation function is determined to be reliable.
  • the prediction unit 502 compares the threshold value ⁇ th preset in the threshold value setting unit 501 with each sample value of the cross-correlation function ⁇ , and if at least one sample point is equal to or greater than the threshold value, This cross-correlation function is determined to be reliable.
  • FIG. 11 shows an example of the cross-correlation function ⁇ . This is the cross-correlation function This is an example in which the maximum value of exceeds the threshold value.
  • FIG. 12 is also a diagram showing an example of the cross-correlation function ⁇ .
  • the maximum value of the cross-correlation function does not exceed the threshold! /
  • prediction section 502 calculates amplitude ratio g by the same method as in the first embodiment.
  • the delay time difference ⁇ Determine the value.
  • the delay time difference obtained in the previous frame is determined as the delay time difference of the frame.
  • FIG. 13 is a block diagram showing the main configuration of stereo coding apparatus 600 according to Embodiment 6 of the present invention.
  • Stereo encoding apparatus 600 has the same basic configuration as stereo encoding apparatus 500 shown in the fifth embodiment, and the same components are denoted by the same reference numerals and description thereof is omitted. To do.
  • Stereo encoding apparatus 600 further includes voiced Z unvoiced determination section 601 and threshold setting section 50.
  • voiced Z unvoiced determination section 601 includes first channel signal S1 and second channel. Using each of the signals S2, the value of the autocorrelation function ⁇ is calculated according to the following equation (12).
  • S (n) is the first channel signal or the second channel signal
  • n and m are sample numbers
  • FL is the frame length (number of samples). Equation (12)
  • the maximum value is 1.
  • voiced Z unvoiced determination unit 601 a threshold for voiced Z unvoiced determination is set in advance.
  • Voiced Z unvoiced determination unit 601 compares the value of the self-correlation function ⁇ of the first channel signal or the second channel signal with a threshold value.
  • the determination result is output to the threshold setting unit 501.
  • Threshold setting section 501 changes the threshold setting between when it is determined to be voiced and when it is determined not to be voiced. Specifically, the threshold ⁇ for voiced
  • FIG. 14 is a diagram showing an example of a cross-correlation function in the case of voiced sound.
  • FIG. 15 is a diagram showing an example of a cross-correlation function for an unvoiced sound. Both thresholds are also shown. As shown in this figure, since the aspect of the cross-correlation function differs between voiced sound and unvoiced sound, in order to adopt a reliable value of the cross-correlation function, a threshold is set and the voiced sound has The method of setting the threshold value is changed depending on the signal and the signal having unvoicedness.
  • a delay time difference is set unless the cross-correlation function threshold is set large so that the difference from the value of the cross-correlation function that does not become a local peak is not large. Therefore, the reliability of the cross-correlation function can be improved.
  • voiced Z unvoiced determination is performed using the first channel signal and the second channel signal before passing through the low-pass filter.
  • the threshold for judging the reliability of the cross-correlation function is changed. Specifically, the threshold for voiced is set smaller than the threshold for unvoiced. Therefore, the delay time difference can be obtained with higher accuracy.
  • FIG. 16 is a block diagram showing the main configuration of stereo coding apparatus 700 according to Embodiment 7 of the present invention.
  • Stereo encoding apparatus 700 has the same basic configuration as stereo encoding apparatus 600 shown in Embodiment 6, and the same components are denoted by the same reference numerals and description thereof is omitted. To do.
  • Stereo encoding apparatus 700 includes coefficient setting section 701, threshold setting section 702, and prediction section 703 following voiced Z unvoiced determination section 601 and performs cross-correlation of coefficients according to the determination result of voiced Z unvoiced. Multiply the maximum value of the function and use the maximum value of the cross-correlation function after multiplication of the coefficients to find the delay time difference.
  • coefficient setting section 701 sets different coefficients g for voiced and unvoiced based on the determination result output from voiced Z unvoiced determination section 601, and threshold setting section 702 Output to.
  • the coefficient g is set to a positive value less than 1 based on the maximum value of the cross-correlation function.
  • the coefficient for voiced g is set to a positive value less than 1 based on the maximum value of the cross-correlation function.
  • the threshold setting unit 702 multiplies the maximum value ⁇ of the cross-correlation function by a coefficient g.
  • the value is set to the threshold ⁇ and output to the prediction unit 703.
  • the prediction unit 703 interacts with this threshold ⁇ .
  • FIG. 17 is a diagram showing an example of a cross-correlation function in the case of voiced sound.
  • FIG. 18 is a diagram showing an example of a cross-correlation function in the case of an unvoiced sound. Show the threshold value together Yes.
  • Prediction unit 703 has a peak vertex in the region between maximum value ⁇ and threshold value ⁇ .
  • the delay time difference of the previous frame is determined as the delay time difference of the frame. For example, in the example of Fig. 18, there are four local peaks in the region between ⁇ and (
  • M m is not adopted as the delay time difference ⁇ , and the previous frame is delayed
  • the difference between the frames is used as the delay time difference of the frame.
  • the threshold value is a value obtained by multiplying the maximum value by a positive coefficient less than 1 on the basis of the maximum value of the cross-correlation function.
  • the value of the coefficient to be multiplied is changed between voiced and unvoiced (the voiced case is made larger than the unvoiced case). Then, the local peak of the cross-correlation function existing between the maximum value of the cross-correlation function and the threshold is detected, and if no local peak is detected other than the peak indicating the maximum value, the value of the cross-correlation function is maximized.
  • the value of m m is determined as the delay time difference.
  • the delay time difference of the previous frame is determined as the delay time difference of the frame. That is, with the maximum value of the cross-correlation function as a reference, the delay time difference is set according to the number of local peaks included in the predetermined range of the maximum value of the cross-correlation function. By adopting such a configuration, the delay time difference can be obtained more accurately. [0081] (Embodiment 8)
  • FIG. 19 is a block diagram showing the main configuration of stereo coding apparatus 800 according to Embodiment 8 of the present invention.
  • Stereo encoding apparatus 800 has the same basic configuration as stereo encoding apparatus 500 shown in Embodiment 5, and the same components are denoted by the same reference numerals, and the description thereof is omitted. To do.
  • Stereo encoding apparatus 800 further includes a cross-correlation function value storage unit 801.
  • the prediction unit 802 refers to the cross-correlation function value stored in the cross-correlation function value storage unit 801, and the embodiment The operation different from that of the prediction unit 502 according to 5 is performed.
  • the cross-correlation function value storage unit 801 accumulates the maximum cross-correlation value after smoothing output from the prediction unit 802, and outputs this to the prediction unit 802 as appropriate.
  • Prediction unit 802 compares threshold value ⁇ preset in threshold setting unit 501 with the maximum value of cross-correlation function ⁇ , and determines that this cross-correlation function is reliable if it is equal to or greater than the threshold value. . In other words, the prediction unit 802 compares the threshold value ⁇ preset in the threshold setting unit 501 with each sample value of the cross-correlation function ⁇ , and if there is a sample point that is above the threshold at least at one point, The cross correlation function is determined to be reliable.
  • the prediction unit 802 uses the maximum cross-correlation value after smoothing of the previous frame output from the cross-correlation function value storage unit 801.
  • the delay time difference ⁇ is determined.
  • the maximum cross-correlation value after smoothing is expressed by the following equation (13).
  • is the maximum cross-correlation value after smoothing of the previous frame
  • is the maximum cross-correlation value of the current frame
  • a is the coefficient of smoothing ⁇
  • the maximum cross-correlation value after smoothing stored in the cross-correlation function value storage unit 801 is used as ⁇ when determining the delay time difference of the next frame.
  • the delay time difference of the previous frame is determined as the delay time difference ⁇ of the current frame. Conversely, ⁇
  • prediction section 802 calculates amplitude ratio g by the same method as in the first embodiment.
  • the smoothness / maximum cross-correlation value of the previous frame is The delay time difference can be obtained with higher accuracy by substituting the delay time difference of the previous frame with higher reliability determined by use.
  • FIG. 20 is a block diagram showing the main configuration of stereo coding apparatus 900 according to Embodiment 9 of the present invention.
  • Stereo encoding apparatus 900 has the same basic configuration as stereo encoding apparatus 600 shown in Embodiment 6, and the same components are denoted by the same reference numerals and description thereof is omitted. To do.
  • Stereo encoding apparatus 900 further includes weight setting section 901 and delay time difference storage section 902, and the weight according to the voiced Z-unvoiced determination result of the first channel signal and the second channel signal is received from weight setting section 901. Using this weight and the delay time difference stored in the delay time difference storage unit 902, the prediction unit 903 performs an operation different from that of the prediction unit 502 according to the sixth embodiment.
  • the weight setting unit 901 changes the weight w (> l. 0) depending on whether the voiced Z unvoiced determination unit 601 determines to be voiced or not. Specifically, the weight w for unvoiced is set larger than the weight w for voiced.
  • the delay time difference storage unit 902 accumulates the delay time difference ⁇ output from the prediction unit 903 and outputs it to the prediction unit 903 as appropriate.
  • the prediction unit 903 uses the weight w set by the weight setting unit 901 to determine the delay difference as follows. First, candidates for the delay time difference ⁇ between the low-frequency component S1 ′ of the first channel signal after passing through LPF101-1 and the low-frequency component S2 ′ of the second channel signal after passing through LPF101-2 are expressed by the above equation (11). ) To obtain the maximum value of the cross-correlation function
  • the cross-correlation function is normalized by the autocorrelation function of each channel signal.
  • N represents the sample number
  • FL represents the frame length (number of samples).
  • M represents the shift amount.
  • the prediction unit 903 next As shown in Expression (14), the weight set by weight setting section 901 is multiplied to the cross-correlation value obtained by Expression (11). Note that the preset range is set around the delay time difference ⁇ of the previous frame stored in the delay time difference storage unit 9002.
  • FIG. 21 is a diagram showing an example in which the maximum cross-correlation value is obtained by weighting the local peak of the cross-correlation function.
  • Figure 22 shows that the threshold ⁇ is not exceeded.
  • FIG. 6 is a diagram showing an example when the maximum cross-correlation value exceeds th. Furthermore, Fig. 23 shows that the threshold ⁇ is not exceeded.
  • FIG. 23 In the case shown in Fig. 23, the delay time difference of the current frame is set to zero.
  • the cross-correlation function value at the shift amount near the delay time difference of the frame is evaluated as a relatively larger value than the cross-correlation function values at other shift amounts, and the shift amount near the delay time difference of the previous frame is selected. As a result, the delay time difference of the current frame can be obtained more accurately.
  • the present embodiment has been described as a configuration in which the weight to be multiplied by the cross-correlation function value is changed according to the voiced / unvoiced determination result, the configuration is such that a fixed weight is always multiplied regardless of the voiced / unvoiced determination result. ,.
  • Embodiments 5 to 9 the signals that have not been subjected to the force low-pass filter processing described by taking the processing for the first channel signal and the second channel signal after passing through the low-pass filter as an example. It is also possible to apply the processing from the fifth embodiment to the ninth embodiment. [0103] Instead of the first channel signal and the second channel signal that have passed through the low-pass filter, the residual signal of the first channel signal that has passed through the low-pass filter and the second channel signal that has passed through the low-pass filter It is also possible to use a residual signal.
  • the stereo coding apparatus and the stereo signal prediction method according to the present invention are not limited to the above embodiments, and can be implemented with various modifications. For example, the embodiments can be combined as appropriate.
  • the stereo speech coding apparatus can be mounted on a communication terminal apparatus and a base station apparatus in a mobile communication system, and thereby has a similar effect as described above.
  • a base station apparatus, and a mobile communication system can be provided.
  • the present invention can also be realized by software.
  • the algorithm of the stereo signal prediction method according to the present invention is described in a programming language, the program is stored in a memory, and is executed by an information processing means, so that a part of the stereo coding apparatus according to the present invention is performed.
  • the function can be realized.
  • Each functional block used in the description of each of the above embodiments is typically realized as an LSI which is an integrated circuit. These may be individually made into one chip, or may be made into one chip so as to include some or all of them.
  • IC integrated circuit
  • system LSI system LSI
  • super LSI super LSI
  • unroller LSI etc.
  • the method of circuit integration is not limited to LSI, and may be realized by a dedicated circuit or a general-purpose processor. It is also possible to use a field programmable gate array (FPGA) that can be programmed after LSI manufacturing, or a reconfigurable processor that can reconfigure the connection or setting of circuit cells inside the LSI.
  • FPGA field programmable gate array
  • reconfigurable processor that can reconfigure the connection or setting of circuit cells inside the LSI.
  • the stereo coding apparatus and the stereo signal prediction method according to the present invention can be applied to applications such as a communication terminal device and a base station device in a mobile communication system.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

 ステレオ信号の各チャネル間の予測性能を向上させ、復号信号の音質を改善すること。LPF(101-1)は、S1の高域成分を遮断して、S1’(低域成分)を出力する。LPF(101-2)は、S2の高域成分を遮断して、S2’(低域成分)を出力する。予測部(102)は、S1’からS2’を予測し、遅延時間差τおよび振幅比gからなる予測パラメータを出力する。第1チャネル符号化部(103)は、S1を符号化する。予測パラメータ符号化部(104)は、予測パラメータを符号化する。S1の符号化パラメータと予測パラメータの符号化パラメータが最終的に出力される。

Description

明 細 書
ステレオ符号化装置およびステレオ信号予測方法
技術分野
[0001] 本発明は、ステレオ符号ィ匕装置およびステレオ信号予測方法に関する。
背景技術
[0002] 携帯電話機を用いた通話のように、移動体通信システムにおける音声通信では、 現在、モノラル方式による同一ビットレートでの通信が主流である。しかし、今後、第 4 世代の移動体通信システムのように、伝送レートのさらなる高ビットレートイ匕が進めば 、より臨場感の高 、ステレオ信号を用いた音声通信が普及することが期待される。
[0003] ステレオ音声信号の符号ィ匕方法としては、非特許文献 1記載のものがある。この符 号化方法は、以下の式(1)を用いて一方のチャネル信号 Xカゝら他方のチャネル信号 yを予測し、その予測誤差を最小にするような予測パラメータ aおよび dを符号化する k
。ここで、 aは K次の予測係数、 dは二つのチャネル信号の時間差を表している。
k
[数 1] y{n) = ^ k - x(n - d - k) … (1 )
非特干文献 1 : Hendrik Fucns, Improving Joint btereo Audio し omng by Adaptive In ter— Channel Prediction, Applications of Signal Processing to Audio and Acoustics, Final Program and Paper Summaries, 1993 IEEE Workshop on 17—20 Oct. 1993, Pa ge(s) 39-42.
発明の開示
発明が解決しょうとする課題
[0004] し力しながら、上記の符号化方法は、予測誤差を小さくするために予測係数の次数 をある次数以上に維持することが必要であり、そのため符号ィ匕ビットレートが高くなる という問題がある。例えば、符号ィ匕ビットレートを低くするために予測係数の次数を低 く設定すると、予測性能が低下し、聴覚的に音質劣化が生じる。 [0005] 本発明の目的は、ステレオ信号の各チャネル間の予測性能を向上させ、復号信号 の音質を改善することができるステレオ符号ィ匕装置およびステレオ信号予測方法を 提供することである。
課題を解決するための手段
[0006] 本発明のステレオ符号化装置は、第 1チャネル信号の低域成分を通過させる第 1口 一パスフィルタと、第 2チャネル信号の低域成分を通過させる第 2ローパスフィルタと、 前記第 1チャネル信号の低域成分カゝら前記第 2チャネル信号の低域成分を予測して 予測パラメータを生成する予測手段と、前記第 1チャネル信号を符号化する第 1符号 化手段と、前記予測パラメータを符号化する第 2符号化手段と、を具備する構成を採 る。
[0007] また、本発明のステレオ信号予測方法は、第 1チャネル信号の低域成分を通過さ せるステップと、第 2チャネル信号の低域成分を通過させるステップと、前記第 1チヤ ネル信号の低域成分から前記第 2チャネル信号の低域成分を予測するステップと、 を具備するようにした。
発明の効果
[0008] 本発明によれば、ステレオ信号の各チャネル間の予測性能を向上させ、復号信号 の音質を改善することができる。
図面の簡単な説明
[0009] [図 1]実施の形態 1に係るステレオ符号化装置の主要な構成を示すブロック図
[図 2A]第 1チャネル信号のスペクトルの一例を示した図
[図 2B]第 2チャネル信号のスペクトルの一例を示した図
[図 3]音声信号またはオーディオ信号の特徴を説明するための図
[図 4]実施の形態 1の他のノ リエーシヨンに係るステレオ符号ィ匕装置の主要な構成を 示すブロック図
[図 5]実施の形態 1のさらなるバリエーションに係るステレオ符号ィ匕装置の主要な構成 を示すブロック図
[図 6]実施の形態 2に係るステレオ符号ィ匕装置の主要な構成を示すブロック図
[図 7]実施の形態 3に係るステレオ符号ィ匕装置の主要な構成を示すブロック図 [図 8]実施の形態 3の他のノリエーシヨンに係るステレオ符号ィ匕装置の主要な構成を 示すブロック図
[図 9]実施の形態 4に係るステレオ符号ィ匕装置の主要な構成を示すブロック図
[図 10]実施の形態 5に係るステレオ符号ィ匕装置の主要な構成を示すブロック図
[図 11]相互相関関数の一例を示した図
[図 12]相互相関関数の一例を示した図
[図 13]実施の形態 6に係るステレオ符号ィ匕装置の主要な構成を示すブロック図
[図 14]有声音の場合の相互相関関数の一例を示した図
[図 15]無声音の場合の相互相関関数の一例を示した図
[図 16]実施の形態 7に係るステレオ符号ィ匕装置の主要な構成を示すブロック図
[図 17]有声音の場合の相互相関関数の一例を示した図
[図 18]無声音の場合の相互相関関数の一例を示した図
[図 19]実施の形態 8に係るステレオ符号ィ匕装置の主要な構成を示すブロック図
[図 20]実施の形態 9に係るステレオ符号ィ匕装置の主要な構成を示すブロック図
[図 21]相互相関関数のローカルピークが重み付けされることによって最大相互相関 値となる場合の一例を示した図
[図 22]閾値 φ を超えていな力つた最大相互相関値が重み付けされることによって閾 th
値 Φ
thを超える最大相互相関値となる場合の一例を示した図
[図 23]閾値 φ を超えて 、なかった最大相互相関値が重み付けされても閾値 φ を th th 超えなかった場合の一例を示した図
発明を実施するための最良の形態
[0010] 以下、本発明の実施の形態について、添付図面を参照して詳細に説明する。
[0011] (実施の形態 1)
図 1は、本発明の実施の形態 1に係るステレオ符号ィ匕装置 100の主要な構成を示 すブロック図である。
[0012] ステレオ符号化装置 100は、 LPF101 - 1, LPF101— 2、予測部 102、第 1チヤネ ル符号ィ匕部 103、および予測パラメータ符号ィ匕部 104を備え、第 1チャネル信号およ び第 2チャネル信号力 なるステレオ信号が入力され、これに符号化を施し、符号ィ匕 ノ メータを出力する。なお、本明細書において、同様の機能を有する複数の構成 に対して同一の符号を付すこととし、さらに各符号に続けて異なる枝番を付して互 ヽ を区別する。
[0013] ステレオ符号ィ匕装置 100の各部は以下の動作を行う。
[0014] LPF101— 1は、入力信号 (原信号)の低域成分のみを通過させるローパスフィル タであり、具体的には、入力される第 1チャネル信号 S1において遮断周波数 (カット オフ周波数)よりも高域の周波数成分を遮断し、低域成分のみが残った第 1チャネル 信号 S 1 'を予測部 102に出力する。 LPF101— 2も同様に、 LPF101— 1と同一の 遮断周波数を用いて、入力される第 2チャネル信号 S2の高域成分を遮断し、低域成 分のみの第 2チャネル信号 S2'を予測部 102に出力する。
[0015] 予測部 102は、 LPF101— 1から出力される第 1チャネル信号 S1 ' (低域成分)およ び LPF101— 2から出力される第 2チャネル信号 S2' (低域成分)を用いて、第 1チヤ ネル信号力 第 2チャネル信号を予測し、この予測に関する情報 (予測パラメータ)を 予測パラメータ符号化部 104に出力する。具体的には、予測部 102は、信号 S1 'と 信号 S2'とを比較することにより、これら 2つの信号間の遅延時間差 τおよび振幅比 g (共に第 1チャネル信号を基準とした値)を求め、これらを予測パラメータとして予測 ノ ラメータ符号ィ匕部 104に出力する。
[0016] 第 1チャネル符号ィ匕部 103は、原信号 S 1に対し、所定の符号化処理を行い、第 1 チャネルに関して得られる符号ィ匕パラメータを出力する。原信号が音声信号であるな らば、第 1チャネル符号化部 103は、例えば、 CELP (Code-Excited Linear Predictio n)方式による符号ィヒを行い、得られる適応符号帳ラグ、 LPC係数等の CELPパラメ ータを符号化パラメータとして出力する。また、原信号がオーディオ信号であるならば 、第 1チャネル符号化部 103は、例えば、 MPEG -4 (Moving Picture Experts Group phase-4)に規定される AAC (Advanced Audio Coding)方式による符号化を行い、得 られる符号化パラメータを出力する。
[0017] 予測パラメータ符号化部 104は、予測部 102から出力される予測パラメータに対し 、所定の符号化処理を施し、得られる符号化パラメータを出力する。例えば、所定の 符号化処理として、予測パラメータの候補を予め記憶した符号帳を備え、この符号帳 力 最適な予測パラメータを選択し、この予測パラメータに対応するインデックスを出 力する方法をとる。
[0018] 次いで、予測部 102で行われる上記予測処理について、より詳細に説明する。
[0019] 予測部 102は、遅延時間差 τおよび振幅比 gを求める際に、まず遅延時間差 τか ら求める。 LPF101— 1通過後の第 1チャネル信号の低域成分 S1 'と、 LPF101 - 2 通過後の第 2チャネル信号の低域成分 S2'との間の遅延時間差 τは、次式(2)で表 される相互相関関数の値を最大にする m=m として求まる。
max
[数 2]
Figure imgf000007_0001
ここで、 nおよび mはサンプル番号を、 FLはフレーム長(サンプル数)を示す。相互 相関関数は、一方の信号を mだけシフトさせ、 2つの信号相互の相関値を算出したも のである。
[0020] 次に、予測部 102は、求まった遅延時間差てを用いて、 S1 'と S2'との間の振幅比 gを次式(3)に従って求める。
[数 3]
Figure imgf000007_0002
上記式(3)は、 S2'と遅延時間差て分だけずらした S1 'との振幅比を算出している そして、予測部 102は、 τおよび gを用いて、第 1チャネル信号の低域成分 S1 'から 第 2チャネル信号の低域成分 S2"を次式 (4)に従って予測する。
[数 4] S2"(n) = g SY(n - T) … (4 )
[0022] このように、予測部 102が、第 1チャネル信号の低域成分を用いて、第 2チャネル信 号の低域成分を予測することにより、ステレオ信号の予測性能が向上する。この原理 について以下詳細に説明する。
[0023] 図 2A及び図 2Bは、原信号である第 1チャネル信号および第 2チャネル信号の各ス ベクトルの一例を示した図である。なお、ここでは、説明を簡単にするために、音源( 音の発生源)力^つである場合を例にとって説明する。
[0024] そもそもステレオ信号は、全チャネル共通のある音源で発生した音を、互いに離れ て設置された複数の (本実施の形態では 2つの)マイクロフォンで収音した信号である 。よって、音源力もマイクロフォンまで遠ければ遠いほど信号のエネルギーが減衰し、 また到達時間にも遅延が生じる。そのため、図 2A及び図 2Bにも現れているように、 各チャネルのスペクトルは異なる波形を示すものの、遅延時間差 Δ tおよび振幅差 Δ Aを補正すれば、両チャネルの信号は良く類似するようになる。ここで、遅延時間差 および振幅差というパラメータは、マイクロフォンの設置位置によって決まる特性パラ メータであるため、 1つのマイクロフォンで収音された信号に対し 1組の値が対応する ノ ラメータである。
[0025] 一方、音声信号またはオーディオ信号には、図 3に示すように、信号のエネルギー が高域よりもより低域の方に偏るという特徴がある。そのため、符号化処理の一部とし て予測を行う場合には、高域成分よりも低域成分に重点を置いて予測を行うことが予 測性能向上の観点力 望まし 、。
[0026] そこで、本実施の形態では、入力信号の高域成分を遮断し、残った低域成分を用 いて予測パラメータを求める。そして、求まった予測パラメータの符号化パラメータを 復号側に出力する。すなわち、予測パラメータ自体は、入力信号の低域成分に基づ いて求めたものである力 これを高域まで含めた全帯域に対する予測パラメータとし て出力する。既に説明した通り、予測パラメータは、 1つのマイクロフォンで収音され た信号に対し 1組の値が対応するものであるから、低域成分のみに基づいて求めた ものであっても、その予測パラメータ自体は全帯域に対して有効であると考えられる 力 である。
[0027] また、エネルギーの低 、高域成分をも含めて予測を行うと、この精度の悪 、高域成 分の影響で予測性能が低下する可能性があるが、本実施の形態では、高域成分を 予測に用いな 、ため、高域成分の影響を受けて予測性能が低下するおそれもな 、。
[0028] ステレオ符号化装置 100に対応する本実施の形態に係るステレオ復号装置は、第 1チャネル符号ィ匕部 103から出力される第 1チャネルの符号ィ匕パラメータを受信し、こ の符号ィ匕パラメータを復号することにより、第 1チャネルの復号信号を得ると共に、予 測パラメータ符号ィ匕部 104から出力される符号ィ匕パラメータ(予測パラメータ)および 第 1チャネルの復号信号を用いることにより、全帯域の第 2チャネルの復号信号を得 ることがでさる。
[0029] このように、本実施の形態によれば、 LPF101— 1で第 1チャネル信号の高域成分 を遮断し、 LPF101— 2で第 2チャネル信号の高域成分を遮断し、予測部 102で第 1 チャネル信号の低域成分から第 2チャネル信号の低域成分を予測することにより、予 測パラメータを得る。そして、第 1チャネル信号の符号ィ匕パラメータと共にこの予測パ ラメータの符号ィ匕パラメータを出力することにより、ステレオ信号の各チャネル間の予 測性能を向上させ、復号信号の音質を改善することができる。また、原信号の高域成 分を遮断して 、るので、予測係数の次数も低く抑えることができる。
[0030] なお、本実施の形態では、原信号の第 1チャネル信号に対し第 1チャネル符号ィ匕 部 103において符号ィ匕を施し、予測部 102において、第 1チャネル信号 S1 'から第 2 チャネル信号 S2'を予測する場合を例にとって説明したが、第 1チャネル符号ィ匕部 1 03の代わりに第 2チャネル符号化部を設け、原信号の第 2チャネル信号に対し符号 化を施す態様としても良い。かかる場合、予測部 102において、第 2チャネル信号 S2 ,力 第 1チャネル信号 S1 'を予測するような構成とする。
[0031] また、本実施の形態は、第 1チャネル信号および第 2チャネル信号を入力信号とす る代わりに、別の入力信号に対して上記の符号ィ匕を行うことも可能である。図 4は、本 実施の形態の他のノリエーシヨンに係るステレオ符号ィ匕装置 100aの主要な構成を 示すブロック図である。ここでは、第 1チャネル信号 S1および第 2チャネル信号 S2が ステレオ Zモノラル変換部 noに入力され、ステレオ Zモノラル変換部 1 10において
、ステレオ信号 S l、 S2がモノラル信号 S に変換され、出力される。
MONO
[0032] ステレオ/モノラル変換部 110における変換方法としては、例えば、第 1チャネル信 号 S 1および第 2チャネル信号 S2の平均信号または重み付き平均信号を求め、これ をモノラル信号 S とする。すなわち、このノ リエーシヨンにおいては、実質的な符
MONO
号ィ匕の対象は、モノラル信号 S および第 1チャネル信号 S 1ということになる。
MONO
[0033] そこで、 LPF111は、モノラル信号 S の高域部をカットしてモノラル信号 S '
MONO MONO
を生成し、予測部 102aは、モノラル信号 S ' 力も第 1チャネル信号 S 1を予測し、
MONO
予測パラメータを算出する。一方、第 1チャネル符号ィ匕部 103の代わりにモノラル符 号ィ匕部 112が設けられており、このモノラル符号ィ匕部 112は、モノラル信号 S に
MONO
対し所定の符号化処理を施す。他の動作はステレオ符号ィ匕装置 100と同様である。
[0034] また、本実施の形態は、予測部 102から出力される予測パラメータに対し、平滑ィ匕 処理を施すような構成としても良い。図 5は、本実施の形態のさらなるノ リエーシヨン に係るステレオ符号ィ匕装置 100bの主要な構成を示すブロック図である。ここでは、予 測部 102の後段に平滑ィ匕部 120が設けられ、予測部 102から出力される予測パラメ ータに対し平滑化処理が施される。また、メモリ 121が設けられ、平滑部 120から出 力される平滑化された予測パラメータが保存される。より詳細には、平滑化部 120は 、予測部 102から入力される現フレームの τ (i)、 g(i)、およびメモリ 121から入力され る過去フレームのて (i- 1)、 g(i— 1)の双方を用いて、以下の式(5)、 (6)に示す平滑 化処理を施し、平滑ィ匕された予測パラメータを予測パラメータ符号ィ匕部 104bに出力 する。
[数 5] ΐ{ί) = α ΐ(ί - \) + (\ - α) τ(ί) … (5 )
) = '— ) … ( 6 )
ここで、 はフレーム番号を、 f )、 ^ )は平滑化された r( )、 を示し、 ひ、 /?は、 0から 1の範囲の定数である。 予測パラメータ符号ィ匕部 104bは、この平滑化された予測パラメータに対し、次式( 7)を用いた予測を行い、予測パラメータを得る。 [数 6]
S2"(n) ^ g - S\'(n - 7) … ( 7 ) 他の動作はステレオ符号ィ匕装置 100と同様である。このように、 τおよび gの値の変 ィ匕がフレーム間で平滑化されることにより、第 2チャネル信号の予測信号 S2"のフレ ーム間の連続性を向上させることができる。
[0035] また、本実施の形態では、予測パラメータとして遅延時間差ておよび振幅比 gを用 いる場合を例にとって説明した力 これらのパラメータの代わりに遅延時間差ておよ び予測系数列 aを用いて、次式 (8)により第 1チャネル信号力 第 2チャネル信号を
k
予測するような構成としても良い。
[数 7]
S2"(n) = ^ak - S\ n - T - k) - ( 8 )
この構成により、予測性能をより高めることができる。
[0036] また、本実施の形態では、予測パラメータの 1つとして振幅比を用いる場合を例にと つて説明したが、同様の特性を示すパラメータとして振幅差、エネルギー比、ェネル ギー差等を用いても良い。
[0037] (実施の形態 2)
図 6は、本発明の実施の形態 2に係るステレオ符号ィ匕装置 200の主要な構成を示 すブロック図である。なお、ステレオ符号化装置 200は、実施の形態 1に示したステレ ォ符号ィ匕装置 100と同様の基本的構成を有しており、同一の構成要素には同一の 符号を付し、その説明を省略する。
[0038] ステレオ符号化装置 200は、メモリ 201をさらに備え、このメモリ 201に保存されてい るデータを予測部 202が適宜参照し、実施の形態 1に係る予測部 102と異なる動作 を行う。
[0039] より詳細には、メモリ 201は、予測部 202から出力される予測パラメータ(遅延時間 差 τ、振幅比 g)を過去の所定フレーム (フレーム数 Ν)について蓄積し、これを予測 部 202に適宜出力する。
[0040] 予測部 202には、メモリ 201から過去フレームの予測パラメータが入力される。予測 部 202は、メモリ 201から入力される過去フレームの予測パラメータの値に応じて、現 フレームにおいて予測パラメータを探索する際の探索範囲を決定する。予測部 202 は、決定された探索範囲内において予測パラメータの探索を行い、最終的に得られ る予測パラメータを予測パラメータ符号化部 104に出力する。
[0041] 上記処理を数式を用いて説明すると、過去の遅延時間差をて (i 1)、 て (i 2)、 て (
Ϊ- 3 · · · , τ (ί-]) · · τ (ί— Ν)として、現フレームの遅延時間差 τ (Χ)は、次式(9) に示す範囲内で検索が行われる。
[数 8]
πιϊη{ (/ - J)}≤ τ( ≤ max{r(/' - J)} … ( 9 ) ここで、 jは 1から Nまでの値である。
[0042] また、過去の振幅比を g(i— 1)、 g(i— 1)、 g(i— 2)、 g(i— 3)、 · · ·、 g(i— j)、 · · ·、 g(i— N)として、現フレームの振幅比 g(i)は、次式(10)に示す範囲内で検索が行われる。
[数 9]
Figure imgf000012_0001
一ゾ)} < g(i)≤ max{ ( - j)} - ( 1 0 ) jは 1から Nまでの値である。
[0043] このように、本実施の形態によれば、予測パラメータを求める際の探索範囲を、過 去フレームにおける予測パラメータの値に基づいて決定することにより、より詳細には 、現フレームの予測パラメータを過去フレームの予測パラメータの近傍の値に制限す ることにより、極端な予測誤りが発生することを防止し、復号信号の音質劣化を回避 することができる。
[0044] (実施の形態 3) 図 7は、本発明の実施の形態 3に係るステレオ符号ィ匕装置 300の主要な構成を示 すブロック図である。ステレオ符号ィ匕装置 300も、実施の形態 1に示したステレオ符 号ィ匕装置 100と同様の基本的構成を有しており、同一の構成要素には同一の符号 を付し、その説明を省略する。
[0045] ステレオ符号化装置 300は、パヮ検出部 301および遮断周波数決定部 302をさら に備え、パヮ検出部 301の検出結果に基づいて、遮断周波数決定部 302が LPF10 1— 1、 101— 2の遮断周波数を適応的に制御する。
[0046] より詳細には、パヮ検出部 301は、第 1チャネル信号 S1および第 2チャネル信号 S2 の双方のパヮをモニタし、モニタ結果を遮断周波数決定部 302に出力する。ここで、 パヮとして各サブバンドごとの平均値を使用する。
[0047] 遮断周波数決定部 302は、まず、第 1チャネル信号 S1について、各サブバンド毎 のパヮを全帯域に亘つて平均し、全帯域の平均パヮを算出する。次に、遮断周波数 決定部 302は、算出された全帯域の平均パヮを閾値として、第 1チャネル信号 S1の 各サブバンドのパヮを閾値と大小比較する。そして、閾値よりも大きなサブバンドを全 て含むような遮断周波数 flを決定する。
[0048] 第 2チャネル信号 S2についても第 1チャネル信号 S1と同様の処理を行い、遮断周 波数決定部 302は、 LPF101— 2の遮断周波数 f2の値を決定する。そして、遮断周 波数 fl、 f2に基づいて、最終的な LPF101— 1、 101— 2に共通の遮断周波数 fcを 決定し、 LPF101 - 1, 101— 2に旨示する。これにより、: LPF101— 1、 101— 2ίま、 相対的にパヮが大きな周波数帯域の成分を全て残して、予測部 102に出力すること ができる。
[0049] 通常、 flと f2とは同一の値になると考えられるので、遮断周波数決定部 302は、 fl
(または f 2)を最終的な遮断周波数 fcとする。もし、 flと f2とが異なる値を示す場合は 、情報を安全に残すという観点から、より低域成分が残る方の遮断周波数、すなわち 値の大きい方の遮断周波数を採用して fcとする。
[0050] このように、本実施の形態によれば、相対的にパヮの高い信号を対象として、予測 パラメータである遅延時間差および振幅比を求めるので、予測パラメータの算出精度 、すなわち予測性能を向上させることができる。 [0051] なお、本実施の形態では、入力信号のパヮに基づいてローパスフィルタの遮断周 波数を決定する例を示したが、例えば、入力信号のサブバンド毎の SZN比を用いる 構成としても良い。図 8は、本実施の形態の他のノリエーシヨンに係るステレオ符号 化装置 300aの主要な構成を示すブロック図である。ステレオ符号ィ匕装置 300aは、 パヮ検出部 301の代わりに SZN比検出部 301aを備え、入力信号のサブバンド毎の SZN比をモニタする。ノイズレベルは、入力信号から推定する。遮断周波数決定部 302aは、 SZN比検出部 301aのモニタ結果に基づき、相対的に SZN比の高いサ ブバンドを全て含むように、ローパスフィルタの遮断周波数を決定する。これにより、 周囲騒音が存在する環境下で遮断周波数を適応的に制御することができる。よって 、周囲騒音のレベルが相対的に低いサブバンドに基づいて遅延時間差および振幅 比を算出することができ、予測パラメータの算出精度を向上させることができる。
[0052] また、遮断周波数がフレーム毎に不連続に変動すると、ローパスフィルタ通過後の 信号の特性が変化し、 τや gの値もフレーム毎に不連続となって予測性能が低下す る。そこで、遮断周波数がフレーム間で連続性を保つように、遮断周波数自体の平 滑化を行っても良い。
[0053] (実施の形態 4)
図 9は、本発明の実施の形態 4に係るステレオ符号ィ匕装置 400の主要な構成を示 すブロック図である。ここでは、入力信号が音声信号であり、また、ステレオ符号化装 置 400が、モノラル信号の符号ィ匕パラメータとステレオ信号の符号化パラメータとを生 成するスケーラブル符号ィ匕装置である例を示す。
[0054] ステレオ符号ィ匕装置 400の一部の構成は、実施の形態 1のノリエーシヨンにおいて 示したステレオ符号ィ匕装置 100aと同一である(図 4参照。同一の構成要素には同一 の符号を付す。 ) oしかし、入力信号が音声であるので、ステレオ符号化装置 100aに はな 、構成である第 1チャネル符号ィ匕部 410において、音声符号ィ匕に適した CELP 符号ィ匕の手法を第 1チャネル信号の符号ィ匕に応用できるような工夫が施されている。
[0055] 具体的には、ステレオ符号化装置 400は、第 1チャネル信号および第 2チャネル信 号を入力信号とし、コアレイヤにおいてモノラル信号の符号ィ匕を行い、拡張レイヤに お 、てステレオ信号のうち第 1チャネル信号にっ 、て符号ィ匕を行 、、モノラル信号の 符号化パラメータおよび第 1チャネル信号の符号化パラメータの双方を復号側に出 力する。復号側では、モノラル信号の符号ィ匕パラメータおよび第 1チャネル信号の符 号化パラメータを用いて、第 2チャネル信号も復号することができる。
[0056] コアレイヤは、ステレオ Zモノラル変換部 110、 LPF111、およびモノラル符号化部 112を備え、これらの構成は、ステレオ符号ィ匕装置 100aに示した構成と基本的に同 一であるが、モノラル符号ィ匕部 112はさらに、符号化処理の途中で得られるモノラル 信号の駆動音源信号を拡張レイヤに出力する。
[0057] 拡張レイヤは、 LPF101— 1、予測部 102a、予測パラメータ符号ィ匕部 104、および 第 1チャネル符号ィ匕部 410を備える。予測部 102aは、実施の形態 1と同様に、モノラ ル信号の低域成分から第 1チャネル信号の低域成分を予測して、生成された予測パ ラメータを予測パラメータ符号ィ匕部 104に出力すると共に、駆動音源予測部 401にも 出力する。
[0058] 第 1チャネル符号化部 410は、第 1チャネル信号を音源情報と声道情報とに分けて 符号化を行う。音源情報については、駆動音源予測部 401で予測部 102aから出力 される予測パラメータを用いて、モノラル符号ィ匕部 112から出力されるモノラル信号の 駆動音源信号を用いて、第 1チャネル信号の駆動音源信号を予測する。そして、第 1 チャネル符号ィ匕部 410は、通常の CELP符号化と同様に、音源符号帳 402、合成フ ィルタ 405、歪み最小化部 408等を用いた音源探索を行い、音源情報の符号化パラ メータを得る。一方、声道情報については、 LPC分析 Z量子化部 404で第 1チヤネ ル信号の線形予測分析およびその分析結果の量子化を行! \声道情報の符号化パ ラメータを得て、これは合成フィルタ 405での合成信号の生成に使用される。
[0059] このように、本実施の形態によれば、ステレオ Zモノラル変換部 110で第 1チャネル 信号および第 2チャネル信号力もモノラル信号を生成し、 LPF111でモノラル信号の 高域成分を遮断してモノラルの低域成分を生成する。そして、予測部 102aで、実施 の形態 1と同様の処理により、モノラル信号の低域成分力ゝら第 1チャネル信号の低域 成分を予測して予測パラメータを得、この予測パラメータを用いて CELP符号ィ匕に準 じた方法により第 1チャネル信号の符号ィ匕を行い、第 1チャネル信号の符号化パラメ ータを得る。この第 1チャネル信号の符号ィ匕パラメータは、モノラル信号の符号化パラ メータと共に復号側に出力される。この構成により、モノラル ステレオのスケーラブ ル符号ィ匕装置を実現し、かつ、ステレオ信号の各チャネル間の予測性能を向上させ 、復号信号の音質を改善することができる。
[0060] (実施の形態 5)
図 10は、本発明の実施の形態 5に係るステレオ符号ィ匕装置 500の主要な構成を示 すブロック図である。ステレオ符号ィ匕装置 500も、実施の形態 1に示したステレオ符 号ィ匕装置 100と同様の基本的構成を有しており、同一の構成要素には同一の符号 を付し、その説明を省略する。
[0061] ステレオ符号化装置 500は、閾値設定部 501および予測部 502を備え、予測部 50
2は、閾値設定部 501に予め設定されている閾値 φ と相互相関関数 φの値とを比
th
較することにより、この相互相関関数の信頼性を判定する。
[0062] 具体的には、予測部 502は、まず、 LPF101— 1通過後の第 1チャネル信号の低域 成分 S1 'と、 LPF101— 2通過後の第 2チャネル信号の低域成分 S2'とを用い、次式 (11)で表される相互相関関数 φを求める。
[数 10]
Figure imgf000016_0001
但し、相互相関関数 φは、各々のチャネル信号の自己相関関数で正規ィ匕されてい るとする。また、 nおよび mはサンプル番号を、 FLはフレーム長(サンプル数)を示す 。式(11)力も明らかなように、 φの最大値は 1である。
[0063] そして、予測部 502は、閾値設定部 501に予め設定されている閾値 φ と相互相関
th
関数 Φの最大値とを比較し、これが閾値以上の場合、この相互相関関数を信頼でき るものと判定する。言い換えれば、予測部 502は、閾値設定部 501に予め設定され ている閾値 φ thと相互相関関数 φの各サンプル値とを比較し、少なくとも 1点におい て閾値以上のサンプル点が存在する場合、この相互相関関数を信頼できるものと判 定する。図 11は、相互相関関数 φの一例を示した図である。これは、相互相関関数 の最大値が閾値を超える例である。
[0064] かかる場合、予測部 502は、第 1チャネル信号の低域成分 S 1 'と、第 2チャネル信 号の低域成分 S2'との間の遅延時間差 τを、上記式(11)で表される相互相関関数 の値を最大にする m=m として求める。
max
[0065] 一方、予測部 502は、相互相関関数 φの最大値が閾値 φ に達しない場合、前フ
th
レームで既に求まっている遅延時間差 τを当該フレームの遅延時間差 τとして決定 する。図 12も、相互相関関数 φの一例を示した図である。ここでは、相互相関関数の 最大値が閾値を超えな 、例を示して!/、る。
[0066] なお、予測部 502は、振幅比 gについては、実施の形態 1と同様の方法により算出 する。
[0067] このように、本実施の形態によれば、信頼性の高い遅延時間差てを求めるために、 相互相関関数の値が信頼できる力否かの判定を行った上で、遅延時間差 τの値を 決定する。具体的には、遅延時間差を求める際の相互相関関数として、各々のチヤ ネル信号の自己相関関数で正規ィ匕されている相互相関関数を使用し、予め閾値を 設けておいて、相互相関関数の最大値が閾値以上となる場合、相互相関関数の値 を最大にする m = m
maxを遅延時間差として決定する。一方、相互相関関数が全く閾 値に達しない場合は、前フレームで求まっている遅延時間差を当該フレームの遅延 時間差として決定する。このような構成を採ることにより、遅延時間差をより精度良く求 めることができる。
[0068] (実施の形態 6)
図 13は、本発明の実施の形態 6に係るステレオ符号ィ匕装置 600の主要な構成を示 すブロック図である。ステレオ符号化装置 600は、実施の形態 5に示したステレオ符 号ィ匕装置 500と同様の基本的構成を有しており、同一の構成要素には同一の符号 を付し、その説明を省略する。
[0069] ステレオ符号化装置 600は、有声 Z無声判定部 601をさらに備え、閾値設定部 50
1の閾値設定のために、ローパスフィルタを通過する前の第 1チャネル信号および第
2チャネル信号の有声 Z無声判定を行う。
[0070] 具体的には、有声 Z無声判定部 601は、第 1チャネル信号 S 1および第 2チャネル 信号 S2の各々を用いて、自己相関関数 φ の値を次式(12)に従って算出する。
SS
[数 11]
Figure imgf000018_0001
ここで、 S(n)は第 1チャネル信号または第 2チャネル信号を、 nおよび mはサンプル 番号を、 FLはフレーム長(サンプル数)を示す。式(12)力も明らかなように、 φ の
SS
最大値は 1である。
[0071] 有声 Z無声判定部 601には、有声 Z無声判定のための閾値が予め設定されてい る。有声 Z無声判定部 601は、第 1チャネル信号または第 2チャネル信号の自己相 関関数 φ の値を閾値と比較し、閾値を超えた場合は有声と判定し、超えなかった
SS
場合は有声ではない (すなわち無声)と判定する。すなわち、有声 Z無声判定は、第
1チャネル信号および第 2チャネル信号の双方に対し行われる。そして、第 1チャネル 信号の自己相関関数 φ および第 2チャネル信号の自己相関関数 φ の双方の値
SS SS
を、例えば平均値をとる等することにより考慮し、これらのチャネル信号が有声である か無声であるかを決定する。判定結果は、閾値設定部 501へ出力される。
[0072] 閾値設定部 501は、有声と判断された場合と、有声と判断されな力つた場合とで、 閾値設定を変える。具体的には、有声の場合の閾値 φ
Vを無声の場合の閾値 φ
UVよ りも小さく設定する。その理由は、有声音の場合は周期性があるので、ローカルピー クとなる相互相関関数の値と、他のローカルピークとならない相互相関関数の値との 差が大きいからである。一方、無声音の場合は周期性がないので (雑音的であるの で)、ローカルピークとなる相互相関関数の値と、他のローカルピークとならない相互 相関関数の値との差が大きくならないからである。
[0073] 図 14は、有声音の場合の相互相関関数の一例を示した図である。また、図 15は、 無声音の場合の相互相関関数の一例を示した図である。共に、閾値も併せて示して いる。この図に示すように、有声音と無声音とでは相互相関関数の様相が異なるので 、信頼できる相互相関関数の値を採用するために、閾値を設定し、有声性を有する 信号と、無声性を有する信号とで、閾値の設定の仕方を変える。すなわち、無声性を 示すと判断された信号に対しては、相互相関関数の閾値を大きく設定することにより 、他のローカルピークとならない相互相関関数の値との差が大きくない限りは、遅延 時間差として採用されないこととなり、相互相関関数の信頼性を高めることができる。
[0074] このように、本実施の形態によれば、ローパスフィルタを通過する前の第 1チャネル 信号および第 2チャネル信号を用いて有声 Z無声判定を行 ヽ、有声の場合と無声の 場合とで、相互相関関数の信頼度を判断する際の閾値を変える。具体的には、有声 の場合の閾値を無声の場合の閾値よりも小さく設定する。よって、遅延時間差をより 精度良く求めることができる。
[0075] (実施の形態 7)
図 16は、本発明の実施の形態 7に係るステレオ符号ィ匕装置 700の主要な構成を示 すブロック図である。ステレオ符号化装置 700は、実施の形態 6に示したステレオ符 号ィ匕装置 600と同様の基本的構成を有しており、同一の構成要素には同一の符号 を付し、その説明を省略する。
[0076] ステレオ符号化装置 700は、有声 Z無声判定部 601の後段に、係数設定部 701、 閾値設定部 702、および予測部 703を備え、有声 Z無声の判定結果に応じた係数 を相互相関関数の最大値に乗じ、この係数乗算後の相互相関関数の最大値を用い て、遅延時間差を求める。
[0077] 具体的には、係数設定部 701は、有声 Z無声判定部 601から出力される判定結果 に基づいて、有声の場合と無声の場合とで異なる係数 gを設定し、閾値設定部 702 へ出力する。ここで係数 gは、相互相関関数の最大値を基準にして、 1未満の正の値 が設定される。また、有声の場合の係数 g
Vが無声の場合の係数 g
UVよりも大きくなるよ うに設定される。閾値設定部 702は、相互相関関数の最大値 φ に係数 gを乗じた
max
値を閾値 Φ に設定し、予測部 703へ出力する。予測部 703は、この閾値 φ と相互
th th 相関関数の最大値 Φ との間の領域にピークの頂点が含まれるローカルピークを検
max
出する。
[0078] 図 17は、有声音の場合の相互相関関数の一例を示した図である。また、図 18は、 無声音の場合の相互相関関数の一例を示した図である。共に、閾値も併せて示して いる。予測部 703は、ピークの頂点が最大値 φ と閾値 φ との間の領域に存在す
max th
る相互相関関数のローカルピークを検出し、最大値を示すピーク(図中、丸で囲んだ ピーク)以外にローカルピークが検出されなければ、相互相関関数の値を最大とする m=m を遅延時間差として決定する。例えば、図 17の例では、 φ と との間 max max th の領域にローカルピークが 1箇所だけ存在するので、 m = m を遅延時間差 τとし
max
て採用する。一方、最大値を示すピーク以外にもローカルピークが検出されれば、前 フレームの遅延時間差を当該フレームの遅延時間差として決定する。例えば、図 18 の例では、 φ と の間の領域にローカルピークが 4箇所存在するので(図中、丸
max th
で囲んだピーク)、 m = m を遅延時間差 τとしては採用せず、前フレームの遅延時
max
間差を当該フレームの遅延時間差として採用する。
[0079] 有声と無声で係数を変えることにより閾値の設定を変更する理由は、有声音の場合 は周期性があるので、通常ローカルピークとなる相互相関関数の値と、他のローカル ピークとならな 、相互相関関数の値との差が大き 、ので、最大値 φ
maxの近傍だけを 確認すれば良いためである。一方、無声音の場合、通常、周期性がないので (雑音 的であるので)、ローカルピークとなる相互相関関数の値と、他のローカルピークとな らない相互相関関数の値との差が大きくならないので、最大値 Φ
maxと他のローカル ピークとの差が充分にあるかを確認する必要があるためである。
[0080] このように、本実施の形態によれば、相互相関関数の最大値を基準にして、最大値 に 1未満の正の係数を乗じた値を閾値とする。ここで、有声の場合と無声の場合とで 、乗じる係数の値を変える(有声の場合の方が無声の場合よりも大きくする)。そして、 相互相関関数の最大値と閾値との間に存在する相互相関関数のローカルピークを 検出し、最大値を示すピーク以外にローカルピークが検出されなければ、相互相関 関数の値を最大とする m=m の値を遅延時間差として決定する。一方、最大値を
max
示すピーク以外にローカルピークが検出される場合は、前フレームの遅延時間差を 当該フレームの遅延時間差として決定する。すなわち、相互相関関数の最大値を基 準として、相互相関関数の最大値力 所定の範囲内に含まれるローカルピークの個 数の大小に応じて、遅延時間差を設定する。このような構成を採ることにより、遅延時 間差をより精度良く求めることができる。 [0081] (実施の形態 8)
図 19は、本発明の実施の形態 8に係るステレオ符号ィ匕装置 800の主要な構成を示 すブロック図である。ステレオ符号化装置 800は、実施の形態 5に示したステレオ符 号ィ匕装置 500と同様の基本的構成を有しており、同一の構成要素には同一の符号 を付し、その説明を省略する。
[0082] ステレオ符号化装置 800は、相互相関関数値保存部 801をさらに備え、この相互 相関関数値保存部 801に保存されて ヽる相互相関関数値を予測部 802が参照し、 実施の形態 5に係る予測部 502とは異なる動作を行う。
[0083] 具体的には、相互相関関数値保存部 801は、予測部 802から出力される平滑ィ匕後 の最大相互相関値を蓄積し、これを予測部 802に適宜出力する。
[0084] 予測部 802は、閾値設定部 501に予め設定されている閾値 φ と相互相関関数 φ の最大値とを比較し、これが閾値以上の場合、この相互相関関数を信頼できるものと 判定する。言い換えれば、予測部 802は、閾値設定部 501に予め設定されている閾 値 φ と相互相関関数 φの各サンプル値とを比較し、少なくとも 1点において閾値以 上のサンプル点が存在する場合、この相互相関関数を信頼できるものと判定する。
[0085] かかる場合、予測部 802は、第 1チャネル信号の低域成分 S 1 'と、第 2チャネル信 号の低域成分 S2'との間の遅延時間差 τを、上記式(12)で表される相互相関関数 の値を最大にする m=m として求める。
[0086] 一方、予測部 802は、相互相関関数 φの最大値が閾値 φ に達しない場合、相互 相関関数値保存部 801から出力された前フレームの平滑ィ匕後の最大相互相関値を 用いて、遅延時間差 τを決定する。平滑ィヒ後の最大相互相関値は次式(13)によつ て表される。
[数 12]
<k 0 ~ «) … 、丄
ここで、 φ は前フレームの平滑ィ匕後の最大相互相関値を、 φ は現フレ ームの最大相互相関値を、 aは平滑ィ匕の係数であり、 0< α < 1を満たす定数であ る。
[0087] なお、相互相関関数値保存部 801に蓄積された平滑ィ匕後の最大相互相関値は、 次のフレームの遅延時間差決定の際、 φ として用いられる。
smooth prev
[0088] 具体的には、相互相関関数 φの最大値が閾値 φ に達しない場合、予測部 802は
th
、前フレームの平滑化後の最大相互相関値 Φ
smooth prevを予め定められた閾値 Φ
th— s mooth _ revと比較する。この結果、 Φ
smooth prevが Φ
th― smooth prevより大きい場合、前フレ ームの遅延時間差を現フレームの遅延時間差 τとして決定する。逆に、 φ
smooth prev が φ を超えな!/、場合、現フレームの遅延時間差を 0とする。
th smooth prev
[0089] なお、予測部 802は、振幅比 gについては、実施の形態 1と同様の方法により算出 する。
[0090] このように、本実施の形態によれば、現フレームの最大相互相関値が低い場合に 得られた遅延時間差は信頼性も低いため、前フレームでの平滑ィ匕最大相互相関値 を用いて判定されたより信頼性の高い前フレームの遅延時間差で代用することにより 、遅延時間差をより精度良く求めることができる。
[0091] (実施の形態 9)
図 20は、本発明の実施の形態 9に係るステレオ符号ィ匕装置 900の主要な構成を示 すブロック図である。ステレオ符号化装置 900は、実施の形態 6に示したステレオ符 号ィ匕装置 600と同様の基本的構成を有しており、同一の構成要素には同一の符号 を付し、その説明を省略する。
[0092] ステレオ符号化装置 900は、重み設定部 901及び遅延時間差保存部 902をさらに 備え、第 1チャネル信号および第 2チャネル信号の有声 Z無声判定結果に応じた重 みが重み設定部 901から出力され、この重みと、遅延時間差保存部 902に保存され ている遅延時間差とを用いて、予測部 903が実施の形態 6に係る予測部 502とは異 なる動作を行う。
[0093] 重み設定部 901は、有声 Z無声判定部 601において有声と判断された場合と、無 声と判断された場合とで、重み w( > l. 0)を変える。具体的には、無声の場合の重 み wを有声の場合の重み wよりも大きく設定する。
[0094] その理由は、有声音の場合は周期性があるので、相互相関関数の最大値と、ロー カルピークでの他の相互相関関数の値との差が比較的大きぐ最大相互相関値を示 すシフト量が正しい遅延差であることの信頼性が高いのに対して、無声音の場合は 周期性がない (雑音的である)ので、相互相関関数の最大値と、ローカルピークでの 他の相互相関関数の値との差が比較的小さぐ最大相互相関値を示すシフト量が必 ずしも正しい遅延差を示しているとは限らないからである。このため、無声の場合の重 み Wをより大きく設定し、前フレームの遅延差をより選びやすくすることで、より精度の 高 、遅延差を求めることができる。
[0095] 遅延時間差保存部 902は、予測部 903から出力される遅延時間差 τを蓄積し、こ れを予測部 903に適宜出力する。
[0096] 予測部 903は、重み設定部 901によって設定された重み wを用いて、遅延差を以 下のように決定する。まず、 LPF101— 1通過後の第 1チャネル信号の低域成分 S1 ' と、 LPF101— 2通過後の第 2チャネル信号の低域成分 S2'との間の遅延時間差 τ の候補を上記式(11)で表される相互相関関数の値を最大にする m =m として求
max
める。相互相関関数は、各々のチャネル信号の自己相関関数で正規ィ匕されている。
[0097] ただし、式(11)にお!/、て、 nはサンプル番号を、 FLはフレーム長(サンプル数)を 示す。また、 mはシフト量を示す。
[0098] ここで、予測部 903は、 mの値と、遅延時間差保存部 902に保存されている前フレ ームの遅延時間差の値との差分が予め設定された範囲内にあれば、次式(14)に示 すように、上記式(11)によって得られる相互相関値に対して、重み設定部 901によ つて設定された重みを乗じる。なお、予め設定された範囲とは、遅延時間差保存部 9 02に保存されている前フレームの遅延時間差 τ を中心に設定される。
prev
[数 13]
Figure imgf000023_0001
一方、 mの値が予め設定された範囲外にあれば、次式(15)に示すようになる。
[数 14] Ληι) = (τη) · · · ( 1 5 ) このように求めた遅延時間差 τの候補の信頼性を上記式(14)及び上記式(15)に よって表される相互相関関数の最大値 (最大相互相関値) φ
maxにより判定し、最終 的な遅延時間差てを決定する。具体的には、閾値設定部 501に予め設定されている 閾値 Φ
thと最大相互相関値 φ
maxとを比較し、最大相互相関値 φ
maxが閾値 φ
th以上 の場合、この相互相関関数を信頼できるものと判定し、相互相関関数の値を最大に する m = m を遅延時間差 τとして決定する。
max
[0099] 図 21は、相互相関関数のローカルピークが重み付けされることによって最大相互 相関値となる場合の一例を示した図である。また、図 22は、閾値 φ を超えていなか
th
つた最大相互相関値が重み付けされることによって閾値 Φ
thを超える最大相互相関 値となる場合の一例を示した図である。さら〖こ、図 23は、閾値 φ を超えていなかつ
th
た最大相互相関値が重み付けされても閾値 Φ を超えな力つた場合の一例を示した
th
図である。図 23に示す場合、現フレームの遅延時間差を 0に設定する。
[0100] このように、本実施の形態によれば、サンプルのシフト量 mと前フレームの遅延時間 差との差分が所定範囲内である場合、相互相関関数値に重み付けを行うことにより、 前フレームの遅延時間差付近のシフト量での相互相関関数値をそれ以外のシフト量 での相互相関関数値に比べて相対的により大きい値として評価し、前フレームの遅 延時間差付近のシフト量が選ばれやすくなり、これにより、現フレームの遅延時間差 をより精度良く求めることができる。
[0101] なお、本実施の形態では、有声無声判定結果によって、相互相関関数値に乗じる 重みを変える構成として説明したが、有声無声判定結果によらず常に固定の重みを 乗じるような構成としてちょ 、。
[0102] なお、実施の形態 5から実施の形態 9では、ローノ スフィルタを通過した後の第 1チ ャネル信号および第 2チャネル信号に対する処理を例にとって説明した力 ローパス フィルタ処理を行わない信号に対して実施の形態 5から実施の形態 9までの処理を 適用することも可能である。 [0103] また、ローノ スフィルタを通過した第 1チャネル信号および第 2チャネル信号の代わ りに、ローパスフィルタを通過した第 1チャネル信号の残差信号およびローパスフィル タを通過した第 2チャネル信号の残差信号を用いることも可能である。
[0104] さらに、ローノ スフィルタ処理を行わない第 1チャネル信号および第 2チャネル信号 の代わりに、第 1チャネル信号の残差信号および第 2チャネル信号の残差信号を用 いることも可能である。
[0105] 以上、本発明の各実施の形態について説明した。
[0106] 本発明に係るステレオ符号ィ匕装置およびステレオ信号予測方法は、上記各実施の 形態に限定されず、種々変更して実施することが可能である。例えば、各実施の形 態は、適宜組み合わせて実施することが可能である。
[0107] 本発明に係るステレオ音声符号ィ匕装置は、移動体通信システムにおける通信端末 装置および基地局装置に搭載することが可能であり、これにより上記と同様の作用効 果を有する通信端末装置、基地局装置、および移動体通信システムを提供すること ができる。
[0108] なお、ここでは、本発明をノヽードウエアで構成する場合を例にとって説明したが、本 発明をソフトウェアで実現することも可能である。例えば、本発明に係るステレオ信号 予測方法のアルゴリズムをプログラミング言語によって記述し、このプログラムをメモリ に記憶しておいて情報処理手段によって実行させることにより、本発明に係るステレ ォ符号化装置の一部の機能を実現することができる。
[0109] また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路 である LSIとして実現される。これらは個別に 1チップ化されても良いし、一部または 全てを含むように 1チップィ匕されても良い。
[0110] また、ここでは LSIとした力 集積度の違いによって、 IC、システム LSI、スーパー L SI、ウノレ卜ラ LSI等と呼称されることちある。
[0111] また、集積回路化の手法は LSIに限るものではなぐ専用回路または汎用プロセッ サで実現しても良い。 LSI製造後に、プログラム化することが可能な FPGA (Field Pro grammable Gate Array)や、 LSI内部の回路セルの接続もしくは設定を再構成可能な リコンフィギユラブル ·プロセッサを利用しても良 、。 [0112] さらに、半導体技術の進歩または派生する別技術により、 LSIに置き換わる集積回 路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積ィ匕を行って も良い。バイオ技術の適用等が可能性としてあり得る。
[0113] 本明細書は、 2005年 10月 31曰出願の特願 2005— 316754、 2006年 6月 15曰 出願の特願 2006— 166458及び 2006年 10月 2日出願の特願 2006— 271040に 基づくものである。この内容は全てここに含めておく。
産業上の利用可能性
[0114] 本発明に係るステレオ符号ィ匕装置およびステレオ信号予測方法は、移動体通信シ ステムにおける通信端末装置、基地局装置等の用途に適用することができる。

Claims

請求の範囲
[1] 第 1チャネル信号の低域成分を通過させる第 1ローパスフィルタと、
第 2チャネル信号の低域成分を通過させる第 2ローパスフィルタと、
前記第 1チャネル信号の低域成分カゝら前記第 2チャネル信号の低域成分を予測し て予測パラメータを生成する予測手段と、
前記第 1チャネル信号を符号化する第 1符号化手段と、
前記予測パラメータを符号化する第 2符号化手段と、
を具備するステレオ符号化装置。
[2] 前記予測手段は、
前記予測を行って、前記第 1チャネル信号の低域成分と前記第 2チャネル信号の 低域成分との間の遅延時間差および振幅比に関する情報を生成する、
請求項 1記載のステレオ符号化装置。
[3] 前記予測パラメータを記憶するメモリをさらに具備し、
前記予測手段は、
前記メモリに記憶された過去の前記予測パラメータに基づいて、当該予測パラメ一 タを基準として所定範囲内の予測パラメータを生成する、
請求項 1記載のステレオ符号化装置。
[4] 前記第 1チャネル信号および前記第 2チャネル信号のパヮを取得する取得手段と、 前記第 1チャネル信号および前記第 2チャネル信号のパヮに基づ 、て、前記第 1口 一パスフィルタおよび前記第 2ローパスフィルタの遮断周波数を決定する決定手段と をさらに具備する請求項 1記載のステレオ符号ィ匕装置。
[5] 前記第 1チャネル信号および前記第 2チャネル信号の SZN比を検出する検出手 段と、
前記第 1チャネル信号および前記第 2チャネル信号の SZN比に基づ 、て、前記第 1ローパスフィルタおよび前記第 2ローパスフィルタの遮断周波数を決定する決定手 段と、
をさらに具備する請求項 1記載のステレオ符号ィ匕装置。
[6] 第 1チャネル信号および第 2チャネル信号をモノラル信号に変換する変換手段と、 前記モノラル信号の低域成分を通過させる第 1ローパスフィルタと、
前記第 1チャネル信号の低域成分を通過させる第 2ローパスフィルタと、 前記モノラル信号の低域成分カゝら前記第 1チャネル信号の低域成分を予測して予 測パラメータを生成する予測手段と、
前記モノラル信号を符号化する第 1符号化手段と、
前記予測パラメータを用いて前記第 1チャネル信号を符号化する第 2符号化手段と を具備するステレオ符号化装置。
[7] 前記第 2符号化手段は、
前記第 1チャネル信号を音源情報と声道情報とに分けて符号化し、前記音源情報 の符号ィヒにおいて前記予測パラメータを使用する、
請求項 6記載のステレオ符号化装置。
[8] 前記予測パラメータの平滑化を行う平滑化手段をさらに具備し、
前記第 2符号化手段は、
平滑化された前記予測パラメータを符号化する、
請求項 1記載のステレオ符号化装置。
[9] 前記第 1チャネル信号の低域成分と前記第 2チャネル信号の低域成分とを互いに シフトさせ、これら 2つの信号の相互相関関数の値を算出する算出手段をさらに具備 し、
前記予測手段は、
前記遅延時間差に関する情報の生成にあたり、前記相互相関関数の値が閾値以 上の場合、当該相互相関関数を最大とするシフト量を遅延時間差とし、前記相互相 関関数の値が閾値未満の場合、前フレームの遅延時間差を再度使用する、 請求項 2記載のステレオ符号化装置。
[10] 前記第 1チャネル信号および前記第 2チャネル信号の有声無声判定を行う判定手 段をさらに具備し、
前記予測手段は、 前記判定手段の判定結果に基づいて前記閾値を設定する、
請求項 9記載のステレオ符号化装置。
[11] 前記予測手段は、
前記相互相関関数の最大値が第 1閾値以上の場合、当該相互相関関数を最大と するシフト量を遅延時間差とし、前記相互相関関数の最大値が前記第 1閾値未満の 場合、前フレームの平滑化された相互相関値の最大値が第 2閾値以上の場合、前フ レームの遅延時間差を現フレームの遅延時間差とし、前フレームの平滑化された相 互相関値の最大値が第 2閾値未満の場合、現フレームの遅延時間差を 0とする、 請求項 9記載のステレオ符号化装置。
[12] 前記予測手段は、
前記第 1チャネル信号の低域成分と前記第 2チャネル信号の低域成分とを互いに シフトさせた際のサンプルのシフト量と、前フレームの遅延時間差との差分が所定範 囲内である場合、前記相互相関関数の値に重み付けを行う、
請求項 9記載のステレオ符号化装置。
[13] 前記第 1チャネル信号および前記第 2チャネル信号の有声無声判定を行う判定手 段と、
前記判定手段の判定結果に基づいて前記重みを設定する重み設定手段と、 をさらに具備する請求項 12記載のステレオ符号ィ匕装置。
[14] 前記第 1チャネル信号および前記第 2チャネル信号の有声無声判定を行う判定手 段と、
前記第 1チャネル信号の低域成分と前記第 2チャネル信号の低域成分とを互いに シフトさせ、これら 2つの信号の相互相関関数の値を算出する算出手段と、
をさらに具備し、
前記予測手段は、
前記遅延時間差に関する情報の生成にあたり、前記相互相関関数の最大値から 所定範囲内に含まれるローカルピークの数に応じて、前記遅延時間差を設定する、 請求項 2記載のステレオ符号化装置。
[15] 請求項 1記載のステレオ符号化装置を具備する通信端末装置。
[16] 請求項 1記載のステレオ符号化装置を具備する基地局装置。
[17] 第 1チャネル信号の低域成分を通過させるステップと、
第 2チャネル信号の低域成分を通過させるステップと、
前記第 1チャネル信号の低域成分カゝら前記第 2チャネル信号の低域成分を予測す るステップと、
を具備するステレオ信号予測方法。
PCT/JP2006/321673 2005-10-31 2006-10-30 ステレオ符号化装置およびステレオ信号予測方法 WO2007052612A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2007542732A JP5025485B2 (ja) 2005-10-31 2006-10-30 ステレオ符号化装置およびステレオ信号予測方法
US12/091,793 US8112286B2 (en) 2005-10-31 2006-10-30 Stereo encoding device, and stereo signal predicting method
EP06812182A EP1953736A4 (en) 2005-10-31 2006-10-30 STEREO CODING DEVICE AND METHOD FOR PREDICTING STEREO SIGNAL

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
JP2005-316754 2005-10-31
JP2005316754 2005-10-31
JP2006166458 2006-06-15
JP2006-166458 2006-06-15
JP2006271040 2006-10-02
JP2006-271040 2006-10-02

Publications (1)

Publication Number Publication Date
WO2007052612A1 true WO2007052612A1 (ja) 2007-05-10

Family

ID=38005765

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2006/321673 WO2007052612A1 (ja) 2005-10-31 2006-10-30 ステレオ符号化装置およびステレオ信号予測方法

Country Status (4)

Country Link
US (1) US8112286B2 (ja)
EP (1) EP1953736A4 (ja)
JP (1) JP5025485B2 (ja)
WO (1) WO2007052612A1 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009081567A1 (ja) * 2007-12-21 2009-07-02 Panasonic Corporation ステレオ信号変換装置、ステレオ信号逆変換装置およびこれらの方法
EP2144228A1 (en) * 2008-07-08 2010-01-13 Siemens Medical Instruments Pte. Ltd. Method and device for low-delay joint-stereo coding
WO2010084756A1 (ja) * 2009-01-22 2010-07-29 パナソニック株式会社 ステレオ音響信号符号化装置、ステレオ音響信号復号装置およびそれらの方法
JP5413839B2 (ja) * 2007-10-31 2014-02-12 パナソニック株式会社 符号化装置および復号装置
WO2016141732A1 (zh) * 2015-03-09 2016-09-15 华为技术有限公司 确定声道间时间差参数的方法和装置
JP2019502966A (ja) * 2016-01-22 2019-01-31 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン チャネル間時間差を推定する装置及び方法
JP2019504344A (ja) * 2015-12-18 2019-02-14 クアルコム,インコーポレイテッド 時間的オフセット推定
JP2019527855A (ja) * 2016-08-10 2019-10-03 華為技術有限公司Huawei Technologies Co.,Ltd. マルチチャネル信号を符号化する方法及びエンコーダ
JP2020525852A (ja) * 2017-06-29 2020-08-27 華為技術有限公司Huawei Technologies Co.,Ltd. 遅延推定方法および遅延推定装置

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1852850A4 (en) * 2005-02-01 2011-02-16 Panasonic Corp SCALABLE CODING DEVICE AND SCALABLE CODING METHOD
AU2007332508B2 (en) * 2006-12-13 2012-08-16 Iii Holdings 12, Llc Encoding device, decoding device, and method thereof
JPWO2008072732A1 (ja) * 2006-12-14 2010-04-02 パナソニック株式会社 音声符号化装置および音声符号化方法
US20100049512A1 (en) * 2006-12-15 2010-02-25 Panasonic Corporation Encoding device and encoding method
US20100017199A1 (en) * 2006-12-27 2010-01-21 Panasonic Corporation Encoding device, decoding device, and method thereof
JPWO2008090970A1 (ja) * 2007-01-26 2010-05-20 パナソニック株式会社 ステレオ符号化装置、ステレオ復号装置、およびこれらの方法
SG179433A1 (en) * 2007-03-02 2012-04-27 Panasonic Corp Encoding device and encoding method
JP4708446B2 (ja) 2007-03-02 2011-06-22 パナソニック株式会社 符号化装置、復号装置およびそれらの方法
EP2116996A4 (en) * 2007-03-02 2011-09-07 Panasonic Corp CODING DEVICE AND CODING METHOD
JP4871894B2 (ja) 2007-03-02 2012-02-08 パナソニック株式会社 符号化装置、復号装置、符号化方法および復号方法
KR101414359B1 (ko) * 2007-03-02 2014-07-22 파나소닉 인텔렉츄얼 프로퍼티 코포레이션 오브 아메리카 부호화 장치 및 부호화 방법
JP5355387B2 (ja) * 2007-03-30 2013-11-27 パナソニック株式会社 符号化装置および符号化方法
US11217237B2 (en) * 2008-04-14 2022-01-04 Staton Techiya, Llc Method and device for voice operated control
GB2453117B (en) * 2007-09-25 2012-05-23 Motorola Mobility Inc Apparatus and method for encoding a multi channel audio signal
WO2009084226A1 (ja) * 2007-12-28 2009-07-09 Panasonic Corporation ステレオ音声復号装置、ステレオ音声符号化装置、および消失フレーム補償方法
EP2254110B1 (en) * 2008-03-19 2014-04-30 Panasonic Corporation Stereo signal encoding device, stereo signal decoding device and methods for them
JP4516157B2 (ja) * 2008-09-16 2010-08-04 パナソニック株式会社 音声分析装置、音声分析合成装置、補正規則情報生成装置、音声分析システム、音声分析方法、補正規則情報生成方法、およびプログラム
WO2010091555A1 (zh) * 2009-02-13 2010-08-19 华为技术有限公司 一种立体声编码方法和装置
CN101848412B (zh) 2009-03-25 2012-03-21 华为技术有限公司 通道间延迟估计的方法及其装置和编码器
WO2010111876A1 (zh) * 2009-03-31 2010-10-07 华为技术有限公司 一种信号去噪的方法和装置及音频解码***
EP2439964B1 (en) * 2009-06-01 2014-06-04 Mitsubishi Electric Corporation Signal processing devices for processing stereo audio signals
DK3182409T3 (en) * 2011-02-03 2018-06-14 Ericsson Telefon Ab L M DETERMINING THE INTERCHANNEL TIME DIFFERENCE FOR A MULTI-CHANNEL SIGNAL
JP5949270B2 (ja) 2012-07-24 2016-07-06 富士通株式会社 オーディオ復号装置、オーディオ復号方法、オーディオ復号用コンピュータプログラム
CN104282309A (zh) 2013-07-05 2015-01-14 杜比实验室特许公司 丢包掩蔽装置和方法以及音频处理***
EP3252766B1 (en) 2016-05-30 2021-07-07 Oticon A/s An audio processing device and a method for estimating a signal-to-noise-ratio of a sound signal
EP3155618B1 (en) * 2014-06-13 2022-05-11 Oticon A/S Multi-band noise reduction system and methodology for digital audio signals
US9398374B2 (en) * 2014-08-12 2016-07-19 Cirrus Logic, Inc. Systems and methods for nonlinear echo cancellation
US10373608B2 (en) 2015-10-22 2019-08-06 Texas Instruments Incorporated Time-based frequency tuning of analog-to-information feature extraction
US10210871B2 (en) 2016-03-18 2019-02-19 Qualcomm Incorporated Audio processing for temporally mismatched signals
US10433076B2 (en) 2016-05-30 2019-10-01 Oticon A/S Audio processing device and a method for estimating a signal-to-noise-ratio of a sound signal
US10861478B2 (en) 2016-05-30 2020-12-08 Oticon A/S Audio processing device and a method for estimating a signal-to-noise-ratio of a sound signal
US11483663B2 (en) 2016-05-30 2022-10-25 Oticon A/S Audio processing device and a method for estimating a signal-to-noise-ratio of a sound signal
CN107731238B (zh) * 2016-08-10 2021-07-16 华为技术有限公司 多声道信号的编码方法和编码器
CN114025301A (zh) * 2016-10-28 2022-02-08 松下电器(美国)知识产权公司 用于回放多个音频源的双声道渲染装置和方法
EP3416309A1 (en) * 2017-05-30 2018-12-19 Northeastern University Underwater ultrasonic communication system and method
WO2020250369A1 (ja) * 2019-06-13 2020-12-17 日本電信電話株式会社 音信号受信復号方法、音信号復号方法、音信号受信側装置、復号装置、プログラム及び記録媒体

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0787033A (ja) * 1993-09-17 1995-03-31 Sharp Corp ステレオ音声信号符号化装置
JP2005316754A (ja) 2004-04-28 2005-11-10 Fujitsu Ltd 回路解析装置、回路解析方法および回路解析方法を実行させるためのプログラム
JP2006166458A (ja) 2004-12-07 2006-06-22 Altera Corp プログラム可能なロジックデバイスの性能特性を調整する装置と方法
JP2006271040A (ja) 2005-03-22 2006-10-05 Yamaha Motor Co Ltd 鞍乗型ハイブリッド車両

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2758189B2 (ja) * 1989-01-31 1998-05-28 株式会社東芝 ステレオ音声伝送システム
NL9100173A (nl) * 1991-02-01 1992-09-01 Philips Nv Subbandkodeerinrichting, en een zender voorzien van de kodeerinrichting.
KR100263599B1 (ko) * 1991-09-02 2000-08-01 요트.게.아. 롤페즈 인코딩 시스템
DE4320990B4 (de) * 1993-06-05 2004-04-29 Robert Bosch Gmbh Verfahren zur Redundanzreduktion
DE19526366A1 (de) * 1995-07-20 1997-01-23 Bosch Gmbh Robert Verfahren zur Redundanzreduktion bei der Codierung von mehrkanaligen Signalen und Vorrichtung zur Dekodierung von redundanzreduzierten, mehrkanaligen Signalen
JP2003018604A (ja) * 2001-07-04 2003-01-17 Matsushita Electric Ind Co Ltd 画像信号符号化方法、画像信号符号化装置および記録媒体
US7191136B2 (en) * 2002-10-01 2007-03-13 Ibiquity Digital Corporation Efficient coding of high frequency signal information in a signal using a linear/non-linear prediction model based on a low pass baseband
US7742912B2 (en) * 2004-06-21 2010-06-22 Koninklijke Philips Electronics N.V. Method and apparatus to encode and decode multi-channel audio signals
EP1783745B1 (en) * 2004-08-26 2009-09-09 Panasonic Corporation Multichannel signal decoding
JP5046652B2 (ja) * 2004-12-27 2012-10-10 パナソニック株式会社 音声符号化装置および音声符号化方法
KR20070090219A (ko) * 2004-12-28 2007-09-05 마츠시타 덴끼 산교 가부시키가이샤 음성 부호화 장치 및 음성 부호화 방법
US7573912B2 (en) * 2005-02-22 2009-08-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. Near-transparent or transparent multi-channel encoder/decoder scheme

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0787033A (ja) * 1993-09-17 1995-03-31 Sharp Corp ステレオ音声信号符号化装置
JP2005316754A (ja) 2004-04-28 2005-11-10 Fujitsu Ltd 回路解析装置、回路解析方法および回路解析方法を実行させるためのプログラム
JP2006166458A (ja) 2004-12-07 2006-06-22 Altera Corp プログラム可能なロジックデバイスの性能特性を調整する装置と方法
JP2006271040A (ja) 2005-03-22 2006-10-05 Yamaha Motor Co Ltd 鞍乗型ハイブリッド車両

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
GOTO M. ET AL: "Channel-kan Joho o Mochiita Onsei Tsushinyo Stereo Onsei Fugoka Hoho no Kento", INFORMATION AND COMMUNICATION ENGINEERS SOGO TAIKAI KOEN RONBUNSHU, no. D-14-2, 7 March 2005 (2005-03-07), pages 119, XP003011996 *
GOTO M. ET AL: "Onsei Tsushinyo Scalable Stereo Onsei Fugoka Hoho no Kento", FIT2005 (DAI 4 KAI FORUM ON INFORMATION TECHNOLOGY) KOEN RONBUNSHU, no. G-017, 22 August 2005 (2005-08-22), pages 299 - 300, XP003011997 *
HENDRIK FUCHS: "Improving Joint Stereo Audio Coding by Adaptive Inter-Channel Prediction", APPLICATIONS OF SIGNAL PROCESSING TO AUDIO AND ACOUSTICS, FINAL PROGRAM AND PAPER SUMMARIES, 17 October 1993 (1993-10-17), pages 39 - 42
See also references of EP1953736A4

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5413839B2 (ja) * 2007-10-31 2014-02-12 パナソニック株式会社 符号化装置および復号装置
WO2009081567A1 (ja) * 2007-12-21 2009-07-02 Panasonic Corporation ステレオ信号変換装置、ステレオ信号逆変換装置およびこれらの方法
EP2144228A1 (en) * 2008-07-08 2010-01-13 Siemens Medical Instruments Pte. Ltd. Method and device for low-delay joint-stereo coding
WO2010084756A1 (ja) * 2009-01-22 2010-07-29 パナソニック株式会社 ステレオ音響信号符号化装置、ステレオ音響信号復号装置およびそれらの方法
CN102292767A (zh) * 2009-01-22 2011-12-21 松下电器产业株式会社 立体声音响信号编码装置、立体声音响信号解码装置及它们的编解码方法
CN102292767B (zh) * 2009-01-22 2013-05-08 松下电器产业株式会社 立体声音响信号编码装置、立体声音响信号解码装置及它们的编解码方法
US8504378B2 (en) 2009-01-22 2013-08-06 Panasonic Corporation Stereo acoustic signal encoding apparatus, stereo acoustic signal decoding apparatus, and methods for the same
JP5269914B2 (ja) * 2009-01-22 2013-08-21 パナソニック株式会社 ステレオ音響信号符号化装置、ステレオ音響信号復号装置およびそれらの方法
US10210873B2 (en) 2015-03-09 2019-02-19 Huawei Technologies Co., Ltd. Method and apparatus for determining inter-channel time difference parameter
WO2016141732A1 (zh) * 2015-03-09 2016-09-15 华为技术有限公司 确定声道间时间差参数的方法和装置
JP2019504344A (ja) * 2015-12-18 2019-02-14 クアルコム,インコーポレイテッド 時間的オフセット推定
JP2020060788A (ja) * 2016-01-22 2020-04-16 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン チャネル間時間差を推定する装置及び方法
US10861468B2 (en) 2016-01-22 2020-12-08 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for encoding or decoding a multi-channel signal using a broadband alignment parameter and a plurality of narrowband alignment parameters
US10535356B2 (en) 2016-01-22 2020-01-14 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for encoding or decoding a multi-channel signal using spectral-domain resampling
JP2019502966A (ja) * 2016-01-22 2019-01-31 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン チャネル間時間差を推定する装置及び方法
US11887609B2 (en) 2016-01-22 2024-01-30 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for estimating an inter-channel time difference
US10706861B2 (en) 2016-01-22 2020-07-07 Fraunhofer-Gesellschaft Zur Foerderung Der Andgewandten Forschung E.V. Apparatus and method for estimating an inter-channel time difference
US11410664B2 (en) 2016-01-22 2022-08-09 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for estimating an inter-channel time difference
US10854211B2 (en) 2016-01-22 2020-12-01 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatuses and methods for encoding or decoding a multi-channel signal using frame control synchronization
JP2021092805A (ja) * 2016-08-10 2021-06-17 華為技術有限公司Huawei Technologies Co.,Ltd. マルチチャネル信号を符号化する方法及びエンコーダ
JP2019527855A (ja) * 2016-08-10 2019-10-03 華為技術有限公司Huawei Technologies Co.,Ltd. マルチチャネル信号を符号化する方法及びエンコーダ
US11217257B2 (en) 2016-08-10 2022-01-04 Huawei Technologies Co., Ltd. Method for encoding multi-channel signal and encoder
JP7273080B2 (ja) 2016-08-10 2023-05-12 華為技術有限公司 マルチチャネル信号を符号化する方法及びエンコーダ
US11756557B2 (en) 2016-08-10 2023-09-12 Huawei Technologies Co., Ltd. Method for encoding multi-channel signal and encoder
US10643625B2 (en) 2016-08-10 2020-05-05 Huawei Technologies Co., Ltd. Method for encoding multi-channel signal and encoder
US11304019B2 (en) 2017-06-29 2022-04-12 Huawei Technologies Co., Ltd. Delay estimation method and apparatus
JP7055824B2 (ja) 2017-06-29 2022-04-18 華為技術有限公司 遅延推定方法および遅延推定装置
JP2022093369A (ja) * 2017-06-29 2022-06-23 華為技術有限公司 遅延推定方法および遅延推定装置
JP2020525852A (ja) * 2017-06-29 2020-08-27 華為技術有限公司Huawei Technologies Co.,Ltd. 遅延推定方法および遅延推定装置
JP7419425B2 (ja) 2017-06-29 2024-01-22 華為技術有限公司 遅延推定方法および遅延推定装置
US11950079B2 (en) 2017-06-29 2024-04-02 Huawei Technologies Co., Ltd. Delay estimation method and apparatus

Also Published As

Publication number Publication date
EP1953736A1 (en) 2008-08-06
EP1953736A4 (en) 2009-08-05
JP5025485B2 (ja) 2012-09-12
US8112286B2 (en) 2012-02-07
US20090119111A1 (en) 2009-05-07
JPWO2007052612A1 (ja) 2009-04-30

Similar Documents

Publication Publication Date Title
WO2007052612A1 (ja) ステレオ符号化装置およびステレオ信号予測方法
US11282529B2 (en) Method and apparatus for obtaining spectrum coefficients for a replacement frame of an audio signal, audio decoder, audio receiver, and system for transmitting audio signals
RU2764287C1 (ru) Способ и система для кодирования левого и правого каналов стереофонического звукового сигнала с выбором между моделями двух и четырех подкадров в зависимости от битового бюджета
EP2176860B1 (en) Processing of frames of an audio signal
JP4485123B2 (ja) 複数チャネル信号の符号化及び復号化
JP5154934B2 (ja) 知覚的歪みを最小化する結合オーディオ符号化
JP5153791B2 (ja) ステレオ音声復号装置、ステレオ音声符号化装置、および消失フレーム補償方法
EP1755109A1 (en) Scalable encoding device, scalable decoding device, and method thereof
KR20070051878A (ko) 스케일러블 부호화 장치 및 스케일러블 부호화 방법
KR20160138373A (ko) 부호화 장치, 복호 장치, 부호화 방법, 복호 방법, 및 프로그램
US20130346073A1 (en) Audio encoder/decoder apparatus
US8838443B2 (en) Encoder apparatus, decoder apparatus and methods of these
RU2484542C2 (ru) Устройство кодирования стереофонических сигналов, устройство декодирования стереофонических сигналов и реализуемые ими способы

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application
ENP Entry into the national phase

Ref document number: 2007542732

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 12091793

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 2006812182

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE