CN101253557B

CN101253557B - 立体声编码装置及立体声编码方法

Info

Publication number: CN101253557B
Application number: CN2006800319487A
Authority: CN
Inventors: 张峻伟; 梁世丰; 吉田幸司; 后藤道代
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: III Holdings 12 LLC
Priority date: 2005-08-31
Filing date: 2006-08-30
Publication date: 2012-06-20
Anticipated expiration: 2026-08-30
Also published as: JP5171256B2; CN101253557A; US20090262945A1; WO2007026763A1; JPWO2007026763A1; EP1912206A1; KR20080039462A; US8457319B2; EP1912206A4; EP1912206B1; KR101340233B1

Abstract

公开了立体声编码装置，能够以低比特率对立体声信号进行高精度的编码，抑制语音通信中的延迟。在此装置的第一层(110)中，进行单声道编码。在第二层(120)中，滤波单元(103)生成LPC(Linear Predictive Coding：线性预测编码)系数，并生成左声道驱动声源信号。时域估计单元(104)及频域估计单元(105)在两个域上进行信号的估计及预测，残差编码单元(106)对残差信号进行编码。比特分配控制单元(107)根据话音信号的条件，自适应地对时域估计单元(104)、频域估计单元(105)、以及残差编码单元(106)分配比特。

Description

立体声编码装置及立体声编码方法

技术领域

本发明涉及立体声编码装置以及立体声编码方法，用于在诸如移动通信***或使用因特网协议(IP：Internet Protocol)的分组通信***中，对立体声话音(speech)信号或立体声音频信号进行编码及解码。

背景技术

在诸如移动通信***或使用IP的分组通信***中，DSP(Digital SignalProcessor：数字信号处理器)对于数字信号处理速度及带宽的限制正逐渐变得宽松。随着传输速率更进一步的高比特率化，将能够确保用于多信道传输的频带，因此，即使在以单声道方式为主流的话音通信中，也将可以期待基于立体声方式的通信(立体声通信)的普及。

现在的移动电话已经可以搭载具有立体声功能的多媒体播放器或FM收音机等功能。因此，向***的移动电话及IP电话等不仅追加立体声音频信号的录音及播放功能，并且追加立体声话音信号的录音及播放等功能将是很自然的事情。

以前，提起对立体声信号进行编码，存在多种方法，代表性的有非专利文献1所记载的MPEG-2AAC(Moving Picture Experts Group-2 AdvancedAudio Coding：活动图像专家组-2高级音频编码)。MPEG-2AAC能够将信号编码成单声道、立体声、及多声道。MPEG-2 AAC利用MDCT(ModifiedDiscrete Cosine Transform：改进离散余弦变换)处理将时域信号变换为频域信号，并基于人类听觉***的原理，对编码引起的噪声进行掩蔽而将其抑制在人类的可听范围以下的水平，由此实现高音质。非专利文献1 ISO/IEC13818-7：1997-MPEG-2 Advanced Audio Coding(AAC)

发明内容

发明要解决的课题

然而，MPEG-2AAC存在一个问题，即它更适合于音频信号，而不适合于话音信号。MPEG-2AAC通过抑制音频信号通信中不重要的频谱信息的量化比特数，由此在实现具有立体感的良好音质的同时，将比特率向低抑制。但是，由于比特率的减少引起的话音信号的音质的恶化相比于音频信号更大，因此即使是在音频信号的情况下能够得非常良好的音质的MPEG-2AAC，当将其适用到话音信号时，则有可能得不到满意的音质。

MPEG-2 AAC的另一个问题是起因于算法的延迟。用于MPEG-2 AAC的帧的大小为1024样本/帧。例如，如果采样频率超过32kHz，则帧的延迟将为32毫秒以下，这对实时语音通信***来说是可以容许的延迟。但是，MPEG-2AAC为了对编码信号进行解码，必须进行MDCT处理，而对相邻的两个帧进行重叠相加(overlap and add)，因此必然产生此算法引起的处理延迟，而不适合于实时通信***。

另外，为了降低比特率，也可以进行AMR-WB(Adaptive Multi-Rate WideBand：自适应多速率宽带)方式的编码，根据此方法，较之于MPEG-2AAC只需要二分之一以下的比特率即可。但是，AMR-WB方式的编码存在一个问题，即它只支持单声道语音信号。

本发明的目的在于提供一种能够用低比特率对立体声信号进行高精度的编码，并能够抑制诸如语音通信等中的延迟的立体声编码装置、立体声解码装置、及立体声编码方法。

用于解决课题的手段

本发明的立体声编码装置所采用的结构包括：时域估计(estimation)单元，对立体声信号的第一声道信号进行时域上的估计，并对该估计结果进行编码；频域估计单元，将所述第一声道信号的频带分割成多个，对各频带的所述第一声道信号进行频域上的估计，并对该估计结果进行编码；第一层编码单元，对基于所述立体声信号生成的单声道信号进行编码；第二层编码单元，包括所述时域估计单元及所述频域估计单元，进行可扩展性编码；以及比特分配单元，当所述第一声道信号与所述单声道信号的相似度为预定值以上时，将比所述时域估计单元多的比特分配给所述频域估计单元；当所述第一声道信号与所述单声道信号的相似度不足所述预定值时，对所述时域估计单元及所述频域估计单元均匀地分配比特。

本发明的立体声编码方法，包括：时域估计步骤，对立体声信号的第一声道信号进行时域上的估计；第一编码步骤，对所述时域上的估计结果进行编码；分割步骤，将所述第一声道信号的频带分割成多个；频域估计步骤，对分割后的各频带的所述第一声道信号进行频域上的估计；第二编码步骤，将所述频域上的估计结果进行编码；第一层编码步骤，对基于所述立体声信号的单声道信号进行编码；以及比特分配步骤，当所述第一声道信号与所述单声道信号的相似度为预定值以上时，将比在所述时域估计步骤中的处理多的比特分配给在所述频域估计步骤中的处理；当所述第一声道信号与所述单声道信号的相似度不足所述预定值时，对在所述时域估计步骤中的处理及在所述频域估计步骤中的处理均匀地分配比特。

发明的效果

根据本发明，能够用低比特率对立体声信号进行高精度的编码，并能够抑制诸如语音通信等中的延迟。

附图说明

图1为表示本发明的实施方式的立体声编码装置的主要结构的方框图、

图2为表示本发明的实施方式的时域估计单元的主要结构的方框图、

图3为表示本发明的实施方式的频域估计单元的主要结构的方框图、

图4为用于说明本发明的实施方式的比特分配控制单元的动作的流程图、以及

图5为表示本发明的实施方式的立体声解码装置的主要结构的方框图。

具体实施方式

下面，参照附图详细说明本发明的实施方式。

图1为表示本发明的实施方式的立体声编码装置100的主要结构的方框图。

立体声编码装置100采用分层结构，主要由第一层110及第二层120构成。

在第一层110中，基于构成立体声话音信号的左声道信号L及右声道信号R生成单声道信号M，并对此单声道信号进行编码生成编码信息P_A及单声道驱动声源信号e_M。第一层110由单声道合成单元101及单声道编码单元102构成，各单元进行以下处理。

单声道合成单元101基于左声道信号L及右声道信号R合成单声道信号M。这里，通过求左声道信号L及右声道信号R的平均值而合成单声道信号M。用公式表示此方法，则为M＝(L+R)/2。另外，作为单声道信号的合成方法，使用其它方法亦可，用公式表示其中一例，为M＝w₁L+w₂R。在此公式中，w₁、w₂为满足w₁+w₂＝1.0关系的加权系数。

单声道编码单元102采用AMR-WB方式的编码装置的结构。单声道编码单元102对从单声道合成单元101输出的单声道信号M以AMR-WB方式进行编码，求出编码信息P_A并输出到复用单元108。另外，单声道编码单元102将编码过程中所得到的单声道驱动声源信号e_M输出到第二层120。

在第二层120中，对立体声话音信号进行时域及频域上的估计及预测(prediction and estimation)，生成各种编码信息。在此处理中，首先检测并计算出构成立体声话音信号的左声道信号L所具有的空间性信息。立体声话音信号基于此空间性信息产生现场感(扩音感)。接着，通过将此空间性信息赋予单声道信号，生成与左声道信号L相似的估计信号。然后，将关于各个处理的信息作为编码信息输出。第二层120由滤波单元103、时域估计单元104、频域估计单元105、残差编码单元106、及比特分配控制单元107构成，各单元进行如下的动作。

滤波单元103通过LPC(Linear Predictive Coding：线性预测编码)分析，基于左声道信号L生成LPC系数，并作为编码信息P_F输出到复用单元108。另外，滤波单元103利用左声道信号L及LPC系数生成左声道驱动声源信号e_L，并输出到时域估计单元104。

时域估计单元104对在第一层110的单声道编码单元102中生成的单声道驱动声源信号e_M及在滤波单元103中生成的左声道驱动声源信号e_L进行时域上的估计及预测，生成时域估计信号e_est1，并输出到频域估计单元105。即，时域估计单元104检测并计算出单声道驱动声源信号e_M与左声道驱动声源信号e_L之间在时域上的空间性信息。

频域估计单元105对在滤波单元103中生成的左声道驱动声源信号e_L及在时域估计单元104中生成的时域估计信号e_est1进行频域上的估计及预测，生成频域估计信号e_est2，并输出到残差编码单元106。即，频域估计单元105检测并计算出时域估计信号e_est1与左声道驱动声源信号e_L之间在频域上的空间性信息。

残差编码单元106求在频域估计单元105中生成的频域估计信号e_est2与在滤波单元103中生成的左声道驱动声源信号e_L之间的残差信号，并对该信号进行编码，生成编码信息P_E，并输出到复用单元108。

比特分配控制单元107根据在单声道编码单元102中生成的单声道驱动声源信号e_M与在滤波单元103中生成的左声道驱动声源信号e_L的相似情况，向时域估计单元104、频域估计单元105、及残差编码单元106分配编码比特。另外，比特分配控制单元107对关于分配到各单元的比特数的信息进行编码，并输出所得到的编码信息P_B。

复用单元108将P_A到P_F的编码信息进行复用，并输出经过复用的比特流。

与立体声编码装置100相对应的立体声解码装置取得在第一层110中生成的单声道信号的编码信息P_A、以及在第二层120中生成的左声道信号的编码信息P_B至P_F，基于这些编码信息能够解码出单声道信号及左声道信号。而且，基于解码出的单声道信号及左声道信号还能够生成右声道信号。

图2为表示时域估计单元104的主要结构的方框图。时域估计单元104输入单声道驱动声源信号e_M作为目标信号，并输入左声道驱动声源信号e_L作为参照信号。时域估计单元104在话音信号处理的每一帧，检测并计算一次单声道驱动声源信号e_M与左声道驱动声源信号e_L之间的空间性信息，并将这些结果编码，输出编码信息P_C。这里，时域上的空间性信息由振幅信息α及延迟信息τ构成。

能量计算单元141-1输入单声道驱动声源信号e_M，计算该信号在时域上的能量。

能量计算单元141-2输入左声道驱动声源信号e_L，通过与能量计算单元141-1同样的处理，计算左声道驱动声源信号e_L在时域上的能量。

比率计算单元142输入分别在能量计算单元141-1及141-2中算出的能量值，计算单声道驱动声源信号e_M与左声道驱动声源信号e_L之间的能量比，作为单声道驱动声源信号e_M与左声道驱动声源信号e_L之间的空间性信息(振幅信息α)输出。

相关值计算单元143输入单声道驱动声源信号e_M及左声道驱动声源信号e_L，计算这两个信号之间的互相关值(cross correlation)。

延迟检测单元144输入在相关值计算单元143中算出的互相关值，检测出左声道驱动声源信号e_L与单声道驱动声源信号e_M之间的时间延迟，作为单声道驱动声源信号e_M与左声道驱动声源信号e_L之间的空间性信息(延迟信息τ)输出。

估计信号生成单元145基于在比率计算单元142中算出的振幅信息α及在延迟检测单元144中算出的延迟信息τ，从单声道驱动声源信号e_M生成与左声道驱动声源信号e_L相似的时域估计信号e_est1。

这样，时域估计单元104在话音信号处理的每一帧，检测并计算一次单声道驱动声源信号e_M与左声道驱动声源信号e_L之间在时域上的空间性信息，并输出所得到的编码信息P_C。这里，空间性信息由振幅信息α及延迟信息τ构成。另外，时域估计单元104将该空间性信息赋予单声道驱动声源信号e_M，而生成与左声道驱动声源信号e_L相似的时域估计信号e_est1。

图3为表示频域估计单元105的主要结构的方框图。频域估计单元105输入由时域估计单元104生成的时域估计信号e_est1作为目标信号，并输入左声道驱动声源信号e_L作为参照信号，进行频域上的估计及预测，并对这些结果进行编码，输出编码信息P_D。这里，频域上的空间性信息由频谱的振幅信息β及相位差信息θ构成。

FFT单元151-1通过高速傅立叶变换(FFT)，将时域信号的左声道驱动声源信号e_L变换为频域信号(频谱)。

分割单元152-1将在FFT单元151-1中生成的频域信号的频带分割成多个频带(子带)。各子带可以依循与人类听觉***相应的吼叫范围(BarkScale)，也可以在频宽内进行等分。

能量计算单元153-1按从分割单元152-1输出的各子带计算左声道驱动声源信号e_L的频谱能量。

FFT单元151-2通过与FFT单元151-1相同的处理，将时域估计信号e_est1变换为频域信号。

分割单元152-2通过与分割单元152-1相同的处理，将在FFT单元151-2中生成的频域信号的频带分割成多个子带。

能量计算单元153-2通过与能量计算单元153-1相同的处理，按从分割单元152-2输出的各子带计算时域估计信号e_est1的频谱能量。

比率计算单元154利用在能量计算单元153-1及能量计算单元153-2中算出的各子带的频谱能量，按各子带计算左声道驱动声源信号e_L与时域估计信号e_est1之间的频谱能量比，作为构成编码信息P_D的一部分的振幅信息β输出。

相位计算单元155-1计算左声道驱动声源信号e_L在各子带上的各频谱的相位。

相位选择单元156为了削减编码信息的信息量，从各子带上的频谱的相位中，选择一个适合于编码的相位。

相位计算单元155-2通过与相位计算单元155-1同样的处理，计算时域估计信号e_est1在各子带上的各频谱的相位。

相位差计算单元157在由相位选择单元156选择的各子带上的相位上，计算左声道驱动声源信号e_L与时域估计信号e_est1之间的相位差，作为构成编码信息P_D的一部分的相位差信息θ输出。

估计信号生成单元158基于左声道驱动声源信号e_L与时域估计信号e_est1之间的振幅信息β，以及左声道驱动声源信号e_L与时域估计信号e_est1之间的相位差信息θ的两方面，从时域估计信号e_est1生成频域估计信号e_est2。

这样，频域估计单元105将左声道驱动声源信号e_L及在时域估计单元104中生成的时域估计信号e_est1分别分割成多个子带，按各子带计算时域估计信号e_est1与左声道驱动声源信号e_L之间的频谱能量比及相位差。由于时域上的时间延迟等价于频域上的相位差，通过计算出频域上的相位差，并准确地调整及控制该相位差，能够借助于频域，对在时域没能充分编码的特征进行编码，从而进一步提高编码精度。频域估计单元105将通过频域估计算出的细微的差异赋给通过时域估计得到的与左声道驱动声源信号e_L相似的时域估计信号e_est1，而生成与左声道驱动声源信号e_L更加相似的频域估计信号e_est2。另外，频域估计单元105将该空间性信息赋予时域估计信号e_est1，而生成与左声道驱动声源信号e_L更加相似的频域估计信号e_est2。

接着，详细说明比特分配控制单元107的动作。对于话音信号的各个帧，用于编码所分配的比特数是事先预定好的。比特分配控制单元107为了以该预定的比特率实现最优的话音质量，根据左声道驱动声源信号e_L与单声道驱动声源信号e_M是否相似，自适应地决定分配给各处理单元的比特数。

图4为用于说明比特分配控制单元107的动作的流程图。

在ST(步骤)1071中，比特分配控制单元107将单声道驱动声源信号e_M与左声道驱动声源信号e_L进行比较，判断在时域上的这两个信号的相似情况。具体地，比特分配控制单元107计算单声道驱动声源信号e_M与左声道驱动声源信号e_L的均方误差，将其与既定的阈值进行比较，如果为阈值以下，则判断这两个信号相似。

当单声道驱动声源信号e_M与左声道驱动声源信号e_L相似时(ST1072：是)，这两个信号在时域上的差较小，而对较小的差进行编码则只需要较少的比特数。即，如果进行不均匀的比特分配，比如向时域估计单元104分配较少的比特，而向其它各单元(频域估计单元105、残差编码单元106)，尤其是频域估计单元105分配较多的比特，则因为是高效的比特分配，所以编码效率将得到改善。因此，比特分配控制单元107当在ST1072中判断为相似时，则在ST1073中向时域估计分配较少数目的比特，而在ST1074中将其余的比特均匀地分配给其它处理。

另一方面，当单声道驱动声源信号e_M与左声道驱动声源信号e_L不相似时(ST1072：否)，两个时域信号之间的差则较大，时域估计只能估计到一定程度为止的相似性，而为了提高估计信号的精度，频域上的信号估计也很重要。因此，时域估计及频域估计的两方面同等地重要。另外，此时，即使在频域估计之后，估计信号与左声道驱动声源信号e_L之间还有可能留有差异，因此对残差也进行编码并得到编码信息这一处理很重要。所以，比特分配控制单元107当在ST1072中判断出单声道驱动声源信号e_M与左声道驱动声源信号e_L不相似时，在ST1075中视所有的处理同等地重要，而向所有的处理均匀地分配比特。

图5为表示本实施方式的立体声解码装置200的主要结构的方框图。

立体声解码装置200也同立体声编码装置100一样采用分层结构，主要由第一层210及第二层220构成。而且，立体声解码装置200中的各种处理，基本上与立体声编码装置100中相应的各种处理相反。即立体声解码装置200利用从立体声编码装置100发送来的编码信息，从单声道信号预测并生成左声道信号，进一步利用单声道信号及左声道信号生成右声道信号。

分离单元201将输入的比特流分离为P_A至P_F的编码信息。

第一层210由单声道解码单元202构成。单声道解码单元202对编码信息P_A进行解码，生成单声道信号M’及单声道驱动声源信号e_M’。

第二层220由比特分配信息解码单元203、时域估计单元204、频域估计单元205、及残差解码单元206构成，各单元进行以下动作。

比特分配信息解码单元203对编码信息P_B进行解码，输出分别用于时域估计单元204、频域估计单元205、及残差解码单元206的比特数。

时域估计单元204利用在单声道解码单元202中生成的单声道驱动声源信号e_M’、从分离单元201输出的编码信息P_C、及从比特分配信息解码单元203输出的比特数，进行时域上的估计及预测，生成时域估计信号e_est1’。

频域估计单元205利用在时域估计单元204中生成的时域估计信号e_est1’、从分离单元201输出的编码信息P_D、及从比特分配信息解码单元203传来的比特数，进行频域上的估计及预测，生成频域估计信号e_est2’。频域估计单元205同立体声编码装置100的频域估计单元105一样，具有FFT单元，在进行频域上的估计及预测之前，进行频率变换。

残差解码单元206利用从分离单元201输出的编码信息P_E、及从比特分配信息解码单元203传来的比特数解码出残差信号。另外，残差解码单元206将解码出的该残差信号赋给在频域估计单元205中生成的频域估计信号e_est2’而生成左声道驱动声源信号e_L’。

合成滤波单元207从编码信息P_F解码出LPC系数，并将该LPC系数与在残差解码单元206中生成的左声道驱动声源信号e_L’进行合成，从而生成左声道信号L’。

立体声变换单元208利用在单声道解码单元202中解码出的单声道信号M’、及在合成滤波单元207中生成的左声道信号L’生成右声道信号R’。

这样，根据本实施方式的立体声编码装置，对作为编码对象的立体声话音信号，首先在时域进行估计及预测之后，在频域进行更详细的估计及预测，将有关于这两个阶段的估计及预测的信息作为编码信息输出。因此，对于利用时域上的估计及预测没能充分表达的信息，能够在频域进行补充性的估计及预测，能够用低比特率对立体声信号进行高精度的编码。

又，根据本实施方式，在时域估计单元104中的时域估计相当于对全频带中的信号的空间性信息的平均水平进行估计。例如，作为空间性信息在时域估计单元104中求得的能量比及时间延迟，是将一个帧的编码对象的信号直接作为一个信号进行处理而求得的该信号整个的或平均的能量比及时间延迟。另一方面，在频域估计单元105中的频域估计则将编码对象信号的频带分割成多个子带，并对该细化了的各个信号进行估计。换言之，根据本实施方式，先在时域对立体声话音信号进行大概的估计之后，再通过在频域进行更进一步的估计，进行估计信号的细微调整。因此，对于将编码对象的信号看作一个信号处理时没能充分表达出来的信息，细分为多个信号，进行更进一步的估计，从而能够提高立体声话音信号的编码精度。

又，在本实施方式中，根据单声道信号与左声道信号(或右声道信号)的相似情况，即根据立体声信号的状态，在预定的比特率的范围内，对时域估计、频域估计等各个处理自适应地分配比特。由此，能够进行高效且高精度的编码，同时能够实现比特率的可扩展(scalability)。

又，根据本实施方式，因为不再需要对于MPEG-2AAC来说必须的MDCT处理，所以在诸如实时话音通信***等中，能够将时间延迟抑制在容许范围限度之内。

又，根据本实施方式，因为在时域估计中，利用如能量比及时间延迟这样的较少的参数进行编码，所以能够削减比特率。

又，根据本实施方式，因为采用由两层构成的分层结构，所以能够从单声道水平扩展(scaling)到立体声水平。因此，即使在由于某种原因不能够解码出有关于频域估计的信息时，也能够通过只解码出有关于时域估计的信息，来解码出虽然质量有所恶化但为预定质量的立体声话音信号，从而能够提高可扩展性。

又，根据本实施方式，因为在第一层利用AMR-WB方式对单声道信号进行编码，所以能够向低抑制比特率。

另外，可以对本实施方式的立体声编码装置、立体声解码装置、及立体声编码方法进行各种变更而进行实施。

比如，虽然在本实施方式中以这样一种情形为例进行了说明，即在立体声编码装置100中以单声道信号及左声道信号作为编码对象，而立体声解码装置200通过解码出单声道信号及左声道信号并合成这些解码信号，解码出右声道信号，但立体声编码装置100的编码对象的信号并不限于此，也可以在立体声编码装置100中将单声道信号及右声道信号作为编码对象，而立体声解码装置200通过合成解码出的右声道信号及单声道信号，生成左声道信号。

又，在本实施方式的滤波单元103中，作为LPC系数的编码信息，也可以使用将LPC系数进行变换而得的其它的等价的参数(例如LSP参数)。

又，虽然在本实施方式中，由比特分配控制单元107将预定数目的比特分配给各个处理，但也可以不进行比特分配控制处理，而进行固定比特分配，即事先定好各单元所使用的比特数。此时，立体声编码装置100中将不再需要比特分配控制单元107。另外，该固定的比特分配的比例对于立体声编码装置100及立体声解码装置200是共同的，从而立体声解码装置200中也将不再需要比特分配信息解码单元203。

又，虽然本实施方式的比特分配控制单元107根据立体声话音信号的情况自适应地进行比特分配，但也可以根据网络的情况自适应地进行比特分配。

又，如果使本实施方式的残差编码单元106使用由比特分配控制单元107所分配的预定数目的比特进行编码，则可得到损耗(lossy)***。作为使用预定数目的比特的编码，例如有矢量量化。一般，残差编码单元根据编码方法的不同，可得到不同特性的所谓的损耗***或无损耗(lossless)***。较之于损耗***，无损耗***虽然具有在解码装置能够更加准确地对信号进行解码的特性，但因压缩率较低，所以比特率变高。例如，在残差编码单元106中，如果使用霍夫曼(Huffman)编码、赖斯(Rice)编码等无噪声(noiseless)编码方法对残差信号进行编码，则可得到无损耗***。

又，虽然在本实施方式中，比率计算单元142计算出单声道驱动声源信号e_M与左声道驱动声源信号e_L之间的能量比作为振幅信息α，但也可以计算出能量差来代替能量比作为振幅信息α。

又，虽然在本实施方式中，比率计算单元154计算出各子带上的左声道驱动声源信号e_L与时域估计信号e_est1之间的频谱能量比β作为振幅信息β，但也可以计算出能量差来代替能量比作为振幅信息β。

又，虽然在本实施方式中，单声道驱动声源信号e_M与左声道驱动声源信号e_L之间在时域上的空间性信息由振幅信息α及延迟信息τ构成，但该空间性信息也可以进一步包含其它的信息，或者由完全不同于振幅信息α及延迟信息τ等的其它信息构成。

又，虽然在本实施方式中，左声道驱动声源信号e_L与时域估计信号e_est1之间在频域上的空间性信息由振幅信息B及相位差信息θ构成，但该空间性信息也可以进一步包含其它的信息，也可以由完全不同于振幅信息β及相位差信息θ等的其它信息构成。

又，虽然在本实施方式中，时域估计单元104按各个帧检测并计算单声道驱动声源信号e_M与左声道驱动声源信号e_L之间的空间性信息，但也可以在一个帧内多次进行该处理。

又，虽然在本实施方式中，相位选择单元156在各子带中选择一个频谱相位，但也可以选择多个频谱相位。此时，相位差计算单元157计算左声道驱动声源信号e_L与时域估计信号e_est1之间在该多个相位上的相位差θ的平均，并输出到估计信号生成单元158。

又，虽然在本实施方式中，残差编码单元106对残差信号进行时域编码，但也可以进行频域编码。

又，虽然在本实施方式中，以编码对象是话音信号的情形为例进行了说明，但本发明立体声编码装置、立体声解码装置、及立体声编码方法除了话音信号以外，也可以适用于音频信号。

以上，对本发明的实施方式进行了说明。

本发明的立体声编码装置及立体声解码装置可以搭载到移动通信***中的通信终端装置及基站装置上，由此可以提供具有与上述同样的作用效果的通信终端装置、基站装置、及移动通信***。

又，此处，虽然以用硬件实现本发明的情形为例进行了说明，但本发明也可以用软件实现。例如，可以用编程语言记述本发明的立体声编码方法及立体声解码方法的算法，将此程序存储于存储器中，通过用信息处理单元执行，可以实现与本发明的立体声编码装置及立体声解码装置相同的功能。

又，用来说明上述各实施方式的各功能模块，典型地由集成电路LSI(大规模集成电路)来实现。这些功能块既可以分别实行单芯片化，也可以包括其中一部分或者全部而实行单芯片化。

这里，虽然称作LSI，但根据集成度的不同也可以称为IC(集成电路)、***LSI(***大规模集成电路)、超大LSI(超大规模集成电路)、极大LSI(极大规模集成电路)等。

另外，集成电路化的技术不限于LSI，也可以使用专用电路或通用处理器来实现。也可以利用制造LSI后能够编程的FPGA(Field Programmable GateArray，现场可编程门阵列)，或可以利用能够将LSI内部的电路块连接或设定重新配置的可重构处理器(Reconfigurable Processor)。

再有，如果随着半导体技术的进步或者其他技术的派生，出现了替换LSI集成电路的技术，当然，也可以利用该技术来实现功能块的集成化。也有应用生物工程学技术等的可能性。

本说明书基于2005年8月31日申请的日本专利申请特愿第2005-252778号。该内容全部包括此处。

工业实用性

本发明的立体声编码装置、立体声解码装置、及立体声编码方法适用于移动电话、IP电话、电视会议等。

Claims

1.一种立体声编码装置，包括：

时域估计单元，对立体声信号的第一声道信号进行时域上的估计，并对该估计结果进行编码；

频域估计单元，将所述第一声道信号的频带分割成多个，对各频带的所述第一声道信号进行频域上的估计，并对该估计结果进行编码；

第一层编码单元，对基于所述立体声信号生成的单声道信号进行编码；

第二层编码单元，包括所述时域估计单元及所述频域估计单元，进行可扩展性编码；以及

比特分配单元，当所述第一声道信号与所述单声道信号的相似度为预定值以上时，将比所述时域估计单元多的比特分配给所述频域估计单元；当所述第一声道信号与所述单声道信号的相似度不足所述预定值时，对所述时域估计单元及所述频域估计单元均匀地分配比特。

2.如权利要求1所述的立体声编码装置，其中，

所述时域估计单元利用所述单声道信号进行所述时域上的估计，生成与所述第一声道信号相似的时域估计信号；

所述频域估计单元与所述第一声道信号同样地将所述时域估计信号的频带也分割成多个，利用各频带的所述时域估计信号进行所述频域上的估计，生成与所述第一声道信号相似的频域估计信号。

3.如权利要求2所述的立体声编码装置，还包括：

残差编码单元，对所述第一声道信号及所述频域估计信号之间的残差进行编码。

4.如权利要求2所述的立体声编码装置，其中，

所述时域估计单元在所述时域上的估计中，求所述第一声道信号与所述单声道信号之间的空间性信息；

所述频域估计单元在所述频域上的估计中，求所述第一声道信号与所述时域估计信号之间的空间性信息。

5.一种立体声编码方法，包括：

时域估计步骤，对立体声信号的第一声道信号进行时域上的估计；

第一编码步骤，对所述时域上的估计结果进行编码；

分割步骤，将所述第一声道信号的频带分割成多个；

频域估计步骤，对分割后的各频带的所述第一声道信号进行频域上的估计；

第二编码步骤，将所述频域上的估计结果进行编码；

第一层编码步骤，对基于所述立体声信号的单声道信号进行编码；以及

比特分配步骤，当所述第一声道信号与所述单声道信号的相似度为预定值以上时，将比在所述时域估计步骤中的处理多的比特分配给在所述频域估计步骤中的处理；当所述第一声道信号与所述单声道信号的相似度不足所述预定值时，对在所述时域估计步骤中的处理及在所述频域估计步骤中的处理均匀地分配比特。