CN101253557B - 立体声编码装置及立体声编码方法 - Google Patents

立体声编码装置及立体声编码方法 Download PDF

Info

Publication number
CN101253557B
CN101253557B CN2006800319487A CN200680031948A CN101253557B CN 101253557 B CN101253557 B CN 101253557B CN 2006800319487 A CN2006800319487 A CN 2006800319487A CN 200680031948 A CN200680031948 A CN 200680031948A CN 101253557 B CN101253557 B CN 101253557B
Authority
CN
China
Prior art keywords
signal
time domain
unit
frequency domain
sound channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2006800319487A
Other languages
English (en)
Other versions
CN101253557A (zh
Inventor
张峻伟
梁世丰
吉田幸司
后藤道代
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
III Holdings 12 LLC
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of CN101253557A publication Critical patent/CN101253557A/zh
Application granted granted Critical
Publication of CN101253557B publication Critical patent/CN101253557B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)

Abstract

公开了立体声编码装置,能够以低比特率对立体声信号进行高精度的编码,抑制语音通信中的延迟。在此装置的第一层(110)中,进行单声道编码。在第二层(120)中,滤波单元(103)生成LPC(Linear Predictive Coding:线性预测编码)系数,并生成左声道驱动声源信号。时域估计单元(104)及频域估计单元(105)在两个域上进行信号的估计及预测,残差编码单元(106)对残差信号进行编码。比特分配控制单元(107)根据话音信号的条件,自适应地对时域估计单元(104)、频域估计单元(105)、以及残差编码单元(106)分配比特。

Description

立体声编码装置及立体声编码方法
技术领域
本发明涉及立体声编码装置以及立体声编码方法,用于在诸如移动通信***或使用因特网协议(IP:Internet Protocol)的分组通信***中,对立体声话音(speech)信号或立体声音频信号进行编码及解码。
背景技术
在诸如移动通信***或使用IP的分组通信***中,DSP(Digital SignalProcessor:数字信号处理器)对于数字信号处理速度及带宽的限制正逐渐变得宽松。随着传输速率更进一步的高比特率化,将能够确保用于多信道传输的频带,因此,即使在以单声道方式为主流的话音通信中,也将可以期待基于立体声方式的通信(立体声通信)的普及。
现在的移动电话已经可以搭载具有立体声功能的多媒体播放器或FM收音机等功能。因此,向***的移动电话及IP电话等不仅追加立体声音频信号的录音及播放功能,并且追加立体声话音信号的录音及播放等功能将是很自然的事情。
以前,提起对立体声信号进行编码,存在多种方法,代表性的有非专利文献1所记载的MPEG-2AAC(Moving Picture Experts Group-2 AdvancedAudio Coding:活动图像专家组-2高级音频编码)。MPEG-2AAC能够将信号编码成单声道、立体声、及多声道。MPEG-2 AAC利用MDCT(ModifiedDiscrete Cosine Transform:改进离散余弦变换)处理将时域信号变换为频域信号,并基于人类听觉***的原理,对编码引起的噪声进行掩蔽而将其抑制在人类的可听范围以下的水平,由此实现高音质。非专利文献1 ISO/IEC13818-7:1997-MPEG-2 Advanced Audio Coding(AAC)
发明内容
发明要解决的课题
然而,MPEG-2AAC存在一个问题,即它更适合于音频信号,而不适合于话音信号。MPEG-2AAC通过抑制音频信号通信中不重要的频谱信息的量化比特数,由此在实现具有立体感的良好音质的同时,将比特率向低抑制。但是,由于比特率的减少引起的话音信号的音质的恶化相比于音频信号更大,因此即使是在音频信号的情况下能够得非常良好的音质的MPEG-2AAC,当将其适用到话音信号时,则有可能得不到满意的音质。
MPEG-2 AAC的另一个问题是起因于算法的延迟。用于MPEG-2 AAC的帧的大小为1024样本/帧。例如,如果采样频率超过32kHz,则帧的延迟将为32毫秒以下,这对实时语音通信***来说是可以容许的延迟。但是,MPEG-2AAC为了对编码信号进行解码,必须进行MDCT处理,而对相邻的两个帧进行重叠相加(overlap and add),因此必然产生此算法引起的处理延迟,而不适合于实时通信***。
另外,为了降低比特率,也可以进行AMR-WB(Adaptive Multi-Rate WideBand:自适应多速率宽带)方式的编码,根据此方法,较之于MPEG-2AAC只需要二分之一以下的比特率即可。但是,AMR-WB方式的编码存在一个问题,即它只支持单声道语音信号。
本发明的目的在于提供一种能够用低比特率对立体声信号进行高精度的编码,并能够抑制诸如语音通信等中的延迟的立体声编码装置、立体声解码装置、及立体声编码方法。
用于解决课题的手段
本发明的立体声编码装置所采用的结构包括:时域估计(estimation)单元,对立体声信号的第一声道信号进行时域上的估计,并对该估计结果进行编码;频域估计单元,将所述第一声道信号的频带分割成多个,对各频带的所述第一声道信号进行频域上的估计,并对该估计结果进行编码;第一层编码单元,对基于所述立体声信号生成的单声道信号进行编码;第二层编码单元,包括所述时域估计单元及所述频域估计单元,进行可扩展性编码;以及比特分配单元,当所述第一声道信号与所述单声道信号的相似度为预定值以上时,将比所述时域估计单元多的比特分配给所述频域估计单元;当所述第一声道信号与所述单声道信号的相似度不足所述预定值时,对所述时域估计单元及所述频域估计单元均匀地分配比特。
本发明的立体声编码方法,包括:时域估计步骤,对立体声信号的第一声道信号进行时域上的估计;第一编码步骤,对所述时域上的估计结果进行编码;分割步骤,将所述第一声道信号的频带分割成多个;频域估计步骤,对分割后的各频带的所述第一声道信号进行频域上的估计;第二编码步骤,将所述频域上的估计结果进行编码;第一层编码步骤,对基于所述立体声信号的单声道信号进行编码;以及比特分配步骤,当所述第一声道信号与所述单声道信号的相似度为预定值以上时,将比在所述时域估计步骤中的处理多的比特分配给在所述频域估计步骤中的处理;当所述第一声道信号与所述单声道信号的相似度不足所述预定值时,对在所述时域估计步骤中的处理及在所述频域估计步骤中的处理均匀地分配比特。
发明的效果
根据本发明,能够用低比特率对立体声信号进行高精度的编码,并能够抑制诸如语音通信等中的延迟。
附图说明
图1为表示本发明的实施方式的立体声编码装置的主要结构的方框图、
图2为表示本发明的实施方式的时域估计单元的主要结构的方框图、
图3为表示本发明的实施方式的频域估计单元的主要结构的方框图、
图4为用于说明本发明的实施方式的比特分配控制单元的动作的流程图、以及
图5为表示本发明的实施方式的立体声解码装置的主要结构的方框图。
具体实施方式
下面,参照附图详细说明本发明的实施方式。
图1为表示本发明的实施方式的立体声编码装置100的主要结构的方框图。
立体声编码装置100采用分层结构,主要由第一层110及第二层120构成。
在第一层110中,基于构成立体声话音信号的左声道信号L及右声道信号R生成单声道信号M,并对此单声道信号进行编码生成编码信息PA及单声道驱动声源信号eM。第一层110由单声道合成单元101及单声道编码单元102构成,各单元进行以下处理。
单声道合成单元101基于左声道信号L及右声道信号R合成单声道信号M。这里,通过求左声道信号L及右声道信号R的平均值而合成单声道信号M。用公式表示此方法,则为M=(L+R)/2。另外,作为单声道信号的合成方法,使用其它方法亦可,用公式表示其中一例,为M=w1L+w2R。在此公式中,w1、w2为满足w1+w2=1.0关系的加权系数。
单声道编码单元102采用AMR-WB方式的编码装置的结构。单声道编码单元102对从单声道合成单元101输出的单声道信号M以AMR-WB方式进行编码,求出编码信息PA并输出到复用单元108。另外,单声道编码单元102将编码过程中所得到的单声道驱动声源信号eM输出到第二层120。
在第二层120中,对立体声话音信号进行时域及频域上的估计及预测(prediction and estimation),生成各种编码信息。在此处理中,首先检测并计算出构成立体声话音信号的左声道信号L所具有的空间性信息。立体声话音信号基于此空间性信息产生现场感(扩音感)。接着,通过将此空间性信息赋予单声道信号,生成与左声道信号L相似的估计信号。然后,将关于各个处理的信息作为编码信息输出。第二层120由滤波单元103、时域估计单元104、频域估计单元105、残差编码单元106、及比特分配控制单元107构成,各单元进行如下的动作。
滤波单元103通过LPC(Linear Predictive Coding:线性预测编码)分析,基于左声道信号L生成LPC系数,并作为编码信息PF输出到复用单元108。另外,滤波单元103利用左声道信号L及LPC系数生成左声道驱动声源信号eL,并输出到时域估计单元104。
时域估计单元104对在第一层110的单声道编码单元102中生成的单声道驱动声源信号eM及在滤波单元103中生成的左声道驱动声源信号eL进行时域上的估计及预测,生成时域估计信号eest1,并输出到频域估计单元105。即,时域估计单元104检测并计算出单声道驱动声源信号eM与左声道驱动声源信号eL之间在时域上的空间性信息。
频域估计单元105对在滤波单元103中生成的左声道驱动声源信号eL及在时域估计单元104中生成的时域估计信号eest1进行频域上的估计及预测,生成频域估计信号eest2,并输出到残差编码单元106。即,频域估计单元105检测并计算出时域估计信号eest1与左声道驱动声源信号eL之间在频域上的空间性信息。
残差编码单元106求在频域估计单元105中生成的频域估计信号eest2与在滤波单元103中生成的左声道驱动声源信号eL之间的残差信号,并对该信号进行编码,生成编码信息PE,并输出到复用单元108。
比特分配控制单元107根据在单声道编码单元102中生成的单声道驱动声源信号eM与在滤波单元103中生成的左声道驱动声源信号eL的相似情况,向时域估计单元104、频域估计单元105、及残差编码单元106分配编码比特。另外,比特分配控制单元107对关于分配到各单元的比特数的信息进行编码,并输出所得到的编码信息PB
复用单元108将PA到PF的编码信息进行复用,并输出经过复用的比特流。
与立体声编码装置100相对应的立体声解码装置取得在第一层110中生成的单声道信号的编码信息PA、以及在第二层120中生成的左声道信号的编码信息PB至PF,基于这些编码信息能够解码出单声道信号及左声道信号。而且,基于解码出的单声道信号及左声道信号还能够生成右声道信号。
图2为表示时域估计单元104的主要结构的方框图。时域估计单元104输入单声道驱动声源信号eM作为目标信号,并输入左声道驱动声源信号eL作为参照信号。时域估计单元104在话音信号处理的每一帧,检测并计算一次单声道驱动声源信号eM与左声道驱动声源信号eL之间的空间性信息,并将这些结果编码,输出编码信息PC。这里,时域上的空间性信息由振幅信息α及延迟信息τ构成。
能量计算单元141-1输入单声道驱动声源信号eM,计算该信号在时域上的能量。
能量计算单元141-2输入左声道驱动声源信号eL,通过与能量计算单元141-1同样的处理,计算左声道驱动声源信号eL在时域上的能量。
比率计算单元142输入分别在能量计算单元141-1及141-2中算出的能量值,计算单声道驱动声源信号eM与左声道驱动声源信号eL之间的能量比,作为单声道驱动声源信号eM与左声道驱动声源信号eL之间的空间性信息(振幅信息α)输出。
相关值计算单元143输入单声道驱动声源信号eM及左声道驱动声源信号eL,计算这两个信号之间的互相关值(cross correlation)。
延迟检测单元144输入在相关值计算单元143中算出的互相关值,检测出左声道驱动声源信号eL与单声道驱动声源信号eM之间的时间延迟,作为单声道驱动声源信号eM与左声道驱动声源信号eL之间的空间性信息(延迟信息τ)输出。
估计信号生成单元145基于在比率计算单元142中算出的振幅信息α及在延迟检测单元144中算出的延迟信息τ,从单声道驱动声源信号eM生成与左声道驱动声源信号eL相似的时域估计信号eest1
这样,时域估计单元104在话音信号处理的每一帧,检测并计算一次单声道驱动声源信号eM与左声道驱动声源信号eL之间在时域上的空间性信息,并输出所得到的编码信息PC。这里,空间性信息由振幅信息α及延迟信息τ构成。另外,时域估计单元104将该空间性信息赋予单声道驱动声源信号eM,而生成与左声道驱动声源信号eL相似的时域估计信号eest1
图3为表示频域估计单元105的主要结构的方框图。频域估计单元105输入由时域估计单元104生成的时域估计信号eest1作为目标信号,并输入左声道驱动声源信号eL作为参照信号,进行频域上的估计及预测,并对这些结果进行编码,输出编码信息PD。这里,频域上的空间性信息由频谱的振幅信息β及相位差信息θ构成。
FFT单元151-1通过高速傅立叶变换(FFT),将时域信号的左声道驱动声源信号eL变换为频域信号(频谱)。
分割单元152-1将在FFT单元151-1中生成的频域信号的频带分割成多个频带(子带)。各子带可以依循与人类听觉***相应的吼叫范围(BarkScale),也可以在频宽内进行等分。
能量计算单元153-1按从分割单元152-1输出的各子带计算左声道驱动声源信号eL的频谱能量。
FFT单元151-2通过与FFT单元151-1相同的处理,将时域估计信号eest1变换为频域信号。
分割单元152-2通过与分割单元152-1相同的处理,将在FFT单元151-2中生成的频域信号的频带分割成多个子带。
能量计算单元153-2通过与能量计算单元153-1相同的处理,按从分割单元152-2输出的各子带计算时域估计信号eest1的频谱能量。
比率计算单元154利用在能量计算单元153-1及能量计算单元153-2中算出的各子带的频谱能量,按各子带计算左声道驱动声源信号eL与时域估计信号eest1之间的频谱能量比,作为构成编码信息PD的一部分的振幅信息β输出。
相位计算单元155-1计算左声道驱动声源信号eL在各子带上的各频谱的相位。
相位选择单元156为了削减编码信息的信息量,从各子带上的频谱的相位中,选择一个适合于编码的相位。
相位计算单元155-2通过与相位计算单元155-1同样的处理,计算时域估计信号eest1在各子带上的各频谱的相位。
相位差计算单元157在由相位选择单元156选择的各子带上的相位上,计算左声道驱动声源信号eL与时域估计信号eest1之间的相位差,作为构成编码信息PD的一部分的相位差信息θ输出。
估计信号生成单元158基于左声道驱动声源信号eL与时域估计信号eest1之间的振幅信息β,以及左声道驱动声源信号eL与时域估计信号eest1之间的相位差信息θ的两方面,从时域估计信号eest1生成频域估计信号eest2
这样,频域估计单元105将左声道驱动声源信号eL及在时域估计单元104中生成的时域估计信号eest1分别分割成多个子带,按各子带计算时域估计信号eest1与左声道驱动声源信号eL之间的频谱能量比及相位差。由于时域上的时间延迟等价于频域上的相位差,通过计算出频域上的相位差,并准确地调整及控制该相位差,能够借助于频域,对在时域没能充分编码的特征进行编码,从而进一步提高编码精度。频域估计单元105将通过频域估计算出的细微的差异赋给通过时域估计得到的与左声道驱动声源信号eL相似的时域估计信号eest1,而生成与左声道驱动声源信号eL更加相似的频域估计信号eest2。另外,频域估计单元105将该空间性信息赋予时域估计信号eest1,而生成与左声道驱动声源信号eL更加相似的频域估计信号eest2
接着,详细说明比特分配控制单元107的动作。对于话音信号的各个帧,用于编码所分配的比特数是事先预定好的。比特分配控制单元107为了以该预定的比特率实现最优的话音质量,根据左声道驱动声源信号eL与单声道驱动声源信号eM是否相似,自适应地决定分配给各处理单元的比特数。
图4为用于说明比特分配控制单元107的动作的流程图。
在ST(步骤)1071中,比特分配控制单元107将单声道驱动声源信号eM与左声道驱动声源信号eL进行比较,判断在时域上的这两个信号的相似情况。具体地,比特分配控制单元107计算单声道驱动声源信号eM与左声道驱动声源信号eL的均方误差,将其与既定的阈值进行比较,如果为阈值以下,则判断这两个信号相似。
当单声道驱动声源信号eM与左声道驱动声源信号eL相似时(ST1072:是),这两个信号在时域上的差较小,而对较小的差进行编码则只需要较少的比特数。即,如果进行不均匀的比特分配,比如向时域估计单元104分配较少的比特,而向其它各单元(频域估计单元105、残差编码单元106),尤其是频域估计单元105分配较多的比特,则因为是高效的比特分配,所以编码效率将得到改善。因此,比特分配控制单元107当在ST1072中判断为相似时,则在ST1073中向时域估计分配较少数目的比特,而在ST1074中将其余的比特均匀地分配给其它处理。
另一方面,当单声道驱动声源信号eM与左声道驱动声源信号eL不相似时(ST1072:否),两个时域信号之间的差则较大,时域估计只能估计到一定程度为止的相似性,而为了提高估计信号的精度,频域上的信号估计也很重要。因此,时域估计及频域估计的两方面同等地重要。另外,此时,即使在频域估计之后,估计信号与左声道驱动声源信号eL之间还有可能留有差异,因此对残差也进行编码并得到编码信息这一处理很重要。所以,比特分配控制单元107当在ST1072中判断出单声道驱动声源信号eM与左声道驱动声源信号eL不相似时,在ST1075中视所有的处理同等地重要,而向所有的处理均匀地分配比特。
图5为表示本实施方式的立体声解码装置200的主要结构的方框图。
立体声解码装置200也同立体声编码装置100一样采用分层结构,主要由第一层210及第二层220构成。而且,立体声解码装置200中的各种处理,基本上与立体声编码装置100中相应的各种处理相反。即立体声解码装置200利用从立体声编码装置100发送来的编码信息,从单声道信号预测并生成左声道信号,进一步利用单声道信号及左声道信号生成右声道信号。
分离单元201将输入的比特流分离为PA至PF的编码信息。
第一层210由单声道解码单元202构成。单声道解码单元202对编码信息PA进行解码,生成单声道信号M’及单声道驱动声源信号eM’。
第二层220由比特分配信息解码单元203、时域估计单元204、频域估计单元205、及残差解码单元206构成,各单元进行以下动作。
比特分配信息解码单元203对编码信息PB进行解码,输出分别用于时域估计单元204、频域估计单元205、及残差解码单元206的比特数。
时域估计单元204利用在单声道解码单元202中生成的单声道驱动声源信号eM’、从分离单元201输出的编码信息PC、及从比特分配信息解码单元203输出的比特数,进行时域上的估计及预测,生成时域估计信号eest1’。
频域估计单元205利用在时域估计单元204中生成的时域估计信号eest1’、从分离单元201输出的编码信息PD、及从比特分配信息解码单元203传来的比特数,进行频域上的估计及预测,生成频域估计信号eest2’。频域估计单元205同立体声编码装置100的频域估计单元105一样,具有FFT单元,在进行频域上的估计及预测之前,进行频率变换。
残差解码单元206利用从分离单元201输出的编码信息PE、及从比特分配信息解码单元203传来的比特数解码出残差信号。另外,残差解码单元206将解码出的该残差信号赋给在频域估计单元205中生成的频域估计信号eest2’而生成左声道驱动声源信号eL’。
合成滤波单元207从编码信息PF解码出LPC系数,并将该LPC系数与在残差解码单元206中生成的左声道驱动声源信号eL’进行合成,从而生成左声道信号L’。
立体声变换单元208利用在单声道解码单元202中解码出的单声道信号M’、及在合成滤波单元207中生成的左声道信号L’生成右声道信号R’。
这样,根据本实施方式的立体声编码装置,对作为编码对象的立体声话音信号,首先在时域进行估计及预测之后,在频域进行更详细的估计及预测,将有关于这两个阶段的估计及预测的信息作为编码信息输出。因此,对于利用时域上的估计及预测没能充分表达的信息,能够在频域进行补充性的估计及预测,能够用低比特率对立体声信号进行高精度的编码。
又,根据本实施方式,在时域估计单元104中的时域估计相当于对全频带中的信号的空间性信息的平均水平进行估计。例如,作为空间性信息在时域估计单元104中求得的能量比及时间延迟,是将一个帧的编码对象的信号直接作为一个信号进行处理而求得的该信号整个的或平均的能量比及时间延迟。另一方面,在频域估计单元105中的频域估计则将编码对象信号的频带分割成多个子带,并对该细化了的各个信号进行估计。换言之,根据本实施方式,先在时域对立体声话音信号进行大概的估计之后,再通过在频域进行更进一步的估计,进行估计信号的细微调整。因此,对于将编码对象的信号看作一个信号处理时没能充分表达出来的信息,细分为多个信号,进行更进一步的估计,从而能够提高立体声话音信号的编码精度。
又,在本实施方式中,根据单声道信号与左声道信号(或右声道信号)的相似情况,即根据立体声信号的状态,在预定的比特率的范围内,对时域估计、频域估计等各个处理自适应地分配比特。由此,能够进行高效且高精度的编码,同时能够实现比特率的可扩展(scalability)。
又,根据本实施方式,因为不再需要对于MPEG-2AAC来说必须的MDCT处理,所以在诸如实时话音通信***等中,能够将时间延迟抑制在容许范围限度之内。
又,根据本实施方式,因为在时域估计中,利用如能量比及时间延迟这样的较少的参数进行编码,所以能够削减比特率。
又,根据本实施方式,因为采用由两层构成的分层结构,所以能够从单声道水平扩展(scaling)到立体声水平。因此,即使在由于某种原因不能够解码出有关于频域估计的信息时,也能够通过只解码出有关于时域估计的信息,来解码出虽然质量有所恶化但为预定质量的立体声话音信号,从而能够提高可扩展性。
又,根据本实施方式,因为在第一层利用AMR-WB方式对单声道信号进行编码,所以能够向低抑制比特率。
另外,可以对本实施方式的立体声编码装置、立体声解码装置、及立体声编码方法进行各种变更而进行实施。
比如,虽然在本实施方式中以这样一种情形为例进行了说明,即在立体声编码装置100中以单声道信号及左声道信号作为编码对象,而立体声解码装置200通过解码出单声道信号及左声道信号并合成这些解码信号,解码出右声道信号,但立体声编码装置100的编码对象的信号并不限于此,也可以在立体声编码装置100中将单声道信号及右声道信号作为编码对象,而立体声解码装置200通过合成解码出的右声道信号及单声道信号,生成左声道信号。
又,在本实施方式的滤波单元103中,作为LPC系数的编码信息,也可以使用将LPC系数进行变换而得的其它的等价的参数(例如LSP参数)。
又,虽然在本实施方式中,由比特分配控制单元107将预定数目的比特分配给各个处理,但也可以不进行比特分配控制处理,而进行固定比特分配,即事先定好各单元所使用的比特数。此时,立体声编码装置100中将不再需要比特分配控制单元107。另外,该固定的比特分配的比例对于立体声编码装置100及立体声解码装置200是共同的,从而立体声解码装置200中也将不再需要比特分配信息解码单元203。
又,虽然本实施方式的比特分配控制单元107根据立体声话音信号的情况自适应地进行比特分配,但也可以根据网络的情况自适应地进行比特分配。
又,如果使本实施方式的残差编码单元106使用由比特分配控制单元107所分配的预定数目的比特进行编码,则可得到损耗(lossy)***。作为使用预定数目的比特的编码,例如有矢量量化。一般,残差编码单元根据编码方法的不同,可得到不同特性的所谓的损耗***或无损耗(lossless)***。较之于损耗***,无损耗***虽然具有在解码装置能够更加准确地对信号进行解码的特性,但因压缩率较低,所以比特率变高。例如,在残差编码单元106中,如果使用霍夫曼(Huffman)编码、赖斯(Rice)编码等无噪声(noiseless)编码方法对残差信号进行编码,则可得到无损耗***。
又,虽然在本实施方式中,比率计算单元142计算出单声道驱动声源信号eM与左声道驱动声源信号eL之间的能量比作为振幅信息α,但也可以计算出能量差来代替能量比作为振幅信息α。
又,虽然在本实施方式中,比率计算单元154计算出各子带上的左声道驱动声源信号eL与时域估计信号eest1之间的频谱能量比β作为振幅信息β,但也可以计算出能量差来代替能量比作为振幅信息β。
又,虽然在本实施方式中,单声道驱动声源信号eM与左声道驱动声源信号eL之间在时域上的空间性信息由振幅信息α及延迟信息τ构成,但该空间性信息也可以进一步包含其它的信息,或者由完全不同于振幅信息α及延迟信息τ等的其它信息构成。
又,虽然在本实施方式中,左声道驱动声源信号eL与时域估计信号eest1之间在频域上的空间性信息由振幅信息B及相位差信息θ构成,但该空间性信息也可以进一步包含其它的信息,也可以由完全不同于振幅信息β及相位差信息θ等的其它信息构成。
又,虽然在本实施方式中,时域估计单元104按各个帧检测并计算单声道驱动声源信号eM与左声道驱动声源信号eL之间的空间性信息,但也可以在一个帧内多次进行该处理。
又,虽然在本实施方式中,相位选择单元156在各子带中选择一个频谱相位,但也可以选择多个频谱相位。此时,相位差计算单元157计算左声道驱动声源信号eL与时域估计信号eest1之间在该多个相位上的相位差θ的平均,并输出到估计信号生成单元158。
又,虽然在本实施方式中,残差编码单元106对残差信号进行时域编码,但也可以进行频域编码。
又,虽然在本实施方式中,以编码对象是话音信号的情形为例进行了说明,但本发明立体声编码装置、立体声解码装置、及立体声编码方法除了话音信号以外,也可以适用于音频信号。
以上,对本发明的实施方式进行了说明。
本发明的立体声编码装置及立体声解码装置可以搭载到移动通信***中的通信终端装置及基站装置上,由此可以提供具有与上述同样的作用效果的通信终端装置、基站装置、及移动通信***。
又,此处,虽然以用硬件实现本发明的情形为例进行了说明,但本发明也可以用软件实现。例如,可以用编程语言记述本发明的立体声编码方法及立体声解码方法的算法,将此程序存储于存储器中,通过用信息处理单元执行,可以实现与本发明的立体声编码装置及立体声解码装置相同的功能。
又,用来说明上述各实施方式的各功能模块,典型地由集成电路LSI(大规模集成电路)来实现。这些功能块既可以分别实行单芯片化,也可以包括其中一部分或者全部而实行单芯片化。
这里,虽然称作LSI,但根据集成度的不同也可以称为IC(集成电路)、***LSI(***大规模集成电路)、超大LSI(超大规模集成电路)、极大LSI(极大规模集成电路)等。
另外,集成电路化的技术不限于LSI,也可以使用专用电路或通用处理器来实现。也可以利用制造LSI后能够编程的FPGA(Field Programmable GateArray,现场可编程门阵列),或可以利用能够将LSI内部的电路块连接或设定重新配置的可重构处理器(Reconfigurable Processor)。
再有,如果随着半导体技术的进步或者其他技术的派生,出现了替换LSI集成电路的技术,当然,也可以利用该技术来实现功能块的集成化。也有应用生物工程学技术等的可能性。
本说明书基于2005年8月31日申请的日本专利申请特愿第2005-252778号。该内容全部包括此处。
工业实用性
本发明的立体声编码装置、立体声解码装置、及立体声编码方法适用于移动电话、IP电话、电视会议等。

Claims (5)

1.一种立体声编码装置,包括:
时域估计单元,对立体声信号的第一声道信号进行时域上的估计,并对该估计结果进行编码;
频域估计单元,将所述第一声道信号的频带分割成多个,对各频带的所述第一声道信号进行频域上的估计,并对该估计结果进行编码;
第一层编码单元,对基于所述立体声信号生成的单声道信号进行编码;
第二层编码单元,包括所述时域估计单元及所述频域估计单元,进行可扩展性编码;以及
比特分配单元,当所述第一声道信号与所述单声道信号的相似度为预定值以上时,将比所述时域估计单元多的比特分配给所述频域估计单元;当所述第一声道信号与所述单声道信号的相似度不足所述预定值时,对所述时域估计单元及所述频域估计单元均匀地分配比特。
2.如权利要求1所述的立体声编码装置,其中,
所述时域估计单元利用所述单声道信号进行所述时域上的估计,生成与所述第一声道信号相似的时域估计信号;
所述频域估计单元与所述第一声道信号同样地将所述时域估计信号的频带也分割成多个,利用各频带的所述时域估计信号进行所述频域上的估计,生成与所述第一声道信号相似的频域估计信号。
3.如权利要求2所述的立体声编码装置,还包括:
残差编码单元,对所述第一声道信号及所述频域估计信号之间的残差进行编码。
4.如权利要求2所述的立体声编码装置,其中,
所述时域估计单元在所述时域上的估计中,求所述第一声道信号与所述单声道信号之间的空间性信息;
所述频域估计单元在所述频域上的估计中,求所述第一声道信号与所述时域估计信号之间的空间性信息。
5.一种立体声编码方法,包括:
时域估计步骤,对立体声信号的第一声道信号进行时域上的估计;
第一编码步骤,对所述时域上的估计结果进行编码;
分割步骤,将所述第一声道信号的频带分割成多个;
频域估计步骤,对分割后的各频带的所述第一声道信号进行频域上的估计;
第二编码步骤,将所述频域上的估计结果进行编码;
第一层编码步骤,对基于所述立体声信号的单声道信号进行编码;以及
比特分配步骤,当所述第一声道信号与所述单声道信号的相似度为预定值以上时,将比在所述时域估计步骤中的处理多的比特分配给在所述频域估计步骤中的处理;当所述第一声道信号与所述单声道信号的相似度不足所述预定值时,对在所述时域估计步骤中的处理及在所述频域估计步骤中的处理均匀地分配比特。
CN2006800319487A 2005-08-31 2006-08-30 立体声编码装置及立体声编码方法 Expired - Fee Related CN101253557B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2005252778 2005-08-31
JP252778/2005 2005-08-31
PCT/JP2006/317104 WO2007026763A1 (ja) 2005-08-31 2006-08-30 ステレオ符号化装置、ステレオ復号装置、及びステレオ符号化方法

Publications (2)

Publication Number Publication Date
CN101253557A CN101253557A (zh) 2008-08-27
CN101253557B true CN101253557B (zh) 2012-06-20

Family

ID=37808848

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2006800319487A Expired - Fee Related CN101253557B (zh) 2005-08-31 2006-08-30 立体声编码装置及立体声编码方法

Country Status (6)

Country Link
US (1) US8457319B2 (zh)
EP (1) EP1912206B1 (zh)
JP (1) JP5171256B2 (zh)
KR (1) KR101340233B1 (zh)
CN (1) CN101253557B (zh)
WO (1) WO2007026763A1 (zh)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7461106B2 (en) 2006-09-12 2008-12-02 Motorola, Inc. Apparatus and method for low complexity combinatorial coding of signals
US8576096B2 (en) 2007-10-11 2013-11-05 Motorola Mobility Llc Apparatus and method for low complexity combinatorial coding of signals
US8209190B2 (en) 2007-10-25 2012-06-26 Motorola Mobility, Inc. Method and apparatus for generating an enhancement layer within an audio coding system
CN101842832B (zh) * 2007-10-31 2012-11-07 松下电器产业株式会社 编码装置和解码装置
WO2009084226A1 (ja) * 2007-12-28 2009-07-09 Panasonic Corporation ステレオ音声復号装置、ステレオ音声符号化装置、および消失フレーム補償方法
US7889103B2 (en) 2008-03-13 2011-02-15 Motorola Mobility, Inc. Method and apparatus for low complexity combinatorial coding of signals
EP2254110B1 (en) * 2008-03-19 2014-04-30 Panasonic Corporation Stereo signal encoding device, stereo signal decoding device and methods for them
US8639519B2 (en) 2008-04-09 2014-01-28 Motorola Mobility Llc Method and apparatus for selective signal coding based on core encoder performance
KR101428487B1 (ko) * 2008-07-11 2014-08-08 삼성전자주식회사 멀티 채널 부호화 및 복호화 방법 및 장치
US8175888B2 (en) * 2008-12-29 2012-05-08 Motorola Mobility, Inc. Enhanced layered gain factor balancing within a multiple-channel audio coding system
US8219408B2 (en) 2008-12-29 2012-07-10 Motorola Mobility, Inc. Audio signal decoder and method for producing a scaled reconstructed audio signal
US8200496B2 (en) 2008-12-29 2012-06-12 Motorola Mobility, Inc. Audio signal decoder and method for producing a scaled reconstructed audio signal
US8140342B2 (en) 2008-12-29 2012-03-20 Motorola Mobility, Inc. Selective scaling mask computation based on peak detection
WO2010091555A1 (zh) * 2009-02-13 2010-08-19 华为技术有限公司 一种立体声编码方法和装置
US8848925B2 (en) 2009-09-11 2014-09-30 Nokia Corporation Method, apparatus and computer program product for audio coding
KR101710113B1 (ko) * 2009-10-23 2017-02-27 삼성전자주식회사 위상 정보와 잔여 신호를 이용한 부호화/복호화 장치 및 방법
CN102081927B (zh) * 2009-11-27 2012-07-18 中兴通讯股份有限公司 一种可分层音频编码、解码方法及***
US8423355B2 (en) 2010-03-05 2013-04-16 Motorola Mobility Llc Encoder for audio signal including generic audio and speech frames
CA2793140C (en) 2010-04-09 2016-05-31 Dolby International Ab Mdct-based complex prediction stereo coding
EP3779977B1 (en) * 2010-04-13 2023-06-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder for processing stereo audio using a variable prediction direction
KR101276049B1 (ko) * 2012-01-25 2013-06-20 세종대학교산학협력단 조건부 스플릿 벡터 양자화를 이용한 음성 압축 장치 및 그 방법
ES2555579T3 (es) 2012-04-05 2016-01-05 Huawei Technologies Co., Ltd Codificador de audio multicanal y método para codificar una señal de audio multicanal
CN104170007B (zh) * 2012-06-19 2017-09-26 深圳广晟信源技术有限公司 对单声道或立体声进行编码的方法
KR102204136B1 (ko) 2012-08-22 2021-01-18 한국전자통신연구원 오디오 부호화 장치 및 방법, 오디오 복호화 장치 및 방법
US9129600B2 (en) 2012-09-26 2015-09-08 Google Technology Holdings LLC Method and apparatus for encoding an audio signal
WO2014161996A2 (en) * 2013-04-05 2014-10-09 Dolby International Ab Audio processing system
EP3067886A1 (en) 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
EP3353779B1 (en) * 2015-09-25 2020-06-24 VoiceAge Corporation Method and system for encoding a stereo sound signal using coding parameters of a primary channel to encode a secondary channel
USD793458S1 (en) 2015-12-24 2017-08-01 Samsung Electronics Co., Ltd. Ice machine for refrigerator
USD794093S1 (en) 2015-12-24 2017-08-08 Samsung Electronics Co., Ltd. Ice machine handle for refrigerator
CN110660400B (zh) * 2018-06-29 2022-07-12 华为技术有限公司 立体声信号的编码、解码方法、编码装置和解码装置
WO2024111300A1 (ja) * 2022-11-22 2024-05-30 富士フイルム株式会社 音データ作成方法及び音データ作成装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1218334A (zh) * 1997-11-20 1999-06-02 三星电子株式会社 可伸缩的立体声音频编码/解码方法和装置
US6122338A (en) * 1996-09-26 2000-09-19 Yamaha Corporation Audio encoding transmission system
CN1639984A (zh) * 2002-03-08 2005-07-13 日本电信电话株式会社 数字信号编码方法、解码方法、编码设备、解码设备、数字信号编码程序和解码程序
EP1479071B1 (en) * 2002-02-18 2006-01-11 Koninklijke Philips Electronics N.V. Parametric audio coding

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1021044A1 (en) * 1999-01-12 2000-07-19 Deutsche Thomson-Brandt Gmbh Method and apparatus for encoding or decoding audio or video frame data
US7292901B2 (en) * 2002-06-24 2007-11-06 Agere Systems Inc. Hybrid multi-channel/cue coding/decoding of audio signals
JP3960932B2 (ja) * 2002-03-08 2007-08-15 日本電信電話株式会社 ディジタル信号符号化方法、復号化方法、符号化装置、復号化装置及びディジタル信号符号化プログラム、復号化プログラム
CN1307612C (zh) 2002-04-22 2007-03-28 皇家飞利浦电子股份有限公司 声频信号的编码解码方法、编码器、解码器及相关设备
KR100528325B1 (ko) 2002-12-18 2005-11-15 삼성전자주식회사 비트율 조절이 가능한 스테레오 오디오 부호화 및복호화방법 및 그 장치
ATE339759T1 (de) * 2003-02-11 2006-10-15 Koninkl Philips Electronics Nv Audiocodierung
WO2004086817A2 (en) * 2003-03-24 2004-10-07 Koninklijke Philips Electronics N.V. Coding of main and side signal representing a multichannel signal
JP2004302259A (ja) * 2003-03-31 2004-10-28 Matsushita Electric Ind Co Ltd 音響信号の階層符号化方法および階層復号化方法
EP2264700A1 (en) * 2003-09-16 2010-12-22 Panasonic Corporation Coding apparatus and decoding apparatus
JP4329574B2 (ja) 2004-03-05 2009-09-09 沖電気工業株式会社 時間分割波長ホップ光符号による通信方法及び通信装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6122338A (en) * 1996-09-26 2000-09-19 Yamaha Corporation Audio encoding transmission system
CN1218334A (zh) * 1997-11-20 1999-06-02 三星电子株式会社 可伸缩的立体声音频编码/解码方法和装置
EP1479071B1 (en) * 2002-02-18 2006-01-11 Koninklijke Philips Electronics N.V. Parametric audio coding
CN1639984A (zh) * 2002-03-08 2005-07-13 日本电信电话株式会社 数字信号编码方法、解码方法、编码设备、解码设备、数字信号编码程序和解码程序

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JP特开2004-302259A 2004.10.28
Koji Yoshihda,et al..Scalable Stereo Onsei Fugoka no Channel kan Yosoku ni kansuru Yobi Kento.《Proceedings of the 2005 IEICE General Conference》.2005,118. *
Michiyo Goto,et al..Onsei Tushinyo Scalable Stereo Onsei Fugoka Hoho no Kento.《The 4th Forum on Information Technology Koen Ronbunshu》.2005,299-300. *

Also Published As

Publication number Publication date
JP5171256B2 (ja) 2013-03-27
CN101253557A (zh) 2008-08-27
US20090262945A1 (en) 2009-10-22
WO2007026763A1 (ja) 2007-03-08
JPWO2007026763A1 (ja) 2009-03-26
EP1912206A1 (en) 2008-04-16
KR20080039462A (ko) 2008-05-07
US8457319B2 (en) 2013-06-04
EP1912206A4 (en) 2011-03-23
EP1912206B1 (en) 2013-01-09
KR101340233B1 (ko) 2013-12-10

Similar Documents

Publication Publication Date Title
CN101253557B (zh) 立体声编码装置及立体声编码方法
CN101842832B (zh) 编码装置和解码装置
CN101128866B (zh) 多声道音频编码中的优化保真度和减少的信令
US7983904B2 (en) Scalable decoding apparatus and scalable encoding apparatus
RU2439718C1 (ru) Способ и устройство для обработки звукового сигнала
CN100559465C (zh) 保真度优化的可变帧长编码
US8311810B2 (en) Reduced delay spatial coding and decoding apparatus and teleconferencing system
CN101067931B (zh) 一种高效可配置的频域参数立体声及多声道编解码方法与***
JP4606418B2 (ja) スケーラブル符号化装置、スケーラブル復号装置及びスケーラブル符号化方法
EP2856776B1 (en) Stereo audio signal encoder
CN101896968A (zh) 音频编码装置及其方法
CN103733258A (zh) 编码装置和方法、解码装置和方法以及程序
KR20090095009A (ko) 복수의 가변장 부호 테이블을 이용한 멀티 채널 오디오를부호화/복호화하는 방법 및 장치
US8983830B2 (en) Stereo signal encoding device including setting of threshold frequencies and stereo signal encoding method including setting of threshold frequencies
US8036390B2 (en) Scalable encoding device and scalable encoding method
CN101572088A (zh) 立体声编解码方法、编解码器及编解码***
US20160035357A1 (en) Audio signal encoder comprising a multi-channel parameter selector
TW201606751A (zh) 將高階保真立體音響信號表示之次頻帶內主導方向信號之方向編碼/解碼之方法及裝置
KR102121642B1 (ko) 부호화 장치, 복호 장치, 부호화 방법, 복호 방법, 및 프로그램
JP2004094223A (ja) 多数のサブバンド及び重なり合うウィンドウ関数を用いて処理される音声信号を符号化及び復号化する方法及び装置
US20100121633A1 (en) Stereo audio encoding device and stereo audio encoding method
US20110019829A1 (en) Stereo signal converter, stereo signal reverse converter, and methods for both
US20090043572A1 (en) Pulse allocating method in voice coding
CN105336334B (zh) 多声道声音信号编码方法、解码方法及装置
Bang et al. Audio Transcoding Algorithm for Mobile Multimedia Application

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MATSUSHITA ELECTRIC (AMERICA) INTELLECTUAL PROPERT

Free format text: FORMER OWNER: MATSUSHITA ELECTRIC INDUSTRIAL CO, LTD.

Effective date: 20140716

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20140716

Address after: California, USA

Patentee after: PANASONIC INTELLECTUAL PROPERTY CORPORATION OF AMERICA

Address before: Osaka Japan

Patentee before: Matsushita Electric Industrial Co.,Ltd.

TR01 Transfer of patent right

Effective date of registration: 20170522

Address after: Delaware

Patentee after: III Holdings 12 LLC

Address before: California, USA

Patentee before: PANASONIC INTELLECTUAL PROPERTY CORPORATION OF AMERICA

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120620

Termination date: 20180830

CF01 Termination of patent right due to non-payment of annual fee