CN1121683C - 语音编码 - Google Patents

语音编码 Download PDF

Info

Publication number
CN1121683C
CN1121683C CN99803763A CN99803763A CN1121683C CN 1121683 C CN1121683 C CN 1121683C CN 99803763 A CN99803763 A CN 99803763A CN 99803763 A CN99803763 A CN 99803763A CN 1121683 C CN1121683 C CN 1121683C
Authority
CN
China
Prior art keywords
vector
subframe
energy
signal
quantization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
CN99803763A
Other languages
English (en)
Other versions
CN1292914A (zh
Inventor
P·奥亚拉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Technologies Oy
Original Assignee
Nokia Mobile Phones Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Mobile Phones Ltd filed Critical Nokia Mobile Phones Ltd
Publication of CN1292914A publication Critical patent/CN1292914A/zh
Application granted granted Critical
Publication of CN1121683C publication Critical patent/CN1121683C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

可变比特率语音编码方法为每个子帧确定一个量化矢量d(i),该矢量包括数量可变的脉冲。用于激励LTP和LPC合成滤波器的激励矢量c(i)是通过对量化矢量d(i)进行滤波得到的,增益值gc被确定以用于缩放脉冲幅度激励矢量c(i),使得缩放后的激励矢量表示加权后的残留信号,该信号在通过LPC和LTP分析除去子帧语音信号中的冗余信息之后仍然保留在该子帧语音信号中。预测的增益值c是根据以前处理的子帧确定的,并且当依据量化矢量d(i)中的脉冲数m对矢量残留信号c(i)的幅度进行缩放时,c为包含于激励矢量c(i)中的能量Ec的函数。量化后的增益校正因子γgc可以利用增益值gc和预测增益值c确定。

Description

语音编码
技术领域
本发明涉及语音编码,更具体地,涉及在包含数字化语音样本的离散时间帧中对语音信号编码,但是本发明特别适用于,尽管是不必要的,变长比特语音编码。
背景技术
在欧洲,被接受的数字蜂窝电话的标准以字首GSM而闻名(用于移动通讯的全球***),最近版本的GSM标准(GSM2;06.60)导致已知为增强全速率(EFR)的新语音编码算法(或编解码器)的细则。如传统的语音编解码器那样,EFR被设计为降低个体声音或数据通讯所需的比特率。通过最小化该比特率,可以复用到给定信号带宽的独立呼叫数可以增加。
类似于EFR中使用的语音编码器结构的通常的图解说明在图1中给出。采样后的语音信号被分成20毫秒的帧x,每个包含160个样本。每个样本由16个比特表示。通过首先将样本帧应用于线性预测编码器(LPC1),这些样本帧被编码,其中的线性预测编码器为每个帧产生一组LPC系数a。这些系数代表帧中的短时冗余。
来自LPC1的输出包括LPC系数a和残余信号γ1,该信号是通过LPC分析滤波器从输入语音帧中除去短时冗余而产生的。然后,残留信号被提供给长时预测器(LPT)2,它产生一组表示残留信号γ1中长时冗余的LTP参数b,并且还产生长时冗余被除去的残留信号s。实际上,长时预测分两个阶段,(1)首先为整个帧进行开环估计得到一组LTP参数;(2)其次对估计所得的参数进行闭环精确化以便为该帧的每个40样本子帧产生一组LTP参数。LTP2提供的残留信号s依次通过滤波器1/A(z)和W(z)而被滤波(以图1中的方框2a给出)以给出加权后的残留信号
Figure C9980376300071
。这些滤波器中的第一个是LPC合成滤波器,而第二个是强调谱中的共振峰结构的感知加权滤波器。所有滤波器的参数是由LPC分析阶段给出的(块1)。
代数激励码书3被用于产生激励矢量c。对于每个40样本子帧(每帧有4个子帧),通过缩放单元4,一些不同的“候选”激励矢量依次被施加给LTP合成滤波器5。滤波器5接受当前子帧的LTP参数,并且在激励矢量中引入LTP参数预测的长时冗余。所产生的信号然后被提供给LPC合成滤波器6,该滤波器接收连续帧的LPC系数。对于给定的子帧,利用帧到帧的内插会产生一组LPC系数,所产生的系数依次应用于产生合成信号ss。
图1的编码器不同于以前的码激励线性预测(CELP)编码器,后者用到了包含预定的激励矢量组的码书。前者类型的编码器却依赖于激励矢量的代数产生和确定(例如,见WO9624925),并且常常被称为代数CELP或ACELP。更具体的,量化矢量d(i)被定义为包含10个非零脉冲。所有的脉冲幅度可以为+1或-1。子帧中40个样本位置(I=0到39)被划分成5个“轨道”,每个轨道包括两个脉冲(即8个可能位置中的2个)。如在下面表中给出的。
表1:代数码书中各个脉冲的可能位置
   轨道      脉冲               位置
1 i0,i5 0,5,10,15,20,25,30,35
2 i1,i6 1,6,11,1 6,21,26,31,36
    3     i2,i7  2,7,12,17,22,27,32,37
    4     i3,i8  3,8,13,18,23,28,33,38
5 i4,i9 4,9,14,19,24,29,34,39
给定轨道中每对脉冲的位置以6比特编码(即,总共30比特,每个脉冲3比特),而轨道中第一脉冲的符号以1比特编码(总共5比特)。第二脉冲的符号并不会被特别编码,而是根据其相对于第一脉冲的位置来获得,如果第二脉冲的采样位置先于第一脉冲,那麽第二脉冲被定义为与第一脉冲符号相反,否则,两个脉冲被定义具有相同的符号。所有的3比特脉冲位置被进行格雷编码,以便提高针对信道误差的强度,使得量化矢量可以用35比特代数码u来编码。
为了产生激励矢量c(i),由代数码u定义的量化矢量d(i)被预滤波器FE(z)滤波,其中的预滤波器增强了特殊的谱分量以便提高合成语音的质量。预滤波器(常常称为色彩滤波器)用为该子帧产生的某些LTP参数来定义。
如传统的CELP编码器那样,差值单元7在逐个样本(逐个子帧)的基础上确定合成信号和输入信号之间的差值。加权滤波器8被用于对误差信号加权以考虑人类音频感知。对于给定的子帧,搜索单元9从代数码书3产生的候选矢量中选出适当的激励矢量{c(i),其中I=0到39},其方式是识别出最小化加权均方误差的矢量。该过程通常称为“矢量量化”。
如已经注意到的,在缩放单元4激励矢量被乘以增益gc。导致缩放后的激励矢量的能量等于加权残留信号
Figure C9980376300091
能量的增益值被选出,其中的残留信号由LTP2给出。该增益由下式给出: g c = s ~ T Hc ( i ) c ( i ) T H T Hc ( i ) - - - ( 1 )
其中H是线性预测模型(LTP和LPC)脉冲响应矩阵。
有必要将增益信息连同定义激励矢量的代数码一起引入编码后的语音子帧,以使得子帧能够被正确重构。然而,与其直接引入增益gc,不如在处理单元10中根据以前的语音子帧产生预测增益
Figure C9980376300093
并且在单元11中确定校正因子,即: γ gc = g c / g ^ c - - - ( 2 ) 然后,在包括5比特码矢量的校正因子码书情况下,相关因子被进行矢量量化。索引矢量vγ表明量化后的增益相关因子
Figure C9980376300095
,该因子被引入编码后的帧。假定增益gc在帧与帧之间略有不同,那麽 γ gc ≅ 1 ,并可以用相对较短的码书来正确量化。
实际上,预测增益
Figure C9980376300097
是利用具有固定系数的移动平均(MA)预测得到的,如下所示,对激励能量进行了4阶MA预测。使得子帧n中除去平均激励能量(以dB)后得到E(n),由下式给出: E ( n ) = 10 log ( 1 N g c 2 Σ i = 0 N - 1 c 2 ( i ) ) - E ‾ - - - ( 3 ) 其中N=40是子帧的大小,c(i)是激励矢量(包括预滤波)。E=36dB是典型激励能量的预定均值。子帧n的能量可以由下式预测: E ^ ( n ) = Σ i = 1 4 b i R ^ ( n - i ) - - - ( 4 )
其中[b1b2b3b4]=[0.68 0.58 0.34 0.19]是MA预测系数,
Figure C9980376300102
是子帧j的预测能量
Figure C9980376300103
中的误差。根据下面等式,当前子帧的误差被计算出来,用在处理后续子帧中: R ^ ( n ) = E ( n ) - E ^ ( n ) - - - ( 5 )
通过以 代替等式(3)中的E(n),预测能量可以用于计算预测增益
Figure C9980376300106
,如下式: g ^ c = 10 0.05 ( E ^ ( n ) + E ‾ - E c ) - - - ( 6 )
其中 E c = 10 log ( 1 N Σ i = 0 N - 1 c 2 ( i ) ) - - - ( 7 )
是激励矢量c(i)的能量。
增益校正因子码书搜索被执行以识别量化后的增益校正因子
Figure C9980376300109
它使得误差最小化: c Q = ( g c - γ ^ gc g ^ c ) 2 . - - - ( 8 )
编码帧包括LPC系数,LTP参数,定义激励矢量的代数码,以及量化后的增益校正因子码书索引。在发送之前,在编码和复用单元12中会对某些编码参数进行进一步编码。实际上,LPC系数被转换成相应数量的线性谱对(LSP)系数,如在“Efficient Vector Quantisation ofLPC Parameters at 24Bits/Frame”Kuldip K.P和Bishnu S.A,IEEE TransSpeech and Audio Processing,卷1,第1期,January 1993中描述的那样,整个的编码帧也被编码以用于误差检测和校正。为GSM2制定的编解码器以完全相同的比特数,即244对每个语音帧进行编码。在引入卷积编码和附加了循环冗余检验比特后增加到456比特。
图2给出ACELP解码器的通常结构,适于对被图1的编码器编码的信号解码。解复用器13将所接收的编码信号分离为各个分量。相同于编码器处的码书3的代数码书14确定编码矢量并对该矢量进行预滤波(利用LTP参数)以产生激励矢量,其中的编码矢量由所接收的编码信号中的35比特代数码确定。增益校正因子是利用所接收的量化增益校正因子并根据增益校正因子码书确定的,并且该因子在块15中用于校正在块16确定的、根据以前解码的子帧得到的预测增益。在块17中,激励矢量被乘以校正后的增益,然后该乘积被传送给LTP合成滤波器18和LPC合成滤波器19。LTP和LPC滤波器分别接收由编码信号传送的LTP参数和LPC系数,并在激励矢量中再次引入长时和短时冗余。
语音在其本质上变化性很强,包括强活动期和弱活动期,并且常常包括相对的无声段。因此使用固定比特率编码会浪费带宽资源。一些语音编解码器被推荐,这些编解码器的帧与帧之间,子帧与子帧之间的编码比特率是变化的。例如,US5,657,420推荐了一种语音编解码器用于US CDMA***中,在该***中,数据帧的编码比特率是根据数据帧中的语音活动等级而从一些可能的比特率中选出的。
至于ACELP编解码器,建议将语音信号子帧划分成两类或多类,并用不同的代数码书对不同的类别进行编码。更具体的,加权信号s随时间变化很慢的子帧可以利用具有相对较少脉冲(如2)的码矢量d(i)来编码,而加权残留信号变化相对较快的子帧可以用具有相对较多脉冲(例如10)的码矢量d(i)来编码。
参考上面的等式(7),码矢量d(i)中激励脉冲数量的变化,例如从10变为2将导致激励矢量c(i)中能量的相应降低。因为等式(4)的能量预测是基于以前子帧的,在激励脉冲数量大量减少的情况下,该预测值可能会很差。这样会导致预测增益
Figure C9980376300121
中相对较大的误差,造成增益校正因子在整个语音信号上变化很大。为了能够正确地对这种变化范围很大的增益校正因子量化,增益校正因子量化表必须相对很大,需要相应较长的码书索引Vγ,例如5比特。这样会在编码子帧数据中加入额外的比特。
要理解的是预测增益中的较大误差也会产生于CELP编码器中,在该编码器中码矢量d(i)的能量在帧与帧之间变化很大,需要类似的较大的码书用于量化增益校正因子。
发明内容
本发明的目的是克服或至少减轻上面提到的现存可变速率编解码器的不利之处。
根据本发明的第一方面,这里给出了一种对语音信号编码的方法,其中的信号包括含有数字化语音样本的子帧序列,对于每个子帧,该方法包括:
(a)选出一个至少包括一个脉冲的量化矢量d(i),其中矢量d(i)中的脉冲数m和脉冲位置可能在子帧之间变化。
(b)确定增益值gc用于缩放量化矢量d(i)的幅度或用于缩放从量化矢量d(i)得到的另一个矢量c(i)的幅度,其中缩放后的矢量与加权后的残留信号s同步。
(c)确定缩放因子k,该因子为预定能量值与量化矢量d(i)中能量之比的函数;
(d)在一个或多个以前处理过的子帧基础上确定预测的增益值
Figure C9980376300122
该因子为量化矢量d(i)的能量Ec的函数或者当另一个矢量c(i)的幅度由所述的缩放因子k缩放时,为该矢量c(i)的能量Ec的函数。
(e)利用所述的增益值gc和所述的预测增益值
Figure C9980376300123
确定量化的增益校正因子
Figure C9980376300124
通过如上述的那样缩放激励矢量的能量,当量化矢量d(i)中的脉冲数(或能量)在子帧之间变化时,本发明会提高预测增益值
Figure C9980376300125
的准确性。这样会减小增益校正因子尸γgc的范围,并且在与前文相比更小的量化码书的情况下,能够进行正确量化。使用较小的码书降低了用于索引该码书的矢量的比特长度。此外,可以用与以前所用码书大小相同的码书来提高量化准确性。
在本发明的一个实施方案中,矢量d(i)中的脉冲数m取决于子帧语音信号的本质。在另一个可选实施方案中,脉冲数m是由***需求或特性确定的。例如在编码信号通过传输信道传输的情况下,当信道干涉较高时,脉冲数可以很小,这样可以允许更多的保护比特加入信号中。当信道干涉较低时,信号需要较少的保护比特,矢量中的脉冲数可以增加。
最好的是,本发明的方法是一种可变比特率的编码方法,该方法包括通过从语音信号子帧中基本除去长时和短时冗余而产生所述加权残留信号 ,根据包括在加权残留信号 中的能量而将语音信号子帧分类,并利用该分类来确定量化矢量d(i)中的脉冲数m。
最好的是,该方法包括为每个帧产生一组线性预测编码(LPC)系数a,并为每个子帧产生一组长时预测(LTP)参数b,其中的数据帧包括多个语音子帧,并在LPC系数,LTP参数,量化矢量d(i)和量化增益校正因子 的基础上产生编码的语音信号。
最好的是,量化矢量d(i)由代数码μ定义,该码被引入编码语
音信号中。
最好的是增益值gc被用于缩放所述矢量c(i),该矢量是通过对量化矢量d(i)滤波得到的。
最好的是,预测增益值根据下面等式确定。 g ^ c = 10 0.05 ( E ^ ( n ) + E ‾ - E c )
其中 E是常数,
Figure C9980376300135
是在以前子帧基础上确定的当前子帧中能量的预测值。该预测能量可以用下面等式确定: E ^ ( n ) = Σ i = 1 p b i R ^ ( n - i ) 其中bi是移动平均预测系数,p是预测阶数, 是以前子帧j的预测能量 的误差,误差由下式给出: R ^ ( n ) = E ( n ) - E ^ ( n ) 项Ec是由下面等式确定的: E c = 10 log ( 1 N Σ i = 0 N - 1 ( kc ( i ) ) 2 ) 其中N是子帧中的样本数,最好的是: k = M m
其中M是量化矢量d(i)中最大允许的脉冲数。
最好的是,量化矢量d(i)包括两个或多个脉冲,其中所有的脉冲具有相同的幅度。
最好的是,步骤(d)包括搜索一个增益校正因子码书来确定最小化误差的量化增益校正因子 e Q = ( g c - γ ^ gc g ^ c ) 2
并对识别出的量化增益校正因子进行码书索引编码。
根据本发明的第二方面,这里给出一种方法,对数字化采样语音信号的编码子帧序列进行解码,对于每个子帧,该方法包括:
(a)从编码信号恢复至少包括一个脉冲的量化矢量d(i),其中矢量d(i)中的脉冲数m和脉冲位置可能在子帧之间变化。
(b)从编码信号恢复量化增益校正因子
Figure C9980376300146
(c)确定缩放因子k,该因子为预定能量值与量化矢量d(i)中能量之比的函数;
(d)在一个或多个以前处理过的子帧基础上确定预测的增益值,该增益值为量化矢量d(i)的能量Ec的函数,或者当另一个得自d(i)的矢量c(i)的幅度由所述缩放因子k缩放时,为该矢量c(i)的能量Ec的函数。
(e)利用量化增益校正因子
Figure C9980376300152
来校正预测增益值 以给出校正后的增益值gc
(f)利用增益值gc对量化矢量d(i)或所述另一个矢量c(i)进行缩放以产生与残留信号 同步的激励矢量,其中的残留信号
Figure C9980376300155
在从原始子帧语音信号中基本上除去冗余信息之后仍然保留在该子帧中。
最好的是,每个所接收信号的编码子帧包括一个代数码u,该码定义了量化矢量d(i),每个编码子帧还包括一个索引,该索引定义了获得量化增益校正因子 的量化增益校正因子码书的地址。
根据本发明的第三方面,这里给出一种装置用于编码语音信号,该信号包括含有数字语音样本的子帧序列,该装置具有依次编码所述每个子帧的装置,这些该装置包括:
用于选出包括至少一个脉冲的量化矢量d(i)的矢量选择装置,其中矢量d(i)中的脉冲数m和脉冲位置可能在子帧之间变化。
用于确定增益值gc的第一信号处理装置,该增益值用于缩放量化矢量d(i)的幅度或用于缩放得自量化矢量d(i)的另一个矢量c(i)的幅度,其中缩放后的矢量与加权后的残留信号
Figure C9980376300157
同步。
用于确定缩放因子k的第二信号处理装置,其中k为预定能量值与量化矢量d(i)中能量之比的函数;
在一个或多个以前处理过的子帧基础上确定预测增益值
Figure C9980376300158
的第三信号处理装置,该增益值为量化矢量d(i)的能量Ec的函数或当另一个矢量c(i)的幅度由所述缩放因子k缩放时,为该矢量c(i)的能量Ec的函数。
用于利用所述的增益值gc和所述的预测增益值
Figure C9980376300159
确定量化增益校正因子
Figure C99803763001510
的第四信号处理装置。
根据本发明的第四方面,这里给出一种装置,用于对数字化采样语音信号的编码子帧序列解码,该装置具有对所述每个子帧依次解码的装置,这些装置包括:
用于从编码信号恢复包括至少一个脉冲的量化矢量d(i)的第一信号处理装置,其中矢量d(i)中的脉冲数m和脉冲位置可能在子帧之间变化。
用于从编码信号恢复量化增益校正因子
Figure C9980376300161
的第二信号处理装置。
用于确定缩放因子k的第三信号处理装置,该因子为预定能量值与量化矢量d(i)中能量之比的函数;
用于在一个或多个以前处理过的子帧基础上确定预测增益值
Figure C9980376300162
的第四信号处理装置,该因子为量化矢量d(i)的能量Ec的函数或者当另一个矢量c(i)的幅度由所述的缩放因子k缩放时,为该矢量c(i)的能量Ec的函数。
用于利用量化增益校正因子 来校正预测增益值 以给出校正后的增益值gc的校正装置。
用于利用增益值gc对量化矢量d(i)或所述另一个矢量c(i)进行缩放以产生与残留信号
Figure C9980376300165
同步的激励矢量的缩放装置,其中的残留信号在从原始子帧语音信号中除去冗余信息之后仍然保留在该子帧中。
附图说明
为了更好地理解本发明以及本发明是如何实现的,下面通过例子参考附图描述,其中:
图1给出ACELP语音编码器的方框图。
图2给出ACELP语音解码器的方框图。
图3给出修正后的能够进行可变比特率编码的ACELP语音编码器的方框图。
图4给出修正后的能够进行可变比特率解码的ACELP语音解码器的方框图。
具体实施方式
上面已经参考图1和2简要描述了类似于为GSM2推荐的ACELP语音编解码器.图3说明了适于对数字化采样语音信号进行变比特率编码的经修正的ACELP语音编码器,其中的功能块已经参考图1描述了,这些功能块被标以类似的参考标号。
在图3的编码器中,图1的单个代数码书3被一对代数码书23,24代替。第一码书23被用于基于包含两个脉冲的码矢量d(i)来产生激励矢量c(i),而第二码书24被用于基于包含10个脉冲的码书矢量d(i)来产生激励矢量c(i)。对于给定的子帧,码书选择单元25根据LTP2给出的加权残留信号 中的能量选出码书23,24。如果加权残留信号中的能量超过了某个预定的(或自适应的)阈值--表明变化很大的加权残留信号,那麽10个脉冲码书24被选出。另一方面,如果加权残留信号中的能量低于定义的闽值,那麽2脉冲码书23被选出。在使用3个或多个码书的情况中,建议定义两个或多个阈值。为了更详细地描述适当的码书选择过程,应该参考文献“Tol l Qua“tyVariable-Rato Speech Codec”;0jala P;Proc.Of IEEE Internat ionalConference on Acoustics,Speech and Signal Processing,Munich,Germany,Apr.21-24 1997。
用于缩放单元4的增益gc的推导是如上面参考等式(1)描述的那样实现的。然而,在获得预测增益 的过程中,通过如下所示对激励矢量施加一个幅度缩放因子k,等式(7)被修正(在修正处理单元26中)为下式: E c = 10 log ( 1 N Σ i = 0 N - 1 ( kc ( i ) ) 2 ) - - - ( 9 )
在选择10个脉冲码书的情况下,k=1,在选择2个脉冲码书的情况下, k = 5 . 更通用的表达是,缩放因子由下式给出: k = 10 m - - - ( 10 )
其中m是对应码书矢量d(i)中的脉冲数。
对于给定子帧在计算除去均值后的激励能量E(n)的过程中,为了能够以等式(4)预测能量,还需要引入缩放因子k。这样等式(3)被修正为: E ( n ) = 10 log ( 1 N g c 2 Σ i = 0 N - 1 ( kc ( i ) ) 2 ) - E ‾ - - - ( 11 )
然后通过等式(6)、等式(9)给出的修正后的激励矢量能量和等式(11)给出的修正后的除去均值的激励能量来计算预测增益。
将缩放因子k引入等式(9)和(11)明显改善了增益预测使得一般来说 g ^ c ≅ g c , γ gc ≅ l . 当与以前技术相比增益校正因子的范围缩小时,可以使用较小的增益校正因子码书,使用较短长度的码书索引vγ,例如3或4比特。
图4说明了适于对图3的ACELP编码器编码的语音信号解码的解码器,其中在图3中语音子帧以变比特率被编码。图4中解码器的大部分功能与图3的解码器相同,并且这些功能块已经参考图2描述了,并且这些功能块在图2和图4中被标以相同的参考标号。主要的差别在于两个代数码书20,21的给出,它们对应于图3编码器中的2脉冲码书和10脉冲码书。所接收代数码u的本质确定了适当码书20,21的选择,此后解码过程以前面描述的同样方式进行。然而,如编码器那样,在块22中利用等式(6)、等式(9)给出的缩放后的激励矢量能量Ec和等式(11)给出的缩放后的除去均值的激励能量E(n)来计算预测增益
Figure C9980376300182
技术人员将会理解在不偏离本发明范围的情况下可以对上面描述的实施方案进行各种修改。特别是,图3和4中的编码器和解码器可以用软件或硬件实现,也可以软硬结合来实现。尽管上面的描述集中于GSM蜂窝电话***,本发明也能够很好地应用于其它的蜂窝无线电***以及非无线电通讯***如互联网。本发明还可以应用于数据存储中对语音数据的编码和解码过程。
本发明可以应用于CELP编码器,以及ACELP编码器。然而,因为CELP编码器有一个固定码书用于产生量化矢量d(i),并且给定量化矢量中脉冲的幅度可以变化,用于缩放激励矢量c(i)幅度的缩放因子k并不是(如等式(10)那样)脉冲数m的简单函数。而且,每个固定码书的每个量化矢量d(i)的能量必须被计算出来并且该能量相对于例如最大量化矢量能量的比例要确定。该比例的平方根给出缩放因子k。

Claims (16)

1.一种编码语音信号的方法,其中的信号包括含有数字化语音样本的子帧序列,对于每个子帧,该方法包括:
(a)选出一个包括至少一个脉冲的量化矢量d(i),其中矢量d(i)中的脉冲数m和脉冲位置可能在子帧之间变化;
(b)确定增益值gc用于缩放量化矢量d(i)的幅度或用于缩放从量化矢量d(i)得到的另一个矢量c(i)的幅度,其中缩放后的矢量与加权后的残留信号 同步;
(c)确定缩放因子k,该因子为预定能量值与量化矢量d(i)中能量之比的函数;
(d)在一个或多个以前处理过的子帧基础上确定预测的增益值
Figure C9980376300022
,该增益值为量化矢量d(i)的能量Ec的函数或当另一个矢量c(i)的幅度由所述的缩放因子k缩放时该矢量c(i)的能量Ec的函数:
(e)利用所述的增益值gc和所述的预测增益值 确定量化的增益校正因子
2.根据权利要求1的方法,该方法是变比特率编码方法,该方法包括:
通过从语音信号子帧中基本上除去长时和短时冗余而产生所述的加权残留信号
根据包含于加权残留信号
Figure C9980376300026
中的能量将语音信号子帧分类,并利用该分类确定量化矢量d(i)中的脉冲数m。
3.根据权利要求1或2的方法,包括:
为每个帧产生一组线性预测编码LPC系数a和为每个子帧产生一纽长时预测LTP参数b,其中一帧包括多个语音子帧;
在LPC系数,LTP参数,量化矢量d(i)以及量化增益校正因子
Figure C9980376300027
的基础上产生编码语音信号。
4.根据权利要求1的方法,包括通过代数码u在编码信号中定义量化矢量d(i)。
5.根据权利要求1的方法,其中预测增益值是根据下面等式确定的: g ^ c = 10 0.05 ( E ^ ( n ) + E ‾ - E c )
其中 E是常数,
Figure C9980376300032
是在所述以前处理过的子帧基础上确定的当前子帧中能量的预测值。
6.根据权利要求1的方法,其中所述预测增益值
Figure C9980376300033
是量化矢量d(i)的除去均值后的能量E(n)的函数,或者当每个以前处理的子帧的所述另一个矢量c(i)的幅度被所述缩放因子k缩放时,为该矢量c(i)的能量E。的函数。
7.根据权利要求1的方法,其中增益值g。被用于对所述另一个矢量c(i)进行缩放,该另一个矢量是通过对量化矢量d(i)滤波得到的。
8.根据权利要求5的方法,其中:
所述预测增益值
Figure C9980376300034
是量化矢量d(i)的除去均值后的激励能量E(n)的函数,或者当每个以前处理过的子帧的所述另一个矢量c(i)的幅度被所述缩放因子k缩放时,为该矢量c(i)的能量Ec的函数;
增益值gc被用于对所述另一个矢量c(i)进行缩放,该另一个矢量是通过对量化矢量d(i)滤波得到的;
预测能量是利用下面等式得到的: E ^ ( n ) = Σ i = 1 p b i R ^ ( n - i )
其中bi是移动平均预测系数,P是预测阶数,
Figure C9980376300036
是以前子帧j中预测能量 中的误差,由下式给出: R ^ ( n ) = E ( n ) - E ^ ( n )
其中 E ( n ) = 10 log ( 1 N g c 2 Σ i = 0 N - 1 ( kc ( i ) ) 2 ) - E ‾ .
9.根据权利要求5的方法,其中项Ec由下面等式确定: E c = 10 log ( 1 N Σ i = 0 N - 1 ( kc ( i ) ) 2 )
其中N是子帧中的样本数。
10.根据权利要求1的方法,其中,如果量化矢量d(i)包括两个或多个脉冲,则所有脉冲具有相同的幅度。
11.根据权利要求1的方法,其中缩放因子由下式给出: k = M m 其中M是量化矢量d(i)中最大允许的脉冲数。
12.根据权利要求1的方法,该方法包括搜索一个增益校正因子码书来确定量化增益校正因子 该因子使误差最小化: e Q = ( g c - γ ^ gc g ^ c ) 2
并对所识别出的量化增益校正因子进行码书索引编码。
13.对数字化采样语音信号子帧序列解码的方法,对于每个子帧,该方法包括:
(a)从编码信号恢复包括至少一个脉冲的量化矢量d(i),其中矢量d(i)中的脉冲数m和脉冲位置可能在子帧之间变化;
(b)从编码信号恢复量化增益校正因子
(c)确定缩放因子k,该因子为预定能量值与量化矢量d(i)中能量之比的函数;
(d)在一个或多个以前处理过的子帧基础上确定预测的增益值
Figure C9980376300051
该增益值是量化矢量d(i)的能量Ec的函数或当得自该量化矢量的另一个矢量c(i)的幅度由所述的缩放因子k缩放时,该矢量c(i)的能量Ec的函数;
(e)利用量化增益校正因子
Figure C9980376300052
来校正预测增益值 以给出校正后的增益值gc
(f)利用增益值gc对量化矢量d(i)或所述另一个矢量c(i)进行缩放以产生与残留信号 同步的激励矢量,其中的残留信号
Figure C9980376300055
在从原始子帧语音信号中除去冗余信息之后仍然保留在该子帧中。
14.根据权利要求13的方法,其中每个所接收信号的编码子帧包括一个定义量化矢量d(i)的代数码μ和对获得量化增益校正因子
Figure C9980376300056
的量化增益校正因子码书编址的索引。
15.用于编码语音信号的装置,其中的信号包括含有数字化语音样本的子帧序列,该装置具有依次对所述每个子帧编码的装置,这些装置包括:
用于选出包括至少一个脉冲的量化矢量d(i)的矢量选择装置,其中矢量d(i)中脉冲数m和脉冲位置可能在子帧之间变化;
用于确定增益值gc的第一信号处理装置,该增益值用于缩放量化矢量d(i)的幅度或从量化矢量d(i)得到的另一个矢量c(i)的幅度,其中缩放后的矢量与加权后的残留信号
Figure C9980376300057
同步;
用于确定缩放因子k的第二信号处理装置,其中k为预定能量值与量化矢量d(i)中能量之比的函数;
在一个或多个以前处理过的子帧基础上确定预测增益值 的第三信号处理装置,该增益值为量化矢量d(i)的能量Ec的函数或当另一个矢量c(i)的幅度由所述的缩放因子k缩放时,为该矢量c(i))的能量Ec的函数;
用于利用所述的增益值gc和所述的预测增益值
Figure C9980376300059
确定量化增益校正因子
Figure C99803763000510
的第四信号处理装置。
16.用于对数字化采样语音信号的编码子帧序列进行解码的装置,该装置具有用于对每个所述子帧依次解码的装置,所说依次解码装置包括:
从编码信号恢复包括至少一个脉冲的量化矢量d(i)的第一信号处理装置,其中矢量d(i)中脉冲数m和脉冲位置可能在子帧之间变化;
从编码信号恢复量化增益校正因子
Figure C9980376300061
的第二信号处理装置;
确定缩放因子k的第三信号处理装置,该因子为预定能量值与量化矢量d(i)中能量之比的函数;
在一个或多个以前处理过的子帧基础上确定预测增益值 的第四信号处理装置,该增益值为量化矢量d(i)的能量Ec的函数或当另一个得自该量化矢量的矢量c(i)的幅度由所述的缩放因子k缩放时,为矢量c(i))的能量Ec的函数;
利用量化增益校正因子 来校正预测增益值
Figure C9980376300064
以给出校正后的增益值gc的校正装置;
利用增益值gc对量化矢量d(i)或所述另一个矢量c(i)进行缩放以产生与残留信号 同步的激励矢量的缩放装置,其中的残留信号 在从原始子帧语音信号中除去冗余信息之后仍然保留在该子帧中。
CN99803763A 1998-03-09 1999-02-12 语音编码 Expired - Lifetime CN1121683C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FI980532A FI113571B (fi) 1998-03-09 1998-03-09 Puheenkoodaus
FI980532 1998-03-09

Publications (2)

Publication Number Publication Date
CN1292914A CN1292914A (zh) 2001-04-25
CN1121683C true CN1121683C (zh) 2003-09-17

Family

ID=8551196

Family Applications (1)

Application Number Title Priority Date Filing Date
CN99803763A Expired - Lifetime CN1121683C (zh) 1998-03-09 1999-02-12 语音编码

Country Status (12)

Country Link
US (1) US6470313B1 (zh)
EP (1) EP1062661B1 (zh)
JP (1) JP3354138B2 (zh)
KR (1) KR100487943B1 (zh)
CN (1) CN1121683C (zh)
AU (1) AU2427099A (zh)
BR (1) BR9907665B1 (zh)
DE (1) DE69900786T2 (zh)
ES (1) ES2171071T3 (zh)
FI (1) FI113571B (zh)
HK (1) HK1035055A1 (zh)
WO (1) WO1999046764A2 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104505097A (zh) * 2011-02-15 2015-04-08 沃伊斯亚吉公司 检索激励的固定贡献的量化增益的设备和方法
US9911425B2 (en) 2011-02-15 2018-03-06 Voiceage Corporation Device and method for quantizing the gains of the adaptive and fixed contributions of the excitation in a CELP codec

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6714907B2 (en) * 1998-08-24 2004-03-30 Mindspeed Technologies, Inc. Codebook structure and search for speech coding
AU766830B2 (en) * 1999-09-22 2003-10-23 Macom Technology Solutions Holdings, Inc. Multimode speech encoder
US6604070B1 (en) * 1999-09-22 2003-08-05 Conexant Systems, Inc. System of encoding and decoding speech signals
EP2040253B1 (en) * 2000-04-24 2012-04-11 Qualcomm Incorporated Predictive dequantization of voiced speech
US6947888B1 (en) * 2000-10-17 2005-09-20 Qualcomm Incorporated Method and apparatus for high performance low bit-rate coding of unvoiced speech
US7037318B2 (en) * 2000-12-18 2006-05-02 Boston Scientific Scimed, Inc. Catheter for controlled stent delivery
US7054807B2 (en) * 2002-11-08 2006-05-30 Motorola, Inc. Optimizing encoder for efficiently determining analysis-by-synthesis codebook-related parameters
JP3887598B2 (ja) * 2002-11-14 2007-02-28 松下電器産業株式会社 確率的符号帳の音源の符号化方法及び復号化方法
US7249014B2 (en) * 2003-03-13 2007-07-24 Intel Corporation Apparatus, methods and articles incorporating a fast algebraic codebook search technique
FI119533B (fi) * 2004-04-15 2008-12-15 Nokia Corp Audiosignaalien koodaus
US7386445B2 (en) * 2005-01-18 2008-06-10 Nokia Corporation Compensation of transient effects in transform coding
UA92742C2 (ru) * 2005-04-01 2010-12-10 Квелкомм Инкорпорейтед Способ и устройство для кодирования речевых сигналов с расщеплением полосы
JPWO2007129726A1 (ja) * 2006-05-10 2009-09-17 パナソニック株式会社 音声符号化装置及び音声符号化方法
US8712766B2 (en) * 2006-05-16 2014-04-29 Motorola Mobility Llc Method and system for coding an information signal using closed loop adaptive bit allocation
WO2008056775A1 (fr) 2006-11-10 2008-05-15 Panasonic Corporation Dispositif de décodage de paramètre, dispositif de codage de paramètre et procédé de décodage de paramètre
JPWO2008072733A1 (ja) * 2006-12-15 2010-04-02 パナソニック株式会社 符号化装置および符号化方法
US8788264B2 (en) * 2007-06-27 2014-07-22 Nec Corporation Audio encoding method, audio decoding method, audio encoding device, audio decoding device, program, and audio encoding/decoding system
US20090094026A1 (en) * 2007-10-03 2009-04-09 Binshi Cao Method of determining an estimated frame energy of a communication
CN101499281B (zh) * 2008-01-31 2011-04-27 华为技术有限公司 一种语音编码中的增益量化方法及装置
CN101609674B (zh) * 2008-06-20 2011-12-28 华为技术有限公司 编解码方法、装置和***
CN101741504B (zh) * 2008-11-24 2013-06-12 华为技术有限公司 一种确定信号线性预测编码阶数的方法和装置
US7898763B2 (en) * 2009-01-13 2011-03-01 International Business Machines Corporation Servo pattern architecture to uncouple position error determination from linear position information
US20110051729A1 (en) * 2009-08-28 2011-03-03 Industrial Technology Research Institute and National Taiwan University Methods and apparatuses relating to pseudo random network coding design
US8990094B2 (en) * 2010-09-13 2015-03-24 Qualcomm Incorporated Coding and decoding a transient frame
US8862465B2 (en) 2010-09-17 2014-10-14 Qualcomm Incorporated Determining pitch cycle energy and scaling an excitation signal
US8325073B2 (en) * 2010-11-30 2012-12-04 Qualcomm Incorporated Performing enhanced sigma-delta modulation
CN112741961A (zh) * 2020-12-31 2021-05-04 江苏集萃智能制造技术研究所有限公司 一种便携式集成tensems功能的电子脉冲刺激器

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4969192A (en) 1987-04-06 1990-11-06 Voicecraft, Inc. Vector adaptive predictive coder for speech and audio
IT1232084B (it) * 1989-05-03 1992-01-23 Cselt Centro Studi Lab Telecom Sistema di codifica per segnali audio a banda allargata
GB2235354A (en) * 1989-08-16 1991-02-27 Philips Electronic Associated Speech coding/encoding using celp
IL95753A (en) * 1989-10-17 1994-11-11 Motorola Inc Digits a digital speech
US5754976A (en) 1990-02-23 1998-05-19 Universite De Sherbrooke Algebraic codebook with signal-selected pulse amplitude/position combinations for fast coding of speech
CA2010830C (en) 1990-02-23 1996-06-25 Jean-Pierre Adoul Dynamic codebook for efficient speech coding based on algebraic codes
FR2668288B1 (fr) * 1990-10-19 1993-01-15 Di Francesco Renaud Procede de transmission, a bas debit, par codage celp d'un signal de parole et systeme correspondant.
US5293449A (en) * 1990-11-23 1994-03-08 Comsat Corporation Analysis-by-synthesis 2,4 kbps linear predictive speech codec
DE69233502T2 (de) 1991-06-11 2006-02-23 Qualcomm, Inc., San Diego Vocoder mit veränderlicher Bitrate
US5255339A (en) * 1991-07-19 1993-10-19 Motorola, Inc. Low bit rate vocoder means and method
US5233660A (en) * 1991-09-10 1993-08-03 At&T Bell Laboratories Method and apparatus for low-delay celp speech coding and decoding
US5327520A (en) * 1992-06-04 1994-07-05 At&T Bell Laboratories Method of use of voice message coder/decoder
FI96248C (fi) 1993-05-06 1996-05-27 Nokia Mobile Phones Ltd Menetelmä pitkän aikavälin synteesisuodattimen toteuttamiseksi sekä synteesisuodatin puhekoodereihin
FI98163C (fi) 1994-02-08 1997-04-25 Nokia Mobile Phones Ltd Koodausjärjestelmä parametriseen puheenkoodaukseen
SE506379C3 (sv) * 1995-03-22 1998-01-19 Ericsson Telefon Ab L M Lpc-talkodare med kombinerad excitation
US5732389A (en) * 1995-06-07 1998-03-24 Lucent Technologies Inc. Voiced/unvoiced classification of speech for excitation codebook selection in celp speech decoding during frame erasures
CA2177413A1 (en) * 1995-06-07 1996-12-08 Yair Shoham Codebook gain attenuation during frame erasures
US5664055A (en) * 1995-06-07 1997-09-02 Lucent Technologies Inc. CS-ACELP speech compression system with adaptive pitch prediction filter gain based on a measure of periodicity
US5692101A (en) * 1995-11-20 1997-11-25 Motorola, Inc. Speech coding method and apparatus using mean squared error modifier for selected speech coder parameters using VSELP techniques

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104505097A (zh) * 2011-02-15 2015-04-08 沃伊斯亚吉公司 检索激励的固定贡献的量化增益的设备和方法
US9911425B2 (en) 2011-02-15 2018-03-06 Voiceage Corporation Device and method for quantizing the gains of the adaptive and fixed contributions of the excitation in a CELP codec
CN104505097B (zh) * 2011-02-15 2018-08-17 沃伊斯亚吉公司 检索激励的固定贡献的量化增益的设备和方法

Also Published As

Publication number Publication date
FI980532A (fi) 1999-09-10
KR100487943B1 (ko) 2005-05-04
JP3354138B2 (ja) 2002-12-09
KR20010024935A (ko) 2001-03-26
ES2171071T3 (es) 2002-08-16
EP1062661B1 (en) 2002-01-09
EP1062661A2 (en) 2000-12-27
FI113571B (fi) 2004-05-14
DE69900786D1 (de) 2002-02-28
JP2002507011A (ja) 2002-03-05
BR9907665B1 (pt) 2013-12-31
FI980532A0 (fi) 1998-03-09
HK1035055A1 (en) 2001-11-09
DE69900786T2 (de) 2002-09-26
BR9907665A (pt) 2000-10-24
WO1999046764A3 (en) 1999-10-21
WO1999046764A2 (en) 1999-09-16
AU2427099A (en) 1999-09-27
CN1292914A (zh) 2001-04-25
US6470313B1 (en) 2002-10-22

Similar Documents

Publication Publication Date Title
CN1121683C (zh) 语音编码
CN1154086C (zh) Celp转发
CN1820306B (zh) 可变比特率宽带语音编码中增益量化的方法和装置
EP2301022B1 (en) Multi-reference lpc filter quantization device and method
EP1959434B1 (en) Speech encoder
US6385576B2 (en) Speech encoding/decoding method using reduced subframe pulse positions having density related to pitch
CN1266674C (zh) 闭环多模混合域线性预测语音编解码器和处理帧的方法
CA2202825C (en) Speech coder
CA2271410C (en) Speech coding apparatus and speech decoding apparatus
CN1334952A (zh) 用于改善编码通信信号性能的编码增强特性
CN1470051A (zh) 非话音语音的高性能低比特率编码方法和设备
CN1279510C (zh) 用来对相位谱信息进行子抽样的方法和设备
CN1192357C (zh) 用于语音编码的自适应规则
US6768978B2 (en) Speech coding/decoding method and apparatus
CN1293535C (zh) 声音编码设备和方法以及声音解码设备和方法
EP0869477B1 (en) Multiple stage audio decoding
CN1234898A (zh) 具有改进语音编码器和解码器的发射机
CA2239672C (en) Speech coder for high quality at low bit rates
US20100094623A1 (en) Encoding device and encoding method
CN1124590C (zh) 改善话音信号编码器性能的方法
CN1120472C (zh) 矢量搜索方法
JP2002073097A (ja) Celp型音声符号化装置とcelp型音声復号化装置及び音声符号化方法と音声復号化方法
CN103119650B (zh) 编码装置和编码方法
CN1875401A (zh) 数字语音编码器中的谐波噪声加权
JP2005062410A (ja) 音声信号の符号化方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C56 Change in the name or address of the patentee

Owner name: NOKIA OY

Free format text: FORMER NAME OR ADDRESS: NOKIA MOBIL CO., LTD.

CP03 Change of name, title or address

Address after: Espoo, Finland

Patentee after: Nokia Oyj

Address before: Espoo, Finland

Patentee before: Nokia Mobile Phones Ltd.

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20160119

Address after: Espoo, Finland

Patentee after: Technology Co., Ltd. of Nokia

Address before: Espoo, Finland

Patentee before: Nokia Oyj

CX01 Expiry of patent term
CX01 Expiry of patent term

Granted publication date: 20030917