CN1655236A

CN1655236A - 用于预测量化有声语音的方法和设备

Info

Publication number: CN1655236A
Application number: CNA2005100527491A
Authority: CN
Inventors: A·K·阿南萨帕德曼那伯汉; S·曼祖那什; P·J·黄; E·L·T·肖依; A·P·德加科
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2000-04-24
Filing date: 2001-04-20
Publication date: 2005-08-17
Anticipated expiration: 2021-04-20
Also published as: ATE363711T1; EP1796083A2; US8660840B2; JP2003532149A; TW519616B; EP1279167B1; ES2318820T3; DE60128677D1; AU2001253752A1; ES2287122T3; HK1078979A1; DE60128677T2; US20080312917A1; EP1796083B1; WO2001082293A1; EP2040253A1; ATE420432T1; KR100804461B1; EP2040253B1; CN1432176A

Abstract

用于预测量化有声语音的一种方法和设备，包括参数生成器和量化器。参数生成器被配置成从诸如有声语音等预测语音帧中提取参数，并把提取的信息转换成频域表示。量化器被配置成从当前帧的参数中减去之前帧参数的权值和。量化器被配置成量化该差值。可以加入原型提取器来提取参数生成器处理的音调周期原型。

Description

用于预测量化有声语音的方法和设备

本申请是申请日为2001年4月20日申请号为第01810523.8号发明名称为“用于预测量化有声语音的方法和设备”的中国专利申请的分案申请。

发明背景

I.发明领域

本发明主要涉及语音处理领域，尤其涉及用于预测量化有声语音的方法和设备。

II.背景

借助数字技术的语音传送已变得普遍，尤其是在长距离和数字无线电电话应用中。这依次建立了对确定可在信道上发送的最少量的信息，而保持重构的语音的可察觉的质量的兴趣。如果通过简单地采样和数字化而发送语音，要求大约每秒64千比特(kbps)的数据速率，以实现常规模拟电话的语音质量。然而，通过对语音分析的使用，继之以适当的编码、传送以及在接收机处的重新合成，可以在数据速率中实现显著的降低。

用于压缩语音的设备在电信的许多领域中得到了应用。一个示例性的领域是无线通信。无线通信领域有许多应用，包括例如无绳电话、寻呼、无线本地回路、诸如蜂窝网和PCS电话***之类的无线电话技术、移动网际协议(IP)电话技术以及卫星通信***。尤其重要的应用是用于移动用户的无线电话技术。

已经为无线通信***发展了各种空中接口，包括例如频分多址(FDMA)、时分多址(TDMA)以及码分多址(CDMA)。与此有关的是，已经建立了各种国内的和国际的标准，包括例如高级移动电话服务(AMPS)、全球移动通信***(GSM)以及暂行标准95(IS-95)。示例性的无线电话技术通信***是码分多址(CDMA)***。由电信工业协会(TIA)和其他著名的标准团体颁布了IS-95标准及其派生的IS-95A、ANSI J-STD-008、IS-95B、建议的第3代标准IS-95C以及IS-2000等等(这里把它们一起称为IS-95)，为蜂窝网或PCS电话技术通信***规定了CDMA空中接口的使用。在美国专利号5,103,459和4,901,307中描述了实质上根据对IS-95标准的使用而配置的示例性无线通信***，把它们转让给本发明的受让人，并按引用而充分结合于此。

把使用技术以通过提取关于人类语音产生的模型的参数来压缩语音的设备称为语音编码器。语音编码器将进入的语音信号分成时间块或分析帧。语音编码器典型地包括编码器和解码器。编码器分析进入的语音帧，以提取某些相关参数，并然后将这些参数量化成二进制表示，即量化成一组比特或二进制数据分组。在通信信道上将数据分组传送到接收机和解码器。解码器处理数据分组，对它们进行非量化以产生参数，并使用所述非量化的参数重新合成所述语音帧。

语音编码器的功能是通过除去语音中所固有的所有自然冗余而将数字化的语音信号压缩成低比特率的信号。通过使用一组参数表示输入语音帧，并使用量化以用一组比特来表示所述参数，来实现数字压缩。如果输入语音帧具有N_i个比特，并且语音编码器产生的数据分组具有N_o个比特，则由该语音编码器实现的压缩系数是C_r＝N_i/N_o。问题是要保留经解码的语音的高语音质量，而实现目标压缩系数。语音编码器的性能取决于(1)语音模型或上述分析与合成处理的组合能多好地进行，以及(2)能多好地以每帧N_o比特的目标比特率进行参数量化处理。从而，语音模型的目的是用每帧一小组参数来捕获语音信号的本质，或目标语音质量。

语音编码器的设计中最重要的也许是寻找较佳的一组参数(包括矢量)来描述语音信号。较佳的一组参数要求低***带宽用于对感觉上精确的语音信号的再现。音调、信号功率、谱包络(或共振峰)、幅度谱、以及相位谱是语音编码参数的例子。

可以把语音编码器实现为时域编码器，它试图通过使用每次编码小段语音(一般为5毫秒(ms)子帧)的高时间分辨率处理来捕获时域语音波形。对于每个子帧，借助于本领域中已知的各种搜索算法可从编码本空间建立高精度表示。另一方面，可以把语音编码器实现为频域编码器，它试图用一组参数(分析)捕获输入语音帧的短期语音频谱，并使用对应的合成处理，以从频谱参数中重建语音波形。参数量化器根据A.Gersho和R.M.Gray的“Vector Quantization and Signal Compression(1992)”中所描述的已知的量化技术，通过用所存储的编码矢量表示代表所述参数，来保存这些参数。

著名的时域语音编码器是按引用而充分结合于此的L.B.Rabiner和R.W.Schafer的“Digital Processing of Speech Signals 396-453(1978)”中所描述的码激励线性预测编码器(CELP)。在CELP编码器中，通过寻找短期共振峰滤波器系数的线性预测(LP)分析可除去语音信号中的短期相关或冗余。将短期预测滤波器施加到输入语音帧，产生了LP残余信号，用长期预测滤波器参数和随后的随机编码本进一步建模并量化该信号。从而，CELP编码将编码时域语音波形的任务分割成对LP短期滤波器系数编码以及对LP残余编码的分开的任务。可用固定的速率(即对每帧使用相同的比特数N₀)或以可变的速率(即对不同类型的帧内容使用不同的比特率)进行时域编码。可变速率编码器试图仅使用将编解码器参数编码成足够获得目标质量而所需的比特量。在转让给本发明的受让人并按引用而充分结合于此的美国专利号5,414,796中描述了一种示例性的可变速率CELP编码器。

诸如CELP编码器之类的时域编码器一般依靠每帧高比特数N₀，以保存时域语音波形的精确度。只要每帧比特数N₀相对较高(如8kbps或以上)，这样的编码器一般提供极佳的语音质量。然而，以低比特率(4kbps以及以下)，由于有限的可用比特数，时域编码器不能保持高质量和稳固的性能。以低比特率，有限编码本空间削减了常规时域编码器的波形匹配能力，而在较高速率商业应用中常规时域编码器得到相当成功地使用。因此，尽管随时间的过去而得到改进，但是以低比特率操作的CELP编码***遭受到感觉上显著的失真，一般把该失真表征为噪声。

当前存在研究兴趣的浪潮以及对于发展以中到低的比特率(即在2.4至4kbps以及以下的范围内)操作的高质量语音编码器的商业需要。应用范围包括无线电话技术、卫星通信、因特网电话技术、各种多媒体和语音流应用、语音邮件以及其他语音存储***。驱动力是对于高容量的需要，以及在分组丢失的情况下对稳固的性能的需求。各种当前的语音编码标准化努力是推进研究和发展低速率语音编码算法的另一直接驱动力。低速率语音编码器以每个可允许的应用带宽建立较多的信道或用户，并且与额外的适当的信道编码层耦合的低速率语音编码器能够适合编码器规范的全部比特预算，并在信道差错的条件下提供稳固的性能。

以低比特率有效地编码语音的一个有效技术是多模式编码。在转让给本发明的受让人并按引用而充分结合于此的，1998年12月21日申请的名为“VARIABLERATE SPEECH CODING”的美国申请序列号09/217,941中描述了一种示例性的多模式编码技术。常规多模式编码器对不同类型的输入语音帧施加不同的模式，或编码-解码算法。将每种模式或编码-解码处理，以最有效的方式定制成最优地表示某一类型的语音段，诸如例如有声语音、无声语音、过渡语音(如有声和无声之间)以及背景噪声(无声或非语音)。在外部，开环模式判定机构检验输入语音帧，并作出关于要把哪种模式施加到该帧的判定。一般通过从输入帧中提取若干参数，按照某些时间和频谱特性来估计所述参数，并以所述估计作为模式判定的基础来进行所述开环模式判定。

以大约2.4kbps的速率操作的编码***一般实际上是参数的。也就是说这样的编码***通过以规则的间隔传送描述语音信号的音调周期和频谱包络(或共振峰)的参数。说明性的这些所谓的参数编码器是LP声码器***。

LP声码器用每音调周期单个脉冲来模拟有声语音信号。可以把这种基本技术增补成以包括关于频谱包络的传送信息。虽然LP声码器一般提供合理的性能，但是它们可引入感觉上显著的失真，一般把这种失真表征为嗡嗡声。

近年来，编码器已显露出波形编码器和参数编码器两者的混合。说明性的这种所谓的混合编码器是原型波形内插(PWI)语音编码***。还可把所述PWI编码***称为原型音调周期(PPP)语音编码器。PWI编码***提供编码有声语音的有效方法。PWI的基本概念是以固定的间隔提取代表性的音调循环(原型波形)，传送其描述，并通过在原型波形之间内插来重构语音信号。PWI方法可在LP残余信号上操作或者在语音信号上操作。在转让给本发明的受让人，并按引用而充分结合于此的1998年12月21日申请的名为“PERIODIC SPEECH CODING”的美国专利申请序列号09/217,494中描述了示例性的PWI或PPP语音编码器。在美国专利号5,884,253以及W.Bastiaan Kleijn和Wolfgang Granzow的“Methods for WaveformInterpolation in Speech Coding，in 1 Digital Signal Processing 215-230(1991)”中描述了其他PWI或PPP语音编码器。

在大多数常规语音编码器中，由编码器单独地量化并传送给定音调原型或给定帧的参数的每一个。此外，对每个参数传送一个差值。所述差值指定了当前帧或原型的参数值与先前帧或原型的参数值之间的差。然而，量化所述参数值和差值要求使用比特(以及因此要求带宽)。在低比特率编码器中，传送能保持令人满意的语音质量的最小的比特数是有利的。由于这个原因，在常规低比特率语音编码器中，仅量化和传送绝对参数值。将希望减少所传送的比特数，而不减少信息值。因此，需要降低语音编码装置的比特速率的量化有声语音的预测方案。

发明概述

本发明针对用于量化有声语音的预测方案，该方案降低了语音编码装置的比特速率。因此，在本发明的一个方面，提供了关于语音参数的量化信息的方法。该方法有利地包括为至少一个之前处理的语音帧生成参数的至少一个加权值，其中所有权值的总和等于一；从当前处理的语音帧的参数值中减去至少一个加权值以产生差值；量化该差值。

在本发明的另一个方面，提供了被配置成量化关于语音参数的信息的语音编码装置。该语音编码装置有利地包括用于为至少一个之前处理的语音帧生成参数的至少一个加权值的装置，其中所有使用的权值的总和等于一；用于从当前处理的语音帧的参数值中减去至少一个加权值以产生差值的装置；用于量化该差值的装置。

在本发明的另一个方面，提供了被配置成量化关于语音参数的信息的基础单元。该基础单元有利地包括被配置成为至少一个之前处理的语音帧生成参数的至少一个加权值的参数生成器，其中所有使用的权值的总和等于一；耦合至参数生成器，并被配置成从当前处理的语音帧的参数值中减去至少一个加权值以产生差值，并量化该差值的量化器。

在本发明的另一个方面，提供了被配置成量化关于语音参数的信息的客户单元。该客户单元有利地包括处理器；耦合至处理器的存储媒介，它包含一组可由处理器执行的指令，用于为至少一个之前处理的语音帧生成参数的至少一个加权值，其中所有使用的权值的总和等于一，以及从当前处理的语音帧的参数值中减去至少一个加权值以产生差值，并量化该差值。

在本发明的另一个方面，提供了用于量化关于语音相位参数的信息的方法。该方法有利地包括为至少一个之前处理的语音帧生成相位参数的至少一个修改值；对至少一个修改值施加一些相位偏移，相位偏移的个数大于等于零；从当前处理的语音帧的相位参数值中减去至少一个修改值以产生差值，并量化该差值。

在本发明的另一个方面，提供了被配置成量化关于语音相位参数的信息的语音编码装置。该语音编码装置有利地包括用于为至少一个之前处理的语音帧生成相位参数的至少一个修改值的装置；用于对至少一个修改值施加一些相位偏移的装置，相位偏移的个数大于等于零；用于从当前处理的语音帧的相位参数值中减去至少一个修改值以产生差值的装置；以及用于量化该差值的装置。

在本发明的另一个方面，提供了被配置成量化关于语音相位参数的信息的客户单元。该客户单元有利地包括处理器；耦合至处理器的存储媒介，它包含一组可由处理器执行的指令，用于为至少一个之前处理的语音帧生成相位参数的至少一个修改值，对至少一个修改值施加一些相位偏移的装置，相位偏移的个数大于等于零，从当前处理的语音帧的参数值中减去至少一个修改值以产生差值，以及量化该差值。

附图简述

图1是无线电话***的框图。

图2是由语音编码器在每一端处终止的通信信道的框图。

图3是语音编码器的框图。

图4是语音解码器的框图。

图5是包括编码器/发射机和解码器/接收机的语音编码装置的框图。

图6是有声语音段的信号幅度对时间的图。

图7是可用于语音编码器的量化器的框图。

图8是耦合至存储媒介的处理器的框图。

较佳实施例详述

下面将要描述的示范性实施例适用于被配置成采用了CDMA空中接口的无线电话通信***中。尽管如此，本领域的技术人员将可以理解具体化本发明特征的用于对有声语音进行预测编码的方法和设备可以适用于采用了本领域中的技术人员所已知的大量技术的各种通信***中的任意一种。

如图1所示，CDMA无线电话***通常包括多个移动客户单元10，多个基站12、基站控制器(BSC)14以及移动交换中心(MSC)16。MSC16被配置成和常规的公共交换电话网(PSTN)18进行接口。MSC16还被配置成和BSC14进行接口。BSC14通过回程线路耦合到基站12。回程线路可以被配置成支持一些已知接口中的任何一种，如，E1/T1、ATM、IP、PPP、帧中继、HDSL、ADSL或xDSL。可以理解，***中可能有多于两个的BSC14。每个基站12最好包括至少一个扇区(未示出)，每个扇区包括一个全方向天线或者指向特定的从基站12辐射出去的方向的天线。可选地，每个扇区可以包括用于分集接收的两个天线。每个基站12可以有利地被设计成支持多个频率分配。扇区和频率分配的交集可以被称为CDMA信道。基站12还可以是基站收发信机子***(BTS)12。可选地，“基站”在业界中可以被用来统称BSC14和一个或多个BTS12。BTS12还可以被表示成“小区地点”12。可选地，给定的BTS12的单个扇区可以被称为小区地点。移动客户单元10一般是蜂窝或PCS电话10。***有利地被配置成根据IS-95标准而使用。

在蜂窝电话***的一般运行期间，基站12从移动单元10的集合接收反向链路信号集。移动单元10传递电话呼叫或其它通信。给定基站12所接收到的每个反向链路信号在基站12中被处理。最后的数据被传递给BSC14。BSC14提供呼叫资源分派和移动管理功能，包括基站12间的软切换控制。BSC14还把接收到的数据路由到MSC16，MSC16为和PSTN18之间的接口提供额外的路由服务。类似地，PSTN18和MSC16接口，而MSC16和BSC14接口，BSC14依次控制基站12发送前向链路信号集到移动单元10的集合。本领域的技术人员应该理解在替换实施例中客户单元10可以是固定单元。

在图2中第一解码器100接收数字化的语音采样s(n)并对采样s(n)进行编码用于在传输媒介102(或通信信道102)上传输到第一解码器104。解码器104解码编码的语音采样，并合成输出语音信号s_SYNTH(n)。对于在相反方向上的传输，第二解码器106编码数字化的语音采样s(n)，该采样在通信信道108上被传输。第二解码器110接收和解码语音采样，生成合成输出语音信号s_SYNTH(n)。

语音采样s(n)代表已经根据本领域中的各种已知方法(包括如脉冲编码调制(PCM)、压缩扩展μ律和A律)被数字化和量化的语音信号。如本领域中已知的，语音采样s(n)被组织成输入数据帧，其中每个帧包括预定个数的数字化语音采样s(n)。在示范实施例中，采用的是8kHz的采样率，每个20毫秒帧包括160个采样。在下面描述的实施例中，数据传输率可以有利地在每一帧的基础上从全速率变为半速率、四分之一速率、八分之一速率。变化的数据传输率是有优势的，因为可以为包含相对较少语音信息的帧选择性地采用较低的比特率。本领域的技术人员将会理解，可以使用其它采样速率和/或帧大小。同样在下面描述的实施例中，语音编码(或写码)模式可以在每一帧的基础上响应于帧的语音信息或能量而变化。

第一编码器100和第二解码器110一起包括第一语音编码装置(编码器/解码器)，或语音编解码器。语音编码装置可以被用在用于发送语音信号的任何通信设备中，包括如上面参考图1所述的客户单元、BTS或BSC。类似地，第二编码器106和第二解码器104一起包括第二语音编码装置。本领域的技术人员可以理解语音编码装置可以用数字信号处理器(DSP)、专用集成电路(ASIC)、离散门逻辑、固件或任何常规可编程软件模块和微处理器。软件模块可以位于RAM存储器、闪存、寄存器或本领域已知的任何其它形式的存储媒介中。可选地，任何常规处理器、控制器或状态机可以替换微处理器。在美国专利号No.5727123以及1994年2月16日提交的美国专利申请序列号No.08/197417，题为“VOCODER ASIC”的文件中描述了专门被设计用于语音编码的示范ASIC，上述两个专利都已转让给本发明的受让人，并通过引用完整地引入这里。

在图3中，可以被用在语音编码装置中的编码器200包括模式决策模块202，音调估计模块204，LP分析模块206，LP分析滤波器208，LP量化模块210以及剩余量化模块212。输入语音帧s(n)被提供给模式决策模块202、，音调估计模块204、LP分析模块206和LP分析滤波器208。模式决策模块202根据周期、能量、信噪比(SNR)或过零率以及其它特征产生每个输入语音帧s(n)的模式序号I_M和模式M。在美国专利号No.5911128的文件中描述了根据周期分类语音帧的各种方法，上述专利已转让给本发明的受让人，并通过引用完整地引入这里。这样的方法还被引入电信工业协会临时标准TIA/EIA IS-127和TIA/EIA IS-733中。在前面提到的美国专利申请序列号No.09/217341的文件中还描述了示范模式决策方案。

音调估计模块204根据每个输入语音帧s(n)产生音调序号I_P和滞后值P₀。LP分析模块206对每个输入语音帧s(n)进行线性预测分析以生成LP参数α。LP参数α被提供给LP量化模块210。LP量化模块210还接收模式M，因此以依赖于模式的方法进行量化过程。LP量化模块210产生LP序号I_LP和量化LP参数

LP分析滤波器208接收量化LP参数和输入语音帧s(n)。LP分析滤波器208生成LP剩余信号R[n]，它代表输入语音帧s(n)和根据量化的线性预测参数

重建的语音之间的误差。LP剩余信号R[n]、模式M和量化后的LP参数

被提供给剩余量化模块212。根据这些值，剩余量化模块212产生剩余序号I_R和量化后的剩余信号

在图4中，可以被用于语音解码装置的解码器300包括LP参数解码模块302、剩余解码模块304、模式解码模块306以及LP合成滤波器308。模式解码模块306接收并解码模式序号I_M，由之生成模式M。LP参数解码模块302接收模式M和LP序号I_LP。LP参数解码模块302解码接收的值以产生量化LP参数

剩余解码模块304接收剩余序号I_R、音调序号I_P和模式序号I_M。剩余解码模块304解码接收到的值以生成量化剩余信号

量化剩余信号

和量化LP参数

被提供给LP合成滤波器308，该滤波器合成其中解码出的输出语音信号[n]。

图3的编码器200和图4的解码器300的各模块的运作和实现是本领域中已知的，并在前面提到的美国专利号No.5414796以及L.B.Rabiner和R.W.Schafer所著的Digital Processing of Speech Signal(1978)一书中的396-453中有所描述。

在一个实施例中，多模式语音编码器400和多模式语音解码器402通过通信信道(或传输媒介)404进行通信。通信信道404有利的是根据IS-95标准配置的RF接口。本领域的技术人员应该理解编码器400具有相关的解码器(未示出)。编码器400和它的相关解码器一起形成了第一语音编码装置。本领域的技术人员还可以理解解码器402具有相关的编码器(未示出)。解码器402和它的相关编码器一起形成了第二语音编码装置。第一和第二语音编码装置可以有利地被实现成第一和第二DSP的一部分，并可以位于如客户单元和PCS或蜂窝电话***中的基站中，或者位于客户单元和卫星***中的网关中。

编码器400包括参数计算器406、模式分类模块408、多个编码模式410以及分组格式化模块412。编码模式410的个数被显示为n，技术人员将会理解它可以表示任何合理的编码模式410个数。为了简单起见，只显示了三个编码模式410，并用虚线指出了其它编码模式410的存在。解码器402包括分组分解器和分组丢失检测器模块414、多个解码模式416、消除解码器418和后过滤器或语音合成器420。解码模式416的个数被显示为n，技术人员将会理解它可以表示任何合理的编码模式416的个数。为了简单起见，只显示了三个编码模式416，并用虚线指出了其它编码模式416的存在。

语音信号s(n)被提供给参数计算器406。语音信号被分成采样分组，称为帧。值n指定了帧个数。在替换实施例中，线性预测(LP)剩余误差信号被用来代替语音信号。LP参数被诸如CELP编码装置等语音编码装置使用。LP剩余的计算有利地应通过把语音信号提供给逆LP滤波器(未示出)来进行。如前面提到的美国专利号No.5414796以及美国专利申请序列号No.09/217494中所描述的，逆LP滤波器的传输函数A(z)是根据下列等式计算出的：

A(z)＝1-a₁z^-1-a₂z^-2-…-a_pz^-p

其中系数a₁是具有根据已知方法选择的预先定义值的滤波器抽头。数p指出了逆LP滤波器用于预测目的的之前的采样个数。在特定的实施例中，p被设置为十。

参数计算器406根据当前帧产生各个参数。在一个实施例中，这些参数包括下列的至少一个：线性预测编码(LPC)滤波器系数、线谱对(LSP)系数、规范自相关函数(NACF)、开环滞后、过零率、频带能量和共振峰残留信号。在前面提到的美国专利No.5414796中详细描述了LPC系数、LSP系数、开环滞后、频带能量和共振峰残留信号的计算。在前面提到的美国专利No.5911128中详细描述了NACF和过零率的计算。

参数计算器406被耦合至分类模块408。参数计算器406提供参数给模式分配模块408。模式分类模块被耦合用于在每一帧的基础上在编码模式410之间动态切换，来为当前帧选择最合适的编码模式410。模式分类模块408通过比较参数和预先定义的阈值和/或最高值来为当前帧选择特定的编码模式410。根据帧的能量内容，模式分配模块408把帧分类成非语音或非活动语音(如静默、背景噪声、或话语间的暂停)，或语音。根据帧的周期，模式分类模块408随后把语音帧分类成特定的语音类型，如，语音的、非语音的或过渡的。

有声语音是呈现相对较长周期的语音。图6中显示了有声语音的一个部分。如图所示，音调周期是语音帧的一个成份，可以被利用来分析和重建帧的内容。无声语音一般包括辅音声音。过渡语音帧一般是在有声和无声语音之间的过渡。本领域的技术人员将会理解可以采用任何合理的分类方案。

对语音帧进行分类是有好处的，因为可以用不同的编码模式410来编码不同类型的语音，并导致在诸如通信信道404等共享信道中的带宽的更有效的使用。例如，由于有声语音是周期的，并因此是高预测性的，所以可以用低比特率、高预测编码模式410来编码有声语音。在前面提到的美国专利申请序列号No.09/217341和1999年2月26日提交的美国专利申请序列号No.09/259151，题为“CLOSED-LOOP MULTIMODE MIXED-DOMAIN LINEAR PREDICTION(MDLP)SPEECHCODER”的文件中详细描述了诸如分类模块408的分类模块，上述申请已转让给本发明的受让人，并通过引用完整地引入这里。

模式分类模块408根据帧的分类为当前帧选择一个编码模式410。各编码模式410被并行地连接。在任意给定的时刻编码模式410中的一个或多个是可运行的。尽管如此，在任意给定的时刻最好只有一个模式410在工作，并且是根据当前帧的分类来选择的。

不同的编码模式410有利地应根据不同的编码比特率、不同的编码方案或编码比特率和编码方案的不同组合来工作。所用的各种编码速率可以是全速率、半速率、四分之一速率和/或八分之一速率。所用的各种编码方案可以是CELP编码、原型音调周期(PPP)编码(或波形内插(WI)编码)、和/或噪声激励线性预测(NELP)编码。因此，例如，特定的编码模式410可以是全速率CELP，另一种编码模式410可以是半速率CELP，另一种编码模式410可以是四分之一速率PPP，而另一种编码模式410可以是NELP。

根据CELP编码模式410，用LP残留信号的量化版本来激励线性预测声道模型。整个之前帧的量化参数被用来重建当前帧。CELP编码模式410因此提供了相对精确的语音再生，但是使用了相对较高的编码比特率的成本。CELP编码模式410可以有利地被用于编码被分类成过渡语音的帧。在前面提到的美国专利No.5414796中详细描述了一种示范变速率CELP语音编码装置。

根据NELP编码模式410，用过滤的伪随机噪声信号来模拟语音帧。NELP编码模型410是达到了较低比特率的相对简单的技术。NELP编码模式412可以被利用来编码被分类成无声语音的帧。在前面提到的美国专利申请序列号No.09/217494中详细描述了一种示范NELP编码模式。

根据PPP编码模式410，仅对每帧中的一音调周期子集进行编码。通过在这些原型周期中内插来重构语音信号的剩余周期。在PPP编码的时域实现中，计算第1组参数，该组参数描述怎样将前一原型周期修改到接近当前的原型周期。选择一个或多个编码矢量，当相加时，所述编码矢量近似于当前原型周期与经修改的原型周期之间的差。第2组参数描述了这些经选择的编码矢量。在PPP编码的频域实现中，计算一组参数来描述原型的幅度谱和相位谱。这可在绝对意义上或如下所述地预测地进行。在PPP编码的任一种实现中，解码器通过根据第1和第2组参数而重构当前原型，来合成输出语音信号。然后在当前重构的原型周期和先前重构的原型周期之间的区域上内插所述语音信号。从而，所述原型是当前帧的一部分，将用来自先前帧的原型线性内插当前帧，这些原型被同样地置于所述帧中，以便在解码器重构语音信号或LP残余信号(即使用过去的原型周期作为当前原型周期的预测)。在上述美国专利申请序列号09/217,494中详细描述了示例性的PPP语音编码器。

编码原型周期而不是整个语音帧，降低了要求的编码比特率。可用PPP编码模式410有利地对被分类成有声语音的帧进行编码。如图6中所说明的那样，有声语音包含PPP编码模式410所有利地采用的缓慢时变的周期的分量。通过采用有声语音的周期，PPP编码模式410能够实现比CELP编码模式410低的比特率。

把经选择的编码模式410耦合至分组格式化模块412。经选择的编码模式410对当前帧编码或量化，并将经量化的帧参数提供给分组格式化模块412。分组格式化模块412有利地将经量化的信息汇编成用于在通信信道404上传送的分组。在一个实施例中，把分组格式化模块412配置成提供纠错编码，并根据IS-95标准来格式化分组。把分组提供给发射机(未示出)，将其转换成模拟格式、对其调制，并在通信信道404上将其发送到接收机(未示出)，接收机对该分组进行接收、解调和数字化，并将分组提供给解码器402。

在解码器402中，分组分解器和分组丢失检测器模块414接收来自接收机的分组。耦合分组分解器和分组丢失检测器模块414，以按组分组的方式在解码模式416之间动态地切换。解码模式416的个数与编码模式410的个数相同，并且本领域的一个普通技术人员将认识到每个编号的编码模式410与配置成使用相同编码比特率和编码方案的各自的类似编号的解码模式416相关联。

如果分组分解器和分组丢失检测器模块414检测出分组，则分解该分组，并将其提供给有关的解码模式416。如果分组分解器和分组丢失检测器模块414没有检测出分组，则声明分组丢失，并且如下所述擦除解码器418有利地进行帧擦除处理，且擦除器418有利地按提交的有关申请所述地完成帧擦除处理(所述申请题为“FRAME ERASURE COMPENSATION METHOD IN A VARIABLE RATE SPEECHCODER”，已转让给本发明的受让人，通过引用结合于此)。

把解码模式416的并行阵列和擦除解码器418耦合至后滤波器420。所述有关的解码模式416对分组进行解码或去量化，将信息提供给后滤波器420。后滤波器420重构或合成语音帧，输出经合成的语音帧(n)。在上述美国专利号5,414,796以及美国专利申请序列号09/217,494中详细描述了示例性的解码模式和后滤波器。

在一个实施例中，不传送经量化的参数本身。相反，传送指定解码器402中的各个查表(LUT)(未示出)中的地址的编码本索引。解码器402接收编码本索引，并搜索各个编码本LUT以获得适当的参数值。因此，可传送诸如(例如)音调滞后、自适应编码本取得以及LSP之类的参数的编码本索引，并由解码器402搜索三个有关的编码本LUT。

根据CELP编码模式410，传送音调滞后、幅度、相位以及LSP参数。传送LSP编码本索引，因为要在解码器402处合成LP残余信号。因此，传送了当前帧的音调滞后值与前一帧的音调滞后值之间的差。

根据常规PPP编码模式，在该模式中在解码器处合成语音信号，仅传送音调滞后、幅度和相位参数。由常规PPP语音编码技术所使用的低比特率不允许绝对的音调滞后信息以及相对的音调滞后差值两者的传送。

根据一个实施例，用低比特率PPP编码模式410传送诸如有声语音帧之类的高周期帧，该模式量化当前帧的音调滞后值与前一帧的音调滞后值之间的差用于传送，而不量化当前帧的音调滞后值用于传送。由于有声语音帧本质上是高周期的，与绝对的音调滞后值相反，传送差值允许实现较低的编码比特率。在一个实施例中，推广这种量化，使得计算先前帧的参数值的加权和，其中权值的和为1，并且从当前帧的参数值中减去加权和。然后量化差值。

在一个实施例中，对LPC参数的预测量化是根据下面的描述进行的。LPC参数被转换成线谱信息(LSI)(或LSP)，它们被认为是更适合于量化的。第M帧的N维LSI矢量可以被表示成

L_{M} &equiv; L_{M}^{n}; n = 0,1 \cdot \cdot \cdot N - 1 .

在预测量化方案中，根据下列等式计算目标量化误差矢量：

T_{M}^{n} = \frac{(L_{M}^{n} - β_{1}^{n} {\hat{U}}_{M - 1}^{n} - β_{2}^{n} {\hat{U}}_{M - 2}^{n} - \cdot \cdot \cdot {- β}_{P}^{n} {\hat{U}}_{M - P}^{n})}{β_{0}^{n}}; n = 0,1, . . ., N - 1

其中，值

{{\hat{U}}_{M - 1}^{n}, {\hat{U}}_{M - 2}^{n}, . . ., {\hat{U}}_{M - P}^{n}; n = 0,1, . . ., N - 1}

是紧跟在M帧后的P个帧的LSI的贡献，而值

β_{1}^{n}, β_{2}^{n}, . . ., β_{P}^{n}; n = 0,1, . . ., N - 1}

是各自的权值，并且使得

{β_{0}^{n} + β_{1}^{n} +, . . ., + β_{P}^{n} = 1; n = 0,1, . . ., N - 1} .

贡献值可以等于相应过去帧的量化或未量化LSP参数。这样的方案就是自回归(AR)方法。可选地，贡献值可以等于对应于相应过去帧的LSI参数的量化或未量化的误差矢量。这样的方案就是移动平均(MR)方法。

然后，用包括如分离VQ或多级VQ等各种矢量量化(VQ)技术中的任一种来把目标误差矢量T量化成

在A.Gersho和R.M.Gray所著的“VectorQuantization and Signal Compression(1992)”一书中描述了各种VQ技术。随后用下列等式从量化的目标误差矢量

重构量化的LSI矢量：

T_{M}^{n} = β_{0}^{n} T_{M}^{n} + β_{1}^{n} {\hat{U}}_{M - 1}^{n} + β_{2}^{n} {\hat{U}}_{M - 2}^{n} + . . . + β_{P}^{n} {\hat{U}}_{M - P}^{n}; n = 0,1 . . ., N - 1

在一个实施例中，上述的量化方案用P＝2，N＝10来实现，即：

T_{M}^{n} = \frac{(L_{M}^{n} - 0.4 {\hat{T}}_{M - 1}^{n} - 0.2 {\hat{U}}_{M - 2}^{n})}{0.4}; n = 0,1, . . ., N - 1

上面列出的目标矢量T可以有利地用十六比特通过熟知的分离VQ方法来量化。

由于它们的周期属性，有声帧可以用这样一种方案来编码，其中整个比特组被用来量化已知长度帧的一个原型音调周期或原型音调周期的有限组。原型音调周期的这个长度被称为音调延迟。相邻帧的这些原型音调周期以及可能的原型音调周期可以被用来在不损耗感知质量的情况下重构整个语音帧。在前面提到的美国专利申请序列号No.09/217494中描述了从语音帧提取原型音调周期并把这些原型用于重构整个帧的该PPP方案。

在一个实施例中，如图8所示，量化器500被用来量化根据PPP编码方案的有声帧等高周期帧。量化器500包括原型提取器502，频域变换器504，幅度量化器506，以及相位量化器508。原型提取器502被耦合至频域变换器504。频域变换器被耦合至幅度量化器506和相位量化器508。

原型提取器502从语音帧s(n)中提取音调周期原型。在替换实施例中，该帧是LP残留帧。原型提取器502把音调周期原型提供给频域变换器504。频域变换器504根据例如离散傅立叶变换(DFT)或快速傅立叶变换(FFT)等各种已知方法中的任一种把原型从时域表示转换成频域表示。频域变换器504生成幅度矢量和相位矢量。幅度矢量被提供给幅度量化器506，而相位矢量被提供给相位量化器508。幅度量化器506量化幅度组，生成量化的幅度矢量而相位量化器508量化相位组，生成量化的相位矢量

诸如多带激励(MBE)语音编码和谐波编码等其他用于编码有声帧的方案把整个帧(LP残留或语音)或其部分转换成通过傅立叶变换表示的频域值，其中傅立叶变换包括可以被量化和被用于在解码器(未示出)中合成为语音的幅度和相位。为了使用图8的量化器和这种编码方案，将省略原型提取器502，而频域变换器504用于把帧的复合短期频谱表示分解成幅度矢量和相位矢量。在任一种编码方案中，可以先使用诸如汉明(Hamming)窗等合适的窗函数。在D.W.Griffin和J.S.Lim所著的“Multiband Exitation Vocoder”36(8)IEE Trans.on ASSP(1988年8月)中描述了示范MBE语音编码方案。在L.B.Almeida和J.M.Tribolet所著的“Harmonic Coding：A Low Bit-Rate，Good Quality，Speech Coding Technique”Pro.ICASSP’82 1664-1667(1982)中描述了示范谐波语音编码方案。

对于任一个上述的有声帧编码方案，某些参数必须被量化。这些参数为音调延迟或音调频率，音调延迟长度的原型音调周期波形，或者整个帧或其一部分的短期频谱表示(如，傅立叶表示)。

在一个实施例中，音调延迟或音调频率的预测量化根据下面的描述进行。通过用于固定的比例因子来按比例缩放另一个的倒数，音调频率和音调延迟可以相互地唯一地获得。结果，可能用下列的方法量化这些值中的任一个。帧‘m’的音调延迟(或音调频率)可以被表示成L_m。根据下列等式，可以把音调延迟L_m量化成量化值

{\hat{L}}_{m} = \hat{δ} L_{m} + η_{m_{1}} L_{m_{1}} + η_{m_{2}} L_{m_{2}} + . . . + η_{m_{n}} L_{m_{n}}

其中值L_m1，L_m2，…，L_mn分别是帧m₁，m₂，…m_N的音调延迟(或音调频率)，值η_m1，η_m2，…，η_mn是相应的权值，而

由下列等式获得：

\hat{δ} L_{m} = L_{m} - η_{m_{1}} L_{m_{1}} - η_{m_{2}} L_{m_{2}} - . . . - η_{m_{n}} L_{m_{n}}

并用已知的各种标量或矢量量化技术量化。在特定实施例中，实现了只用四比特量化

\hat{δ} L_{m} = L_{m} - L_{m - 1}

的低比特率有声语音编码方案。

在一个实施例中，整个帧或其部分的原型音调周期或短期频谱是根据下列的描述进行的。如上所讨论，有声帧的原型音调周期可以通过首先把时域波形转换成频域来有效地量化(在语音域或LP残留域)，在频域中信号可以被表示成幅度和相位矢量。然后可以用下面描述的方法的组合来独立地量化幅度和相位矢量的所有或某些要素。同样如上面所提到的，在诸如MBE或谐波编码方案等其他方案中，帧的复合短期频谱表示可以被分解成幅度和相位矢量。因此，下列的量化方法，或者它们的适当解释，可以被用于上述的任一种编码技术。

在一个实施例中，可以如下地量化幅度值。幅度谱可以是固定维数的矢量，或者可变维数的矢量。另外，幅度谱可以被表示成低维功率矢量和通过功率矢量规范化原始幅度谱得到的规范化幅度谱矢量的组合。下列方法可以被应用与上述要素(即，幅度谱、功率谱或者规范化幅度谱)的任一个，或其一部分。帧‘m’的幅度(或功率、或规范化幅度)矢量的子集可以被表示成A_m。首先用下列等式计算幅度(或功率、或规范化幅度)预测误差矢量：

δ A_{m} = A_{m} - {\overset{'}{a}}_{m_{1}}^{T} A_{m_{1}} - {\overset{'}{a}}_{m_{2}}^{T} A_{m_{2}} - . . . - {\overset{'}{a}}_{m_{N}}^{T} A_{m_{N}}

其中A_m1，A_m2，…，A_mN分别是帧m₁，m₂，…m_N的幅度(或功率、或规范化幅度)矢量的子集，而值

{\overset{'}{a}}_{m_{1}}^{T}, {\overset{'}{a}}_{m_{2}}^{T}, . . ., {\overset{'}{a}}_{m_{N}}^{T}

是相应的权值矢量的转置。

随后可以用各种已知VQ方法中的任一种来把预测误差矢量量化成表示为

的量化误差矢量。随后通过下列等式给出A_m的量化版本：

{\hat{A}}_{m} = \hat{δ} A_{m} + {\overset{'}{a}}_{m_{1}}^{T} A_{m_{1}} + {\overset{'}{a}}_{m_{2}}^{T} A_{m_{2}} + . . . + {\overset{'}{a}}_{m_{N}}^{T} A_{m_{N}}

权值

建立了量化方案中的预测量。在特定实施例中，上述预测方案已经被实现成用六比特量化两维功率矢量，以及用十二比特量化十九维规范化的幅度矢量。按照这种方法，可能用总共十八个比特量化原型音调周期的幅度谱。

在一个实施例中，可以如下地量化相位值。帧‘m’的相位矢量的子集可以被表示为_m。可能把_m量化成等于参考波形的相位(整个帧或其部分的时域或频域)，并对参考波形的一个或多个转换频带施加零或更多的线性偏移。在1999年7月19日提交的，美国专利申请序列号No.09/365491，题为“METHODAND APPRATUS FOR SUBSAMPLING PHASE SPECTRUM INFORMATION”的专利中描述了这样的量化技术，上述专利申请已转让给本发明的受让人，并通过引用完整地引入这里。这样的参考波形可以是帧m_N的变形，或者任何其他预定的波形。

例如，在采用低比特率、有声语音编码方案的实施例中，帧‘m-1’的LP残留首先根据预先建立的音调轮廓(已经被引入电信工业协会临时标准TIA/EIA IS-127中)被扩展到帧‘m’。以类似于提取帧‘m’的非量化原型的方法从扩展波形中提取原型音调周期。随后可以得到提取的原型的相位_m-1’有下列等式：_m＝_m-1’。用这种方法，可能通过不用任何比特从帧‘m-1’的波形转换的相位的预测来量化帧‘m’的原型的相位。

在特定实施例中，上述的预测量化方案已经被实现成只用三十八个比特编码有声语音帧的LPC参数和LP残留。

因此，已经描述了用于预测量化有声语音的全新的和改进的方法和设备。本领域的技术人员将会理解，在整个上面的描述中所引用的数据、指令、命令、信息、信号、比特、符号以及码片有利地可以用电压、电流、电磁波、磁场或磁性粒子、光场或光粒子或他们的任意组合来表示。本领域的技术人员进一步可以注意到这里结合实施例所描述的各种示范逻辑框图、模块、电路和算法步骤可以被实现成电子硬件、计算机软件或两者的组合。大致就它们的功能描述了各展示的部件、框图、模块、电路以及步骤。功能被实现成硬件或软件要根据特定的应用和整个***被施加的设计限制。技术人员将意识到在这些情况下硬件和软件的可互换性，以及该如何为每个特定应用实现描述的功能。作为例子，这里结合实施例所揭示的各示范逻辑块、模块、电路以及算法步骤可以被实现成或由被设计成进行这里所描述的功能的数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑器件、离散门或晶体管逻辑、诸如寄存器和FIFO等离散硬件组件、执行一组固件指令的处理器、任何常规可编程软件模块和处理器或他们的任意组合来进行。处理器可以有利地是微处理器，但是作为替换，处理器可以是任何常规处理器、控制器；微控制器或状态机。软件模块可以驻于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动硬盘、CD-ROM或本领域已知的任何其他形式的存储媒介中。如图8所示，示范处理器600有利地被耦合至存储媒介602，以使得可以从存储媒介602读取信息，或者把信息写入存储媒介602。可替换地，存储媒介602可以被集成入处理器600。处理器600和存储媒介602可以驻于ASIC(未示出)中。ASIC可以驻于电话(未示出)。可替换地，处理器600和存储媒介602可以驻于电话中。处理器600可以被实现成DSP和微处理器的组合，或者用DSP核心结合的两个微处理器，等。

因此就已经显示和描述了本发明的较佳实施例。但是，本领域的普通技术人员将清楚在不离开本发明的精神或范围的情况下可以对这里所揭示的实施例做出一些变更。因此，除了根据下列的权利要求之外，本发明将不受限制。

Claims

1.一种语音编码器输出帧，包括：

用于经量化的音调滞后值的编码本地址索引；

用于经量化的幅度预测误差矢量的编码本地址索引；

用于经量化的相位矢量子集的编码本地址索引；以及

用于线谱信息分量的经量化的目标误差矢量的编码本地址索引，其中从有声语音帧提取音调滞后值、幅度、相位和线谱信息。

2.如权利要求1所述的语音编码器输出帧，其特征在于，所述经量化的音调滞后值是基于由以下公式所描述的量化音调滞后值的：

\hat{δ} L_{m} = L_{m} - η_{m_{1}} L_{m_{1}} - η_{m_{2}} L_{m_{2}} - . . . - η_{m_{N}} L_{m_{N}}

其中值L_m1，L_m2，...，L_mN分别是帧m₁，m₂，...m_N的音调滞后，值η_m1，η_m2，...，η_mN是相应的权值。

3.如权利要求1所述的语音编码器输出帧，其特征在于，所述经量化的幅度预测误差矢量是基于由以下公式所描述的量化幅度预测误差矢量(δA_m)的：

{δA}_{m} = A_{m} - {\overset{'}{a}}_{m_{1}}^{T} A_{m_{1}} - {\overset{'}{a}}_{m_{2}}^{T} A_{m_{2}} - . . . - {\overset{'}{a}}_{m_{N}}^{T} A_{m_{N}}

其中A_m1，A_m2，...，A_mN分别是帧m₁，m₂，...m_N的幅度矢量的子集，而值

{\overset{'}{a}}_{m_{1}}^{T}, {\overset{'}{a}}_{m_{2}}^{T}, . . ., {\overset{'}{a}}_{m_{N}}^{T}

是相应的权值矢量的转置。

4.如权利要求1所述的语音编码器输出帧，其特征在于，所述经量化的相位矢量子集是基于由以下公式所描述的量化相位矢量子集(_m)的：

_m＝_m-1’

其中_m-1’表示提取的原型的相位。

5.如权利要求1所述的语音编码器输出帧，其特征在于，所述线谱信息分量的经量化的目标误差矢量是基于由以下公式所描述的线谱信息分量的目标误差矢量(T_M ⁿ)的：

n_{M}^{n} = \frac{(L_{M}^{n} - β_{1}^{n} {\hat{U}}_{M - 1}^{n} - β_{2}^{n} {\hat{β}}_{M - 2}^{n} - . . . - β_{P}^{n} {\hat{U}}_{M - P}^{n})}{β_{0}^{n}}; n = 0,1, . . ., N - 1

其中，值

{{\hat{U}}_{M - 1}^{n}, {\hat{U}}_{M - 2}^{n}, . . ., {\hat{U}}_{M - P}^{n}; n = 0,1, . . ., N - 1}

是紧邻帧M前的P个帧的线谱信息参数的贡献，而值

{β_{1}^{n}, β_{2}^{n}, . . ., β_{P}^{n}; n = 0,1, . . ., N - 1}

是各自的权值，并且使得

{β_{0}^{n} + β_{1}^{n} +, . ., + β_{P}^{n} = 1; n = 0, 1, . . ., N - 1} .

6.一种形成语音编码器输出帧的方法，包括：

对音调滞后值进行量化；

对幅度预测误差矢量进行量化；

对相位矢量子集进行量化；以及

对线谱信息分量的目标误差矢量进行量化；

为经量化的音调滞后值、经量化的幅度预测误差矢量、经量化的相位矢量子集以及经量化的线谱信息分量的目标误差矢量中的每一个确定编码本地址索引；以及

从所述各编码本地址索引形成所述语音编码器输出帧。