CN1241169C

CN1241169C - 语音中非话音部分的低数据位速率编码

Info

Publication number: CN1241169C
Application number: CNB99815573XA
Authority: CN
Inventors: A·达斯; S·曼朱那什
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 1998-11-13
Filing date: 1999-11-12
Publication date: 2006-02-08
Anticipated expiration: 2019-11-12
Also published as: ES2238860T3; JP2002530705A; US6820052B2; ATE286617T1; HK1042370B; WO2000030074A1; US20020184007A1; US20050043944A1; DE69923079T2; US6463407B2; EP1129450B1; DE69923079D1; AU1620700A; KR20010080455A; CN1815558B; CN1342309A; KR100592627B1; US7146310B2; HK1042370A1; CN1815558A

Abstract

一种用于语音的非话音部分的低数据速率编码方案，它包括这样一些步骤：从语音帧获取高时间分辨率能量系数、使能量系数量化、从量化的能量系数中产生高时间分辨率的能量包络，以及用能量包络的量化值形成随机产生的噪声矢量从而重新构筑残留信号。能量包络可以采用线性***技术来产生。可以获得后处理测量，并将其与预定的阈值比较，以确定编码规则是否执行恰当。

Description

语音中非话音部分的低数据位速率编码

发明背景

I.发明领域

本发明总的涉及语音处理领域，本发明尤其涉及语音中非话音部分的低数据位速率编码的方法和装置。

II.技术背景

采用数字技术进行话音传输已经非常广泛，尤其是在长途和数字无线电话应用领域更是这样。接着，这又在确定可以在信道上发送的最少信息量并同时保持重新构筑的语音感觉质量方面，引起了人们的兴趣。如果发送信息是通过简单地进行取样和数字化来进行的，则为实现传统的模拟电话语音质量时需要每秒64千位(kbps)数量级的数据速率。然而，通过采用语音分析，随后采用适当的编码、传输，再在接收机处重新合成，可以大大减小数据速率。

我们把采用获取与人的语音发生模型有关的参数对语音进行压缩的技术的装置称为语音编码器。语音编码器将输入的语音信号分为一些时间段，或者是一些分析帧。语音编码器通常包括编码器或译码器，或编码译码器。编码器对输入的语音帧进行分析，并获取某些相关的参数，随后将这些参数量化成二进制表述，即，量化成一组数据位或二进制的数据包。这些数据包在通信信道上传送到接收机和译码器。译码器对数据包进行处理，并将它们解量化，产生参数，随后再用这些解量化的参数，对这些语音帧进行重新合成。

语音编码器的作用是通过去除语音中所有固有的自然冗余，将数字化的语音信号压缩成低数据位速率的信号。数字压缩是通过用一组参数来代表输入的语音帧并用量化来代表具有一组数据位的参数来实现的。如果输入的语音帧的数据位数是N_i，而由语音编码器所产生的数据包的数据位数是N。，那么由语音编码器所实现的压缩倍数是C_r＝N_i/N_o。我们所面临的挑战是在实现目标压缩倍数的同时，保持高话音质量的译码语音。语音编码器的性能取决于(1)上述语音模型或分析及合成处理过程的组合的良好程度，以及(2)在每帧的目标数据位速率N_o时，参数量化过程进行的量化程度。所以，语音模型的目标是用每帧较少的一组参数，来捕获语音信号的基本部分或目标话音质量。

在低数据位速率下有效地对语音进行编码的一种有效的技术是多模式编码。多模式编码对不同类型的输入语音帧实施不同的模式规则或编译码规则。每一种模式或编译码过程以最有效的方式来表达某种类型的语音段(即，发声的、不发声的，或者是背景噪声)。采用一种外部模式决定机构来检查输入的语音帧，并对采用什么模式用于该帧作出决定。通常，通过从输入的帧中取出几个参数，并对它们进行评估，而作出采用哪一种模式的决定，以开环方式决定所采用的模式。所以，模式决定是在事先不知道输出语音的准确情况即按照语音质量或其他的特性测量来说输出语音与输入的语音有多大的相似程度而作出的。语音编译码器的一种典型的开环模式决定见美国专利5,414,796，该专利已转让给本发明的受让人。

多模式编码可以是固定速率的，对每一帧采用相同数量的数据位N_o；也可以采用变速率的，这时，不同的模式采用不同的数据位速率。变速率编码仅采用将编译码器参数编码成适合获得目标质量水平的数据位数。因此，采用变数据位速率(VBR)技术，在明显较低的平均速率下，可以得到与固定速率、更高速率编码器相同的目标话音质量。典型的变速率语音编码器见美国专利5,414,796，该专利已转让给本发明的受让人。

目前，人们无论是在商业上还是在研究兴趣上都强烈地希望开发一种能在中等的到较低数据位速率(在2.4到4kbps或以下的范围内)下工作的高质量的语音编码器。其应用范围包括无线电话、卫星通信、互联网电话、各种多媒体和话音流应用、话音邮件以及其他的话音储存***。其驱动力是在数据包丢失的情况下，需要具有高容量，以及对较强性能的要求。近来建立各种语音编码标准的努力是推动低速语音编码规则的研究和开发的另一直接的驱动力。低速语音编码器在每一许可的应用带宽下生成更多的信道或用户，并且与合适信道编码附加层耦合的低速语音编码器可以适合编码器技术规范的整个数据位预算，并在信道出现差错的情况下，仍具有较强的性能。

所以，多模式VBR语音编码是一种在低数据位速率下对语音进行编码的有效的机制。传统的多模式技术需要对各个语音段(如，非话音的、话音的以及过渡部分)设计有效的编码方案或模式以及用于背景噪声或无声的模式。语音编码器的全部性能取决于每一种模式工作的良好程度，而编码器的平均速率取决于用于非话音的、话音的、以及语音其他部分不同模式的数据位速率。为了实现低平均速率下的目标质量，必须设计一些有效的、高性能的模式，并且其中的某些模式必须在较低的数据位速率下工作。通常，话音的和非话音的语音段是在高数据速率下捕获的，而背景噪声和无声部分是用在明显较低的速率下工作的模式来代表的。所以，需要有一种低数据速率的编码技术，在采用每一帧最少数量的数据位的时候能够捕获语音的非话音部分。

发明概述

本发明是一种采用每一帧最少数量的数据位准确捕获语音的非话音部分的低数据速率编码技术。因此，按照本发明对语音的非话音部分进行编码的方法最好包括这样一些步骤，即，从一个语音帧中获取高时间分辨率的能量系数；对高时间分辨率的能量系数进行量化处理；从经量化的能量系数中产生高时间分辨率的能量包；并且通过使随机生成的噪声矢量具有能量包络的量化值来重新构筑残留的信号。

本发明还提供了一种对语音的非话音部分进行编码的语音编码器，它包括从一个帧的语音中获取高时间分辨率的能量系数的装置；使高时间分辨率的能量系数量化的装置；从量化的能量系数中产生高时间分辨率的能量包络的装置；以及通过使随机产生的噪声矢量具有量化的能量包络值来重新构筑残留信号的装置。

本发明还提供了对语音的非话音部分进行编码的语音编码器，它最好包括从一个帧的语音中获取高时间分辨率的能量系数的模块；使高时间分辨率的能量系数量化的模块；从量化的能量系数中产生高时间分辨率的能量包络的模块；以及通过使随机产生的噪声矢量具有量化的能量包络值来重新构筑残留信号的模块。

附图简述

图1是由语音编码器在每一端处终断的通信信道的方框图。

图2是一编码器的方框图。

图3是一译码器的方框图。

图4是描述对用于语音的非话音部分进行低数据速率编码的技术的步骤的流程图。

图5A-E给出的是信号幅度对于离散时间的关系。

图6是描绘锥形进位矢量量化编码过程的功能方框图。

较佳实施例的详细描述

图1中，第一编码器10接收数字化的语音取样s(n)，并对取样信号s(n)进行编码，用于在传输介质12或通信信道12上传输到第一译码器14。译码器14对经编码的语音取样信号进行译码，并合成输出语音信号s_合成(n)。对于沿相反方向上进行的传输，第二编码器16对数字化的语音取样信号s(n)进行编码，而该取样信号是在通信信道18上传输的。第二译码器20接收经编码的语音取样信号，并对其进行译码，产生经合成的输出语音信号s_合成(n)。

语音取样信号S(n)代表已经按照本领域方法(如，脉冲编码调制(PCM)、压扩μ律或A律)中的任何一种方法数字化和量化的语音信号。

正如本领域中人们所知道的那样，语音取样信号S(n)被组织成输入数据帧，其中，每一帧包含预定数量的数字化语音取样信号s(n)。在一种典型的实施例中，采用8kHz的取样速率，这时，每一20毫秒的帧包含160个取样信号。在下面描述的实施例中，从8kbps(全速率)到4kbps(二分之一速率)到2kbps(四分之一速率)到1kbps(八分之一)，数据传输的速率在逐个帧的基础上是可变的。最好数据传输速率是可变的，这是因为对于包含相对较少语音信息的数据帧来说，可以有选择地采用较低的数据速率。正如本领域中的普通技术人员所了解的那样，也可以采用其他的取样速率、帧大小和数据传输速率。

第一编码器10和第二译码器20一起包含一个第一语音编码器或语音编译码器。同样，第二编码器16和第一译码器14一起包含一个第二语音编码器。本领域中的技术人员能够理解，语音编码器能够用数字信号处理器(DSP)、专用集成电路(ASIC)、离散电路的逻辑门电路、固件或传统的可编程软件模块和微处理器来构成。软件模块可以做在RAM存储器、按块擦除存储器、寄存器、或本领域中已知的其他形式的可写储存介质。也可以用任何一种传统的处理器、控制器或状态机来代替微处理器。特别设计用于语音编码的专用集成电路见美国专利5,727,123和申请日为1994年2月16日、标题为“声码器专用集成电路”的美国专利申请08/197,417，二者均已转让给本发明的受让人。

图2中，可以用在语音编码器中的编码器100包括：模式决定模块102、基音估计模块104、LP分析模块106、LP分析滤波器108、LP量化模块110和残留量化模块112。输入语音帧s(n)被提供到模块决定模块102、基音估计模块104、LP分析模块106以及LP分析滤波器108。模式决定模块102根据每一输入语音帧s(n)的周期性，产生模式索引I_M和模式M。按照周期性对语音帧进行分类的各种方法见申请日为1997年3月11日、标题是“METHOD AND APPARATUS FOR PERFORMING REDUCEDRATE VARIABLE RATE VOCODING”的美国专利申请08/815,354，该专利申请已转让给本发明的受让人。这些方法也已并入电信行业协会行业暂行标准TIA/EIA IS-127和TIA/EIA IS-733。

基音估计模块104根据每一输入的语音帧s(n)产生基音索引I_P和滞后值P₀。LP分析模块106对每一输入的语音帧s(n)执行线性预测分析，产生LP参数a。LP参数a被提供到LP量化模块110。LP量化模块110还接收模式M。LP量化模块110产生LP索引I_LP以及经量化的参数。LP分析滤波器108除了输入语音帧s(n)以外还接收经量化的LP参数。LP分析滤波器108产生LP残留信号R[n]，它代表输入语音帧s(n)和量化的线性预测参数之间的误差。LP残留R[n]、模式M和量化LP参数被提供到残留量化模块112。根据这些值，残留量化模块112产生残留索引I_R和经量化的残留信号

图3中，语音编码器中可以使用的译码器200包括LP参数译码模块202、残留译码模块204、模式译码模块206以及LP合成滤波器208。模式译码模块206接收模式索引I_M并对其进行译码，由此产生模式M。LP参数译码模块202接收模式M，和LP索引I_LP。LP参数译码模块202对接收值进行译码，以产生经量化的LP参数。残留译码模块204接收残留索引I_R、基音索引I_P和模式索引I_M。残留译码模块204对接收值进行译码，产生量化的残留信号

经量化的残留信号

和经量化的LP参数被提供到LP合成滤波器208，由它来合成经译码的输出语音信号[n]。

图2所示编码器100各种模块的操作和构成以及图3中所示译码器是本领域中已知的，其详细描述见L.B Rabiner和R.W.Schafer的Digital Processing ofSpeech Signal，396-453(1978)。典型的编码器和典型的译码器见美国专利5,414,796。

图4中的流程图描述了一种按照一种实施例用于语音的非话音段低数据速率编码技术。图4中所示的低速率非话音编码模式提供了一种在更低平均数据速率下的多模式语音编码器，通过准确捕获每一帧数量较少的数据位的非话音部分，它保留了整体较高的话音质量。

在步骤300，编码器对非话音的以及不是非话音的输入语音帧执行外部数量确定和识别。速率的确定是通过考虑到从语音帧S[n]获取的几个参数来完成的，这里，n＝1，2，3，…，N，比如，帧的能量(E)、帧的周期(Rp)以及频谱倾斜(Ts)。将这些参数与一组预定的阈值比较。根据比较的结果，判断当前帧是否是非话音的。如下所述，如果当前帧是非话音的，则将其编码为非话音的帧。

按照下面的等式，可以确定帧的能量：

E = \frac{1}{N} * Σ_{m = 1}^{N} S [m] * S [m]

按照下面的等式，可以决定帧的周期：

Rp＝所有k中的最大值

k＝1，2，…，N

这里，是x的自相关函数。按照下面的等式，可以确定频谱倾斜：

Ts＝(Eh/El)

这里，Eh和El是Sl[n]和Sh[n]的能量值，Sl和Sh是原始语音帧S[n]的低通和高通分量，它们可以由一组低通滤波器和高通滤波器来产生。

在步骤302，进行LP分析，产生非话音帧的线性预测残留。线性预测(LP)是采用本领域中众所周知的技术来完成的，详见美国专利5,414,796，和L.B.Rabiher与R.W.Schafer的Digital Processing of Speech Signals 396-458(1978)。N取样的非话音LP残留R[n]是从输入语音帧S[n]中产生的，这里，n＝l，2，…，N。正如在上面对比文献中所描述的那样，采用已知的LSP量化技术，在线性频谱对(LSP)域中使LP参数量化。原始语音信号幅度与离散时间索引之间的关系见图5A中所示。经量化的非话音语音信号幅度与离散时间索引之间的关系见图5B所示。原始非话音残留信号幅度与离散时间索引之间的关系见图5C所示。能量包络幅度与离散时间索引之间的关系见图5D所示。经量化的非话音残留信号幅度与离散时间索引之间的关系见图5E所示。

在步骤304，获取非话音残留信号的精细时间分辨率能量参数。执行下面的步骤，从非话音残留R[n]中获取几个(M)本地能量参数E_i，这里，i＝1，2，…，M。将N个取样残留R[n]分成(M-2)子块X_i，这里，i＝1，2，3，…，M-1，每一块X_i的长度是L＝N/(M-2)。从前一帧的过去(past)量化残留中得到L个取样的过去残留块X₁。(L个取样的过去残留块X₁含有最后语音帧N个取样残留的最后L个取样)。从下一个帧的LP残留中得到L个取样的将来残留块X_M。(L个取样的将来残留块X_M含有下一个语音帧N取样LP残留开头的L个取样。)按照下面的等式，从M个块X_i中的每一个中产生M个本地能量参数E_i，这里，i＝1，2，…，M。

E = \frac{1}{L} * Σ_{m = 1}^{N} X_{i} [m] * X_{i} [m]

在步骤306，按照锥形进位矢量量化(PVQ)方法，用Nr个数据位，对M个能量参数进行编码。所以，用Nr个数据位对M-1个本地能量值E_i进行编码，形成量化的能量值W_i，这里，i＝2，3，…，M。采用数据位N₁，N₂，…，N_K的K个步骤的PVQ编码方案，从而N₁+N₂+…+N_K＝Nr，即，用于量化非话音残留R[n]的数据位总数。对于k个级(stage)中的每一个级，执行下面的步骤(这里，k＝1，2，…，K)。对于第一级(即，k＝1)，将频带数设置在B_k＝B₁＝1，并且频带长度设置在L_k＝1。对于每一频带B_k，按照下面的等式，设置平均值meanj，这里，j＝1，2，…，B_k：

{mean}_{j} = \frac{1}{L_{j}} * Σ_{m = 1}^{L_{j}} E_{m}

用N_k＝N₁将B_k平均值mean_j量化，而形成平均值qmean_j的量化组，这里，j＝1，2，…，B_k。将属于每一频带B_k的能量除以相关量化的平均值qmean_j，而产生新的一组能量值{E_k，i}＝{E_1，j}，这里，i＝1，2，…，M。在第一级的情况下(即，对于k＝1)，对于每一i，(i＝1，2，…，M)：

E_1.l＝E_i/qmeans₁

分成子频带、获取每一频带的平均值、用每一级的数据位使平均值量化，并且随后将子频带的分量除以子带的量化平均值，对于每一以后的级k，重复这一过程，这里k＝2，3，…，K-1。

在第k级，采用全部N_k个数据位，用为每一频带而设计的各个VQ，使B_k子频带中每一个的分矢量量化。M＝8以及级＝4的PVQ编码过程是通过图6中所示的例子来描述的。

在步骤308，形成M个量化的能量矢量。通过用最终残留的分矢量和量化平均值最终使上述PVQ编码过程反向，从编码簿(codebook)和代表PVQ信息的Nr个数据位中形成M个量化的能量矢量。图7中通过举例，描述了M＝3以及级k＝3时的PVQ译码过程。正如本领域中的普通技术人员能够理解的那样，非话音的(UV)增益可以用任何一种传统的编码技术来量化。编码技术方案并非仅限于图4-7中所描述的实施例的PVQ方案。

在步骤310，形成高分辨率的能量包络。按照下面计算，从经译码的能量值W_i，形成N个取样(即，语音帧的长度)，高时间分辨率的能量包络ENV[n]，这里，n＝1，2，3，…，N，i＝1，2，3，…，M。M个能量值代表语音当前残留M-2个子帧的能量，每一子帧的长度L＝N/M。W₁和W_M的值分别代表最后的残留帧的过去的L个取样，和下一个残留帧未来L个取样的能量。

如果W_m-1、W_m和W_m+1分别代表第m-1个、第m个和第m+1个子带的能量，那么对于n＝m*L-L/2至n＝m*L+L/2，代表第m个子帧的能量包络ENV[n]的采样计算如下：对于n＝m*L-L/2，一直到n＝m*L，

ENV [n] = \sqrt{W_{m - 1}} + (1 / L) * (n - m * L + L) * (\sqrt{W_{m} - W_{m - 1}})

并且对于n＝m*L，一直到n＝m*L+L/2，

ENV [n] = \sqrt{W_{m}} + (1 / L) * (n - m * L) * (\sqrt{W_{m + 1}} - \sqrt{W_{m}})

假设m＝2，3，4，…，M，对于M-1个频带中的每一个频带，重复对能量包络ENV[n]进行计算的步骤，以计算整个能量包络ENV[n]，这里，对于当前残留帧，n＝1，2，…，N。

在步骤312，通过使能量包络ENV[n]对随机噪声进行着色，形成量化后的非话音残留信号。按照下面的等式，形成量化后的非话音残留qR[n]：

qR[n]＝噪声[n]*ENV[n]，n＝1，2，…，N

这里，噪声[n]是具有单位方差的随机白噪声信号，它是由与编码器和译码器同步的随机数发生器模拟产生的。

在步骤314，形成量化的非话音语音帧。正如在本领域中以及在上述美国专利5,414,796中以及L.B.Rabiner与R.W.Schafer在Digital Processing of SdeechSignal，396-458(1978)中所描述的那样，采用传统的LP合成技术，通过将量化后的非话音语音进行逆向LP滤波，产生量化的非话音残留qS[n]。

在一种实施例中，通过测量感测的(perceptual))误差测量如感测的信噪比(PSNR)，可以执行质量控制步骤，而PSNR定义如下：

PSNR = 10 * \log 10 \frac{Σ_{n = 1}^{N} {(x [n] - e [n])}^{2}}{Σ_{n = 1}^{N} e [n] * e [n]}

这里，x[n]＝h[n]*R[n]，而e(n)＝h[n]*qR[n]，“*”表示卷积或滤波操作，h(n)是感测的加权LP滤波器，而R[n]和qR[n]分别是原始的和量化的非话音残留。将PSNR与一预定的阈值比较。如果PSNR小于该阈值，则非话音编码方案就不会进行恰当地得到执行，并且可以执行更高速率的编码方式，代替更精确地捕获当前帧。另一方面，如果PSNR超过预定的阈值，则非话音的编码方案就得到了很好的执行，并保留该模式判断。

上文中已经描述了本发明的较佳实施例。然而，对本领域中普通技术人员而言，在不偏离本发明的精神和范围的情况下，还可以对这些实施例作各种各样的修正。所以，本发明并非仅限于这些实施例，而应当以权利要求书来限定本发明。

Claims

1.一种对语音的非话音部分进行编码的方法，其特征在于，它包含下述步骤：

从语音帧的时域表述中获取能量系数，其中，预定数量的子帧含有语音的话音及非话音部分；

使所述能量系数量化；

从所述量化的能量系数，插值形成能量包络；以及

通过用重新构筑的能量包络形成随机产生的噪声矢量，重新构成残留信号。

2.如权利要求1所述的方法，其特征在于，按照锥形进位矢量量化方案，执行所述量化步骤。

3.如权利要求1所述的方法，其特征在于，所述产生步骤是用线性***的方法来完成的。

4.如权利要求1所述的方法，其特征在于，它还包含这样一些步骤，即，获得后处理性能测量，并且将所述后处理性能测量与一预定的阈值比较。

5.如权利要求1所述的方法，其特征在于，所述产生步骤包含产生能量包络，包括前一帧残留预定个数的过去取样的能量表述。

6.如权利要求1所述的方法，其特征在于，所述产生步骤包含产生能量包络，包括下一帧残留预定个数的未来取样的能量表述。

7.一种对语音的非话音部分进行编码的语音编码器，其特征在于，它包含：

从一个语音帧的时域表述中获取能量系数的线性预测分析滤波器(108)，其中，预定数量的子帧含有语音的话音及非话音部分；

对所述能量系数进行量化处理的残留量化器(112)；

从所述量化的能量系数中重新构筑光滑的能量包络的残留译码器(204)；以及

用所述重新构筑的光滑能量包络形成随机产生的噪声矢量从而重新构筑残留信号的线性预测合成滤波器(208)。

8.如权利要求7所述的语音编码器，其特征在于，所述用于量化的残留量化器包含按照锥形进位矢量量化方案进行量化的装置。

9.如权利要求7所述的语音编码器，其特征在于，所述用于产生的残留译码器包含一个线性***模块。

10.如权利要求7所述的语音编码器，其特征在于，它还包含获得后处理性能测量的装置和将所述后处理性能测量与一预定阈值比较的装置。

11.如权利要求7所述的语音编码器，其特征在于，所述用于产生的残留译码器包含产生能量包络的装置，所述能量包络包括前一残留帧的预定数量的过去取样的能量表述。

12.如权利要求7所述的语音编码器，其特征在于，所述用于产生的残留译码器装置包含产生能量包络的装置，所述能量包络包括下一个残留帧的预定数量的未来取样的能量表述。

13.如权利要求7所述的语音编码器，其特征在于，所述的获取能量系数的线性预测分析滤波器被配置为获取高时间分辨率能量系数。