CN1420487A

CN1420487A - 1kb/s线谱频率参数的一步插值预测矢量量化方法

Info

Publication number: CN1420487A
Application number: CN02156676A
Authority: CN
Inventors: 鲍长春
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2002-12-19
Filing date: 2002-12-19
Publication date: 2003-05-28

Abstract

1kb/s线谱频率参数的一步插值预测矢量量化方法，属于语音信号处理，可应用于中低速率语音编码和参数语音合成***中。本发明矢量量化的工作过程是在计算机处理器中完成，其特征在于，基于矢量量化原理，利用LSF参数的帧间和帧内相关性，在帧内采用一步预测和在帧间采用一步内插的方法设计了一种1kb/s LSF参数的矢量量化器，对通过一步内插预测过程消除冗余度的LSF预测残差矢量进行矢量量化，获得了透明的量化结果，满足了低速率语音编码对声道参数进行透明量化的要求。

Description

1kb/s线谱频率参数的一步插值预测矢量量化方法

技术领域

1kb/s线谱频率参数的一步插值预测矢量量化方法，属于语音信号处理，可应用于中低速率语音编码和参数语音合成***中。

背景技术

表征声道特性的线性预测(LP-Linear Prediction)参数的高效量化问题是语音信号处理研究领域的热点研究课题。若想获得高质量的合成语音，必须采用高效的量化技术对LP系数进行量化，使由LP系数量化引起的平均谱失真小于1dB，从而满足高质量的语音编码和语音合成***中对LP系数要“透明量化”的要求。迄今为止，线谱频率参数LSF(LSF-LineSpectrum Frequencies)参数是表达LP系数的最有效方式，在相对低的编码速率，使用LSF参数可以获得高质量的合成语音。

对于低速率语音编码，人们希望用尽可能少的比特数量化LSF参数，达到透明量化的指标。标量量化是常见的一种LSF参数量化方法，这种方法是对每一个LSF参数分别量化，若要达到平均谱失真小于1dB，则每帧至少需要32比特。在低速率语音编码情况下，比如在5kb/s以下速率，分配给LSF参数的比特数比较少，这时标量量化显然不是适合的方法。

由于矢量量化在相同的比特数下能比标量量化给出更低的量化失真，所以，在低速率语音编码和参数语音合成中，LSF参数的量化主要采用矢量量化的方法，但直接应用矢量量化方法会存在码书存储量大、计算复杂度高等问题。为了克服这些问题，人们大多采用各种次优矢量量化方法，如，多级矢量量化、***矢量量化和预测矢量量化等。但这些方法透明量化LSF参数所需的比特率都较高，一般都在1kb/s以上。

发明内容

表征语音声道特性的p个线谱频率(LSF-Line SpectrumFrequencies)参数不但在相邻帧之间存在很强的相关性，而且p个线谱频率之间也存在很强的相关性，有效地消除这两种相关性，可大大提高LSF参数的量化效率。

本发明是基于矢量量化原理，利用LSF参数的帧间和帧内相关性，在帧内采用一步预测和在帧间采用一步内插的方法设计了一种1kb/s LSF参数的矢量量化器，对通过一步内插预测过程消除冗余度的LSF预测残差矢量r⁽ⁿ⁾进行矢量量化。

本发明矢量量化的工作过程是在计算机处理器中完成，其技术方案如图1所示。

图1中ω⁽ⁿ⁾为去除均值的第n帧LSF矢量，

为去除均值的第n帧LSF的量化矢量，

为第n帧ω⁽ⁿ⁾的预测矢量，r⁽ⁿ⁾为第n帧LSF的预测误差矢量，为第n帧量化的LSF预测误差矢量，k₁ ⁽ⁿ⁾和k₂ ⁽ⁿ⁾分别表示第n帧两个LSF残差码书的码矢量标号。图1的工作原理如下：

编码端：

首先，将第n帧量化的第i-1个线谱频率与第n-1帧量化的第i个线谱频率的加权和作为第n帧的第i个线谱频率的预测值

，即

{\tilde{ω}}_{i}^{(n)} = α_{i} {\hat{ω}}_{i - 1}^{(n)} + β_{i} {\hat{(ω)}}_{i}^{(n - 1)}, i = 1,2, \cdot \cdot \cdot, p

式中α_i和β_i称为权系数。由于本发明仅考虑了第n帧与第n-1帧的LSF相关性以及第n帧的第i个LSF和第i-1个LSF的相关性，所以称上述加权求和过程为一步内插预测过程，一步内插是指将第n-1帧量化的第i个线谱频率乘以权系数β_i，一步预测是指将第n帧量化的第i-1个线谱频率乘以权系数α_i，所以，我们又称α_i和β_i为帧内预测系数和帧间内插系数。权系数α_i和β_i可以从训练序列中估计出来，并在量化器中保持为常数。α_i和β_i的具体估计方法为：

令第i个LSF的平方预测误差为：

E_{i} = Σ_{n = 1}^{N_{f}} {[r_{i}^{(n)}]}^{2} = Σ_{n = 1}^{N_{f}} {[ω_{i}^{(n)} - α_{i} {\hat{ω}}_{i - 1}^{(n)} - β_{i} {\hat{ω}}_{i}^{(n - 1)}]}^{2}

式中N_f为LSF训练矢量的总数，r_i ⁽ⁿ⁾为r⁽ⁿ⁾的第i个元素。估计时用原始数据ω_i ⁽ⁿ⁾代替量化数据。根据最小二乘估计原理，令E_i/α_i＝0和E_i/β_i＝0，并解二元一次方程，得系数α_i和β_i为：

α_{i} = \frac{(Σ_{n = 1}^{N_{f}} ω_{i}^{(n)} ω_{i - 1}^{(n)}) (Σ_{n = 1}^{N_{f}} ω_{i}^{(n - 1)} ω_{i}^{(n - 1)}) - (Σ_{n = 1}^{N_{f}} ω_{i}^{(n)} ω_{i}^{(n - 1)}) (Σ_{n = 1}^{N_{f}} ω_{i}^{(n - 1)} ω_{i - 1}^{(n)})}{(Σ_{n = 1}^{N_{f}} ω_{i - 1}^{(n)} ω_{i - 1}^{(n)}) (Σ_{n = 1}^{N_{f}} ω_{i}^{(n - 1)} ω_{i}^{(n - 1)}) - {(Σ_{n = 1}^{N_{f}} ω_{i - 1}^{(n)} ω_{i}^{(n - 1)})}^{2}}, i = 2,3, \cdot \cdot \cdot, 10,

β_{i} = \frac{(Σ_{n = 1}^{N_{f}} ω_{i}^{(n)} ω_{i}^{(n - 1)}) (Σ_{n = 1}^{N_{f}} ω_{i - 1}^{(n)} ω_{i - 1}^{(n)}) - (Σ_{n = 1}^{N_{f}} ω_{i}^{(n)} ω_{i - 1}^{(n)}) (Σ_{n = 1}^{N_{f}} ω_{i - 1}^{(n)} ω_{i}^{(n - 1)})}{(Σ_{n = 1}^{N_{f}} ω_{i - 1}^{(n)} ω_{i - 1}^{(n)}) (Σ_{n = 1}^{N_{f}} ω_{i}^{(n - 1)} ω_{i}^{(n - 1)}) - {(Σ_{n = 1}^{N_{f}} ω_{i - 1}^{(n)} ω_{i}^{(n - 1)})}^{2}}, i = 2,3, \cdot \cdot \cdot, 10,

α₁＝0.0

β_{1} = \frac{Σ_{n = 1}^{N_{f}} ω_{i}^{(n)} ω_{i}^{(n - 1)}}{Σ_{n = 1}^{N_{f}} ω_{i}^{(n - 1)} ω_{i}^{(n - 1)}}

第二，将输入量化器的无偏线谱频率ω_i ⁽ⁿ⁾与其预测值

相减，得到LSF残差矢量r⁽ⁿ⁾。预测误差r_i ⁽ⁿ⁾的动态范围比ω_i ⁽ⁿ⁾的动态范围减小了很多，因而非常适合于作为量化的对象以提高量化的效率，这一点可以从图2和图3的归一化统计直方图中看出。其中，图2是ω_i ⁽ⁿ⁾的统计直方图，图3是r_i ⁽ⁿ⁾的统计直方图，横坐标表示归一化的LSF预测误差。

第三，将预测误差矢量r⁽ⁿ⁾***成两个子矢量，令前四个分量构成一个子矢量，后六个分量构成一个子矢量，这两个子矢量分别与两个10bit码书中的码矢量进行Paliwal加权失真比较，得到两个重构的残差子矢量

i＝1，…，4和

i＝5，…，10，这里k₁ ⁽ⁿ⁾和k₂ ⁽ⁿ⁾分别表示进入信道的两个残差码书的码矢量标号，将这两个重构的残差子矢量合并，得到重建的残差矢量

图1中的LSF残差码书由1个4维矢量码书和1个6维矢量码书构成，每个码书均包含1024个码矢量，即各为10比特码书。4维矢量码书由r⁽ⁿ⁾的前4个元素的训练序列获得，6维矢量码书由r⁽ⁿ⁾的后6个元素的训练序列获得。4维和6维预测残差码书均采用传统的LBG算法训练，训练数据为汉语语音，长度约为1个小时，采样率为8kHz，精度为16位线性PCM。

4维和6维残差输入矢量分别与4维和6维残差码书中的每一个码矢量进行失真比较时，使用的失真测度为：

E_{1} = Σ_{i = 1}^{4} {[C_{i} W_{i} (r_{i}^{(n)} - {\hat{r}}_{i}^{(n)} (k_{1}^{(n)}))]}^{2}

和

E_{2} = Σ_{i = 5}^{10} {[C_{i} W_{i} (r_{i}^{(n)} - {\hat{r}}_{i}^{(n)} (k_{2}^{(n)}))]}^{2}

式中C_i和W_i为Paliwal加权因子，γ＝0.15为Paliwal经验常数。

第四，将重构的残差矢量

加上预测矢量

得到LSF的无偏重构矢量，该重构矢量将用于下一帧的一步内插预测。

译码端：

首先，译码端根据收到的标号k₁ ⁽ⁿ⁾和k₂ ⁽ⁿ⁾，通过查表从两个码书中找到对应的重构残差子矢量 i＝1，…，4和

i＝5，…，10，将这两个重构的残差子矢量合并，得到重建的残差矢量

第二，用一步内插预测过程得到LSF的预测矢量

第三，将加上预测矢量得到LSF的无偏重构矢量

第四，将加上LSF的均值，得到最终恢复的LSF参数。该均值是事先从所有LSF训练矢量集中计算得到的，在量化器中为常数。

获得了透明的量化结果，满足了低速率语音编码对声道参数进行透明量化的要求。

附图说明图1 LSF参数的一步插值预测矢量量化器原理框图；图2 10个LSF的统计直方图；图3 10个LSF残差的统计直方图；图4. LSF参数谱失真统计直方图；

具体实施方式

按照图1所示本发明的方法框图，在进行LSF参数的量化前，首先，对去除直流成分的输入语音信号进行线性预测分析，帧长为20毫秒，窗为哈明窗，长度为240个样点，窗的中心位于当前帧的右边界，即窗覆盖了前一帧的120个样点和当前帧的120个样点；第二，对加窗的语音进行自相关估计，并使用莱文逊-杜宾递归算法获取10阶LP系数；第三，用0.998^k，k＝1，…，10乘以LP系数来获取30HZ共振峰带宽展宽的LP系数；最后，将LP系数转化为LSF参数，并减去均值得到无偏的LSF参数ω_i ⁽ⁿ⁾，i＝1，2，…，10。下面给出矢量量化器的实施过程：

编码端：

第一步，按一步内插预测方程计算ω_i ⁽ⁿ⁾的预测值

。由于此时并不知道当前帧的量化矢量元素，这里暂时用ω_i ⁽ⁿ⁾代替，则此时的

计算为：

{\tilde{ω}}_{i}^{(n)} = α_{i} ω_{i - 1}^{(n)} + β_{i} {\hat{ω}}_{i}^{(n - 1)}, i = 1,2, \cdot \cdot \cdot, 10

第二步，按下式计算预测误差矢量元素r_i ⁽ⁿ⁾：

r_{i}^{(n)} = ω_{i}^{(n)} - {\tilde{ω}}_{i}^{(n)}, i = 1,2, \cdot \cdot \cdot, 10

第三步，按下式将r_i ⁽ⁿ⁾的前4维矢量与4维残差码书中的每个矢量进行失真比较，将产生最小失真的码矢量对应的标号k₁ ^(k)传给译码端：

E_{1} = Σ_{i = 1}^{4} {[C_{i} W_{i} (r_{i}^{(n)} - {\hat{r}}_{i}^{(n)} (k_{1}^{(n)}))]}^{2}

第四步，按下述逻辑计算的前四个元素

{\tilde{ω}}_{1}^{(n)} = β_{1} {\hat{ω}}_{1}^{(n - 1)}

{\hat{ω}}_{1}^{(n)} = {\hat{r}}_{1}^{(n)} (k_{1}^{(n)}) + {\tilde{ω}}_{1}^{(n)}

for i＝2 to 4

{\tilde{ω}}_{i}^{(n)} = α_{i} {\hat{ω}}_{i - 1}^{(n)} + β_{i} {\hat{ω}}_{i}^{(n - 1)}

{\hat{ω}}_{i}^{(n)} = {\hat{r}}_{i}^{(n)} (k_{1}^{(n)}) + {\tilde{ω}}_{i}^{(n)}

end

第五步，按下式将r_i ⁽ⁿ⁾的后6维矢量与6维残差码书中的每个矢量进行失真比较，将产生最小失真的码矢量对应的标号k₂ ⁽ⁿ⁾传给译码端：

E_{2} = Σ_{i = 5}^{10} {[C_{i} W_{i} (r_{i}^{(n)} - {\hat{r}}_{i}^{(n)} (k_{2}^{(n)}))]}^{2}

在此步骤中，为了保证LSF的有序性，在6维码书中仅搜索

r_{5}^{(n)} (k_{2}^{(n)}) + {\tilde{ω}}_{5}^{(n)} + {\overset{&OverBar;}{ω}}_{5} > {\hat{ω}}_{4}^{(n)} + {\overset{&OverBar;}{ω}}_{4}

的码矢量。这里，

{\tilde{ω}}_{5}^{(n)} = α_{5} {\hat{ω}}_{4}^{(n)} β_{5} {\hat{ω}}_{5}^{(n - 1)} .

第六步，按下述逻辑计算

的后六个元素

{\hat{ω}}_{5}^{(n)} = {\hat{r}}_{5}^{(n)} (k_{2}^{(n)}) + {\tilde{ω}}_{5}^{(n)}

for i＝6 to 10

{\tilde{ω}}_{i}^{(n)} = α_{i} {\hat{ω}}_{i - 1}^{(n)} + β_{i} {\hat{ω}}_{i}^{(n - 1)}

{\hat{ω}}_{i}^{(n)} = {\hat{r}}_{i}^{(n)} (k_{2}^{(n)}) + {\tilde{ω}}_{i}^{(n)}

end至此，编码端完成了全部任务。

译码端：当收到来自编码端的码矢量标号k₁ ⁽ⁿ⁾和k₂ ⁽ⁿ⁾后，同编码端一样，按如下逻辑得到译码的无偏LSF矢量：

{\tilde{ω}}_{1}^{(n)} = β_{1} {\hat{ω}}_{1}^{(n - 1)}

{\hat{ω}}_{1}^{(n)} = {\hat{r}}_{1}^{(n)} (k_{1}^{(n)}) + {\tilde{ω}}_{1}^{(n)}

for i＝2 to 4

{\tilde{ω}}_{i}^{(n)} = α_{i} {\hat{ω}}_{i - 1}^{(n)} + β_{i} {\hat{ω}}_{i}^{(n - 1)}

{\hat{ω}}_{i}^{(n)} = {\hat{r}}_{i}^{(n)} (k_{1}^{(n)}) + {\tilde{ω}}_{i}^{(n)}

end

for i＝5 to 10

{\tilde{ω}}_{i}^{(n)} = α_{i} {\hat{ω}}_{i - 1}^{(n)} + β_{i} {\hat{ω}}_{i}^{(n - 1)}

{\hat{ω}}_{i}^{(n)} = {\hat{r}}_{i}^{(n)} (k_{2}^{(n)}) + {\tilde{ω}}_{i}^{(n)}

end最后重建的LSF矢量为：

ω_{i}^{(n)} (q) = {\overset{&OverBar;}{ω}}_{i} + {\hat{ω}}_{i}^{(n)}, i = 1,2, \cdot \cdot \cdot 10

实验效果：

本发明用训练语音外的500秒汉语语音产生2500个LSF矢量，经过图1所示的矢量量化器量化，按国际通用的谱失真计算方法，当每帧分配20比特(4维和6维残差码书各用10比特)用于量化LSF参数时，得到的平均谱失真为0.94dB，谱失真介于2dB和4dB之间的帧的百分比仅为1.998％(＜2％)，而谱失真大于4dB的帧的百分比为零，图4给出了谱失真统计直方图，这些数据说明，本发明中的LSF参数一步插值预测矢量量化方法在1kb/s(＝帧速率×比特/帧＝50×20)达到了透明的量化性能。

Claims

1、1kb/s线谱频率参数的一步插值预测矢量量化方法，包含在计算机处理器中完成对语音信号的线谱频率参数(LSF)进行量化，本发明的特征在于基于矢量量化原理，利用LSF参数的帧间和帧内相关性，在帧内采用一步预测和在帧间采用一步内插的方法设计了一种1kb/s LSF参数的矢量量化器，对通过一步内插预测过程消除冗余度的LSF预测残差矢量r⁽ⁿ⁾进行矢量量化，矢量量化的工作流程如下：

编码过程：

首先，将第n帧量化的第i-1个线谱频率与第n-1帧量化的第i个线谱频率的加权和作为第n帧的第i个线谱频率的预测值，即

{\tilde{ω}}_{i}^{(n)} = α_{i} {\hat{ω}}_{i - 1}^{(n)} + β_{i} {\hat{ω}}_{i}^{(n - 1)}, i = 1,2, \cdot \cdot \cdot, p

式中α_i和β_i称为权系数，又称α_i和β_i为帧内预测系数和帧间内插系数；一步内插预测过程是指仅考虑第n帧与第n-1帧的LSF相关性以及第n帧的第i个LSF和第i-1个LSF的相关性的加权求和过程；一步内插是指将第n-1帧量化的第i个线谱频率

乘以权系数β_i；一步预测是指将第n帧量化的第i-1个线谱频率乘以权系数α_i；根据最小二乘原理，权系数α_i和β_i可以从LSF的训练序列中计算出来，并在量化器中保持为常数；

第二，将输入量化器的无偏线谱频率ω_i ⁽ⁿ⁾与其预测值相减，得到LSF残差矢量r⁽ⁿ⁾；

第三，将预测误差矢量r⁽ⁿ⁾***成两个子矢量，令前四个分量构成一个子矢量，后六个分量构成一个子矢量，这两个子矢量分别与两个10bit码书中的码矢量进行Paliwal加权失真比较，得到两个重构的残差子矢量i＝1，…，4和

i＝5，…，10；这里k₁ ⁽ⁿ⁾和k₂ ⁽ⁿ⁾分别表示进入信道的两个残差码书的码矢量标号，将这两个重构的残差子矢量合并，得到重建的残差矢量

第四，将重构的残差矢量加上预测矢量得到LSF的无偏重构矢量，该重构矢量将用于下一帧的一步内插预测过程；

译码过程：

第二，用一步内插预测过程得到LSF的预测矢量

第三，将加上预测矢量得到LSF的无偏重构矢量

第四，将加上LSF的均值，得到最终恢复的LSF参数。