CN102522092B

CN102522092B - 一种基于g．711．1的语音带宽扩展的装置和方法

Info

Publication number: CN102522092B
Application number: CN2011104223861A
Authority: CN
Inventors: 陈喆; 殷福亮; 赵承勇
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2011-12-16
Filing date: 2011-12-16
Publication date: 2013-06-19
Anticipated expiration: 2031-12-16
Also published as: CN102522092A

Abstract

本发明公开了一种基于G.711.1的语音带宽扩展的装置和方法。本发明将G.711.1协议中的高频语音码流进一步压缩，将压缩后的数据使用最低有效位的水印嵌入算法嵌入到窄带语音的编码码流中，解码端使用提取出的高频码流合成宽带语音的高频部分，从而得到宽带语音。本发明提供了分层编码的新解决方案，在窄带语音的传输中建立一条隐藏的信道，用于传输分层编码协议中高频信号的编码码流。这样既利用了分层编码得出宽带语音听觉效果好的优势，同时不会改变现有网络的传输速率。经仿真测试，该方法得到的宽带语音引入的高频噪声小，听觉效果跟原始宽带语音相差极小。

Description

一种基于G.711.1的语音带宽扩展的装置和方法

技术领域

本发明涉及语音处理领域，特别涉及一种基于G.711.1的语音带宽扩展的装置和方法。

背景技术

通常，人类语音在50Hz到8kHz频率之间包含了主要的感知能量。然而，目前电话网络中传输语音的带宽小于4kHz，频带被限制在300Hz到3400Hz之间，这种带宽的语音成为窄带语音。窄带语音在保证一定可懂度的同时，降低了对通信带宽的要求，但是由于窄带语音没有原始语音的高频分量，这种语音听起来不够自然。随着技术的发展，在要求语音质量较高的场合，如电话会议，已经开始使用宽带语音通信。在向宽带语音通信的升级过程中，大范围的更换通信设备是既花费高又耗费时间的。在窄带语音向宽带语音过度期间，一个很好的解决方法是使用人工方式进行语音带宽扩展。

多数的带宽扩展方法是基于预测的源-滤波器模型的方法，该方法是根据人类发声器官的特点，构造一个滤波器模型，用语音的窄带部分预测语音的高频分量。这种方法的缺点是预测出的高频分量不够准确，恢复出的宽带语音效果一般。

G.711.1是ITU提出的脉冲编码调制的宽带编解码协议，该协议有四种编码方案，实现了三种比特率的传输形式。在固定电话网中，传输编码码流速率是64kbps,只能使用G.711.1的第一种编码方式，这种方式和G.711协议完全一致。

基于预测的语音带宽扩展是根据窄带语音和宽带语音的相关性，用窄带语音对宽带语音进行预测，从而得到宽带语音。主流的方法有线性映射法、统计映射法和码本映射法。该技术只需在解码端对窄带语音进行处理，不改变通信协议和传输码流的格式和速率。

基于分层编码的语音带宽扩展技术是将宽带语音的高频部分进行参数编码，然后将编码后的数据进行压缩，使用额外的信道进行传输。由于该方法不改变窄带语音的编解码过程，同时增加了高频部分的信息，故得到的宽带语音效果较好。

现有技术的缺点：基于预测的语音带宽扩展技术虽然不改变原有窄带语音编码格式和码流速率，但由于宽带语音的高频部分是通过窄带语音进行预测得到的，所以这种方法得到的宽带语音与原始宽带语音的差别较大，同时会引入较大的高频噪声。基于分层编码的语音带宽扩展技术得到的宽带语音听觉效果较好，但这是以占用额外的通信信道带宽为代价的，在不改变原有网络设备和协议的情况下无法实现。

发明内容

针对现有两种主流带宽扩展方法的不足，本发明提供了一种基于G.711.1的语音带宽扩展的装置和方法。本发明将两者的优势结合在一起，弥补了两种技术的缺点，实现了一种基于G.711.1的语音带宽扩展方法。该方法将G.711.1协议中的高频语音码流进一步压缩，将压缩后的数据使用最低有效位的水印嵌入算法嵌入到窄带语音的编码码流中，解码端使用提取出的高频码流合成宽带语音的高频部分，从而得到宽带语音。

为了达到上述目的，本发明提供的一种基于G.711.1的语音带宽扩展的方法，将采样频率为16KHz的宽带输入语音信号通过一个双通道QMF分析滤波器模块，并降低采样频率，得到0～4KHz的窄带语音和4～8KHz的高频分量；窄带语音通过G.711编码模块产生传输的码流；从高频分量中提取出语音的MDCT系数，对其进行加权和归一化处理，处理后的参数使用矢量量化技术进行压缩，并对增益进行量化；将得到的索引值等信息嵌入到窄带码流中；在解码端提取出高频参数索引，进行参数的恢复、反归一化、反加权处理，得到高频参数恢复出高频分量，进而合成宽带语音。

步骤A. 预处理和QMF分析滤波模块，包括以下子步骤：

步骤A1.预处理模块：为了去除50Hz工频干扰和直流分量，首先将宽带语音通过一个高通滤波器：

；

经过滤波器后的语音为16KHz采样频率的宽带语音。

步骤A2.使用QMF分析滤波器组将宽带语音分成两个部分：0～8000Hz的窄带语音和8000～16000Hz的高频分量，并分别进行下采样；得到8kHz采样频率的窄带语音和高频分量。

其中，QMF分析滤波器模块使用32阶的FIR滤波器，高通滤波器模块

是由低通滤波器模块

频移得到，也就是使用复正弦序列

调制，即：

。

步骤B.提取和编码MDCT系数模块，包括以下子步骤：

步骤B1.提取MDCT系数模块：采用G.711.1中的方法，取5ms的高频分量作为一帧，每帧包含40个采样点，使用80个采样点的分析窗进行加窗处理，并进行部分重叠相加；高频分量的MDCT系数定义为：

。

其中，

是分析窗，这里定义为：

。

为了减小MDCT系数的动态变换范围，使用归一化参数进行处理；归一化参数计算方法如下：

。

步骤B2. 编码MDCT系数模块：使用单通道的码本对MDCT参数进行矢量量化，包括以下步骤：

首先，MDCT系数经过加权模块处理，得到加权后的MDCT系数

。

为均方根因子，使用加权后的MDCT系数进行计算：

。

归一化MDCT系数计算方法如下：

。

其中，

是为了避免分母为零而加上的一个数，

使用下面公式计算：

。

得到归一化MDCT系数后，将40个系数***为6个6维矢量，其余4系数个置为0，对每个6维矢量进行矢量量化，码本中码字的个数为64，这样每个矢量用码字的序号表示只需6bit；这样每帧MDCT系数经矢量量化后占用36bit，量化后的增益I_Hg占8bit，每帧所有信息共使用44bit；一帧窄带信号有40个采样点，平均每个采样点嵌入1bit高频信息，然后将剩余的4bit均匀嵌入到一帧的码流中。

步骤C. 高频语音恢复与宽带语音合成模块，包括以下子步骤：

在解码端首先提取出的MDCT系数和增益的索引，然后使用索引对MDCT系数进行参数解码。

使用MDCT系数索引I(v)在码本中进行搜索，得到40个归一化的系数,前4个系数为0；使用增益索引得到增益值，经过反量化得到均方根因子,使用均方根因子对归一化的MDCT系数进行处理，得到归一化之前的系数：

。

归一化之前的系数经过反加权处理，即除以对应点的加权系数，得到原始的MDCT系数

。使用原始MDCT系数进行反变换：

。

其中，

是反变换之后没有加下一帧重叠窗时的时域信号，最终得到的高频部分的时域信号为：

。

其中，

是重叠的分析窗，是上一帧没有经过窗函数的时域信号。

步骤D.水印的嵌入与提取模块，包括以下子步骤：

采用最低有效位嵌入算法将MDCT系数的索引和增益索引嵌入到窄带码流的最低位中；由于一帧信号有40个采样点，而嵌入水印的比特数为44bit，首先在每个采样点的最低位嵌入40bit；最后将4bit均匀的嵌入到一帧中的次低位。

提取水印时分别提取码流最低位的信息和4个采样点的次低位信息，从而得到嵌入的44bit MDCT系数。

步骤E.通过QMF合成滤波器组模块将接收的码流进行A律解码，得到8KHz采样频率的低频信号，将低频信号和恢复出的高频信号通过插值的方法将采样频率变为16KHz，分别将其通过低通和高通FIR滤波器；将两信号相加即得到最终16KHz采样频率的宽带信号。

本发明另提供一种基于G.711.1的语音带宽扩展的装置，包括：高通滤波器模块、QMF分析滤波器组模块、提取和编码MDCT模块、高频语音恢复与宽带语音合成模块、水印嵌入与提取模块以及QMF合成滤波器组模块。

所述高通滤波器模块将宽带语音通过一个高通滤波器：

。

经过滤波器后的语音为16KHz采样频率的宽带语音，用于去除50Hz工频干扰和直流分量，

所述QMF分析滤波器组将宽带语音分成两个部分：0～8000Hz的窄带语音和8000～16000Hz的高频分量，并分别进行下采样；得到8kHz采样频率的窄带语音和高频分量。

是由低通滤波器模块

频移得到，也就是使用复正弦序列

调制，即：

。

所述提取和编码MDCT模块用于提取MDCT系数、编码MDCT系数，具体的：

提取MDCT系数模块：采用G.711.1中的方法，取5ms的高频分量作为一帧，每帧包含40个采样点，使用80个采样点的分析窗进行加窗处理，并进行部分重叠相加；高频分量的MDCT系数定义为：

。

其中，

是分析窗，这里定义为：

。

。

编码MDCT系数：使用单通道的码本对MDCT参数进行矢量量化，包括以下步骤：

首先，MDCT系数经过加权处理，得到加权后的MDCT系数

；

为均方根因子，使用加权后的MDCT系数进行计算：

。

归一化MDCT系数计算方法如下：

。

其中，

是为了避免分母为零而加上的一个数，

使用下面公式计算：

。

所述高频语音恢复与宽带语音合成模块在解码端首先提取出的MDCT系数和增益的索引，然后使用索引对MDCT系数进行参数解码。

使用MDCT系数索引I(v)在码本中进行搜索，得到40个归一化的系数,前4个系数为0；使用增益索引得到增益值，经过反量化模块得到均方根因子

,使用均方根因子对归一化的MDCT系数进行处理，得到归一化之前的系数：

。

；使用原始MDCT系数进行反变换：

。

其中，

。

其中，

是重叠的分析窗，

是上一帧没有经过窗函数的时域信号。

所述水印的嵌入与提取模块采用最低有效位嵌入算法将MDCT系数的索引和增益索引嵌入到窄带码流的最低位中；由于一帧信号有40个采样点，而嵌入水印的比特数为44bit，首先在每个采样点的最低位嵌入40bit；最后将4bit均匀的嵌入到一帧中的次低位。

所述QMF合成滤波器组模块将接收的码流进行A律解码，得到8KHz采样频率的低频信号，将低频信号和恢复出的高频信号通过插值的方法将采样频率变为16KHz，分别将其通过低通和高通FIR滤波器；将两信号相加即得到最终16KHz采样频率的宽带信号。

有益效果：本发明使用G.711.1的高频编解码，通过水印嵌入算法实现高频参数的隐藏传输，在不改变传输码流的前提下实现语音带宽扩展。该方法得到的宽带语音引入的高频噪声小，合成宽带语音的听觉效果更接近原始的宽带语音。听觉效果比窄带语音有了较大的提高。

附图说明

图1 本发明原理框图。

图2 本发明MDCT压缩编码框图。

图3 本发明MDCT系数参数解码框图。

具体实施方式

下面结合附图和实施例对本发明进行详细说明。

本实施例提供了分层编码的新解决方案，在窄带语音的传输中建立一条隐藏的信道，用于传输分层编码协议中高频信号的编码码流。这样既利用了分层编码得出宽带语音听觉效果好的优势，同时不会改变现有网络的传输速率。经仿真测试，该方法得到的宽带语音引入的高频噪声小，听觉效果跟原始宽带语音相差极小。

带宽扩展结构框图如图1所示。将采样频率为16KHz的宽带输入语音信号通过一个双通道QMF分析滤波器模块，并通过将采样模块，得到0～4KHz的窄带语音和4～8KHz的高频分量。窄带语音通过G.711编码模块产生传输的码流。从高频分量中提取出语音的MDCT系数，对其进行加权和归一化处理，处理后的参数通过矢量量化模块进行压缩，并对增益进行量化。将得到的索引值等信息嵌入到窄带码流中。在解码端提取出高频参数索引，进行参数的恢复、通过反归一化模块和反加权模块，得到高频参数恢复出高频分量，进而合成宽带语音。

本发明原理框图中涉及的各个模块介绍如下：

1、预处理和QMF滤波器组模块。

为了去除50Hz工频干扰和直流分量，首先将宽带语音通过一个高通滤波器：

Figure 2011104223861100002DEST_PATH_IMAGE047

。

经过滤波器后的语音为16KHz采样频率的宽带语音，而电话线上传输的是窄带语音，所以本文参考G711.1协议使用QMF分析滤波器组将宽带语音分成两个部分：0～8000Hz的窄带语音和8000～16000Hz的高频分量，并分别进行下采样。得到8kHz采样频率的窄带语音和高频分量。QMF分析滤波器使用32阶的FIR滤波器模块，高通滤波器模块

是由低通滤波器模块

频移得到，也就是使用复正弦序列

Figure 2011104223861100002DEST_PATH_IMAGE049

调制，即：

。

2、提取和编码MDCT系数模块。

提取MDCT系数的方法采用G.711.1中的方法，取5ms的高频分量作为一帧，每帧包含40个采样点，使用80个采样点的分析窗进行加窗处理，并进行部分重叠相加。高频分量的MDCT系数定义为：

Figure 2011104223861100002DEST_PATH_IMAGE051

。

其中，

是分析窗，这里定义为：

Figure 2011104223861100002DEST_PATH_IMAGE053

。

为了减小MDCT系数的动态变换范围，使用归一化参数进行处理。归一化参数计算方法如下：

。

为了使MDCT系数嵌入到窄带码流后对原始语音影响较小，必须对MDCT系数进行压缩编码。在G.711.1协议中，使用双通道共轭结构的码本对MDCT参数进行矢量量化，其编码速率为16kbit/s。窄带码流的速率为64kbit/s，码流中平均每个采样点需要嵌入2bit高频信息。经测试，这样对原始语音的影响过大，违背了水印嵌入隐蔽性的要求。本方案考虑到嵌入水印信息不能过多，使用单通道的码本对MDCT参数进行矢量量化。MDCT压缩编码框图如图2所示。

首先，MDCT系数经过加权处理，得到加权后的MDCT系数

Figure 2011104223861100002DEST_PATH_IMAGE055

。

为均方根因子，使用加权后的MDCT系数进行计算：

Figure 2011104223861100002DEST_PATH_IMAGE057

。

归一化MDCT系数计算方法如下：

。

其中

是为了避免分母为零而加上的一个数，

使用下面公式计算：

。

得到归一化MDCT系数后，将40个系数***为6个6维矢量（其余4系数个置为0），对每个6维矢量进行矢量量化，码本中码字的个数为64，这样每个矢量用码字的序号表示只需6bit。这样每帧MDCT系数经矢量量化后占用36bit，量化后的增益I_Hg占8bit，每帧所有信息共使用44bit。一帧窄带信号有40个采样点，平均每个采样点嵌入1bit高频信息，然后将剩余的4bit均匀嵌入到一帧的码流中。

3、高频语音恢复与宽带语音合成模块。

在解码端首先提取出的MDCT系数和增益的索引，然后使用索引对MDCT系数进行参数解码。MDCT系数参数解码框图如图3所示。

使用MDCT系数索引I(v)在码本中进行搜索，得到40个归一化的系数（前4个系数为0）。使用增益索引得到增益值，经过反量化得到均方根因子

。

。使用原始MDCT系数进行反变换：

。

其中，

。

其中，

是重叠的分析窗，

是上一帧没有经过窗函数的时域信号。

4、水印的嵌入与提取模块。

由于嵌入水印的数量较多，而且电话传输时误码率较低，所以采用最低有效位嵌入算法将MDCT系数的索引和增益索引嵌入到窄带码流的最低位中。由于一帧信号有40个采样点，而嵌入水印的比特数为44bit，可以首先在每个采样点的最低位嵌入40bit。最后将4bit均匀的嵌入到一帧中的次低位。

5、QMF合成滤波器组模块。

将接收的码流进行A律解码，得到8KHz采样频率的低频信号，将低频信号和恢复出的高频信号通过插值的方法将采样频率变为16KHz，分别将其通过低通和高通FIR滤波器。将两信号相加即得到最终16KHz采样频率的宽带信号。由于在解码时，将40个归一化MDCT系数的前4个值设为0，所以合成宽带语音中7000～8000Hz频率之间频率成分很小，从而减小了高频部分的噪声。使得听觉效果较好。

小结：本发明利用G.711.1协议中对高频信号的处理，并对参数进行进一步的压缩，使用水印嵌入算法将压缩后的高频参数嵌入到窄带语音的编码码流中。宽带语音的高频部分引入的噪声很小，合成宽带语音的听觉效果有了较大的改善。

以上内容是结合优选技术方案对本发明所做的进一步详细说明，不能认定发明的具体实施仅限于这些说明。对本发明所属技术领域的普通技术人员来说，在不脱离本发明的构思的前提下，还可以做出简单的推演及替换，都应当视为本发明的保护范围。

Claims

1.一种基于G.711.1的语音带宽扩展的方法，将采样频率为16KHz的宽带输入语音信号通过一个双通道QMF分析滤波器模块，并降低采样频率，得到0～4KHz的窄带语音和4～8KHz的高频分量；窄带语音通过G.711编码模块产生传输的码流；使用MDCT系数提取模块从高频分量中提取出语音的MDCT系数，将其通入加权模块和归一化模块进行处理，处理后的参数使用矢量量化模块进行压缩，并对增益进行量化；将得到的索引值信息嵌入到窄带码流中；在解码端提取出高频参数索引，通入反归一化模块和反加权模块，得到的高频参数通入恢复高频分量模块，进而合成宽带语音；包括以下步骤：

步骤A. 预处理和QMF分析滤波模块，包括以下子步骤：

Figure 2011104223861100001DEST_PATH_IMAGE001

；经过滤波器后的语音为16KHz采样频率的宽带语音；

步骤A2.使用QMF分析滤波器组模块将宽带语音分成两个部分：0～8000Hz的窄带语音和8000～16000Hz的高频分量，并分别通入下采样模块；得到8kHz采样频率的窄带语音和高频分量；

Figure 2011104223861100001DEST_PATH_IMAGE002

是由低通滤波器模块

Figure 2011104223861100001DEST_PATH_IMAGE003

频移得到，也就是使用复正弦序列调制，即：

；

步骤B.提取和编码MDCT系数模块，包括以下子步骤：

步骤B1.提取MDCT系数模块：采用G.711.1协议中的方法，取5ms的高频分量作为一帧，每帧包含40个采样点，使用80个采样点的分析窗进行加窗处理，并进行部分重叠相加；高频分量的MDCT系数定义为：

Figure 2011104223861100001DEST_PATH_IMAGE006

；

其中，是分析窗，这里定义为：

；

为了减小MDCT系数的动态变换范围，通入归一化参数模块进行处理；归一化参数计算方法如下：

Figure 2011104223861100001DEST_PATH_IMAGE009

；

首先，MDCT系数通入加权处理模块，得到加权后的MDCT系数

Figure 2011104223861100001DEST_PATH_IMAGE010

；

为均方根因子，使用加权后的MDCT系数进行计算：

Figure 2011104223861100001DEST_PATH_IMAGE012

；

归一化MDCT系数计算方法如下：

；

其中，

Figure 2011104223861100001DEST_PATH_IMAGE014

是为了避免分母为零而加上的一个数，

使用下面公式计算：

Figure 2011104223861100001DEST_PATH_IMAGE015

；

得到归一化MDCT系数后，将40个系数***为6个6维矢量，其余4系数设置为0，对每个6维矢量通入矢量量化模块进行压缩，码本中码字的个数为64，这样每个矢量用码字的序号表示只需6bit；这样每帧MDCT系数经矢量量化后占用36bit，量化后的增益I_Hg占8bit，每帧所有信息共使用44bit；一帧窄带信号有40个采样点，平均每个采样点嵌入1bit高频信息，然后将剩余的4bit均匀嵌入到一帧的码流中；

在解码端首先提取出的MDCT系数和增益的索引，然后使用索引对MDCT系数进行参数解码；

使用MDCT系数索引I(v)在码本中进行搜索，得到40个归一化的系数,前4个系数为0；使用增益索引得到增益值，经过反量化得到均方根因子

Figure 2011104223861100001DEST_PATH_IMAGE016

Figure 2011104223861100001DEST_PATH_IMAGE017

；

归一化之前的系数经过反加权模块，即除以对应点的加权系数，得到原始的MDCT系数

Figure 2011104223861100001DEST_PATH_IMAGE018

；

使用原始MDCT系数通入反变换模块：

Figure 2011104223861100001DEST_PATH_IMAGE019

；

其中，

Figure 2011104223861100001DEST_PATH_IMAGE020

；

其中，

Figure 2011104223861100001DEST_PATH_IMAGE022

是重叠的分析窗，

Figure 2011104223861100001DEST_PATH_IMAGE023

是上一帧没有经过窗函数的时域信号；

步骤D.水印的嵌入与提取，包括以下子步骤：

采用最低有效位嵌入算法将MDCT系数的索引和增益索引嵌入到窄带码流的最低位中；由于一帧信号有40个采样点，而嵌入水印的比特数为44bit，首先在每个采样点的最低位嵌入40bit；最后将4bit均匀的嵌入到一帧中的次低位；

提取水印时分别提取码流最低位的信息和4个采样点的次低位信息，从而得到嵌入的44bit MDCT系数；

步骤E.通过QMF合成滤波器组模块将接收的码流进行A律解码，得到8KHz采样频率的低频信号，将低频信号和恢复出的高频信号通过插值模块将采样频率变为16KHz，分别将其通过低通和高通FIR滤波器；将两信号相加即得到最终16KHz采样频率的宽带信号。

2.一种基于G.711.1的语音带宽扩展的装置，其特征在于，包括：高通滤波器模块、QMF分析滤波器组模块、提取和编码MDCT模块、高频语音恢复与宽带语音合成模块、水印嵌入与提取模块以及QMF合成滤波器组模块；

所述高通滤波器将宽带语音通过一个高通滤波器模块：

Figure 2011104223861100001DEST_PATH_IMAGE024

；

所述QMF分析滤波器组将宽带语音分成两个部分：0～8000Hz的窄带语音和8000～16000Hz的高频分量，并分别进行下采样；得到8kHz采样频率的窄带语音和高频分量；

是由低通滤波器模块

频移得到，也就是使用复正弦序列

调制，即：

；

；

其中，

是分析窗，这里定义为：

；

；

首先，MDCT系数经过加权处理，得到加权后的MDCT系数；

为均方根因子，使用加权后的MDCT系数进行计算：

；

归一化MDCT系数计算方法如下：

；

其中，

是为了避免分母为零而加上的一个数，

使用下面公式计算：

；

得到归一化MDCT系数后，将40个系数***为6个6维矢量，其余4系数设置为0，对每个6维矢量进行矢量量化，码本中码字的个数为64，这样每个矢量用码字的序号表示只需6bit；这样每帧MDCT系数经矢量量化后占用36bit，量化后的增益I_Hg占8bit，每帧所有信息共使用44bit；一帧窄带信号有40个采样点，平均每个采样点嵌入1bit高频信息，然后将剩余的4bit均匀嵌入到一帧的码流中；

所述高频语音恢复与宽带语音合成模块在解码端首先提取出的MDCT系数和增益的索引，然后使用索引对MDCT系数进行参数解码；

；

归一化之前的系数经过反加权处理，即除以对应点的加权系数，得到原始的MDCT系数；使用原始MDCT系数进行反变换：

；

其中，

；

其中，

是重叠的分析窗，

是上一帧没有经过窗函数的时域信号；

所述水印的嵌入与提取模块采用最低有效位嵌入算法将MDCT系数的索引和增益索引嵌入到窄带码流的最低位中；由于一帧信号有40个采样点，而嵌入水印的比特数为44bit，首先在每个采样点的最低位嵌入40bit；最后将4bit均匀的嵌入到一帧中的次低位；