CN108231083A

CN108231083A - 一种基于silk的语音编码器编码效率提高方法

Info

Publication number: CN108231083A
Application number: CN201810040152.2A
Authority: CN
Inventors: ***; 张玲; 明艳; 王怡曼
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2018-01-16
Filing date: 2018-01-16
Publication date: 2018-06-29

Abstract

本发明提出一种基于SILK的语音编码器编码效率提高方法。具体实施方法包括：首先，对输入语音信号中添加特定噪声，生成模拟信号，然后对该模拟信号进行长时和短时预测，提高预测滤波器的预测增益，减少量化索引的熵，从而提高编码效率；其次，在编码端通过最小化感知加权重建误差来确定激励信号，在解码端采用后置滤波来压缩量化噪声和信号之间具有较高相关性的频谱区域，通过对噪声整形量化器的输入和重构信号添加不同的加权滤波器，使得以上两个功能在编码端的量化器中得到联合。采用本发明提出的方法，既不需要边带信息，也不用改变比特流格式，又能提高SILK的编码效率。

Description

一种基于SILK的语音编码器编码效率提高方法

技术领域

本发明属于语音通信领域，特别是涉及到一种基于SILK的宽带语音编码器，广泛应用于电话会议、网络语音电话业务(Voice over Internet Protocol,VoIP)、无线通信、游戏平台等实时语音通信场景中。

背景技术

语音是人类最直接、最方便、最高效的信息传递媒介，因此语音信号的传输是大多数通信***具有的基本功能。随着科学技术的发展，图像、文本等非语音信息在信息传递中占据着越来越大的比例，但是有效的传递语音信息仍然是众多通信***必备的功能之一。

在数字通信***中，原始语音信号必须经过数字化后才能进行传输，但语音信号经过模/数转换后，数据量大增，如对语音信号进行16kHz采样、16bit均匀量化后，数码率可达到256kbps。高速率的数字语音信号在通信网中传输时需要更大的带宽，这对频带资源有限的通信***，如蜂窝移动通信等，增加了传输成本，因此，有必要对数字化的语音信号进行压缩编码。

1972年，国际电报电话咨询委员会(Consultative Committee of InternationalTelegraph and Telephone,CCITT)公布了64kbps的语音编码标准G.711，它采用脉冲编码调制(Pulse Code Modulation,PCM)技术，应用于电话通信业务中；1980年，CCITT制定了32kbps自适应差分脉冲编码调制(Adaptive Differential Pulse Code Modulation,ADPCM)语音编码标准G.721；随后，基于分析合成的语音编码算法成为主流，1992年，CCITT公布了16kbps短延时码激励线性预测(Low Delay Code Excited Linear Prediction,LD-CELP)的语音编码方案G.728；1996年制定了8kbps共轭结构代数码激励线性预测(Conjugate Structure Algebraic Code Excited Linear Prediction,CS-ACELP)的语音编码标准G.729。该标准可应用于VoIP和H.323等话音通信领域。随着网络带宽的不断增加，终端处理能力不断增强，用户对通话质量要求也在不断的提高，宽带、超宽带、全频带语音编码技术得到了广泛的研究和应用。

在传统的窄带语音编码标准中，语音信号带宽一般限制在300Hz～3400Hz范围内，采样频率为8kHz。这种带宽的局限性限制了语音的自然度，使得一些特殊音处理效果不尽如意，也制约着语音编码质量的进一步提高。为了实现高品质的语音通信，人们引入了频带为50Hz～7000Hz的宽带语音编码。相对于窄带语音，50Hz～300Hz的低频段扩展部分提高了语音的自然度、现场感和舒适度；3400Hz～7000Hz的高频扩展部分，由于可以更好的区分摩擦音和***音等，从而提升了语音的可懂度。因此，国内和国际上很多研究机构和组织多年来一直在致力于宽带语音编码算法的研究和标准的制定。到目前为止，已制定出了多种宽带语音编码标准：ITU-T G.722、ITU-T G.722.1、ITU-T G.722.2和3GPP2可变速率多模式宽带语音编解码器(Variable-Rate Multimode Wideband,VMR-WB)。2003年3GPP2选定VMR-WB作CDMA2000***的宽带语音编解码器。随后ITU-T又提出了几种新的嵌入式宽带语音编码标准ITU-T G.729.1、ITU-T G.711.1和ITU-T G.718，其中2006年制定的G.729.1最具代表性。G.729.1在G.729的基础上进行了宽带扩展(带宽扩展到50Hz～7000Hz)；2008年3月ITU-T又颁布了标准化的嵌入式宽带语音和音频编码标准G.711.1，其编码速率为64kbps、80kbps、96kbps等；G.718是ITU-T于2008年6月标准化的一个对帧擦除具有鲁棒性的窄带/宽带嵌入式、可变速率语音和音频编码器，编码速率有8kbps、12kbps、16kbps、24kbps和32kbps五种，当进行窄带编解码时，编码器只支持8kbps、12kbps两种速率，宽带编码时，支持全部5种速率；早期的宽带多速率语音编码器主要应用在电视会议中，而现在则主要集中在VoIP与无线应用上。

随着互联网技术的发展和应用的普及，成本低廉的网络电话得到深入研究，世界多个标准化组织和工业实体提出了很多相应的语音编码方案。其中包括国际电信联盟的G.711、G.723.1和G.729A，GIPS公司和Skype公司等业界企业提出的iLBC、SILK等语音编码算法。SILK是Skype公司自行研制的一套语音编解码解决方案，它支持8、12、16和24kHz的采样频率以及6～40kbps的多速率编码比特率。该编码器不仅可以提供实时的伸缩性以适应网络质量的变化，而且可以在比以前网络占用量小于50％的情况下提供超宽带的音频信号，即使在丢包率较高的情况下，依然可以稳定维持一定的通话音质。由于能够在低带宽的环境中提供较优质的通话质量，SILK的应用前景被广泛关注，SILK编码器中关键算法的研究和性能的进一步提升成为目前众多研究者角逐的目标。因此，设计出一种基于SILK高质量和高编码效率的语音编码器，并将其应用到如电话会议、VoIP、无线通信、游戏平台等实时语音通信场景中，具有重要的研究意义和应用价值。

SILK编码时支持冗余信息编码和多帧打包的方式，该方式虽然可以增强SILK的容错能力，但是冗余信息编码会增加比特率，从而影响SILK的编码效率。因此本文旨在不减少编码质量的前提下，提高编码效率。

发明内容

针对现有技术的不足提出一种编码效率较高、编码质量较好的基于SILK的语音编码器。本发明的技术方案如下：其包括编码端的编码步骤及解码端的解码步骤，其中基于SILK的语音编码器编码效率提高方法，步骤如下：

101、输入语音信号，首先对输入语音信号进行语音激活检测(Voice activationdetection,VAD)处理，检测出语音中出现的停顿、静默间隔和有效语音成分；同时，将语音信号通过频率为70Hz的高通滤波器消除所有直流偏置和50Hz或60Hz嗡嗡声；

102、然后对语音信号进行基音分析，SILK通过开环基音分析对语音信号进行清浊音判决，对浊音信号的基音周期进行估计，从而得到基音的自相关系数和基音时延；

103、将高通滤波的输出信号进行噪声整形分析(Noise Shaping Analysis,NSA)，利用NSA得到预滤波器和噪声整形量化器中使用的增益和滤波器系数；

104、将基音分析和NSA得到的信号输入生成模拟信号模块，同时对基音分析输出信号进行长时预测分析(Long Time Prediction,LTP)分析，对NSA的输出进行前置滤波处理；

105、对经过生成模拟信号和高通滤波处理后的信号进一步预测分析，然后将其转换为线谱频率(Linear spectral frequency,LSF)参数，并采用多级矢量量化来提取特征参数，再将量化之后的参数转换为线性预测参数(Linear Predictive Coding,LPC)，通过这一转换实现编解码的同步；

106、在步骤105的基础上进行噪声整形量化(Noise Shaping Quantizer,NSQ)，通过噪声整形使得噪声频谱跟随信号的频谱变化，使得噪声不易被听见；

107、对所提取到的语音特征参数进行区间编码，实现整个编码过程。

进一步的步骤104中生成模拟信号模块采用包含时变源滤波器模型来编码语音信号，该编码器由以下部分组成：

输入由包含一些列连续帧的语音信号组成；

第一个信号处理模块，旨在通过对输入的语音信号帧添加特定噪声信号的方法，来实现对一系列连续帧中的每一个语音信号生成模拟信号的操作。

第二个信号处理模块，旨在确定基于模拟信号帧的LPC系数信号；进一步确定基于输入信号的LPC系数的LPC残差信号；

第三个信号处理模块，旨在通过对LPC系数和LPC残差信号进行算数编码来生成代表语音信号的编码信号。

模拟信号生成步骤具体步骤如下：

A1：首先将输入语音信号和噪声整形滤波器的输出相加作为模拟输出信号的第一个输入，其中噪声整形滤波器由长时整形和短时整形滤波器组成；

A2：将白化噪声和由噪声整形分析得到的量化增益作为模拟输出信号的第二个输入，其中，白化噪声具有如下特点，即它的方差和量化噪声的方差相同的；

A3：将步骤A1和A2所得两个模拟信号的输出相加即可得到最后的模拟输出信号，完成步骤104中模拟信号的生成；

进一步的步骤106中噪声整形量化器单独对信号和编码噪声谱整形，使其能够在相同比特率下获得更高的语音质量。首先预滤波器输出信号乘以一个在NSA过程中计算出的补偿增益G，然后与合成整形滤波器的输出相加，再与一个预测滤波器的输出相减，最后得到一个残差信号，将该残差信号和NSA得到的量化增益相乘，将得到的结果和步骤104中生成的特定噪声输入格型量化器，量化器的量化索引代表输入到区间编码器的激励索引，预测滤波器的输出和激励信号相加从而得到量化的输出信号，同时又将量化输出信号作为合成整形和预测滤波的输入。与经典的NSQ不同，本发明中NSQ的噪声整形直接围绕在量化器的周围并反馈到输入端，将输入输出的语音信号进行比较后返回至量化器的输入端。

本发明的优点及有益效果如下：

采用本发明中基于SILK的语音编码器编码效率提高方法，可以在不影响编码质量的前提下，有效减少编码比特率，从而实现一种高编码效率、高质量的SILK语音编码器，可应用在电话会议、VoIP、无线通信、游戏平台等实时语音通信场景中，因此本发明具有良好的应用前景和实用价值。

附图说明

图1本发明提供的实施例SILK语音编码流程图

图2本发明生成模拟信号模块示意图

图3本发明提供的实施例高效率SILK语音编码流程图

图4本发明噪声整形量化原理框图

图5本发明提供的实施例SILK语音解码流程图

具体实施方法

以下结合附图，对本发明作进一步说明：

SILK语音编码原理框图如附图1所示，整体采用源滤波器经典模型，即对语音产生***建模为基础，经过两级滤波，第一级长时预测滤波器，去除浊音语音中的周期成分，清音则不需要进行LTP处理；第二步进行短时滤波，去除近样点之间的冗余信息，这里采用伯格算法计算得到LPC系数，然后采用多级矢量量化的方法；经过这两级滤波就可以得到激励信号，然后进行增益量化、NSQ和归一化，对归一化后的信号采用区间编码。具体实施步骤如下：

步骤一：输入语音信号，首先对输入语音信号进行VAD处理，检测出语音中出现的停顿、静默间隔和有效语音成分；同时，将语音信号通过频率为70Hz的高通滤波器消除所有直流偏置和50Hz或60Hz嗡嗡声；

步骤二：然后对语音信号进行基音分析，SILK通过开环基音分析对语音信号进行清浊音判决，对浊音信号的基音周期进行估计，从而得到基音的自相关系数和基音时延；

步骤三：将高通滤波的输出信号进行噪声整形分析(Noise Shaping Analysis,NSA)，利用NSA得到预滤波器和噪声整形量化器中使用的增益和滤波器系数；

步骤四：将基音分析和NSA得到的信号输入生成模拟信号模块，同时对基音分析输出信号进行长时预测分析分析，对NSA的输出进行前置滤波处理；

步骤五：对经过生成模拟信号和高通滤波处理后的信号进一步预测分析，然后将其转换为LSF参数，并采用多级矢量量化来提取特征参数，再将量化之后的参数转换为线性预测参数，通过这一转换实现编解码的同步；

步骤六：在步骤五的基础上进行噪声整形量化，通过噪声整形使得噪声频谱跟随信号的频谱变化，使得噪声不易被听见；

步骤七：对所提取到的语音特征参数进行区间编码，实现整个编码过程。

图2给出的是一种提高编码效率的具体实施方法，在编码端生成一种可以和频谱特征相匹配的模拟信号，用该模拟信号代替原始输入信号，然后结合对模拟信号的长时预测和短时预测，来使得预测滤波器的预测增益得到提升，而且使得量化索引的熵减少，从而减少了传输编码语音信号时所需的比特率，提高的编码器的编码效率。

采用包含时变源滤波器模型来编码语音信号，该编码器由以下部分组成：

输入由包含一些列连续帧的语音信号组成；

模拟信号生成步骤具体步骤如下：

S1：首先将输入语音信号和噪声整形滤波器的输出相加作为模拟输出信号的第一个输入，其中噪声整形滤波器由长时整形和短时整形滤波器组成；

S2：将白化噪声和由噪声整形分析得到的量化增益作为模拟输出信号的第二个输入，其中，白化噪声具有如下特点，即它的方差和量化噪声的方差相同的；

S3：将步骤一和步骤二所得两个模拟信号的输出相加即可得到最后的模拟输出信号，完成步骤四中模拟信号的生成；

通过将生成模拟信号模块合理添加到SILK语音编码器，将步骤六得到的量化噪声作为NSQ的输入，即可得到图3所示的高效率SILK语音编码器。用该模拟信号代替原始输入信号，然后结合对模拟信号的长时预测和短时预测，来使得预测滤波器的预测增益得到提升，量化索引的熵减少，从而减少了传输编码语音信号时所需的比特率，提高的编码器的编码效率。

NSQ模块量化残差信号，同时也可以生成激励信号。在编码端通过最小化感知加权重建误差来确定激励信号，在解码端采用后置滤波来压缩量化噪声和信号之间具有较高相关性的频谱区域，本发明中的NSQ通过对输入和重构信号添加不同的加权滤波器，从而使得以上两个功能在编码器的量化器中得到联合。整合编码端的这两个操作不仅仅是为了简化解码端，同时也是为了使编码端使用任意简单/复杂的感知模型来同步/独自地整形量化噪声并增强/抑制频谱区域，采用这种模型，不需要花费边带信息或者改变比特流格式。图4是本发明提供的实施例噪声整形量化原理框图，图中预测滤波器包含LPC和LTP两种预测的滤波器。F_ana和F_syn分别是分析和合成噪声整形滤波器，对于浊音帧他们都包含长时和短时两种滤波器，量化的激励索引由i(n)表示。LTP系数、增益和噪声整形系数每个子帧更新一次，而LPC系数则每帧更新一次。NSQ量化器的输出由公式(1)得到：

公式(1)的第一部分是输入信号整形部分，第二部分是量化噪声整形部分。

图5本发明提供的实施例SILK语音解码流程图。

在接收端，接收到的数据包通过变码长解码器分割成很多帧，这些帧包含在数据包中。每帧包含重构一个20ms帧的输出信号的必要信息。

步骤一：区间解码器。改模块从接收到的比特流中解码语音特征参数，改模块的输出包括生成激励信号的脉冲和增益，以及LTP和LSF码本的索引，该索引用于解码LTP和LPC系数，而该系数可用于对激励信号进行LTP和LPC分析；

步骤二：解码参数。步骤一解码之后可以得到脉冲和增益，若解码得到的语音帧为浊音帧，则可以解码出LTP的目标码本和索引，通过LTP的目标码本解码出LTP系数，对每帧中的四个子帧中都进行同样的处理；LPC系数则通过LSF码本解码得到，码本中的每个矢量来自于码本中的各个阶段；

步骤三：生成激励信号。脉冲信号和量化增益相乘得到激励信号；

步骤四：LTP合成。对于浊音语音，将激励信号e(n)作为LTP合成滤波器的输入，该滤波器可以重建一个被LTP分析滤波器移除的长时自相关序列，并通过公式(2)产生一个LPC激励信号e_LPC(n)；

其中，L是基音时延，b_i是解码LTP系数；

对于清音，输出信号则是激励信号的简单复制，即e_LPC(n)＝e(n)；

步骤五：LPC合成。LPC合成滤波器重建出由LPC分析滤波器过滤掉的短时自相关值，LPC激励信号e_LPC(n)通过LTP系数a_i进行滤波，根据公式(3)可以求出解码信号：

其中d_LPC是LPC合成滤波器的阶数，y(n)是解码输出信号。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种基于SILK的语音编码器编码效率提高方法，其特征在于，其包括编码端的编码步骤及解码端的解码步骤，其中基于SILK的语音编码器编码效率提高方法，步骤具体为：

101、输入语音信号，首先对输入语音信号进行VAD处理，检测出语音中出现的停顿、静默间隔和有效语音成分，同时，将语音信号通过截止频率为70Hz的高通滤波器，消除所有直流偏置和50Hz或60Hz嗡嗡声；

102、对语音信号进行基音分析，SILK通过开环基音分析对语音信号进行清/浊音判决，对浊音信号的基音周期进行估计，得到基音的自相关系数和基音时延；

103、将高通滤波的输出信号进行噪声整形分析，利用噪声整形分析得到预滤波器和噪声整形量化器中使用的增益和滤波器系数；

104、将基音分析和噪声整形分析得到的信号，输入生成模拟信号模块，同时对基音分析输出信号进行LTP分析，对噪声整形分析的输出进行前置滤波处理；

105、对经过生成模拟信号模块和高通滤波处理后的语音信号进一步进行预测分析，然后提取出LSF参数，并采用多级矢量量化来提取特征参数，再将量化之后的参数转换为LPC系数，通过这一转换实现编解码的同步；

106、在步骤105的基础上进行噪声整形量化，通过噪声整形使得噪声频谱跟随信号的频谱变化，使噪声不易被听见；

2.根据权利要求1所述的一种基于SILK的语音编码器编码效率提高方法，其特征在于步骤104中，生成模拟信号模块采用包含时变源滤波器模型来编码语音信号，该编码器由以下部分组成：

输入由包含一些列连续帧的语音信号组成；

第一个信号处理模块，旨在通过对输入的语音信号帧添加特定噪声信号的方法，来实现对一系列连续帧中的每一个语音信号生成模拟信号的操作；

第二个信号处理模块，旨在确定基于模拟信号帧的LPC系数信号，进一步确定基于输入信号的LPC系数的LPC残差信号；

第三个信号处理模块，旨在通过对LPC系数和LPC残差信号进行算数编码来生成代表语音信号的编码信号；

模拟信号生成步骤具体步骤如下：

A3：将步骤A1和A2所得两个模拟信号的输出相加即可得到最后的模拟输出信号，完成步骤104中模拟信号的生成。

3.根据权利要求2所述的一种生成模拟信号模块实现方法，其特征在于：步骤A4中的编码器由以下部分组成：

输入由包含一些列连续帧的语音信号组成；

4.根据权利要求1所述的一种基于SILK的语音编码器的编码效率的提高方法，其特征在于：步骤106中噪声整形量化器单独对信号和编码噪声谱整形，使其能够在相同比特率下获得更高的语音质量，首先预滤波器输出信号乘以一个在NSA过程中计算出的补偿增益G，然后与合成整形滤波器的输出相加，再与一个预测滤波器的输出相减，最后得到一个残差信号，将该残差信号和NSA得到的量化增益相乘，将得到的结果输入一个格型量化器，量化器的量化指标代表输入到区间编码器的激励索引，预测滤波器的输出和激励信号相加从而得到量化的输出信号，同时又将量化输出信号作为合成整形和预测滤波的输入。