CN101952886A

CN101952886A - 用于对背景噪声信息进行编码的方法和装置

Info

Publication number: CN101952886A
Application number: CN2009801057752A
Authority: CN
Inventors: H·塔戴; S·尚德尔; P·塞蒂亚万
Original assignee: Siemens Enterprise Communications GmbH and Co KG
Current assignee: Unify GmbH and Co KG
Priority date: 2008-02-19
Filing date: 2009-02-02
Publication date: 2011-01-19
Anticipated expiration: 2029-02-02
Also published as: EP2245621A1; KR101364983B1; WO2009103608A1; KR20100120217A; JP5361909B2; JP2011512563A; EP2245621B1; KR20120089378A; RU2461080C2; CN101952886B; US20160035360A1; RU2010138563A; DE102008009719A1; US20100318352A1

Abstract

本发明涉及用于在语音信号编码方法中对背景噪声信息进行编码的方法和装置。本发明的基本构思在于，以与在形成SID帧时相似的方式设置对于语音信号的传输来说已知的可缩放性。按照本发明，对背景噪声信息的窄带的第一部分和宽带的第二部分进行编码并且形成对背景噪声进行说明的SID帧，所述SID帧具有分开的用于所述第一和第二部分的区域。

Description

用于对背景噪声信息进行编码的方法和装置

技术领域

本发明涉及在语音信号编码方法中用于对背景噪声信息进行编码的方法和装置。

背景技术

对于电话通话来说，自电信的开始起就为模拟的语音传输设置了带宽限制。语音传输在从300Hz到3400Hz的受限制的频率范围上进行。

在许多语音信号编码方法中，也为现今的数字电信设置了这样的受限制的频率范围。为此在编码过程之前，实施模拟信号的带宽限制。在此为进行编码和解码而使用编码解码器，由于所说明的在处于300Hz与3400Hz之间的频率范围内的带宽限制，下面也将该编码解码器称作窄带的语音编码解码器(Narrow Band Speech Codec)。在此，所述编码解码器这个概念不仅指用于对音频信号进行数字编码的编码准则，而且指用于以重建音频信号为目的的对数据进行解码的解码准则。

窄带的语音编码解码器比如从ITU-T-介绍G.729中得到公开。借助于在该文献中所说明的编码准则规定以8kbit/s的数据率来传输窄带的语音信号。

此外还已知所谓的宽带的语音编码解码器(Wide Band Speech Codec)，所述宽带的语音编码解码器为改善听觉印象而规定在扩大了的频率范围内进行编码。这样扩大了的频率范围比如在50Hz与7000Hz的频率之间。宽带的语音编码解码器比如从ITU-T-介绍G.729.EV中得到公开。

通常以可缩放的方式来设计用于宽带的语音编码解码器的编码方法。这里可缩放性是指，所传输的经过编码的数据包含不同的隔开的数据块，所述数据块包含经过编码的语音信号的窄带部分、宽带部分和/或完全的带宽。这样的可缩放的设计一方面允许接收者方面的向下兼容性，并且另一方面提供了一种简便的方案，即在传输信道中数据传输容量受限制的情况下在发送者与接收者方面对所传输的数据帧的数据率与大小进行调整。

为通过编码解码器降低数据传输率，通常压缩有待传输的数据。比如通过编码方法进行压缩，在该编码方法中为对语音数据进行编码而确定用于激励信号的参数和滤波参数。然后将所述滤波参数以及详细说明所述激励信号的参数传输给接收者。在那里借助于所述编码解码器将合成的语音信号合成，该合成的语音信号在主观的听觉印象方面与原始的语音信号尽可能地相似。借助于所述也称作“综合分析(Analysis-by-Synthesis)”的方法不是传输所求得的并且数字化的扫描值(样本)本身，而是传输所求得的参数，所述参数能够实现接收者方面对语音信号进行的合成。

另一项用于降低数据传输率的措施提供了一种用于进行不连续传输(Discontinuous Transmission)的方法，该方法在学术界也在DTX这个概念下为人所知。DTX的基本目的是在讲话停顿期的情况下降低数据传输率。

为此在发送者方面使用话音激活检测***(Voice Activity Detection，VAD)，该话音激活检测***在低于特定的信号电平时识别出讲话停顿期。通常在讲话停顿期内，接收者不希望出现完全的静默。相反，完全的静默会使接收者方面烦躁或者甚至使其推测出现连接中断。由于此原因，使用用于产生所谓的舒适噪声(Comfort Noise)的方法。

舒适噪声是为了在接收者方面填充静默阶段而合成的噪声。该舒适噪声用于对继续存在的连接产生主观印象，而不要求为语音信号的传输设置的数据传输率。换句话说，发送者方面用于对噪声进行编码的花费小于用于对语音数据进行编码的花费。不仅对接收者方面感觉到的而且对实际上感觉到的对舒适噪声的合成来说，都以低得多的数据率来传输数据。在这种情况下所传输的数据在学术界也称作SID(静默***描述(Silence Insertion Description))。

目前尚在研制之中的编码解码器集中于语音信息的可缩放的编码。借助于可缩放的解决方案来实现这一点，即编码过程的结果包含不同的数据块，所述数据块包含原始的语音信号的窄带部分、语音信号的宽带部分或者也包括语音信号的完全的带宽，比如50与7000Hz之间的频率范围。

在目前的可缩放的编码方法中，要么在输入噪声信号的整个带宽上要么在输入噪声信号的带宽的截取部分上对所述背景噪声信息进行编码。将编码的噪声信号以SID帧的形式通过DTX方法进行传输并且在接收者方面进行重建。经过重建的也就是说经过合成的舒适噪声因而可能具有与在接收者方面经过合成的语音信息不同的质量。这对接收者的接收来说产生不利影响。

发明内容

本发明的任务是，说明一种在可缩放的语音编码解码器中得到改进的DTX方法的实施方案。

该任务通过独立权利要求的主题得到解决。

本发明的基本构思在于，以与在形成SID帧时相似的方式来设置对于语音信息的传输来说已知的可缩放性。

按本发明的用于对SID帧进行编码的方法用于在运用可缩放的语音信号编码方法的情况下传输背景噪声信息，该方法设置了背景噪声信息的窄带的第一部分与宽带的第二部分的编码。所述编码通常同时并且以不同的方式进行。但是，一个部分的编码自然也可以在时间上错开地在另一个部分的编码之前或者之后进行。所述两个部分的编码同样也可选地以同样的方式进行。在对所述两个部分进行编码后形成SID帧，该SID帧具有分开的用于所述第一部分和第二部分的区域。换句话说，这意味着，在所述SID帧中第一数据区域接收用于编码的第一部分的数据，而与之相分开的第二数据区域则接收用于编码的第二部分的数据。

本发明的主要优点在于，接收者方面可以确定，应该在所传输的SID帧的宽带部分的基础上还是应该在窄带部分的基础上实现舒适噪声。这对于在降低用于语音信息帧的传输速率从而仅仅传输窄带的语音信息这种情况中接收者方面对声音的接收来说特别有利。也就是说如在目前的现有技术中一样，若将窄带语音信息结合宽带的噪声进行合成，那么这对于接收者来说十分烦人。如所述的一样，语音信息帧的传输速率的降低比如可能由在发送者与接收者之间的网络的高负荷(堵塞)所引起。而小得多的SID帧则不受这样的网络瓶颈的影响。因此对于所述小得多的SID帧来说既不要强制降低其数据传输率也不要强制减少其内容。

本发明的有利的改进方案在从属权利要求中得到说明。

按照本发明的有利的第一设计方案，在SID帧的定义中设置了第三部分。该第三部分包含经过编码的用提高了的数据率来编码的背景噪声参数，尽管所述第三部分还始终包含窄带的数据(扩展的窄带的数据或者说“增强的低频带(Enhanced Low Band)”)。具有所述第三部分的SID帧的定义的优点在于，以与传统的窄带编码方法相比得到提高的质量来再现噪声信号并且在此仍保持与标准G.729.B相符。

附图说明

下面借助于附图对本发明的具有其它优点和设计方案的实施例进行详细解释。

在此，唯一的附图是按本发明的SID帧的结构。

具体实施方式：

下面首先在不参照附图的情况下对作为本发明的基础的技术背景进行详细说明。

在当前用于宽带的语音编码解码器的可缩放的编码方法中实施的用于不连续传输(DTX)的方法目前对于背景噪声信息的传输来说不支持为传输语音信息提供的可缩放的特征。

作为目前的应对解决方案，编码操作要么在输入噪声信号的整个带宽上要么在输入噪声信号的带宽的截取部分上进行。由于这个原因存在对方法进行改进的需求。

在过去主要研发了两种类型的语音编码解码器，一方面是窄带的语音编码解码器比如3GPP AMR、ITU-T G.729，并且另一方面是宽带的语音编码解码器比如3GPP AMR-WB、ITU-T G.722。窄带的语音编码解码器用8kHz的扫描频率以通常处于300与3400Hz之间的频率范围内的带宽对语音信号进行编码。宽带的语音编码解码器则用16kHz的扫描频率以处于50与7000Hz之间的频率范围内的带宽对语音信号进行编码。

这些编码解码器中的一些使用DTX方法，即不连续传输方法，用于降低通信信道中的总传输速率。按照DTX方法发送SID帧，其中，所述SID帧的带宽与所述语音信号的带宽相对应。在SID帧中，在讲话停顿期内描述所述背景噪声。

目前处于研制之中的编码解码器集中于可缩放的编码。借助可缩放的解决方案实现了这一点，即编码过程的结果包含不同的数据块，所述数据块包含原始的语音信号的窄带部分、语音信号的宽带部分或也包含语音信号的完全的带宽，也就是比如50和7000Hz之间的频率范围。宽带部分通常从4kHz的频率开始。

目前的DTX方法不支持编码解码器的可缩放的特征。换言之，编码要么在输入语音信号的整个带宽上要么在输入信号的带宽的截取部分上进行。由于这个原因存在着对方法进行改进的需求。

为说明问题，下面对按ITU-T-标准G.729.1的编码方法进行说明。这种编码解码器G.729.1是可缩放的语音编码解码器，在该语音编码解码器中，目前不可缩放的DTX方法在整个带宽上应用。

与识别为“静默时间”的讲话停顿期所不同，所述编码方法在有效的讲话周期内可以用如下方法来表征：

将所述语音信号分解为两部分，即窄带(低频带)部分和宽带(高频带)部分。用8kHz的扫描频率对这两种信号进行扫描。在专门的也称作QMF(正交镜像滤波器(Quadrature Mirror Filter))的带通滤波器中分为窄带部分和宽带部分。

用8和12kbit/s的数据率对所述语音信号的窄带部分进行编码。运用CELP方法(码激励线性预测(Code Excited Linear Prediction))来对语音信号进行编码。对于14kbit/s以上的数据率来说，在进一步考虑G.729.1的“Transform Codec”章节的情况下对所述窄带部分进行改动。再次在当前帧的宽带部分包含语音信号的前提下以14kbit/s的数据率在运用TDBWE方法(时域带宽扩展(Time Domain Bandwidth Extension ))的情况下对所述当前帧的宽带部分进行编码。对于超过14kbit/s的数据率来说运用G.729.1的“Transform Codec”章节。

因为标准G.729.1未提供用于进行不连续传输的方法，因而在讲话停顿期或者说“非有效的讲话周期”运用下面所说明的应对解决方案。

将所述语音信号同样分解为窄带和宽带部分，其中用8kHz的频率对这两个部分进行扫描。分解同样通过QMF滤波器进行。

在使用窄带的SID信息的情况下对所述窄带部分进行编码。将该窄带的SID信息在晚些时刻在与标准G.729兼容的SID帧中发送至接收者。其它的如上面所述的措施可以有利于改进所述窄带的SID部分。

在使用改动过的TDBWE方法的情况下对所述宽带部分进行编码。此外，在所谓的挂起周期(Hangover Period)内用14kbit/s的数据率对所述语音信号进行编码，而同时对在讲话停顿期内识别出的背景噪声进行分析并且调节相应的参数。背景噪声的分析在噪声信号的能量及其频率分布方面进行。但是，与由标准G.729.1所规定的TDBWE方法相反，不对时间上的精细结构进行分析，而是仅仅在帧的范围内形成能量的平均值。

下面借助于附图对按本发明的方法的一种实施方式进行解释。

附图示出了具有分开的区域的SID帧，所述分开的区域用于窄带的第一部分LB(“低频带”)、宽带的第二部分HB(“高频带”)和中间的第三部分ELB(“增强的低频带”)。

在此，所述第一部分LB包含经过编码的用8kbit/s或低于该值的数据率编码的背景噪声参数。所述第一部分LB的数据长度比如为15Bit。

所述第二部分HB包含经过编码的用处于14kbit/s和32kbit/s之间的数据率编码的背景噪声参数。所述第二部分HB的数据长度比如为19Bit。

所述第三部分ELB包含经过编码的用大于8kbit/s比如12kbit/s的数据率编码的背景噪声参数。所述第三部分ELB的数据长度比如为9Bit。具有第三部分ELB的SID帧的定义的优点在于一种可能性，也就是以与传统的窄带的编码方式相比得到提高的质量再现噪声信号并且在此仍保持与标准G.729.B相符。

在讲话停顿期内，在编码器方面获取了背景噪声的特征。所述特征尤其包括背景噪声的时间分布以及频谱形状。将滤波方法用于所述获取过程，该滤波方法考虑了之前的帧中的背景噪声的时间和频谱参数。若在所述背景噪声的特征或强度方面出现显著变化，则在极限值参数(Threshold Values)的基础上判定是否存在对已获取的参数进行更新的需要。

在解码器或者说接收者方面进行以下方法：若接收到“正常的”也就是包含语音信号的帧，则实施通常的解码。用于这样的正常的帧的数据率通常为8kbit/s或者更高。若接收到SID帧，则对舒适噪声进行合成，其中在宽带的SID的情况下对宽带的舒适噪声进行合成并且将其用所读出的放大率输出。

下面用本发明的其它设计方案对按本发明的方法进行说明。

所述设计方案涉及用于将DTX方法引入到宽带的编码解码器中比如G.729.1中的其它细节并且此外涉及用于改动TDBWE方法的方法，所述方法在非有效的帧(Non Active Frames)也就是不含语音信息的帧的期间内支持舒适噪声的合成。

按照一种设计方案设置了以下处理方式。

-产生窄带的SID信息用于产生兼容G.729或者说G.729.B的SID帧(按本发明的SID帧的第一部分LB)

-在使用改动过的TDBWE方法的情况下产生宽带的SID信息(按本发明的SID帧的第二部分HB)

-可选在窄带的和/或宽带的SID信息方面进行改进。

-在发送第一SID帧之前的阶段期间在能量分布和/或频率分布方面分析或者说“获取”所述背景噪声。

-在探测出所述背景噪声的宽带部分的显著变化时或者应该发送所述窄带的SID信息的更新时发送SID帧。

以以下阶段来实施该实施例：

-借助于VAD方法来定义有效的讲话阶段或者说讲话停顿期。

-若通过VAD方法显示出转换为讲话停顿期，则开始挂起周期。在挂起周期内，将编码器的数据率降低至14kbit/s，如果先前的数据率具有更高的数值。对于所述编码器的先前的数据率已经具有大约12kbit/s的数值这种情况来说，将所述数据率降低至8kbit/s的数值。

-在挂起周期内，以与标准G.729中的处理方式相似的方式但是在使用更高数目的帧的情况下在所述窄带部分方面获取所述背景噪声。在此可选可以运用一种滤波方法，通过该滤波方法为当前的帧分配比之前的帧更高的重要性。

-除此以外，在挂起周期内在所述宽带部分中获取所述背景噪声。可选为简化实施过程尤其为降低存储位置需求而使用改动过的TDBWE方法，该方法的特征在于在时域内的简化的编码。可选地可以通过以下方式在改动过的TDBWE方法中进行进一步简化，即所述时域内的编码仅仅与时域内的信号的能量相对应。另一种可选的简化的编码在于运用频谱的平滑方法，因为时域和频域内的能量作为巴塞伐尔定理(Parsevaltheorem)的结果提供相同的值。在所述背景噪声的宽带部分中，也可选可以运用其它的滤波措施，所述滤波措施的目的是为当前的帧分配比之前的帧更高的重要性。

-在结束挂起周期之后发送第一SID帧，该第一SID帧包含对所述背景噪声的粗略的描绘。在挂起周期内获取了对背景噪声的粗略的描述。

-只要通过VAD未探测出有效的阶段(讲话)，则在解码器或者说接收者方面在所接收的SID帧的基础上对舒适噪声进行合成。

-在SID帧的窄带部分中探测背景噪声的变化，其中，跟踪一种与G.729相似的方法，尽管考虑不同的参数。

-在宽带部分使用经过滤波的能量参数用于对背景噪声进行描述。这些能量参数比如包括时域内的包络线的参数tenv_fidx和/或频域内的包络线的参数fenv_fidx[i]，其中相应的标识idx标识相应的帧，并且其中，在频域内由合适的数目的频率值i＝{1，...，NB-SUBBANDS}来形成包络线用于对所述背景噪声的频谱特性进行描述。在使用合适的低通滤波器的情况下从在G.729.1中定义的TDBWE参数中推导出经过滤波的能量参数：

tenv_f_idx＝α_tenv·tenv_idx+(1-α_tenv)·tenv_f_idx-1

fenv_f_idx[i]＝α_tenv·fenv_idx[i]+(1-α_tenv)·fenv_f_idx-1[i]

将所述能量参数相应地运用到频域及时域内的包络参数上。

-监控并且探测所述能量参数的宽带部分中的变化，方法是将目前的噪声信号的经过滤波的能量参数与两组这些参数的比较值进行比较，其中一组比较值是来自具有标识idx-1的之前的帧的参数。

temp_d = 20 \cdot \frac{\log (2)}{\log (10)} \cdot | tenv_f_{idx} - tenv_f_{idx - 1} |

spec_d = 20 \cdot \frac{\log (2)}{\log (10)} \cdot \frac{1}{NB_SUBBANDS} \cdot Σ_{i = 1}^{NB_SUBBANDS} | fenv_f_{idx} [i] - fenv_f_{idx - 1} [i] |

并且其中，另一组比较值由具有标识last_tx的最后传输的帧的参数构成。如果参数差(temp_d、spec_d、temp_ch、spec_ch)之一超过合适地选择的极限值：

temp_ch = 20 \cdot \frac{\log (2)}{\log (10)} \cdot | tenv_f_{idx} - tenv_f_{last_tx} |

spec_ch = 20 \cdot \frac{\log (2)}{\log (10)} \cdot \frac{1}{NB_SUBBANDS} \cdot Σ_{i = 1}^{NB_SUBBANDS} | fenv_f_{idx} [i] - fenv_f_{last - tx} [i] |

则必须发送新的SID更新帧。

-一旦通过VAD识别出讲话周期，则以所需要的传输速率来传输所述语音信号并且在解码器方面结束舒适噪声的合成。由此如在G.729.1中一样出现正常的解码运行。

Claims

1.用于对SID帧(SID)进行编码的方法，用于在运用可缩放的语音信号编码方法的情况下传输背景噪声信息，该方法具有以下步骤：

对所述背景噪声信息的窄带的第一部分(LB)与宽带的第二部分(HB)进行编码；

形成具有分开的用于所述第一部分(LB)与所述第二部分(HB)的区域的SID帧(SID)。

2.按权利要求1所述的方法，其特征在于，对扩展的窄带的第三部分(ELB)进行编码并且形成具有额外的分开的用于所述第三部分(ELB)的区域的SID帧。

3.按前述权利要求中任一项所述的方法，其特征在于，按照本身公知的标准G.729.B的编码准则对所述背景噪声信息的第一部分(LB)进行编码。

4.按前述权利要求中任一项所述的方法，其特征在于，按照改动过的TDBWE方法对所述背景噪声信息的第二部分(HB)进行编码。

5.按前述权利要求中任一项所述的方法，其特征在于，在挂起周期内运用滤波方法来为当前的帧分配比之前的帧高的重要性。

6.具有用于实施按权利要求1至5中任一项所述的方法的装置的编码解码器。

7.按权利要求6所述的编码解码器，其特征在于以公知的ITU-T标准G.729.1进行实施。