CN110010141B

CN110010141B - 用于音频编码中的dtx拖尾的方法和装置

Info

Publication number: CN110010141B
Application number: CN201811579562.0A
Authority: CN
Inventors: 斯蒂芬·布鲁恩; 托马斯·詹森托夫特戈德; 马丁·绍尔斯戴德
Original assignee: Telefonaktiebolaget LM Ericsson AB
Current assignee: Telefonaktiebolaget LM Ericsson AB
Priority date: 2013-02-22
Filing date: 2013-12-12
Publication date: 2023-12-26
Anticipated expiration: 2033-12-12
Also published as: EP3086319B1; US20160005409A1; PL2959480T3; CN105009208B; DK3550562T3; US20190267014A1; EP2959480A1; ES2844223T3; BR112015019988B1; EP3550562B1; EP3086319A1; ES2748144T3; EP2959480B1; US10319386B2; CN105009208A; ES2586635T3; WO2014129949A1; PL3550562T3; BR112015019988A2; EP3550562A1

Abstract

提供了用于音频编码的发送节点和接收节点及其中的方法。所述节点可操作以对话音进行编码/解码并且在话音非活动期间应用不连续传输(DTX)方案，该DTX方案包括发送/接收静音***描述符(SID)帧。发送节点中的方法包括：从多个(N个)拖尾帧中确定代表背景噪声的帧集合Y，以及还向接收节点发送N个拖尾帧，所述N个拖尾帧至少包括所述帧集合Y。该方法还包括：与发送N个拖尾帧相关联地向接收节点发送第一SID帧，其中，第一SID帧包括向接收节点指示所确定的拖尾帧集合Y的信息。该方法使接收节点能够基于最适合于该目的的拖尾帧生成舒适噪声。

Description

用于音频编码中的DTX拖尾的方法和装置

分案说明

本申请是申请日为2013年12月12日、申请号为201380073608.0、发明名称为“用于音频编码中的DTX拖尾的方法和装置”的发明专利申请的分案申请。

技术领域

本文所述的解决方案大体上涉及音频编码，具体地，涉及与音频编码中的不连续传输(DTX)相关联的拖尾帧。

背景技术

诸如3GPP AMR(3GPP TS 26.071)和AMR-WB(3GPP TS 26.171)等的当前音频或话音编码标准以及各种ITU-T话音编码标准(例如，ITU-T推荐G.729、ITU-T推荐G.718)包括不连续传输方案(DTX)，该不连续传输方案(DTX)在话音非活动期间暂停话音传输，并且取而代之地以与用于编码的活动话音的比特率和帧传输率相比明显降低的比特率和帧传输率来发送静音***描述符(SID)帧。DTX的目的是提高传输效率，这进而减少了话音通信的成本和/或增加了给定通信***中同时可能的电话连接的数量。

当前最先进的利用DTX的通信***在活动话音段期间发送常规话音编码帧。在诸如话音暂停等的非活动段期间，这些***更确切地发送SID帧，接收机根据SID帧生成所谓的舒适噪声作为非活动信号的替代信号。为了实现最佳可能的DTX效率，可能期望仅在活动话音期间而非在非活动段期间(例如，在话音暂停期间)发送话音编码帧。

为了对话音和非活动进行区分，在编码侧或发送侧使用语音活动检测器(VAD)。在与活动话音段相对应的帧期间，提升(raise)了VAD标记。该构思实际上并且特别是在话音存在于背景噪声中的情形中，遭受VAD分类错误。也即是说，非活动时段被分类为活动话音时段，反之亦然。VAD的主要问题之一是话音结束点的检测，即，信号从活动话音改变为非活动的精确时间点。该问题的主要原因在于，在话音实际停止之前，很多话音偏移缓慢地衰减，使得聊天进发(talk spurt)结束可能非常好地被背景噪声覆盖。该问题的结果可能是这种话音偏移被分类为非活动，这可能导致未将相应的信号帧作为活动话音而是作为静音信号来编码、发送和重构，其中，针对该静音信号生成舒适噪声。这意味着话音偏移(话音时段的结束)可能被感知为截断的，这导致重构的话音的质量甚至可理解性显著下降。换言之，这可能导致较差的用户体验。

诸如AMR和AMR-WB等的当前最先进的编解码器通过将利用舒适噪声合成的DTX操作的开始延迟到VAD检测偏移之后多个帧来解决该问题。这是使用编码器处的DTX控制逻辑来完成的，DTX控制逻辑延长或添加将输入信号作为活动话音编码(即使VAD标记指示非活动也是如此)的时间段。该时段被称作拖尾时段，并且在AMR和AMR-WB的情况下，拖尾时段的长度为7个帧。

拖尾时段不仅用作用于避免话音后段(或偏移)截断的方式，而且还用作用于SID帧参数分析的方式。在AMR和AMR-WB的情况下，未发送(充分长的)聊天进发之后的第一SID帧参数，而是由解码器根据在拖尾时段期间接收和存储的话音帧参数来计算该第一SID帧参数(3GPP TS 26.092；3GPP TS 26.192)。基于在拖尾时段期间接收的话音帧参数进行SID帧参数的计算的目的是节省传输资源(如果不这样的话，传输资源将花费在SID帧传输上)并且最小化潜在的传输错误对第一SID帧参数的影响。

在所述的最先进解决方案中描述的拖尾时段的主要问题是它折衷了DTX方案的效率。将拖尾帧作为活动话音进行编码，而不论它们是否可能是非活动帧。如果话音在非活动时段之间包括频繁的单独聊天进发，则以高比特率将相当大量的帧作为话音帧而不是舒适噪声帧进行编码。

如果缩短拖尾时段以提高DTX方案的效率，则可能出现相关问题。拖尾时段越短，它未正确地表示非活动噪声信号的可能性越大。这进而可能导致在聊天进发结束之后立即进行的舒适噪声合成的可听下降。

在AMR和AMR WB中，编码器和解码器使用状态机来跟踪DTX拖尾帧，其中，状态机需要在编码器和解码器中是同步的。

发明内容

将期望在音频解码器侧生成代表音频编码器侧的背景噪声的舒适噪声。此外，期望仅使用最少的资源以高效的方式进行该操作。因此，本文所提出的解决方案的目的是使得能够生成代表编码器侧的背景噪声的舒适噪声并且使用有限数量的资源来进行该操作。

本文所提出的解决方案提高了利用DTX进行话音传输的效率，而不会折衷聊天进发结束时的舒适噪声合成的质量。

根据第一方面，提供了一种由发送节点或编码节点执行的方法。所述发送节点能够操作以对诸如话音等的音频进行编码并且与例如通信网络中的其他节点或实体进行通信。所述发送节点还能够操作以在话音非活动期间应用DTX方案，所述DTX方案包括发送SID帧。所述方法包括：从多个(N个)拖尾帧中确定代表背景噪声的帧集合Y。所述方法还包括：向接收节点发送所述N个拖尾帧，所述N个拖尾帧包括所述帧集合Y。所述方法还包括：与发送所述N个拖尾帧相关联地向所述接收节点发送第一SID帧，其中所述SID帧包括向所述接收节点指示所确定的拖尾帧集合Y的信息。上述方法还包括：使所述接收节点能够基于所述拖尾帧集合Y来生成舒适噪声。

根据第二方面，提供了一种由接收节点或解码节点执行的方法。所述解码节点能够操作以对诸如话音等的音频进行解码并且与例如通信网络中的其他节点或实体进行通信。所述解码节点还能够操作以在话音非活动期间应用DTX方案，所述DTX方案包括接收SID帧并且生成舒适噪声。所述方法包括：从发送节点接收N个拖尾帧。此外，与所述N个拖尾帧相关联地接收第一SID帧。基于所接收的SID帧中的信息从所接收的多个(N个)拖尾帧中确定拖尾帧集合Y。此外，基于所述拖尾帧集合Y来生成舒适噪声。

根据第三方面，提供了一种发送或编码节点。所述发送节点能够操作以对诸如话音等的音频进行编码并且能够操作以与例如通信网络中的其他节点或实体进行通信。所述发送节点还能够操作以在话音非活动期间应用DTX方案，所述DTX方案包括发送SID帧。所述发送节点包括处理装置(例如，采取处理器和存储器的形式)，所述存储器包含能够由所述处理器执行的指令。所述处理装置能够操作以从多个(N个)拖尾帧中确定代表背景噪声的帧集合Y。所述处理装置还能够操作以向接收节点发送所述N个拖尾帧，所述N个拖尾帧包括所述帧集合Y；以及还与发送所述N个拖尾帧相关联地向所述接收节点发送第一SID帧，其中所述SID帧包括向所述接收节点指示所确定的拖尾帧集合Y的信息。

根据第四方面，提供了一种接收节点或解码节点。所述接收节点能够操作以对诸如话音等的音频进行解码并且能够操作以与其他节点或实体进行通信。所述接收节点还能够操作以在话音非活动期间应用DTX方案，所述DTX方案包括接收SID帧。所述接收节点包括处理装置(例如，采取处理器和存储器的形式)，所述存储器包含能够由所述处理器执行的指令。所述处理装置能够操作以：从发送节点接收N个拖尾帧；以及还与所述N个拖尾帧相关联地接收第一SID帧。所述处理装置还能够操作以：基于所接收的SID帧中的信息从所述多个(N个)拖尾帧中确定拖尾帧集合Y；以及基于所述拖尾帧集合Y来生成舒适噪声。

根据第五方面，提供了一种计算机程序，包括计算机程序代码，当所述计算机程序代码在发送节点中运行时，所述计算机程序代码使所述发送节点执行根据第一方面所述的方法。

根据第六方面，提供了一种计算机程序，包括计算机程序代码，当所述计算机程序代码在接收节点中运行时，所述计算机程序代码使所述接收节点执行根据第二方面所述的方法。

根据第七方面，提供了一种计算机程序产品，包括根据第五方面所述的计算机程序。

根据第八方面，提供了一种计算机程序产品，包括根据第六方面所述的计算机程序。

附图说明

根据附图中示出的实施例的以下更具体的描述，本文所公开的解决方案的前述和其他目的、特征和优点将显而易见。附图不必按比例绘制，而是重点说明本文公开的解决方案的原理。

图1示出了编码器的框图。编码器包括VAD和拖尾编码器。

图2是操作于DTX的解码器的框图。

图3是VAD和拖尾确定逻辑的框图。

图4是拖尾编码器的框图。

图5是拖尾编码器的流程图。

图6a和图6b是拖尾解码器的流程图。

图7a和图7b是示出了根据本文提出的解决方案由发送节点或编码节点执行的方法的示例性实施例的流程图。

图8是示出了根据本文提出的解决方案由接收节点或解码节点执行的方法的示例性实施例的流程图。

图9至图10是示出了根据本文提出的解决方案的发送节点的示例性实施例的框图。

图11至图12是示出了根据本文提出的解决方案的接收节点的示例性实施例的框图。

具体实施方式

如前所述，在利用不连续传输(DTX)的通信***中，当使用拖尾技术来避免由于不正确的语音活动检测器(VAD)决策而引起的质量下降时，传输效率下降。

在诸如话音暂停等的所谓的非活动信号段，在解码器侧使用在静音***描述符(SID)帧中传输的信息来生成舒适噪声。如果拖尾时段也用于SID参数分析，则其长度优选地并不是刚好与覆盖不正确VAD决策所需的长度一样长，而是略微更长以获取背景信号特性。通常，适合的舒适噪声生成的可能性将随着拖尾时段的变长而增大。另一方面，较长的拖尾时段降低了利用DTX的通信***的效率，这是因为非活动信号帧将作为话音信号帧以较高的比特率和帧传输率被发送。在利用这些技术的通信***中，因此在传输效率与代表性舒适噪声的可能性之间存在折衷。

话音偏移之后的拖尾时段可以是自适应的。对于编码器，这意味着在从1(＝活动话音)向0(＝非活动)切换的VAD决策之后，添加自适应拖尾时段。可以在拖尾时段之后将指明属于拖尾时段的帧的信息与第一SID帧一起发送。在图1中，示出了这种编码器的示意性框图。

解码器可以例如与第一SID帧一起接收关于先前接收的活动话音帧中的哪一些属于拖尾时段的指示。关于属于拖尾时段的帧的经编码的话音信息可以接下来用于解码器侧的SID参数计算。在图2中，示出了解码器的示意性框图。

在下文中，为了解释而非限制的目的，阐述了具体的细节，例如，特定的架构、接口、技术等，以提供对本文所述的构思的全面理解。然而，对于本领域技术人员而言显而易见的是，可以在与这些具体细节发生偏离的其他实施例中实践所述的构思。也即是说，本领域技术人员将能够设想各种布置，虽然在本文中没有具体描述或示出这些布置，但是这些布置具体实现了所述构思的原理并且包括在其精神和范围内。在一些实例中，省略了公知设备、电路和方法的详细描述，以免不必要的细节使根据本构思的描述模糊。本文记载了所述构思的原理、方面和实施例及其具体示例的所有陈述旨在涵盖其结构和功能等同物。此外，这些等同物旨在包括当前已知的等同物和将来开发的等同物，例如，所开发的执行相同功能的任何要素(而不论结构如何)。

因此，例如，本领域技术人员将理解的是，本文的框图可以表示示例性电路或者具体实现解决方案的原理的其他功能单元的构思图示。类似地，将理解的是，任何流程图、状态转换图、伪代码等表示可以实质上在计算机可读介质中表示并且因此由计算机或处理器执行的各种过程，而不论是否显式地示出了这种计算机或处理器。

可以通过使用硬件(例如，电路硬件和/或能够执行存储在计算机可读介质上的编码指令形式的软件的硬件)来提供包括功能框的各种元件(包括但不限于标记或描述为例如“计算机”、“处理器”或“控制器”的元件)的功能。因此，这些功能和所示的功能框将被理解为是硬件实现的和/或计算机实现的，从而是机器实现的。

就硬件实现而言，功能框可以非限制性地包括或涵盖数字信号处理器(DSP)硬件、精简指令集处理器、硬件(例如，数字的或模拟的)电路(包括但不限于专用集成电路(ASIC))、以及能够执行这些功能的状态机(在适合的情况下)。

在本文所建议的解决方案的示例性实施例中，拖尾时段的长度(即，拖尾帧的数量)可以是可变的且自适应的。例如，可以响应于VAD决策和另一指示符来生成自适应拖尾时段。在图3中，示出了VAD的示意性框图。即时VAD决策可以是与VAD的即时话音/非活动分类相对应的标记。每当VAD将信号帧分类为活动话音时，可以提升该标记，否则，可以降低(lower)该标记。可以引入拖尾标记以控制在已经降低即时VAD标记之后添加的拖尾时段的长度。优选地完成这一点，使得确保拖尾帧的信号主要包括背景噪声的代表性部分并且潜在剩余的话音部分是可忽略的。这样做的目的是允许解码侧的可靠SID参数估计，该估计代表非活动噪声信号并且不受潜在剩余话音部分的影响。拖尾标记所基于的有用度量是估计的信噪比(SNR)，其将估计的剩余话音电平与估计的非活动噪声电平进行比较。例如，当该SNR估计高于特定阈值时，可以提升拖尾标记，并且当该SNR估计落入所述阈值之下时，可以结束拖尾时段。将注意的是，拖尾确定逻辑可以生成最终VAD标记，该最终VAD标记可以与其输入端的即时VAD标记不同。

例如，可以响应于估计的SNR来调整拖尾时段的长度。这假定SNR在聊天进发结束时减小。该调整考虑了SNR减小的程度可以随着聊天进发而改变。结果是拖尾时段的以帧为单位的长度是可变参数。根据示例性实施例，对该拖尾长度(即，拖尾指示符)进行编码并且将其发送到解码器。在图4中呈现了拖尾编码器的示意性框图。除了VAD和拖尾标记之外，示例性拖尾编码器还使用了第一SID标记。第一SID标记指示当前帧是否是活动信号编码之后的第一SID。应当注意的是，标记不必显式地信号通知具体变量，而是可以是隐式的，例如，可以根据其他编码器状态变量导出。可以在活动话音帧传输结束之后，将拖尾时段的编码长度作为第一发送的SID帧中包含的信息的一部分来发送。图5示出了用于拖尾指示符编码器的一般性流程图。

根据本文所建议的解决方案的示例性实施例，对在降低即时VAD标记之后的拖尾时段的长度进行调整，使得要被认为用于SID参数估计的帧集合是变量。也即是说，拖尾帧的数量可以是固定的或可变的，但是要被认为用于确定用于生成舒适噪声的SID参数的帧集合不一定等于拖尾帧的数量。在该方法中，假设存在指示在降低即时VAD标记之后的拖尾时段中的每一个帧与SID参数估计的适合性的度量。例如，该度量高于特定阈值的帧可以被认为代表背景噪声，并且因而适合于SID参数估计。该度量可以——同上——基于SNR估计。然后，根据本实施例，在活动话音帧传输结束之后的第一SID帧可以包含与要用于SID参数估计的具体帧集合有关的信息。

举例说明，集合可以包括第一SID帧之前的n个帧。然后，可以使用最大N比特的码字完成对要用于SID参数估计的帧的编码，其中，每一个比特表示第一SID帧之前的相应帧。如果码字中的比特被设置(为1)，则由该比特表示的帧将用于SID参数估计，否则，由该比特表示的帧不用于SID参数估计。

在上面的实施例中使用的SNR度量仅是示例。此外，更高级的度量是可能的。通常，适合的度量必须是关于相应帧是否包含很好地代表非活动噪声信号的噪声的良好指示符。一种此类更高级的度量可以例如将当前帧的功率或频谱特性与最近帧或已经被识别为包含噪声的其他最近帧的相应属性进行比较。

看起来有可能在编码帧的正常比特流中包括用于信号通知编码帧是否是拖尾帧的比特。然而，这被认为是不太有利的，其原因在于这将意味着每一个话音帧中的一个比特将必须被预留用于仅在话音突发结束之后使用的信息。

虽然上述各段讨论了DTX特定拖尾，但是VAD已经添加了某一拖尾以避免话音偏移的截断也是常见的。然后，将可以允许VAD特定拖尾和DTX拖尾重叠。例如，信号分析可以有助于在存在足以生成稳定的舒适噪声的数量的帧的情况下提早进行拖尾终止，而不论最近的帧是来自VAD拖尾还是DTX拖尾。

在图6a中，示意性流程图示出了示例性的解码器侧拖尾指示符解码器。在图6a中的示例中，可以在每一个帧中指示它是否是拖尾帧，并且然后存储拖尾帧。可以根据解码的拖尾指示符来确定存储的拖尾帧中的哪一些应当用作舒适噪声的基础。备选地，直到在602a中对拖尾指示符进行解码，才做出601a中关于帧是否是拖尾帧的决策。对于在解码602a之后做出的决策，最近接收的帧集合(例如，长度为N_max(拖尾帧的最大数量)的帧)需要存储在缓存中。在后一种情况下，可以基于解码的拖尾指示符在缓存中当前存储的帧集合中识别拖尾帧，并且因而可以存储拖尾帧的至少一部分的参数。根据图6b可以更清楚这一点，图6b示出了存储601b最近N_max个帧。当在602b中对拖尾指示符进行解码时，拖尾帧存在于存储的帧中，并且可以基于由拖尾指示符指示的拖尾帧来确定603b舒适噪声参数。然后，可以基于参数来生成604b舒适噪声。与在编码器中一样，第一SID标记可以指示当前帧是否是活动信号编码之后的第一SID。第一SID标记不一定存储在变量中，而是可以根据其他解码器状态变量导出。

典型的SID参数是增益参数和线性预测频谱参数，例如，线谱频率(LSF)参数。在示例性实施例中，解码器可以根据五个先前帧得到这些参数，并且计算其平均值。接下来可以在DTX***的舒适噪声合成中使用这些经平均的参数。备选地，可以根据所指示的拖尾帧的特定集合来确定用于舒适噪声合成的SID参数。可以在解码器侧使用例如接收的拖尾长度参数和根据已经存储在存储器中的先前接收帧得到的参数来导出特定集合。

即使在本文中主要将根据拖尾帧集合导出的参数称作SID参数，但是将也可以使用不同标记但是用于相同目的(即，作为用于生成舒适噪声的基础)的其他参数。

解码器可以例如根据活动话音帧序列之后的第一SID帧中的拖尾指示符来获得关于要用于SID参数计算的先前帧的特定集合的信息。然后，可以通过使用由接收的代码所标识的帧的增益和频谱参数来计算SID参数。假设n＝8个比特的码字用作拖尾指示符并且该码字包含比特序列“01011111”，则使用五个紧邻的先前帧和第七个先前帧。这些帧的增益和频谱参数可以被平均，并且接下来在DTX***的舒适噪声合成中被使用。

在下面的段落中，将参照特定实施例和附图更详细地描述本文所公开的解决方案的不同方面。为了解释而非限制的目的，阐述了具体细节(例如，特定场景和技术)，以提供对不同实施例的全面理解。然而，其他实施例可以与这些具体细节偏离。

由发送/编码节点执行的示例性方法，图7a和图7b

下面将参照图7a描述由发送节点或编码节点执行的示例性方法。发送节点可操作以对诸如话音等的音频进行编码，并且与例如通信网络中的其他节点或实体进行通信。发送节点还可操作以在话音非活动期间应用DTX方案，该DTX方案包括发送SID帧。发送节点可以是例如蜂窝电话、平板电脑、计算机或能够进行有线和/或无线通信以及音频编码的任何其他设备。

图7a示出了包括以下步骤的方法：从多个(N个)拖尾帧中确定代表背景噪声的帧集合Y。该方法还包括：向接收节点发送704aN个拖尾帧，该N个拖尾帧包括所述帧集合Y。该方法还包括：与发送N个拖尾帧相关联地向接收节点发送705a第一SID帧，其中，SID帧包括向接收节点指示所确定的拖尾帧集合Y的信息。上述方法使接收节点能够基于拖尾帧集合Y生成舒适噪声。

图7a和图7b中的动作的顺序仅是示例性的。例如，可以在已经发送了N个拖尾帧之后确定集合Y。

拖尾帧集合Y中包含的帧应当代表背景噪声。因此，应当识别多个(N个)拖尾帧中最适合于确定或计算用于生成舒适噪声的参数(例如，所谓的SID参数)的拖尾帧。可以例如基于每一个帧中包含的信号的SNR电平来确定或识别集合Y中的帧，并且当该SNR电平满足特定准则时，将帧确定为适合于用作计算例如SID参数的基础。N个拖尾帧中的一些拖尾帧可能不太能代表背景噪声。例如，拖尾帧中的一些拖尾帧可能至少部分地包括话音或瞬时噪声，这使得它们不适合用作用于导出与舒适噪声生成有关的参数的基础。例如，话音帧通常具有共振峰结构，这在背景噪声中是看不见的；并且瞬时噪声帧可以具有比平均背景噪声更高的能量。不应当在集合Y中包括不代表背景噪声的这种拖尾帧。

可以用不同的方式在第一SID帧中指示帧集合Y，下面将对此进行进一步描述。“第一SID帧”意味着DTX时段中的第一SID帧，其通常指示DTX时段的开始。DTX时段在这里意味着话音非活动时段，在该话音非活动时段期间，以比在非DTX时段期间更低的比特率和/或帧速率从发送节点向接收节点发送经编码的帧。DTX时段在这里意味着活动话音突发之间的时段，该时段由舒适噪声替换。这些时段从用于对向舒适噪声的过渡进行标记的第一SID开始。然后，其通常后接具有多个“NO_DATA”帧(如其名字一样暗指不包含任何数据)和SID(或SID_UPDATE)帧的时段。SID帧大多数情况下是每隔一定间隔(标记为“SID间隔”)发送的，直到下一个发声触发返回活动话音编码的过渡为止。也即是说，在SID间隔为8的情况下，DTX时段将被编码为：第一SID、后接7个NO_DATA帧、后接SID_UPDATE。具有7个NO_DATA帧后接SID更新的该序列然后被重复，直到向活动话音的过渡发生为止。

如上所述，上述方法的优点是它使接收节点能够根据被确定为适合于该目的的帧导出针对舒适噪声的参数。这提高了生成的舒适噪声的质量，从而提高了用户体验。进一步通过利用用于该目的的第一SID帧以非常资源有效的方式向接收节点指示集合Y。有利的是在发送节点中确定适合的拖尾帧，这是因为在该节点中，实际的音频信号数据是可访问的，而在接收节点中，仅数据的量化版本是可利用的。

指示集合Y的信息可以包括暗指序列中的拖尾帧的数量的数；指示N个拖尾帧中属于集合Y的帧的位置的码字或位图；指示N个拖尾帧中包含在集合Y中的一些拖尾帧的码字或位图、和/或指示N个拖尾帧中未包含在集合Y中的拖尾帧的码字或位图。

例如，SID帧可以包括诸如5等的数，接收节点应当将其解释为例如最后五个拖尾帧应当用于确定用于生产舒适噪声的参数。备选地，该数应当被解释为N个拖尾帧中的另一个具有五个帧的组(例如，倒数第二个至倒数第六个)。拖尾帧的数量(N)可以是例如6、7、8或9。在特殊情况下，拖尾帧的数量(N)可以等于SID帧中指示的数量，即，然后应当基于所有拖尾帧来确定参数。

备选地或此外，SID帧可以包括指示属于集合Y的帧的位置的码字或位图/位掩码。可以以不同的方式来配置这种码字。可以使用代码***，其中，发射机节点和接收机节点均知道代码的意义，例如，两侧都有权访问规定例如码字“01”映射到N个拖尾帧中在帧k、k-1、k-2、k-4和k-6处的拖尾帧的码本。备选地，可以使用位图/位掩码。这种位图可以覆盖N个拖尾帧的所有N个位置或者N个位置的子集。应当已经在先前某个时刻向接收节点通知位图/位掩码的字符。例如，如果N＝8，则诸如“11011000”等的示例性位图/位掩码可以包含在SID帧中，其指示第4个、第5个、第7个和第8个先前帧应当用于确定针对舒适噪声的参数。备选地，位图/位掩码“11011”可以包含在第一SID帧中，其具有与先前示例一样的意义。备选地，可以指示未包含在集合Y中的拖尾帧的位置。与先前示例类似，相应的位图/位掩码然后可以是“00100111”或“00100”或“100111”。

这些是可以包含在第一SID帧以指示应当使用拖尾帧中的哪一些拖尾帧的信息的所有不同的实现。通常，用于指示集合Y所需的比特越少越好。

上面所讨论的在第一SID帧中发送舒适噪声生成所基于的拖尾帧集合的标识的构思可以与将SID参数作为第一SID帧的一部分发送相结合。也即是说，第一SID帧还可以包括SID参数。这些SID参数将给出关于信号在当前帧中如何表现的指示。与来自早前的拖尾帧的信息相比，可以例如对该信息施加更大的权重。当然，在不考虑SID帧的信号参数的情况下可以区分地对拖尾帧进行加权，但是无论如何，先前帧中不去往DTX的指示应当指示我们不是非常确定该帧表示非活动/仅背景噪声。

如前所述，拖尾帧的数量(N)可以是动态可变的。可以基于输入音频信号的属性来确定数量N。例如，数量N可以取决于停止DTX时段的话音声音和/或背景噪声的特性。通过使用动态数量的拖尾帧，需要向接收节点发送的拖尾帧的数量可以保持最小，因而与具有静态数量的拖尾帧相比，可以节省资源。

在图7b中示出了可以在图7a中所示的方法之前的一些动作。在图7b中，在动作701b中确定音频流的帧(例如，音频信号的一段，该信号至少部分地包括话音)是否包括活动话音。这通常被称作语音活动检测VAD。当确定一个或多个帧不包括活动话音时，将发送多个拖尾帧，例如以减小切断话音声音的可能性，如前所述。当应用动态数量的拖尾帧时，可以对被确定为不包括活动话音的前几个帧中包含的信号进行分析，并且可以在动作702b中确定拖尾帧的适合数量。当确定拖尾帧的适合数量N时，还可以考虑被确定为包括活动话音的最后几个帧的属性，例如以确定SNR或相邻帧之间的帧能量减小。

也即是说，可以在话音非活动的决策之前和/或之后基于帧中包括的信号的属性来确定拖尾帧的数量N。此外或备选地，当确定N时，可以考虑被确定为仅包括背景噪声的先前信号帧的属性。

如前所述，确定拖尾帧的数量可以基于信号帧内和/或之间的SNR或能量的下降的特性。拖尾帧的数量N可以是静态的、半静态的或动态的，并且可以针对不同的话音偏移而不同。

例如，在动作704b，如前所述，可以根据包括活动话音的帧的编码来对向接收节点发送的拖尾帧进行编码。当拖尾帧的数量N是动态的时，也可以例如在第一SID帧中向接收节点指示数量N。

由解码节点执行的示例性方法、图8

下面将参照图8描述由接收节点或解码节点执行的示例性方法。解码节点可操作以对诸如话音等的音频进行解码，并且与例如通信网络中的其他节点或实体进行通信。解码节点还可操作以在话音非活动期间应用DTX方案，该DTX方案包括接收SID帧并且生成舒适噪声。解码节点可以是例如蜂窝电话、平板电脑、计算机、或能够进行有线和/或无线通信以及音频解码的任何其他设备。

图8中所示的示例性方法包括：从发送节点接收801N个拖尾帧。此外，与N个拖尾帧相关联地接收802第一SID帧。基于所接收的SID帧中的信息来从多个(N个)拖尾帧中确定803拖尾帧集合Y。此外，至少部分地基于拖尾帧集合Y来生成805舒适噪声。

可以在已经接收到N个拖尾帧中的最后一个拖尾帧之后接收SID帧，该SID帧指示DTX时段的开始。然而，也可以在拖尾帧之前或者在两个拖尾帧之间接收SID帧(如果这被允许并且在DTX方案的传输协议中被规定的话)。

可以在第一SID帧中指示拖尾帧的数量N，然而，这是可选的。数量N可以备选地被设置为默认值，例如，7，这暗指DTX时段之前的最后7个接收帧(不计入SID帧)将是拖尾帧。此外，当应用动态数量的拖尾帧时，存在信号通知拖尾帧的数量N的其他方式。例如，可以通过音频信号的属性(例如，长期SNR度量)来隐式地信号通知数量。可以基于解码的音频信号来生成这种度量，并且因此可以在解码器处利用该度量。

如前所述，SID帧包括指示N个拖尾帧中由发送节点选择为代表背景噪声的帧集合Y的信息。因此，接收节点可以基于第一SID帧来确定帧集合Y。也即是说，基于第一SID帧中包含的指示集合Y的信息。该信息可以是显式的或隐式的，并且在上文中当描述由发送节点执行的方法时已经举例说明。

接收节点要在静默DTX时段期间(即，在未从发送节点接收到话音帧的时段期间)生成舒适噪声。舒适噪声优选地应当模仿发送节点处的背景噪声。为了尽可能生成可靠的舒适噪声，接收节点应当基于最能代表舒适噪声的拖尾帧来估计背景噪声。备选地或此外，接收节点可以从发送节点接收例如SID参数形式的背景噪声的估计。以与活动信号帧相比明显更低的比特率来对SID帧进行编码。因此，与在SID中相比，在拖尾期间在编码器侧(从拖尾帧)更好地获取背景噪声。然而，在第一SID帧中包括SID参数可能是有利的，以便具有从拖尾帧到舒适噪声生成的平滑过渡。

接收节点基于帧集合Y来估计或导出用于生成舒适噪声的参数。该参数可以与发送节点侧的背景噪声相关联。通过这样做，基于所述参数生成的舒适噪声将以良好的方式反映发射机节点侧的背景噪声，从而实现良好/期望的用户体验。在发射机侧选择集合Y是有利的，这是因为在该侧，可以访问整个音频信息而不是可以在接收机节点侧利用的减少的量化版本。

如前所述，指示集合Y的信息可以包括以下各项中的一项或多项：暗指序列中的拖尾帧的数量的数；指示N个拖尾帧中属于集合Y的帧的位置的码字或位图；指示N个拖尾帧中至少包含在集合Y中的拖尾帧的码字或位图、和/或指示N个拖尾帧中未包含在集合Y中的拖尾帧的码字或位图。

此外，第一SID帧还可以包括SID参数。如前所述，拖尾帧的数量N可以基于输入音频信号的属性而动态地改变。

示例性发送节点、图9

本文所述的实施例还涉及发送节点或编码节点。发送节点与和上文所述并且例如在图7a和图7b中所示的方法相同的技术特征、目的和优点相关联。将简要描述发送节点以避免不必要的重复。发送节点可以例如是设备或UE，例如，智能电话、平板电脑、计算机、或能够进行有线和/或无线通信以及话音编码的任何其他设备。

下面将参照图9描述适于实现对上述方法的执行的示例性发送节点900，所述方法适于执行上述发送节点中的方法的至少一个实施例。

发送节点可操作以对诸如话音等的音频进行编码，并且可操作以与例如通信网络中的其他节点或实体进行通信。发送节点还可操作以在话音非活动期间应用DTX方案，该DTX方案包括发送SID帧。发送节点可操作以例如在无线通信***(例如，GSM、UMTS、E-UTRAN或CDMA2000)和/或有线通信***中进行通信。

在由点线/虚线围绕的布置901中示出了发送节点中与本文所建议的解决方案最相关的部分。发送节点的该布置和可能的其他部分适于实现上文所述并且在例如图7a和图7b中所示的方法或过程中的一个或多个的执行。

图9中所示的发送节点包括处理装置(在本示例中，采取处理器903以及存储器904的形式)，其中，所述存储器包含可以由所述处理器执行的指令905。处理装置可操作以从多个(N个)拖尾帧中确定代表背景噪声的帧集合Y。处理装置还可操作以向接收节点发送N个拖尾帧，该N个拖尾帧至少包括所述帧集合Y；以及

与发送N个拖尾帧相关联地向接收节点发送第一SID帧，其中SID帧包括向接收节点指示所确定的拖尾帧集合Y的信息。

发送节点使接收节点能够基于拖尾帧集合Y来生成舒适噪声，从而实现对高质量舒适噪声的生成。

可以以不同的方式来配置指示集合Y的信息，并且第一SID帧还可以包括SID参数；并且拖尾帧的数量N可以是可变的或固定的，如前所述。

发送节点900被示出为经由通信单元902与其他实体进行通信，通信单元902可以被认为包括用于根据发送节点可操作的通信标准进行无线和/或有线通信的传统装置。该布置和/或发送节点还可以包括其他功能单元909，其他功能单元909用于与话音编码相关联地提供例如常规发送节点功能(例如，信号处理)。

可以备选地实现和/或示意性地描述布置901，如图10中所示。布置1001包括确定单元1004，确定单元1004用于确定多个(N个)拖尾帧中的代表背景噪声的帧集合Y。布置1001还包括发送单元，该发送单元用于向接收节点发送N个拖尾帧(至少包括所述帧集合Y)的；并且还用于与发送N个拖尾帧相关联地向接收节点发送第一SID帧，其中，SID帧包括向接收节点指示所确定的拖尾帧集合Y的信息。

布置1001可以包括VAD单元，VAD单元用于确定信号帧是否包括活动话音。备选地，这种VAD单元可以是其他功能单元1008的一部分。

可以通过以下各项中的一项或多项来实现布置1001和发送节点的其他部分：处理器或微处理器以及适当的软件和存储设备、因而被配置为执行上述动作的可编程逻辑器件(PLD)或其他电子组件/处理电路。

示例性接收/解码节点、图11

本文所述的实施例还涉及接收节点或解码节点。接收节点与和上文所述并且例如在图8中所示的方法相同的技术特征、目的和优点相关联。将简要描述接收节点以避免不必要的重复。接收节点可以例如是设备或UE，例如，智能电话、平板电脑、计算机、或能够进行有线和/或无线通信以及音频编码的任何其他设备。

下面将参照图11描述适于实现对上述方法的执行的示例性接收节点1100，所述方法适于执行上述接收节点中的方法的至少一个实施例。

接收节点可操作以对诸如话音等的音频进行解码，并且可操作以与例如通信网络中的其他节点或实体进行通信。接收节点还可操作以在话音非活动期间应用DTX方案，该DTX方案包括接收SID帧。接收节点可操作以例如在无线通信***(例如，GSM、UMTS、E-UTRAN或CDMA2000)和/或有线通信***中进行通信。

在由点线/虚线围绕的布置1101中示出了接收节点中与本文所建议的解决方案最相关的部分。接收节点的该布置和可能的其他部分适于实现上文所述并且在例如图8中所示的方法或过程中的一个或多个的执行。

图11中所示的接收节点包括处理装置(在本示例中，采取处理器1103以及存储器1104的形式)，并且其中所述存储器包含可以由所述处理器执行的指令1105。处理装置可操作以从发送节点接收N个拖尾帧；并且还可操作以与N个拖尾帧相关联地接收第一SID帧。处理装置还可操作以基于接收的SID帧中的信息来从多个(N个)拖尾帧中确定拖尾帧集合Y；并且至少部分地基于拖尾帧集合Y来生成舒适噪声。

因而使接收节点能够基于拖尾帧集合Y来生成舒适噪声，从而使接收节点能够生成高质量舒适噪声。

接收节点1100被示出为经由通信单元1102与其他实体进行通信，通信单元1102可以被认为包括用于根据接收节点可操作的通信标准进行无线和/或有线通信的传统装置。该布置和/或接收节点还可以包括一个或多个存储单元1106。该布置和/或接收单元还可以包括其他功能单元1107，其他功能单元1107用于与话音解码相关联地提供例如常规接收节点功能(例如，信号处理)。

可以通过以下各项中的一项或多项来实现布置1101和接收或解码节点的其他部分：处理器或微处理器以及适当的软件和存储设备、因而被配置为执行上述动作的可编程逻辑器件(PLD)或其他电子组件/处理电路。

可以备选地实现和/或示意性地描述布置1101，如图12中所示。布置1201包括接收单元1203，接收单元1203用于从发送节点接收N个拖尾帧；并且还用于与N个拖尾帧相关联地接收第一SID帧。该布置还包括确定单元1204，确定单元1204用于基于接收的第一SID帧中的信息从多个(N个)拖尾帧中确定拖尾帧集合Y；并且还包括噪声发生器1205，噪声发生器1205用于基于拖尾帧集合Y来生成舒适噪声。

布置1201还可以包括估计单元，估计单元用于估计用于生成舒适噪声的参数(例如，SID参数)。噪声发生器然后可以基于所估计的噪声生成参数来生成舒适噪声。

布置1201和/或解码节点1200的某一其他部分被假设为包括适于执行音频解码的功能单元或电路。

可以通过以下各项中的一项或多项来实现布置1201和接收/解码节点的其他部分：处理器或微处理器以及适当的软件和存储设备、因而被配置为执行上述动作的可编程逻辑器件(PLD)或其他电子组件/处理电路。

将理解的是，交互单元或模块的选择以及单元的命名仅用于举例说明的目的，并且可以以多种备选方式来配置适于执行上述方法中的任意一个的客户端节点和服务器节点，以便能够执行所建议的处理动作。

还应当注意的是，在本公开中所述的单元或模块应当被视为逻辑实体而不必视为单独的物理实体。

通过使用本文所建议的解决方案，可以在不折衷聊天进发结束时的舒适噪声合成的质量的情况下增加利用DTX的话音传输的效率。

虽然上文的描述包含多个特殊性，但是它们不应当被理解为限制本文所述的构思的范围，而是仅提供所述构思的一些示例性实施例的说明。将理解的是，当前所述的构思的范围完全涵盖对于本领域技术人员可以变得显而易见的其他实施例，并且当前所述的构思的范围因此不受限制。除非明确声明，否则以单数形式提及元素并不旨在意味着“一个且仅一个”，而是“一个或多个”。本领域普通技术人员已知的上述实施例的元素的所有结构和功能等同物通过引用的方式明确地并入本文，并且旨在由此被涵盖。此外，设备或方法不必解决当前所述的构思试图解决的每一个问题，这是因为它将由此被涵盖。

缩略语

AMR 自适应多速率

DTX 不连续传输

ITU-T 国际电信联盟电信标准化部

LSF 线谱频率

VAD 语音活动检测器

3GPP 第三代合作伙伴计划

SID 静音***描述符

SNR 信噪比

WB 宽带。

Claims

1.一种由编码器执行的方法，所述编码器能够操作以对话音进行编码并且在话音非活动期间应用不连续传输DTX方案，所述DTX方案包括发送静音***描述符SID帧，所述方法包括：

-确定拖尾帧的数量N，其中所述拖尾帧的数量N是可变的；

-向解码器发送N个拖尾帧；

-在拖尾时段之后，向所述解码器发送第一SID帧，其中所述第一SID帧包括指示所确定的拖尾帧的数量N的信息。

2.根据权利要求1所述的方法，其中，所述拖尾帧的数量N基于输入音频信号的属性是动态可变的。

3.根据权利要求1或2所述的方法，其中，所述第一SID帧还包括SID参数。

4.一种由解码器执行的方法，所述解码器能够操作以对话音进行解码并且在话音非活动期间应用不连续传输DTX方案，所述DTX方案包括接收静音***描述符SID帧，所述方法包括：

-从编码器接收N个拖尾帧；

-在接收到所述N个拖尾帧之后，接收第一SID帧；

-基于所接收的第一SID帧中的信息来确定拖尾帧的数量N。

5.根据权利要求4所述的方法，其中，所述拖尾帧的数量N基于输入音频信号的属性是动态可变的。

6.根据权利要求4或5所述的方法，其中，所接收的第一SID帧还包括SID参数。

7.一种编码器(900、1000)，所述编码器(900、1000)能够操作以对话音进行编码并且在话音非活动期间应用不连续传输DTX方案，所述DTX方案包括发送静音***描述符SID帧，所述编码器包括处理装置，所述处理装置能够操作以：

-确定拖尾帧的数量N，其中所述拖尾帧的数量N是可变的；

-向解码器发送所述N个拖尾帧；以及

8.根据权利要求7所述的编码器，其中，所述处理装置包括处理器(903)和存储器(904)，并且所述存储器包含能够由所述处理器执行的指令(905)。

9.根据权利要求7或8所述的编码器，其中，所述拖尾帧的数量N基于输入音频信号的属性是动态可变的。

10.一种解码器(1100、1200)，所述解码器(1100、1200)能够操作以对话音进行解码并且在话音非活动期间应用不连续传输DTX方案，所述DTX方案包括接收静音***描述符SID帧，所述解码器包括处理装置，所述处理装置能够操作以：

-从编码器接收N个拖尾帧；

-在接收到所述N个拖尾帧之后，接收第一SID帧；

-基于所接收的SID帧中的信息来确定拖尾帧的数量N。

11.根据权利要求10所述的解码器，其中，所述处理装置包括处理器(1103)和存储器(1104)，所述存储器包含能够由所述处理器执行的指令(1105)。

12.根据权利要求10或11所述的解码器，其中，所述拖尾帧的数量N基于输入音频信号的属性是动态可变的。

13.一种其上存储有计算机程序代码的计算机可读存储介质，当所述计算机程序代码在编码器中运行时，使所述编码器执行根据权利要求1至3中任一项所述的方法。

14.一种其上存储有计算机程序代码的计算机可读存储介质，当所述计算机程序代码在解码器中运行时，使所述解码器执行根据权利要求4至6中任一项所述的方法。