CN105895107A

CN105895107A - 通过变换插值进行音频分组丢失隐藏

Info

Publication number: CN105895107A
Application number: CN201610291402.0A
Authority: CN
Inventors: P.楚; 屠哲敏
Original assignee: Polycom Inc
Current assignee: Polycom Inc
Priority date: 2010-01-29
Filing date: 2011-01-28
Publication date: 2016-08-24
Also published as: TWI420513B; US20110191111A1; JP5357904B2; CN102158783A; TW201203223A; JP2011158906A; US8428959B2; EP2360682B1; EP2360682A1

Abstract

本发明涉及通过变换插值进行音频分组丢失隐藏。在用于音频或视频会议的音频处理中，终端接收音频分组，这些音频分组具有用于重构经过变换编码的音频信号的变换系数。当接收到这些分组时，该终端确定是否存在任意缺失分组，并且根据前面和后面的完好帧插值变换系数。为了插值缺失系数，终端以第一权重给来自前面的完好帧的第一系数加权，以第二权重给来自后面的完好帧的第二系数加权，并且将这些加权后的系数累加在一起，以便***缺失分组。权重可以基于音频频率和/或所涉及的缺失分组的数目。根据这种插值，终端通过对系数进行逆变换产生输出音频信号。

Description

通过变换插值进行音频分组丢失隐藏

背景技术

许多类型的***使用音频信号处理，以便创建音频信号或从这种信号再现声音。典型地，信号处理将音频信号转换为数字数据，并且对数据进行编码以便在网络上传输。然后，信号处理对数据解码，并且将其转换回模拟信号以便作为声波再现。

存在用于编码或解码音频信号的各种方法。（对信号进行编码和解码的处理器或处理模块一般被称为编解码器）。例如，用于音频和视频会议的音频处理使用音频编解码器，以便压缩高保真音频输入，使得得到的用于传输的信号保持最佳质量，但是需要最少的比特数。以这种方式，具有音频编解码器的会议装置需要很少的存储容量，并且由该装置传输音频信号所使用的通信通道需要很少带宽。

题目为“7kHz audio-coding within 64 kbit/s”的ITU－T（国际电信联盟电信标准化组）Recommendation G.722(1988)，通过引用结合在此，描述了一种64kbit/s内的7kHz音频编码方法。ISDN线路具有以64kbit/s传输数据的能力。该方法本质上使用ISDN线路，将电话网络上的音频的带宽从3kHz增加到7kHz。感知到的音频质量得以改善。虽然这种方法使得可以通过已有的电话网络获得高质量音频，但它通常需要来自电话公司的ISDN服务，ISDN服务比平常的窄带电话服务更贵。

推荐用于电信的更新的方法是题目为“Low-complexity coding at 24 and 32kbit/s for hands-free operation in system with low frame loss”的ITU－TRecommendation G.722.1(2005)，通过引用将其结合在此。该建议描述了一种提供50Hz到7KHz的音频带宽的数字宽带编码器算法，其以比G.722低许多的比特率24 kbit/s 或32kbit/s操作。以这种数据速率，具有使用平常模拟电话线的平常调制解调器的电话可以传输宽带音频信号。因此，只要两端的电话机可以执行G.722.1中描述的编码/解码，那么大部分已有电话网络就可以支持宽带会话。

某些通常使用的音频编解码器使用变换编码技术对在网络上传输的音频数据编码和解码。例如，ITU-T Recommendation G.719 (Polycom® Siren™22)以及G.722.1.C(Polycom® Siren14™)，通过引用将它们两者结合在此，使用公知的调制重叠变换（Modulated Lapped Transform, MLT）编码对音频压缩以便传输。如同已知的，调制重叠变换（MLT）是用于各种类型信号的变换编码的余弦调制滤波组中的一种形式。

一般地，重叠变换使用长度为L的音频块，并且将该块变换为M个系数，其条件是L>M。为了使这成为可行，L的连续块之间必须存在重叠－M个样本，从而可以使用变换系数的连续块获得合成信号。

对于调制重叠变换（MLT），音频块的长度L等于系数的数目M，从而重叠是M。因此，用于正（分析）变换的MLT基函数被给出为：

类似地，用于逆（合成）变换的MLT基函数被给出为：

在这些等式中，M是块大小，频率指数k从0到M－1改变，并且时间指数n从0到2M－1改变。最后，是所使用的完美重构窗口。

如下根据这些基函数确定MLT系数。正变换矩阵是这样的矩阵，其第n行和第k列内的条目是p_a（n,k）。类似地，逆变换矩阵是具有条目p_s（n,k）的矩阵。对于输入信号X（n）的2M个输入样本的块x，以计算其变换系数的相应矢量。反过来，对于处理后的变换系数的矢量，以给出重构的2M个样本矢量。最后，重构的矢量被以M样本重叠彼此叠加，以便产生用于输出的重构信号y(n)。

图1示出了典型的音频或视频会议布置，其中作为发射机的第一终端10A向在这种环境中作为接收机的第二终端10B发送压缩的音频信号。发射机10A和接收机10B两者具有音频编解码器16，其执行诸如G.722.1.C (Polycom® Siren14™) 或G.719 (Polycom®Siren™22)中使用的变换编码。

发射机10A处的麦克风12捕捉源音频，并且电子设备将源音频采样为通常跨越20毫秒的音频块14。此时，音频编解码器16的变换将音频块14转换为频域变换系数集合。每个变换系数具有量值，并且可以是正的或负的。使用本领域已知的技术，这些系数被量化18、编码并且通过网络20诸如因特网被发送到接收机。

在接收机10B，逆处理对编码的系数解码并且去量化19。最后，接收机10B处的音频编解码器16对系数进行逆变换，以便将它们转换回时域，以便产生最终在接收机的扬声器13处回放的输出音频块14。

在网络诸如因特网上的视频会议和音频会议中，音频分组丢失是个常见的问题。如已知的，音频分组表示小段音频。当发射机10A在因特网20上将变换系数的分组发送给接收机10B时，某些分组可能在传输过程中丢失。一旦产生输出音频，丢失的分组将产生扬声器13输出的静音间隙。因此，接收机10B优选地以根据已经从发射机10A接收到的分组合成的某种形式的音频填充这些间隙。

如图1所示，接收机10B具有检测丢失分组的丢失分组检测模块15。然后，当输出音频时，音频重复器17填充由于这种丢失分组引起的间隙。音频重复器17所使用的已有技术通过在时域中连续重复在分组丢失之前发送的最近的音频段，简单地填充音频中的这些间隙。虽然有效，但是重复音频以便填充间隙的已有技术可以在得到的音频中产生嗡嗡声和机器人人工信号（robotic artifact），并且用户往往会发现这些人工信号是讨厌的。另外，如果丢失了多于5％的分组，那么当前技术产生逐渐不可理解的音频。

结果，需要一种当在因特网上举行会议时，以产生更好的音频质量并且避免嗡嗡声和机器人人工信号的方式应对丢失音频分组的技术。

发明内容

此处公开的音频处理技术可用于语音或视频会议。在处理技术中，终端接收音频分组，这些音频分组具有用于重构已经经过变换编码的音频信号的变换系数。当接收到这些分组时，该终端确定是否存在任意缺失分组，并且根据前面和后面的完好帧插值变换系数，以便作为用于缺失分组的系数***。为了插值缺失系数，例如，终端以第一权重给来自前面的完好帧的第一系数加权，以第二权重给来自后面的完好帧的第二系数加权，并且将这些加权后的系数累加在一起，以便***缺失分组。权重可以基于音频频率和/或所涉及的缺失分组的数目。根据这种插值，终端通过对系数进行逆变换产生输出音频信号。

前面的概述不旨在概括本公开的每个潜在实施例或每个方面。

附图说明

图1示出了一种具有发射机和接收机并且使用根据现有技术的丢失分组技术的会议布置；

图2A示出了具有发射机和接收机，并且使用根据本公开的丢失分组技术的会议布置；

图2B更详细地示出了会议终端；

图3A－3B分别示出了变换编码的编解码器的编码器和解码器；

图4是根据本公开的编码、解码和丢失分组处理技术的流程图；

图5图示了根据本公开的用于插值丢失分组内的变换系数的处理；

图6图示了用于插值处理的插值规则；和

图7A－7C图示了用于插值缺失分组的变换系数的权重。

具体实施方式

图2A示出了一种音频处理布置，其中作为发射机的第一终端100A向在该环境中作为接收机的第二终端100B发送压缩后的音频信号。发射机100A和接收机100B两者具有音频编解码器110，其执行诸如G.722.1.C (Polycom® Siren14™) 或G.719 (Polycom®Siren™22)中使用的变换编码。对于本讨论，发射机100A和接收机100B可以是音频或视频会议中的端点，虽然它们可以是其它类型的音频设备。

在操作过程中，发射机100A处的麦克风102捕捉源音频，并且电子设备采样通常跨越20毫秒的块或帧。（讨论同时参考图3的流程图，其示出了根据本公开的丢失分组处理技术300）。此时，音频编解码器110的变换将每个音频块转换为频域变换系数的集合。为此，音频编解码器110接收时域的音频数据（方框302），获取20ms的音频块或帧（方框304），并且将该块转换为变换系数（方框306）。每个变换系数具有量值，并且可以是正的或负的。

使用本领域已知的技术，这些变换系数被量化器120量化并且被编码（方框308），以及发射机100A通过网络125诸如IP（网际协议）网络、PSTN（公共交换电话网络）、ISDN（综合业务数字网络）等将分组中的编码变换系数发送给接收机100B（方框310）。分组可以使用任意适合的协议或标准。例如，音频数据可以遵从一个内容表，并且所有八位字节包括可被作为一个单位附加到有效载荷的音频帧。例如，在ITU－T Recommendations G.719和G.722.1C中明确说明了音频帧的细节，将ITU－T Recommendations G.719和G.722.1C结合在本文中。

在接收机100B，接口120接收分组（方框312）。当发送分组时，发射机100A创建被包括在发送的每个分组内的顺序号。如已知的，分组可以穿过网络125上从发射机100A到接收机100B的不同路线，并且分组可能以不同时刻到达接收机100B。因此，分组到达的顺序可能是随机的。

为了处理被称为“抖动”的这种不同时刻的到达，接收机100B具有耦连到接收机接口120的抖动缓冲器130。典型地，抖动缓冲器130在一个时刻保持四个或更多分组。因此，接收机100B基于分组的顺序号在抖动缓冲器130中对分组重新排序（方框314）。

虽然分组可能以乱续到达接收机100B，丢失分组处理器140在抖动缓冲器130中重排分组，并且基于该顺序检测任意丢失（缺失）分组。当抖动缓冲器130中的分组序号存在间隙时，表明具有丢失分组。例如，如果处理器140发现抖动缓冲器130中的顺序号为005、006、007、011，则处理器140可以断言分组008、009、010为丢失分组。事实上，这些分组实际上可能并未丢失，并且可能仅是晚到了。由于延迟和缓冲器长度限制，接收机100B仍然丢弃晚于某个阈值到达的任意分组。

在随后的逆处理中，接收机100B解码并且去量化解码后的变换系数（方框316）。如果处理器140检测到丢失分组（判断318），丢失分组处理器140知道丢失分组间隙之前和之后的完好分组。使用这种知识，变换合成器150得出或插值丢失分组的缺失变换系数，从而新的变换系数可以取代丢失分组中的缺失系数（方框320）。（在当前例子中，音频编解码器使用MLT编码，从而此处变换系数可被称为MLT系数。）在这个阶段，接收机100B处的音频编解码器110对这些系数执行逆变换，并且将它们转换成时域，以便产生接收机扬声器的输出音频（方框322－324）。

如从上面的处理可见，不是检测丢失分组并且不断重复接收到的音频的以前片段以便填充间隙，丢失分组处理器140将基于变换的编解码器110的丢失分组处理为一组丢失的变换系数。变换合成器150然后以从相邻分组中得出的合成变换系数取代丢失分组的该组丢失的变换系数。然后，可以使用系数的逆变换产生丢失分组中没有音频间隙的完整音频信号，并且在接收机100B输出。

图2B示意地示出了更详细的会议端点或终端100。如图所示，会议终端100可以是IP网络125上的发射机和接收机两者。还示出会议终端100可以具有视频会议能力以及音频能力。一般地，终端100具有麦克风102和扬声器104，并且可以具有各种其它输入/输出设备，诸如摄像机106、显示器108、键盘、鼠标等。另外，终端100具有处理器160、存储器162、转换器电子设备164和适用于特定网络125的网络接口122/124。音频编解码器110根据连网终端的适合协议提供基于标准的会议功能。可以完全用存储在存储器162内并且运行在处理器160上的软件，或以专用硬件或它们的组合实现这些标准。

在传输路径内，由麦克风102拾取的模拟输入信号被转换器电子设备164转换为数字信号，并且运行在终端的处理器160上的音频编解码器110具有编码器200，编码器200对数字音频信号编码，以便通过发射机接口122在网络125诸如因特网上传输。如果存在，具有视频编码器170的视频编解码器可以对视频信号执行类似的功能。

在接收路径中，终端100具有耦连到音频编解码器110的网络接收机接口124。解码器250对接收到的信号解码，并且转换器电子设备164将数字信号转换为输出到扬声器104的模拟信号。如果存在，具有视频解码器172的视频编解码器可以对视频信号执行类似功能。

图3A－3B简要地示出了变换编码编解码器，诸如Siren编解码器的特征。特定音频编解码器的实际细节取决于实现和所使用的编解码器类型。Siren14™的已知细节可见于ITU-T Recommendation G.722.1 Annex C,并且Siren™22 的已知细节可见于ITU-TRecommendation G.719 (2008) “Low-complexity, full-band audio coding for high-quality, conversational applications” ，通过引用将这两者结合在此。关于音频信号的变换编码的附加细节还可见于序列号为 No. 11/550,629和11/550,682的美国专利申请，通过引用将其结合在此。

图3A示出了用于变换编码编解码器（例如，Siren编解码器）的编码器200。编码器200接收已被从模拟音频信号转换的数字信号202。例如，该数字信号202已被以48kHz或其它速率采样为大约20ms的块或帧。变换204，其可以是离散余弦变换（DCT），将时域中的数字信号202转换到具有变换系数的频域。例如，变换204可以产生每个音频块或帧的960个变换系数系列。编码器200在规格化处理206中找到系数的平均能量级别（范数）。然后，编码器202以快速点阵向量量化（FLVQ）算法208等量化系数，以便对用于打包和传输的输出信号208编码。

图3B示出了变换编码编解码器（例如，Siren编解码器）的解码器250。解码器250接受从网络接收的输入信号252的进入比特流，并且根据该比特流重新创建对原始信号的最佳估计。为此，解码器250对输入信号252执行点阵解码（逆FLVQ）254，并且使用去量化处理256对解码后的变换系数进行去量化。同样，可以在各个频带内校正变换系数的能级。

此时，变换合成器258可以插值缺失分组的系数。最后，逆变换260按照逆DCT操作，并且将来自频域的信号转换回时域，以便作为输出信号262传输。如可以看到的，变换合成器258帮助填充可能产生自缺失分组的任意间隙。另外，解码器200的所有已有功能和算法保持不变。

基于对上面提供的终端100和音频编解码器110的理解，现在讨论转到音频编解码器100如何通过使用相邻帧、块或从网络接收的分组集合的完好系数，插值缺失分组的变换系数。（根据MLT系数给出下面的讨论，但是公开的插值处理可以很好地等同应用于其它形式的变换编码的其它变换系数）。

如图5的图示，用于插值丢失分组中的变换系数的处理400涉及对来自以前的完好帧、块或分组集合（即，没有丢失分组）（方框402）和来自随后的完好帧、块或分组集合（方框404）的变换系数应用插值规则（方框410）。因此，插值规则（方框410）确定给定集合中的丢失分组的数目，并且相应地取得完好集合（方框402/404）中的变换系数。然后，处理400插值丢失分组的新变换系数，以便***给定集合（方框412）。最后，处理400执行逆变换（方框414），并且合成用于输出的音频集合（方框416）。

图5更详细地图示了用于插值处理的插值规则500。如前面讨论的，插值规则500是帧、音频块或分组集合内的丢失分组的数目的函数。实际帧大小（比特/八位字节）取决于所使用的变换编码算法、比特率、帧长度和采样速率。例如，对于48 kbit/s 比特率、32 kHz采样速率和20ms帧长度的G.722.1 Annex C，帧大小是960比特/120个八位字节。对于G.719，帧为20ms，采样速率为48kHz ，并且比特率可以在任意20ms帧边界处在32 kbit/s 和128kbit/s之间改变。在RFC5404中规定了G.719的有效载荷格式。

一般地，丢失的给定分组可以具有一个或多个音频帧（例如，20ms），可以仅包含帧的一部分，可以具有一个或多个音频通道的一个或多个帧，可以具有一个或多个不同比特率的一个或多个帧，并且可以具有本领域技术人员已知的并且与所使用的特定变换编码算法和有效载荷格式相关联的其它复杂性。然而，用于插值缺失分组的缺失变换系数的插值规则500可被调整为适合于给定实现中的特定变换编码和有效载荷格式。

如图所示，前面的完好帧或集合510的变换系数（此处以MLT系数示出）被称为，并且后面的完好帧或集合530的变换系数（此处以MLT系数示出）被称为。如果音频编解码器使用Siren™22，索引（i）的范围从0到959。用于缺失分组的插值MLT系数540的绝对值的一般插值规则520基于应用于前面和后面的MLT系数510/530的权重512/532如下确定：

在该一般插值规则中，缺失帧或集合的插值MLT系数540的符号522被以相等的概率随机设置为正或负。这种随机性可以帮助产生自这些重构分组的音频听起来更自然并且更不像机器人发音。

在以这种方式插值MLT系数540之后，变换合成器（150；图2A）填充缺失分组的间隙，接收机（100B）处的音频编解码器（110；图2A）然后可以完成其合成操作，以便重构输出信号。例如，使用已知的技术，音频编解码器（110）取得经处理的变换系数的矢量，矢量包括接收到的完好MLT系数以及在需要时填充的插值MLT系数。编解码器（110）从这个矢量重构2M个样本矢量，矢量被以给出。最后，随着处理的继续，合成器（150）取得重构的矢量，并且将它们以M样本重叠叠加，以便产生用于接收机（100B）处的输出的重构信号y(n)。

随着缺失分组的数目的改变，插值规则500给前面和后面的MLT系数510/530应用不同的权重512/532，以便确定插值MLT系数540。下面是用于基于缺失分组数目和其它参数，确定两个权重因子和的特定规则。

1.单个丢失分组

如图7A所示，丢失分组处理器（140；图2A）可以检测对象帧或分组集合620中的单个丢失分组。如果丢失了单个分组，处理器（140）基于与缺失分组有关的音频的频率（例如，缺失分组之前的音频的当前频率），使用权重因子(,)插值丢失分组的缺失MLT系数。如下表所示，相对于当前音频的1kHz频率，用于前面帧或集合610A中的相应分组的权重因子（），以及用于后面帧或集合610B中的相应分组的权重因子（）可被如下确定：

频率
			低于1 kHz	0.75	0.0
高于1 kHz	0.5	0.5

2.两个丢失分组

如图7B所示，丢失分组处理器（140）可以检测对象帧或集合622中的两个丢失分组。在该情况下，处理器（140）可以在前面和后面帧或集合610A－B的相应分组中如下使用权重因子(,)以便插值缺失分组的MLT系数：

丢失分组
			第一个(较早的)分组	0.9	0.0
最后一个(较新的)分组	0.0	0.9

如果每个分组包括一个音频帧（例如，20ms），则图7B的每个集合610A－B和622基本上包括几个分组（即，几个帧），从而在集合610A－B和622中，附加分组实际上可能不是如图7A所示。

3.三到六个丢失分组

如图7C所示，丢失分组处理器（140）可以检测对象帧或集合624中的三到六个丢失分组（图7C中示出了三个）。三到六个个缺失分组可以表示在给定时间间隔内丢失了多至25％的分组。在该情况下，处理器（140）可以在前面和后面帧或集合610A－B的相应分组中如下使用权重因子(,)以便插值缺失分组的MLT系数：

丢失分组
			第一个(较早的)分组	0.9	0.0
一个或多个中间分组	0.4	0.4
			最后一个(较新的)分组	0.0	0.9

图7A－7C的图中的分组和帧或集合的布置具有说明含义。如前面说明的，某些编码技术可以使用包含特定长度（例如，20ms）音频的帧。另外，某些技术可以为每个音频帧（例如，20ms）使用一个分组。然而取决于实现，给定分组可以具有一个或多个音频帧的信息（例如，20ms），或可以仅具有一个音频帧（例如，20ms）的一部分的信息。

为了定义用于插值缺失的变换系数的权重因子，上面描述的参数使用频率级别、帧内缺失分组数目、以及缺失分组在缺失分组的给定集合中的位置。可以使用这些插值参数中的任意一个或组合定义权重因子。上面公开的用于插值变换系数的权重因子(,)、频率阈值和插值参数是说明性的。这些权重因子、阈值和参数被认为当在会议中填充缺失分组的间隙时，产生最佳的主观音频质量。然而，这些因子、阈值和参数对于特定实现可以不同，可被扩展到说明性给出的数值之外，并且可以取决于使用的装置的类型，所涉及音频类型（即，音乐、语音等），所应用的变换编码类型和其它考虑。

在任意情况下，当为基于变换的音频编解码器隐藏丢失的音频分组时，所公开的音频处理技术与现有技术的解决方案相比产生质量更好的声音。特别地，即使丢失了25％的分组，所公开的技术仍然可以产生比当前技术更可理解的音频。音频分组丢失通常发生在视频会议应用中，所以改进这些情况下的质量对于改进总体视频会议体验是重要的。另外，重要的是隐藏分组丢失所采取的步骤不需要进行操作以便隐藏丢失的终端处的太多处理或存储资源。通过对前面和后面的完好帧中的变换系数施加权重，所公开的技术可以减少所需的处理和存储资源。

虽然根据音频或视频会议进行描述，本公开的教导可被用于涉及流式媒体，包括流式音乐和语音的其它领域。因此，本公开的教导可被应用于音频会议端点和视频会议端点之外的其它音频处理设备，包括音频回放设备、个人音乐播放器、计算机、服务器、电信设备、蜂窝电话、个人数字助理等。例如，专用音频或视频会议端点可以受益于所公开的技术。类似地，计算机或其它设备可被用于桌面会议或用于传输和接收数字音频，并且这些设备也可以受益于所公开的技术。

本公开的技术可被实现在电子电路、计算机硬件、固件、软件或它们的任意组合内。例如，所公开的技术可被实现为存储在程序存储设备上的指令，所述指令用于使得可编程控制设备执行所公开的技术。适合于有形地包含程序指令和数据的程序存储设备包括所有形式的非易失存储器，作为例子包括半导体存储器设备，诸如EPROM、EEPROM和闪存设备；磁盘诸如内部硬盘和可移动盘；磁光盘；和CD－ROM盘。可以用ASIC（专用集成电路）补充前面的任意设备，或其可被结合在ASIC内。

前面对优选和其它实施例的描述不旨在限制或局限申请人构想的发明概念的范围或适用性。作为公开此处包含的发明性概念的交换，申请人希望由所附权利要求提供的所有专利权。因此，所附权利要求旨在最大程度地包括位于下面权利要求或其等同物的范围内的所有修改和替换。

Claims

1.一种音频处理方法，包括：

通过网络在音频处理设备处接收分组集合，每个集合具有一个或多个分组，每个分组具有频域中的变换系数，所述变换系数用于重构时域中的已经经过变换编码的音频信号；

确定接收到的集合中的一个给定集合内的一个或多个缺失分组，其中所述一个或多个缺失分组在所述给定集合中以给定顺序排序；

对顺序排在该给定集合之前的第一集合内的所有一个或多个第一分组的第一变换系数应用第一权重，所述一个或多个第一分组在第一集合中具有对应于所有所述一个或多个缺失分组在所述给定集合中的给定顺序的第一顺序；

对顺序排在该给定集合之后的第二集合内的所有一个或多个第二分组的第二变换系数应用第二权重，所述一个或多个第二分组在第二集合中具有对应于所有所述一个或多个缺失分组在所述给定集合中的给定顺序的第二顺序；

通过累加所有对应的第一和第二分组的相应的第一和第二加权后的变换系数，插值新的变换系数；

通过将插值后的新的变换系数***所述给定集合以代替所述一个或多个缺失分组来用新的音频信息代替所述一个或多个缺失分组的缺失音频信息；和

通过对变换系数执行逆变换，产生音频处理设备的输出音频信号。

2.如权利要求1所述的音频处理方法，其中从由音频会议端点、视频会议端点、音频回放设备、个人音乐播放器、计算机、服务器、电信设备、蜂窝电话和个人数字助理组成的组中选择音频处理设备。

3.如权利要求1所述的音频处理方法，其中所述网络包括网际协议网络。

4.如权利要求1所述的音频处理方法，其中变换系数包括调制重叠变换的系数。

5.如权利要求1所述的音频处理方法，其中每个集合具有一个分组，并且其中所述一个分组包括输入音频帧。

6.如权利要求1所述的音频处理方法，其中接收包括对分组解码。

7.如权利要求6所述的音频处理方法，其中接收包括对解码后的分组去量化。

8.如权利要求1所述的音频处理方法，其中确定一个或多个缺失分组包括在缓冲器内对接收到的分组排序，并且寻找该排序中的间隙。

9.如权利要求1所述的音频处理方法，其中插值变换系数包括给累加的第一和第二加权后的变换系数分配随机的正号和负号。

10.如权利要求1所述的音频处理方法，其中被应用于第一和第二变换系数的第一和第二权重基于第一和第二变换系数的频率。

11.如权利要求10所述的音频处理方法，其中，对于第一和第二变换系数的每个频率低于阈值，则第一权重强调第一变换系数的重要性，并且第二权重降低第二变换系数的重要性。

12.如权利要求11所述的音频处理方法，其中该阈值是1kHz。

13.如权利要求11所述的音频处理方法，其中第一变换系数被以75％加权，并且其中第二变换系数被调整为零。

14.如权利要求10所述的音频处理方法，其中，对于第一和第二变换系数的每个频率高于阈值，则第一和第二权重等同地强调第一和第二变换系数的重要性。

15.如权利要求14所述的音频处理方法，其中第一和第二变换系数两者被以50％加权。

16.如权利要求1所述的音频处理方法，其中应用于第一和第二变换系数的第一和第二权重基于缺失分组的数目。

17.如权利要求16所述的音频处理方法，其中如果给定集合中缺失了一个分组，

对于第一和第二变换系数的每个频率低于阈值，则第一权重强调第一变换系数的重要性，并且第二权重降低第二变换系数的重要性；和

对于第一和第二变换系数的每个频率高于该阈值，则第一和第二权重等同地强调第一和第二变换系数的重要性。

18.如权利要求16所述的音频处理方法，其中如果给定集合中缺失两个分组，

第一权重强调所述两个分组中在前的一个分组的第一变换系数的重要性，并且降低所述两个分组中在后的一个分组的第一变换系数的重要性；和

第二权重降低在前分组的第二变换系数的重要性，并且强调在后分组的第二变换系数的重要性。

19.如权利要求18所述的音频处理方法，其中被强调重要性的系数被以90％加权，并且其中被降低重要性的系数被调整为零。

20.如权利要求16所述的音频处理方法，其中如果在给定集合中缺失了三个或更多分组，

第一权重强调这些分组中的第一个分组的第一变换系数的重要性，并且降低这些分组中的最后一个分组的第一变换系数的重要性；

第一和第二权重等同地强调这些分组中的一个或多个中间分组的第一和第二变换系数的重要性；和

第二权重降低这些分组中的第一个分组的第二变换系数的重要性，并且强调这些分组中的最后一个分组的第二变换系数的重要性。

21.如权利要求20所述的音频处理方法，其中被强调重要性的系数被以90％加权，其中被降低重要性的系数被调整为零，并且其中被等同强调重要性的系数被以40％加权。

22.一种音频处理设备，包括：

音频输出接口；

网络接口，该网络接口与至少一个网络通信，并且接收音频分组集合，每个集合具有一个或多个分组，每个分组具有频域中的变换系数；

与网络接口通信并且存储接收到的分组的存储器；

与存储器和音频输出接口通信的处理单元，该处理单元被编程有音频解码器，所述音频解码器配置为：

通过对变换系数执行逆变换，产生时域中的、用于音频输出接口的输出音频信号。

23.如权利要求22所述的音频处理设备，其中该设备包括会议端点。

24.如权利要求22所述的音频处理设备，还包括可通信地耦连到音频输出接口的扬声器。

25.如权利要求22所述的音频处理设备，还包括音频输入接口，以及可通信地耦连到音频输入接口的麦克风。

26.如权利要求25所述的音频处理设备，其中所述处理单元与音频输入接口通信，并且被编程有音频编码器，所述音频编码器配置为：

将音频信号的时域样本的帧变换为频域变换系数；

量化变换系数；和

对量化后的变换系数编码。

27.如权利要求22所述的音频处理设备，其中从由音频会议端点、视频会议端点、音频回放设备、个人音乐播放器、计算机、服务器、电信设备、蜂窝电话和个人数字助理组成的组中选择音频处理设备。

28.如权利要求22所述的音频处理设备，其中所述网络包括网际协议网络。

29.如权利要求22所述的音频处理设备，其中变换系数包括调制重叠变换的系数。

30.如权利要求22所述的音频处理设备，其中每个集合具有一个分组，并且其中所述一个分组包括输入音频帧。

31.如权利要求22所述的音频处理设备，其中接收包括对分组解码。

32.如权利要求31所述的音频处理设备，其中接收包括对解码后的分组去量化。

33.如权利要求22所述的音频处理设备，其中确定一个或多个缺失分组包括在缓冲器内对接收到的分组排序，并且寻找该排序中的间隙。

34.如权利要求22所述的音频处理设备，其中插值变换系数包括给累加的第一和第二加权后的变换系数分配随机的正号和负号。

35.如权利要求22所述的音频处理设备，其中被应用于第一和第二变换系数的第一和第二权重基于第一和第二变换系数的频率。

36.如权利要求35所述的音频处理设备，其中，对于第一和第二变换系数的每个频率低于阈值，则第一权重强调第一变换系数的重要性，并且第二权重降低第二变换系数的重要性。

37.如权利要求36所述的音频处理设备，其中该阈值是1kHz。

38.如权利要求36所述的音频处理设备，其中第一变换系数被以75％加权，并且其中第二变换系数被调整为零。

39.如权利要求35所述的音频处理设备，其中，对于第一和第二变换系数的每个频率高于阈值，则第一和第二权重等同地强调第一和第二变换系数的重要性。

40.如权利要求39所述的音频处理设备，其中第一和第二变换系数两者被以50％加权。

41.如权利要求22所述的音频处理设备，其中应用于第一和第二变换系数的第一和第二权重基于缺失分组的数目。

42.如权利要求41所述的音频处理设备，其中如果给定集合中缺失了一个分组，

43.如权利要求41所述的音频处理设备，其中如果给定集合中缺失两个分组，

44.如权利要求43所述的音频处理设备，其中被强调重要性的系数被以90％加权，并且其中被降低重要性的系数被调整为零。

45.如权利要求41所述的音频处理设备，其中如果在给定集合中缺失了三个或更多分组，

46.如权利要求45所述的音频处理设备，其中被强调重要性的系数被以90％加权，其中被降低重要性的系数被调整为零，并且其中被等同强调重要性的系数被以40％加权。