CN110169082A

CN110169082A - 组合音频信号输出

Info

Publication number: CN110169082A
Application number: CN201780082610.2A
Authority: CN
Inventors: S·巴里塔卡; M·S·阿瑟瑞亚; D·墨菲
Original assignee: Hewlett Packard Development Co LP
Current assignee: Hewlett Packard Development Co LP
Priority date: 2017-03-08
Filing date: 2017-03-08
Publication date: 2019-08-23
Anticipated expiration: 2037-03-08
Also published as: US10659877B2; CN110169082B; EP3549355A1; US20190387313A1; EP3549355A4; WO2018164681A1

Abstract

根据示例，一种装置可以包括处理器和其上存储有机器可读指令的存储器，所述机器可读指令用于使所述处理器从在多个不同时间接收的多个帧中确定参考帧，其中，每个所述多个帧包括音频信号数据，并且其中，所述参考帧包括识别在所述多个帧中被识别的音频信号当中的最高音频信号水平的音频信号数据。可以将所述参考帧与除所述参考帧之外的所述多个帧中的每一个进行时间校准，以获得相应的经时间校准的帧。可以将在每个所述相应的经时间校准的帧中识别的音频信号相加在一起以生成相应的相加音频信号。可以将所述相应的相加音频信号组合在一起以获得组合音频信号，并且可以输出所述组合音频信号。

Description

组合音频信号输出

背景技术

基于因特网协议(IP)的语音会议越来越受欢迎并越来越多地被使用。基于IP的语音会议包括在源位置捕获音频信号、处理音频信号以生成数据包、以及通过网络将数据包传送至目的地位置。可以将所接收的数据包处理成音频信号，并且可以在目的地位置处通过扬声器输出所述音频信号。所输出音频信号的质量通常受到在源位置捕获音频信号期间实现的信噪比(SNR)的影响。

附图说明

以下(多个)附图中通过示例而非限制的方式图示了本公开的特征，其中，相似的附图标记指示相似的元件，在附图中：

图1示出了可以被实施以增强所捕获音频信号的质量的示例装置的框图；

图2示出了图1中描绘的示例装置可以在其中实施的示例环境的框图；

图3示出了用于增强所捕获音频信号的质量的示例方法的流程图；

图4A至图4C分别示出了在测试用例中由三个设备采集的信号；

图5示出了在测试用例中使用的离轴麦克风响应；

图6A至图6C分别示出了在测试用例中这三个设备的经帧分析的信号幅度；

图7A和图7B分别示出了在测试用例中在设备的帧上分析的样本的计算延迟以及相应帧中的互相关的相应最大值；

图8示出了在测试用例中帧中的信号；

图9A和图9B分别示出了在测试用例中设备之间的分析；并且

图10示出了在测试用例中设备语音帧的前五个梅尔(Mel)频率倒谱系数。

具体实施方式

本文公开了用于增强所捕获音频信号的质量的装置和方法。具体地，装置可以在多个不同时间从设备接收多个帧。帧可以各自包括与由音频源输出的音频相对应并由设备捕获的音频信号数据。可以从所接收的帧确定参考帧，其中，所述参考帧包括识别在帧中识别的音频信号当中的最高音频信号水平的音频信号数据。可以将参考帧与每个其他帧进行时间校准以获得相应的经时间校准的帧，并且可以将在相应的经时间校准的帧中识别的音频信号相加在一起以生成相应的相加音频信号。另外，可以将相加音频信号组合在一起以获得组合音频信号，并且可以输出所述组合音频信号。

根据示例，可以在音频会议应用中实施本文公开的装置和方法，以增强从诸如发言者等音频源传送至远程定位的设备的音频信号的质量。这样，例如，本文公开的装置和方法可以改善所传送音频信号的清晰度、语音编码、丢包、和信噪比。

通过实施本文公开的装置和方法，可以通过使用诸如膝上型计算机、智能电话、平板计算机等包括麦克风的用户设备来捕获来自音频源的音频。因此，例如，可以采用用户可以带到会议室的设备来捕获音频而不是依赖于专用麦克风阵列。一方面，与通过实施本文公开的装置和方法来增强音频信号相关联的成本可能低于与实施专用麦克风阵列相关联的成本，所述专用麦克风阵列可以通过波束成形来增强音频信号从而在最小化干扰的同时捕获来自特定方向的音频。

在继续之前，注意的是，如本文所使用的，术语“包括(includes)”和“包括(including)”是指但不限于：“包括(includes)”或“包括(including)”、和“至少包括(includes at least)”或“至少包括(including at least)”。术语“基于(based on)”意指但不限于“基于(based on)”和“至少部分地基于(based at least in part on)”。

首先参照图1，示出了可以被实施以增强所捕获音频信号的质量的示例装置100的框图。应该理解的是，图1中描绘的装置100可以包括附加组件，并且在不脱离本文公开的装置100的范围的情况下可以移除和/或修改本文描述的一些组件。

装置100可以是个人计算机、膝上型计算机、平板计算机、服务器计算机等。在任何方面，装置100可以包括处理器102和存储器110，所述存储器上存储有处理器102可以取出、解码、和执行的机器可读指令112至120。处理器102可以是基于半导体的微处理器、中央处理单元(CPU)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、和/或其他硬件设备。存储器110可以是包含或存储可执行指令的电子、磁性、光学或其他物理存储设备。存储器110可以是例如随机存取存储器(RAM)、电可擦除可编程只读存储器(EEPROM)、存储设备、光盘等。存储器110(其也可以称为计算机可读存储介质)可以是非暂态机器可读存储介质，其中，术语“非暂态(non-transitory)”不包含暂态传播信号。

处理器102可以取出、解码、和执行指令112以从多个帧确定参考帧，其中，每个所述帧包括音频信号数据，并且参考帧包括识别在所述多个帧中被识别的音频信号当中的最高音频信号水平的音频信号数据。如本文更详细讨论的，所述多个帧可以相对于彼此对应于不同的时间。也就是说，装置100可以相对于彼此在不同的时间从不同的设备接收帧，例如，取决于设备捕获从中接收帧的音频信号的时间。

处理器102可以取出、解码、和执行指令114以获得相应的经时间校准的帧。也就是说，处理器102可以执行指令114以将参考帧与除参考帧之外的所述多个帧中的每一个进行时间校准，以获得相应的经时间校准的帧。通过存在四个帧的特定示例，处理器102可以获得三个时间校准帧。处理器102可以取出、解码、和执行指令116以将在每个所述相应的经时间校准的帧中识别的音频信号相加在一起以生成相应的相加音频信号。处理器102还可以取出、解码、和执行指令118以将相应的相加音频信号组合在一起以获得组合音频信号。另外，处理器102可以取出、解码、和执行指令120以输出组合音频信号。

根据示例并且如图2中所示，装置100可以从多个设备(例如，分布式设备204a至204c)接收帧202a至202c。帧202a至202c还可以被称为音频信号元素、音频信号项等。图2描绘了可以实施在图1中描绘的示例装置100以增强由设备204a至204c捕获的音频信号的质量的示例环境200的框图。如图2所示，设备204a至204c可以相对于音频源206定位在不同的距离处。在这方面，由音频源206输出的音频或声音(如由附图标记208表示)可以相对于彼此在不同的时间到达每个设备204a至204c。由于响度会随着音频源206与设备204a至204c之间距离的增加而减小，因此设备204a至204c处的音频208也可能对于彼此处于不同的响度水平。

每个设备204a至204c可以包括麦克风210、处理器212、和网络适配器214。在其他示例中，设备204a可以包括多个麦克风210。在任何方面，麦克风210可以捕获从音频源206输出的音频208，并且可以将所捕获音频208转换为音频信号数据。由于设备204a至204c以及因此麦克风210可能位于距音频源206不同的距离处，因此所生成的音频信号数据在设备204a至204c当中可能不同。例如，最靠近音频源206的设备204a的音频信号数据可以指示比离音频源206最远的设备204c更响亮的声音、更高的信噪比等。在任何方面，每个处理器212可以对由相应的麦克风210转换的音频信号数据采用信号处理技术以生成包括包(例如，以太网包)的帧202a至202c，所述包对应于或包括音频信号数据。

另外，设备204a至204c可以经由其相应的网络适配器214将帧202a至202c传输到装置100。网络适配器214可以通过任何合适的有线或无线传输介质来传输帧202a至202c。在装置100位于设备204a至204c附近的示例中，网络适配器214可以经由wifi连接、Bluetooth^TM连接、局域网等利用装置100传输帧202a至202c。在其他示例中，装置100可以被定位成远离设备204a至204c。在这些示例中，设备204a至204c可以经由网络上的接入点或路由器将帧202a至202c传输到装置100。

通过特定示例的方式，音频源206可以是会议室中的发言者，例如主持人、参与者等，并且设备204a至204c可以是会议室中的电子设备。因此，例如，音频208可以是语音。另外或在其他示例中，设备204a至204c可以是膝上型计算机、智能电话、对讲电话、平板计算机、个人计算机、独立麦克风等。在特定示例中，设备204a至204c是会议室中参与者的膝上型计算机和/或智能电话。这样，装置100可以接收包含所捕获音频信号的帧202a至202c，而不需要在会议室中实施一组分布式专用麦克风设备。另外，应该理解的是，为了简化起见，已描绘和描述了三个设备204a至204c，并且在图2中描绘的环境200中可以采用任何合理数量的设备。

在任何方面，装置100的处理器102可以取出、解码、和执行如本文关于所接收的帧202a至202c而讨论的指令112至120，以便对包含在帧202a至202c中的音频信号进行组合并输出组合音频信号。在一些示例中，处理器102可以将组合音频信号输出到数据存储位置。另外或在其他示例中，处理器102可以通过网络220将组合音频信号输出到目的地设备230。网络220可以是因特网、局域网等。在任何方面，装置100可以生成包含组合音频信号的数据包，并且可以经由所生成的数据包通过网络220输出组合音频信号。另外，目的地设备230可以包括用于访问在所接收的数据包中包含的组合音频信号的处理器232以及用于播放组合音频信号的扬声器234。因此，例如，可以由目的地设备230重放在远离目的地设备230处生成的音频208。

根据示例，通过实施由如本文所讨论的装置100实施的音频增强技术可以增强目的地设备230处的音频回放。也就是说，与由单个设备捕获并传送至目的地设备230的音频相比，所播放的音频可以具有更高的质量，例如信噪比。

结合图3中描绘的方法300更详细地讨论了可以实施装置100的各种方式。具体地，图3描绘了用于增强所捕获音频信号的质量的示例方法300的流程图。应该理解的是，图3中描绘的方法300可以包括附加操作，并且在不脱离方法300的范围的情况下可以移除和/或修改其中描述的一些操作。出于说明的目的，参考图1和图2中描绘的特征来描述方法300。

在框302处，处理器102可以在多个时间从分布式设备204a至204c接收音频信号元素(例如，帧202a至202c、音频信号项等)。音频信号元素202a至202c可以与由分布式设备204a至204c收集的相应的音频信号相对应。也就是说，每个分布式设备204a至204c可以对由相应的麦克风210根据从音频源206收集的音频208生成的音频信号实施信号处理技术。分布式设备204a至204c还可以将音频信号包括在相应的音频信号元素202a至202c中，并且可以将音频信号元素202a至202c传送至装置100。由于每个分布式设备204a至204c可以位于距音频源206不同的距离处，因此从音频源206输出的音频208可能相对于彼此在不同的时间到达分布式设备204a至204c。在这方面，每个分布式设备204a至204c向与特定音频208段相对应的装置100传送相应的音频信号元素202a至202c的计时可能彼此不同。

在框304处，处理器102可以执行指令112以确定所接收的音频信号元素202a至202c当中的参考元素。一般而言，参考元素可以是与音频信号元素202a至202c中的相应的音频信号当中具有最高水平的音频信号相对应的音频信号元素202a至202c。在这方面，处理器102可以对在框302处接收的音频信号元素202a至202c中包含的音频信号进行比较，以识别其中的哪个音频信号具有最高水平，例如响度、分贝水平等。处理器102可以将与具有最高水平的音频信号相对应的音频信号元素202a确定为参考元素202a(其在本文还被称为参考帧或特定项)。

在框306处，处理器102可以执行指令114以获得相应的经时间校准的音频信号元素。具体地，处理器102可以将参考元素202a与每个其他音频信号元素202b、202c进行时间校准。也就是说，处理器102可以确定处理器102接收到参考元素202a与接收到每个剩余音频信号元素202b、202c之间的时间差。例如，处理器102可能已经在时间t0从第一设备204a接收到参考元素202a，在时间t1从第二设备204b接收到音频信号元素202b，并且在时间t2从第三设备204c接收到音频信号元素202c。接收到参考元素202a与接收到来自第二设备204b的音频信号元素202b之间的时间差可以等于t1-t0，并且接收到参考元素202a与接收到来自第三设备204c的音频信号元素202c之间的时间差可以等于t2-t0。

处理器102可以通过将时间差(t1-t0)应用于参考信号元素202a以延迟参考信号元素202a从而将参考元素202a与音频信号元素202b进行时间校准。类似地，处理器102可以通过将时间差(t2-t0)应用于参考信号元素202a以延迟参考信号元素202a从而将参考元素202a与音频信号元素202c进行时间校准。换句话说，处理器102可以将参考元素202a与剩余的音频信号元素202b、202c进行时间校准，使得包括在音频信号元素202a至202c中的音频信号对应于同一音频208并因此彼此重叠。在任何方面，在框306处，可以获得相应的经时间校准的音频信号元素，例如，与参考元素202a时间校准的第二音频信号元素202b、与参考元素202a时间校准的第三音频信号元素202c等。

根据示例，处理器102可以通过实施抖动识别技术来识别要与参考元素202a进行时间校准的音频信号元素202b至202c。也就是说，例如，处理器102可以实施抖动识别技术以确定处理器102已经接收的多个音频信号元素中的哪一个与参考元素202a在时间上相对应。下文中呈现了对合适的抖动识别技术的描述。

在框308处，处理器102可以执行指令116以将与相应的经时间校准的音频信号元素相对应的音频信号相加，从而获得相加音频信号。也就是说，包含在被延迟的和经时间校准的参考元素202a中的音频信号可以与包含在第二音频信号元素202b中的音频信号相加，以获得第一相加音频信号。同样地，包含在参考元素202a中的音频信号可以被延迟并与包含在第三音频信号元素202c中的音频信号相加，以获得第二相加音频信号。根据示例，可以将增益应用于音频信号，以在音频信号相加之前放大或增强音频信号的增益。

在框310处，处理器102可以执行指令118以将相应的相加音频信号组合在一起以获得组合音频信号。由于组合音频信号可以包括由多个麦克风收集的音频的音频信号，因此组合音频信号可以具有比单独音频信号更高的水平和更高的质量。因此，组合音频信号可以具有比单独音频信号更高的信噪比。

在框312处，处理器102可以执行指令120以输出组合音频信号。例如，处理器102可以通过诸如因特网等网络输出组合音频信号。举例而言，处理器102可以通过基于因特网的语音通信服务来输出组合音频信号。

当从音频源206或从其他音频源接收到附加音频信号元素时，可以持续地重复方法300。在这方面，参考元素可以随着音频源206的移动和/或随着音频源206的改变而改变。

如果设备204a至204c之间的音频捕获的等待时间彼此不同，则可以先验地确定设备204a至204c的等待时间/延迟。可以使用设备204a至204c以便从音频源206(例如，会议室中的发言者)捕获音频208，并且可以在例如从会议室传输所捕获音频208之前增强所捕获音频208的水平和质量。处理器102可以通过例如根据以下等式估计第i个分布式麦克风的音频源延迟(d_i)来执行此操作。

等式(1)y_i(n)＝α_ix_i(n-d_i) (i＝1，2，...，N)。

在等式(1)中，N表示分布式麦克风的数量，例如设备204a至204c上的麦克风210。另外，y_i是与到第i个麦克风的输入x_i相关联的输出，α_i是用于控制输入(I)信号的水平的比例因子，d_i是延迟，并且n是时间样本。语音信号可以使用麦克风来捕获，使用A/D转换从模拟的被转换为数字的，并且被离散化为样本。N是对语音信号x的n次采样，其中，x是线性幅度。

可以取决于在装置100处接收的音频信号元素202a至202c(例如，包帧)的抖动将用来可靠地估计延迟参数(d_i)的分析分成两个步骤。在帧抖动的情况下，可以采用如本文所公开的涉及线性预测编码(LPC)和/或梅尔频率倒谱系数的附加操作。具体地，处理器102可以执行水平分析，例如处理器102可以使用以下等式执行对帧(k)执行的均方分析：

等式(2)：

处理器102可以针对每个麦克风信号i确定等式(2)，并且处理器102可以选择与麦克风j相关联的具有最大能量e_i,dB(k)＝argmax_ie_i,dB(k)k)的信号作为参考帧(参考元素或特定项)。使用具有最大能量的麦克风信号y_i作为参考，可以执行互相关以确定相对于最接近音频源206的麦克风j(即，显示最大的能量)的延迟d_i。可以将该延迟应用于与其他麦克风信号相关的参考麦克风信号y_j(n)并由β_i对该延迟进行增益加权，以获得供传输的信号z(n)。特别地，处理器102可以通过以下等式确定供传输的信号z(n)：

等式(3)：

对于滞后p，处理器102可以确定麦克风i信号与麦克风j信号的具有特定长度M(例如，M＝5296)的帧之间的互相关函数，如下：

等式(4)：

处理器102可以确定使互相关序列最大化的最佳滞后p*(即，p*＝argmax_p r(p))，并且如果r_yi，yj(p*)≥T，则处理器可以将样本的延迟d_i选择为p*，其中，T表示特定阈值。如果音频源206保持平稳而不移动，则除了引入诸如麦克风之间的相关噪声等非平稳性的情况之外，最佳滞后都应为相当稳定的状态。

例如，在帧202a至202c到达装置100存在随机性的情况下，处理器102可以执行可选操作以检查互相关分析的有效性。当存在随机性时，即使帧202a至202c不一定与简单的线性延迟相关，帧202a至202c之间的互相关仍可能高于阈值T。在这种情况下，可能不正确地估计延迟，并因此可能对具有最大信号水平的麦克风信号应用不正确的延迟。在这种情况下，由于作为可感知的音频回声/混响的伪信号的引入，组合音频信号的质量将降低。这种效果可能会或可能不会令人不安，并且可能取决于分布式麦克风的数量。例如，麦克风的数量越高，可感知伪信号的概率就越低，因为如果相应帧202a至202c同时到达，则可能不会错误地估计一些延迟。

另外，因为可以通过时间延迟和增益加权来混合较少的信号能量，并且可以实施用于使算法适应该条件的适当策略，因此组合音频信号的水平可能发生改变。例如，可以利用适当的攻击和释放时间常数来执行动态范围压缩，以使水平平滑地与同时到达装置100的帧相匹配。尽管帧之间具有高相关性，仍可以用于识别帧抖动的两种策略可以以线性预测和倒谱为前提。

诸如语音信号等音频信号可以表示为源-滤波器模型，其中，源可以被认为是通常在短时间间隔内平稳的准周期信号(用于发声组件)，或者作为摩擦音的平稳噪音序列。滤波器可以表示为全极点模型，并且线性预测编码(LPC)模型可以用于滤波器表示以生成合成语音。由系数a_k表示的、用于生成具有输入u(n)的语音信号s(n)的、阶数为P的全极点滤波器可以由下等式给出：

等式(5)：

在等式(5)中，G是增益项。另外，单位圆上的滤波器H(z)(其中，z＝e^jω)可以定义为：

等式(6)：

可以在逐帧分析时使用高效技术以使用Levinson-Durbin递归来计算极点参数，从而使包括语音信号相关性的自相关矩阵反相。自相关的计算可能需要PM次操作(其中，M是帧大小)。可以通过在计算极点参数之前执行感知激励型频率弯折(例如，将语音信号弯折为Bark临界频带比例)来减少操作次数，因为在给定感兴趣频率区域内对于同样性能，在弯折域中用于对H(z)建模的滤波器阶数小于P。此外，随着阶数P的增加，增加了病态矩阵(包括用于Levinson-Durbin递归的语音信号自相关矩阵)的可能性。

通过对信号进行频率弯折，在计算全极点参数之前，滤波器阶数以获得等效性能。对于语音信号，可以考虑小于5kHz的频率区域，因为该区域内的频谱特征有助于将语音信号彼此区分开(例如，具有高相关性但彼此不相关的语音帧)。本质上，Bark弯折是一种用于在单位圆周围执行非均匀DFT(离散傅里叶变换)的方式，重点是以较高频率为代价在低频率下实现更高频率的分辨率(即，对听觉滤波的分辨率进行建模)。在对弯折语音频谱进行线性预测之后，可以在这两个帧之间比较与语音频谱最大值相对应的频率，以确定语音帧的结构相似性。如果它们非常相似(即，存在较小的均方误差)，则帧可以用于互相关分析，否则它们不可以用于互相关分析。特别地，处理器102可以确定帧k与帧i之间的被定义为频谱比的帧间抖动预测误差(IFJPE)，如下：

等式(7)：

处理器102可以使用等式(7)来确保帧在弯折线性预测模型的极点波峰的频率位置方面在结构上相似。处理器102可以利用梯形积分规则来执行积分，并且处理器102可以使用归一化常数I(DFT长度)代替2π。H(w,k)是帧k中时域信号h(n)的傅立叶变换，其中，h(n)可以等效于麦克风信号x(n)。

梅尔频率倒谱系数(MFCC)可以在语音应用中使用以作为用于识别语音的特征集的一部分。例如，具有5296个样本(被适当地窗口化)的语音帧可以被汉明(Hamming)窗口化为25ms(1200个样本)的重叠段，进行离散傅立叶变换(DFT)，并且然后可以针对每个重叠帧得出频谱。可以由具有R个三角形重叠窗口的滤波器组(即，梅尔滤波器组)对每个重叠帧的幅度谱进行滤波，其中，能量总和被归一化为一。梅尔滤波器是重叠的三角形滤波器，其近似于沿着耳蜗基底膜的滤波，并且在较低频率下采用窄带宽滤波器。临界频带或Bark滤波器和ERB滤波器是其他听觉滤波器模型。滤波器组输出可以被转换至对数域并且应用于离散余弦变换(DCT-II)以获得MFCC(m)。

第零MFCC(即，MFCC(0))是语音帧的能量，并且可以用于归一化和/或被从分析中丢弃。处理器102可以使用以下信号处理操作，

等式(8)：

等式(9)：

等式(10)：

在等式(8)至等式(10)中，X(w)是麦克风信号x(n)的傅立叶变换，M_r(w)是第r滤波器组的频率响应。M_r(n)是与该滤波器组相关联的时间响应，并且该滤波器组可以是具有DCT的ERB、Bark等。为简单起见，已丢弃帧号k的符号。

方法300中阐述的一些或所有操作可以作为实用程序、程序或子程序包含在任何期望的计算机可访问介质中。另外，方法300可以由计算机程序实施，所述计算机程序可以以活动和非活动两者的各种形式存在。例如，它们可以作为机器可读指令存在，包括源代码、目标代码、可执行代码或其他格式。上述任一种指令都可以实施在非暂态计算机可读存储介质上。另外，在互相关之前，可以应用适当的噪声抑制策略以及盲去混响来增强信噪比和混响比。这可能产生对延时的更好估计。

非暂态计算机可读存储介质的示例包括计算机***的RAM、ROM、EPROM、EEPROM以及磁盘或光盘或磁带。因此，应当理解的是，能够执行上述功能的任何电子设备都可以执行以上枚举的那些功能。

测试用例

在实验中，在中型会议室中从第一设备的麦克风和第二设备的麦克风获得语音信号，并且另外使用模拟延迟和水平衰减生成第三语音信号(以考虑来自麦克风的离轴响应以及基于距离的衰减)。第一设备与第二设备之间跨越会议室分开略超过1米，并且在第一设备附近捕获语音(在以下示例帧中计算的能量显示该第一设备被正确识别为参考)。图4A至图4C分别示出了通过第一设备、第二设备、和模拟采集所采集的信号。通过在第一设备信号上使用-5dB衰减以及由于离轴麦克风响应导致的高频损耗来计算模拟采集以考虑任何衍射/阴影效应，而延迟是250个样本。

图5示出了在测试用例中使用的离轴麦克风响应。由于不同膝上型计算机上的数据采集硬件的差异导致的等待时间差异已经被手动预补偿。这些等待时间针对设备可以是先验已知的并且是经自动校正的。此外，通过用户设置或记录硬件引入的任何恒定麦克风前置放大器增益可以用于对麦克风捕获的信号进行适当的增益归一化。

假设存在语音活动检测器(VAD)和任何噪声抑制处理，来自第一设备麦克风的经帧分析的信号能量大于第二设备。例如，对于持续时间为5296个样本的语音帧38(图6A至图6C中所示)(从样本号201248开始)，能量是，

等式(11)：

来自先前部分的互相关分析产生了图7A至图9中的信息。特别地，图7A示出了相对于第一设备在第二设备的帧上分析的样本的计算延迟，而图7B是该帧中的互相关的相应最大值。如果该值大于T(在当前条件下使用T＝0:5)，则在等式(3)中使用与该最大值相关联的延迟。负延迟指示第一设备麦克风j相对于第二设备麦克风i＝1领先，并且因此将需要被延迟d_i。例如，对于帧38，d_i＝-138个样本(对应于r(p*)＝0:69)并且该延迟应用于等式(3)中以与来自第二设备的信号相干地求和。注意，138个样本的该延迟对应于第二设备距第一设备1米的距离(在会议室中这两个设备之间的真实距离也仅为约1米)。很少有可能存在如通过互相关确定的混杂信息。例如，帧61产生r(p)＝0:59，其中，d_i＝+241个样本，并且显然这是不可能的，因为说话者是静止的(第一设备和第二设备的信号能量分别为-34.96dB和-45dB)。图8示出了帧61中的信号，并且在该条件下，阈值可以自适应地改变，或者延迟可以固定为在先前帧中被确定为负的值。另外，可能存在在帧之间计算的延迟偏移δd_i。如果偏移在十几毫秒(少于约800个样本)内，这将不是有害的，因为这在感知极限内，在该感知极限内不会以听觉方式感知到类似回声的语音。如从图7A至图7C以及离线执行的分析中可以看出，已经观察到偏移完全在该感知极限内。

图9A和图9B分别示出了第一设备麦克风j与模拟采集麦克风i＝2之间的分析。结果正确地表明，对于有效r(p*)估计的延迟dⁱ＝2为-250个样本。

图10示出了对于第一设备和第二设备语音帧38、以及第二设备语音帧36(模拟抖动)利用25ms的窗口和10ms的跳跃计算的前五个梅尔频率倒谱系数MFCC(m){m＝1；2；:::；5}(其中，已经丢弃了第零MFCC)。在MFCC(3)上的两个帧(第一设备(38)和第二设备(36))上指示最大的区分。因此，对于25ms长度的每个窗口τ，可以使用两个度量中的任一个(基于最大值或均方误差)以便基于阈值通过比较两个麦克风信号帧(即，麦克风j与麦克风i之间)来确定抖动的存在：

等式(12)：

在本示例中，在参考第一设备帧38和来自第二设备的抖动帧36之间出于说明的目的，如果不存在抖动(第二设备帧38与第一设备帧38同时递送)，那么因此，使用该方法有助于对分布式阵列中来自不同麦克风的相关且结构上相同的帧与相关且结构不相似的帧进行区分。

尽管贯穿整个本公开进行了具体描述，但本公开的代表性示例在广泛应用范围内具有实用性，并且以上讨论不旨在且不应被解释为限制性的，而是作为本公开各方面的说明性讨论来提供。

本文中已经描述和图示的是本公开的示例以及其一些变型。本文中使用的术语、描述和附图仅以说明的方式阐述，并不意味着限制。在本公开的精神和范围内许多变化是可能的，本公开的精神和范围旨在由以下权利要求及其等同物限定，其中，除非另外指明，否则所有术语都是指其最广泛的合理意义。

Claims

1.一种装置，包括：

处理器；

存储器，其上存储有机器可读指令，所述机器可读指令用于使所述处理器：

从在多个不同时间接收的多个帧中确定参考帧，其中，所述多个帧中的每一帧包括音频信号数据，并且其中，所述参考帧包括识别在所述多个帧中识别的音频信号当中的最高音频信号水平的音频信号数据；

将所述参考帧与所述多个帧的除所述参考帧之外的每一帧进行时间校准，以获得相应的经时间校准的帧；

将在所述相应的经时间校准的帧中的每一帧中识别的音频信号相加在一起以生成相应的相加音频信号；

将所述相应的相加音频信号组合在一起以获得组合音频信号；以及

输出所述组合音频信号。

2.根据权利要求1所述的装置，其中，所述指令进一步用于使所述处理器：

在多个相对于彼此不同的时间从一组分布式设备接收所述多个帧。

3.根据权利要求2所述的装置，其中，所述指令进一步用于使所述处理器：

确定接收到所述参考帧与接收到所述多个帧中的其他帧的相应的时间差；以及

使用所确定的相应的时间差将所述参考帧与所述多个帧的除所述参考帧之外的每一帧进行时间校准并获得所述相应的经时间校准的帧。

4.根据权利要求3所述的装置，其中，为了确定所述相应的时间差，所述指令进一步用于使所述处理器：

将所述参考帧与所述多个帧中的其他帧中的每一帧互相关。

5.根据权利要求4所述的装置，其中，所述指令进一步用于使所述处理器：

通过对与所述多个帧相对应的音频信号数据实施抖动识别技术，识别要互相关的多个帧。

6.根据权利要求5所述的装置，其中，所述抖动识别技术的实施包括线性预测技术的实施和梅尔频率倒谱系数的实施中的至少一个。

7.根据权利要求2所述的装置，其中，所述一组分布式设备中的设备包括膝上型计算机、智能电话、平板计算机、和独立麦克风中的至少一个。

8.根据权利要求1所述的装置，其中，为了将所述相应的经时间校准的帧中每一帧中的音频信号相加在一起，所述指令进一步用于使所述处理器：

将所述参考帧中的音频信号逐个地与所述多个帧中除所述参考帧之外的每一帧中的音频信号进行校准，以获得一组经校准的音频信号；以及

其中，所述指令进一步用于使所述处理器将所述经校准的音频信号进行组合以获得所述组合音频信号。

9.一种方法，包括：

在多个时间从分布式设备接收音频信号元素，其中，所述音频信号元素包括由所述分布式设备收集的相应的音频信号；

确定所接收的音频信号元素当中的参考元素，所述参考元素与所述相应的音频信号中具有最高水平的音频信号相对应；

确定接收到所述参考元素与接收到除所述参考元素之外的音频信号元素的相应的时间差；

基于所确定的相应的时间差，将所述参考元素与所述音频信号元素中除所述参考元素之外的每一个进行时间校准，以获得相应的经时间校准的音频信号元素；

将与所述相应的经时间校准的音频信号元素相对应的音频信号相加，以获得相应的相加音频信号；以及

将所述相应的相加音频信号组合在一起以获得组合音频信号。

10.根据权利要求9所述的方法，其中，所述音频信号包括语音，并且其中，所述方法进一步包括：

通过基于因特网的语音通信服务输出所述组合音频信号。

11.根据权利要求9所述的方法，其中，所述将与所述相应的经时间校准的音频信号元素相对应的音频信号相加进一步包括：

将所述参考帧中的音频信号逐个地与多个音频信号元素中除所述参考元素之外的每一个进行校准，以获得一组经校准的音频信号；以及

将所述一组经校准的音频信号进行组合以获得所述组合音频信号。

12.根据权利要求9所述的方法，进一步包括：

通过对所述音频信号元素中包括的音频信号实施抖动识别技术，识别要与所述参考元素进行时间校准的音频信号元素。

13.一种非暂态计算机可读介质，其上存储有机器可读指令，所述机器可读指令当由处理器执行时使所述处理器：

在多个时间从多个设备接收音频信号项，其中，所述音频信号项中的每一个包括由所述多个设备中的设备收集的相应的音频信号；

确定所接收的音频信号项当中的特定项，所述特定项与所述相应的音频信号中具有最高水平的音频信号相对应；

将所述特定项与所述音频信号项中除所述特定项之外的每一个进行时间校准，以获得相应的经时间校准的音频信号项；

将与所述相应的经时间校准的音频信号项相对应的音频信号进行相加，以获得相应的相加音频信号；以及

14.根据权利要求13所述的非暂态计算机可读介质，其中，所述指令进一步用于使所述处理器：

确定接收到所述特定项的时间与接收到除所述特定项之外的音频信号项的时间的相应的差；以及

使用所确定的相应的时间差将所述特定项与所述音频信号项中除所述特定项之外的每一个进行时间校准，以获得所述相应的经时间校准的音频信号项。

15.根据权利要求13所述的非暂态计算机可读介质，其中，所述指令进一步用于使所述处理器：

通过对所述音频信号项中包括的音频信号实施抖动识别技术，识别要与所述特定项进行时间校准的音频信号项。