CN107925815A

CN107925815A - 空间音频处理装置

Info

Publication number: CN107925815A
Application number: CN201680047339.4A
Authority: CN
Inventors: M-V·莱蒂南; M·塔米; M·维莱莫
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2015-07-08
Filing date: 2016-07-05
Publication date: 2018-04-17
Anticipated expiration: 2036-07-05
Also published as: US20210368248A1; CN107925712B; US11838707B2; US20180206039A1; CN107925815B; GB201511949D0; EP3320692B1; EP3320677A4; CN107925712A; EP3320692A4; EP3320677A1; GB201513198D0; US20180213309A1; GB2542112A; WO2017005977A1; GB2540175A; US11115739B2; EP3320692A1; US10382849B2; EP3320677B1

Abstract

一种装置，其包括：音频捕获应用，被配置为从多个麦克风中确定单独的麦克风并且通过分析来自单独的麦克风的相应的两个或更多音频信号来标识音频场景内的至少一个音频源的声源方向，其中音频捕获应用还被配置为基于已确定的方向从多个麦克风中自适应地选择两个或更多相应的音频信号并且还被配置为还基于已确定的方向从两个或更多相应的音频信号中选择参考音频信号；以及信号发生器，被配置为基于已选择的两个或更多相应的音频信号的组合并且参考参考音频信号来生成表示至少一个音频源的中间信号。

Description

空间音频处理装置

技术领域

本申请涉及一种用于音频信号的空间处理的装置。本发明还涉及但不限于一种用于对音频信号进行空间处理以实现来自移动设备的音频信号的空间再现的装置。

背景技术

其中基于方向信息来处理音频信号的空间音频处理可以在诸如空间声音再现的应用内被实现。空间声音再现的目的是再现声场的空间方面的感知。这些包括声源的方向、距离和大小、以及周围物理空间的属性。

麦克风阵列可以用来捕获这些空间方面。然而，通常很难将捕获的信号转换为保持用以就好像当信号被记录时收听者在场那样再现事件的能力的形式。特别地，经处理的信号通常缺乏空间表示。换言之，收听者可能不会像在原始事件中经历的那样感觉到声源的方向或收听者周围的环境。

已经提出了参数时间频率处理方法来试图克服这些问题。被称为空间音频捕获(SPAC)的一种这样的参数处理方法基于在时间频率域中分析所捕获的麦克风信号，并且使用扬声器或者耳麦来再现经处理的音频。已经发现使用这种方法感知的音频质量是良好的，并且所捕获的音频信号的空间方面可以被忠实地再现。

SPAC最初被开发用于使用来自相对紧凑的阵列(诸如移动设备)的麦克风信号。但是，需要使用具有更多样化或几何可变阵列的SPAC。例如，存在捕获设备可以包含若干麦克风和声学遮蔽物体。传统的SPAC方法不适合这样的***。

发明内容

根据第一方面，提供了一种装置，其包括：音频捕获/再现应用，被配置为从多个麦克风中确定单独的麦克风并且通过分析来自单独的麦克风的相应的两个或更多音频信号来标识音频场景内的至少一个音频源的声源方向，其中音频捕获/再现应用还被配置为基于已确定的方向从多个麦克风中自适应地选择两个或更多相应的音频信号并且还被配置为还基于已确定的方向从两个或更多相应的麦克风中选择参考音频信号；以及信号发生器，被配置为基于已选择的两个或更多相应的音频信号的组合并且参考参考音频信号来生成表示至少一个音频源的中间信号。

音频捕获/再现装置可以仅是音频捕获装置。音频捕获/再现装置可以仅是音频再现装置。

音频捕获/再现应用还可以被配置为：基于已确定的方向和麦克风方位来从多个麦克风中标识两个或更多麦克风，使得已标识的两个或更多麦克风是最靠近至少一个音频源的麦克风；以及基于已标识的两个或更多麦克风来选择两个或更多相应的音频信号。

音频捕获/再现应用还可以被配置为基于已确定的方向从已标识的两个或更多麦克风中标识哪个麦克风最靠近至少一个音频源，并且选择最靠近至少一个音频源的麦克风的相应的音频信号作为参考音频信号。

音频捕获/再现应用还可以被配置为确定参考音频信号与已选择的两个或更多相应的音频信号中的其他音频信号之间的相干延迟，其中相干延迟是使参考音频信号与两个或更多相应的音频信号中的另一音频信号之间的相干性最大的延迟值。

信号发生器可以被配置为：基于已确定的相干延迟来将已选择的两个或更多相应的音频信号中的其他音频信号与参考音频信号进行时间对准；以及将已选择的两个或更多相应的音频信号中的已时间对准的其他音频信号与参考音频信号进行组合。

信号发生器还可以被配置为基于针对两个或更多相应的音频信号的麦克风方向与已确定的方向之间的差异来生成加权值，并且在信号组合器组合之前向相应的两个或更多音频信号应用加权值。

信号发生器可以被配置为将已选择的两个或更多相应的音频信号中的已时间对准的其他音频信号与参考音频信号相加

该装置还可以包括另外的信号发生器，该另外的信号发生器被配置为还从多个麦克风中选择两个或更多相应的音频信号的另外的选择，并且根据两个或更多相应的音频信号的另外的选择的组合来生成表示音频场景环境的至少两个侧信号。

该另外的信号发生器可以被配置为基于以下中的至少一项来选择两个或更多相应的音频信号的另外的选择：输出类型；以及多个麦克风的分布。

该另外的信号发生器可以被配置为：确定与两个或更多相应的音频信号的另外的选择中的每个音频信号相关联的环境系数；向两个或更多相应的音频信号的另外的选择应用已确定的环境系数以生成至少两个侧信号中的每个侧信号的信号分量；以及解相关针对至少两个侧信号中的每个侧信号的信号分量。

该另外的信号发生器可以被配置为：应用一对头部相关的传递函数滤波器；以及组合经滤波的已解相关的信号分量以生成表示音频场景环境的至少两个侧信号。

该另外的信号发生器可以被配置为生成经滤波的已解相关的信号分量以生成表示音频场景环境的左通道音频信号和右通道音频信号。

来自两个或更多相应的音频信号的另外的选择的音频信号的环境系数可以基于音频信号与参考音频信号之间的相干性值。

针对来自两个或更多相应的音频信号的另外的选择的音频信号的环境系数可以基于从至少一个音频源到达的方向的在时间和/或频率上的已确定的圆方差。

针对来自两个或更多相应的音频信号的另外的选择的音频信号的环境系数可以基于音频信号与参考音频信号之间的相干性值以及从至少一个音频源到达的方向的在时间和/或频率上的已确定的圆方差。

单独的麦克风可以以确定的固定配置被定位在该装置上。

根据第二方面，提供了一种装置，包括：声源方向确定器，被配置为从多个麦克风中确定单独的麦克风并且通过分析来自单独的麦克风的相应的两个或更多音频信号来标识音频场景内的至少一个音频源的声源方向；通道选择器，被配置为基于已确定的方向从多个麦克风中自适应地选择两个或更多相应的音频信号并且还被配置为还基于已确定的方向从两个或更多相应的音频信号中选择参考音频信号；以及信号发生器，被配置为基于已选择的两个或更多相应的音频信号的组合并且参考参考音频信号来生成表示至少一个音频源的中间信号。

通道选择器可以包括：通道确定器，被配置为基于已确定的方向和麦克风方位来从多个麦克风中标识两个或更多麦克风，使得已标识的两个麦克风是最靠近至少一个音频源的麦克风；以及通道信号选择器，被配置为基于已标识的两个或更多麦克风来选择两个或更多相应的音频信号。

通道确定器还可以被配置为基于已确定的方向从已标识的两个或麦克风中标识哪个麦克风最靠近至少一个音频源，并且其中通道信号选择器可以被配置为选择最靠近至少一个音频源的麦克风的相应的音频信号作为参考音频信号。

该装置还可以包括相干延迟确定器，该相干延迟确定器被配置为确定参考音频信号与已选择的两个或更多相应的音频信号中的其他音频信号之间的相干延迟，其中相干延迟可以是使参考音频信号与两个或更多相应的音频信号中的另一音频信号之间的相干性最大的延迟值。

信号发生器可以包括：信号对准器，被配置为基于已确定的相干延迟来将已选择的两个或更多相应的音频信号中的其他音频信号与参考音频信号进行时间对准；以及信号组合器，被配置为将已选择的两个或更多相应的音频信号中的已时间对准的其他音频信号与参考音频信号进行组合。

该装置还可以包括方向依赖权重确定器，该方向依赖权重确定器被配置为基于两个或更多相应的音频信号的麦克风方向与已确定的方向之间的差异来生成加权值，其中信号发生器还可以包括被配置为在信号组合器组合之前向相应的两个或更多音频信号应用加权值的信号处理器。

信号组合器可以将已选择的两个或更多相应的音频信号中的已时间对准的其他音频信号与参考音频信号相加。

该另外的信号发生器可以包括：环境确定器，被配置为确定与两个或更多相应的音频信号的另外的选择中的每个音频信号相关联的环境系数；侧信号分量发生器，被配置为向两个或更多相应的音频信号的另外的选择应用已确定的环境系数以生成针对至少两个侧信号中的每个侧信号的信号分量；以及滤波器，被配置为解相关针对至少两个侧信号中的每个侧信号的信号分量。

该另外的信号发生器可以包括：一对头部相关的传递函数滤波器，被配置为接收每个已解相关的信号分量；以及侧信号通道发生器，被配置为组合经滤波的已解相关的信号分量以生成表示音频场景环境的至少两个侧信号。

这对头部相关的传递函数滤波器可以被配置为生成经滤波的解相关的信号分量以生成表示音频场景环境的左通道音频信号和右通道音频信号。

来自两个或更多相应的音频信号的另外的选择的音频信号的环境系数可以基于从至少一个音频源到达的方向的在时间和/或频率上的已确定的圆方差。

来自两个或更多相应的音频信号的另外的选择的音频信号的环境系数可以基于音频信号与参考音频信号之间的相干性值以及从至少一个音频源到达的方向的在时间和/或频率上的已确定的圆方差。

单独的麦克风可以以确定的固定配置被定位在该装置上。

根据第三方面，提供了一种方法，包括：从多个麦克风中确定单独的麦克风；通过分析来自单独的麦克风的相应的两个或更多音频信号来标识音频场景内的至少一个音频源的声源方向；基于已确定的方向从多个麦克风中自适应地选择两个或更多相应的音频信号；还基于已确定的方向从两个或更多相应的音频信号中选择参考音频信号；以及基于已选择的两个或更多相应的音频信号的组合并且参考参考音频信号来生成表示至少一个音频源的中间信号。

基于已确定的方向从多个麦克风中自适应地选择两个或更多相应的音频信号可以包括：基于已确定的方向和麦克风方位来从多个麦克风中标识两个或更多麦克风，使得已标识的两个或更多麦克风是最靠近至少一个音频源的麦克风；以及基于已标识的两个或更多麦克风来选择两个或更多相应的音频信号。

基于已确定的方向从多个麦克风中自适应地选择两个或更多相应的音频信号可以包括基于已确定的方向从已标识的两个或麦克风中标识哪个麦克风最靠近至少一个音频源，以及从两个或更多相应的音频信号中选择参考音频信号可以包括选择与最靠近至少一个音频源的麦克风相关联的音频信号作为参考音频信号。

该方法还可以包括确定参考音频信号与已选择的两个或更多相应的音频信号中的其他音频信号之间的相干延迟，其中相干延迟是使参考音频信号与两个或更多相应的音频信号中的另一音频信号之间的相干性最大的延迟值。

基于已选择的两个或更多相应的音频信号的组合并且参考参考音频信号来生成表示至少一个音频源的中间信号可以包括：基于已确定的相干延迟来将已选择的两个或更多相应的音频信号中的其他音频信号与参考音频信号进行时间对准；以及将已选择的两个或更多相应的音频信号中的已时间对准的其他音频信号与参考音频信号进行组合。

该方法还可以包括基于针对两个或更多相应的音频信号的麦克风方向与已确定的方向之间的差异来生成加权值，其中生成中间信号还可以包括在信号组合器组合之前向相应的两个或更多音频信号应用加权值。

将已选择的两个或更多相应的音频信号中的时间对准的其他音频信号与参考音频信号进行组合可以包括将已选择的两个或更多相应的音频信号中的已时间对准的其他音频信号与参考音频信号相加。

该方法还可以包括：进一步从多个麦克风中选择两个或更多相应的音频信号的另外的选择；以及根据两个或更多相应的音频信号的另外的选择的组合来生成表示音频场景环境的至少两个侧信号。

从多个麦克风中选择两个或更多相应的音频信号的另外的选择可以包括基于以下中的至少一项来选择两个或更多相应的音频信号的另外的选择：输出类型；以及多个麦克风的分布。

该方法可以包括：确定与两个或更多相应的音频信号的另外的选择中的每个音频信号相关联的环境系数；向两个或更多相应的音频信号的另外的选择应用已确定的环境系数以生成至少两个侧信号中的每个侧信号的信号分量；以及解相关针对至少两个侧信号中的每个侧信号的信号分量。

该方法还可以包括：向每个解相关的信号分量应用一对头部相关的传递函数滤波器；以及组合经滤波的解相关的信号分量以生成表示音频场景环境的至少两个侧信号。

应用这对头部相关的传递函数滤波器可以包括生成表示音频场景环境的左通道音频信号和右通道音频信号。

确定与两个或更多相应的音频信号的另外的选择中的每个音频信号相关联的环境系数可以基于音频信号与参考音频信号之间的相干性值。

确定与两个或更多相应的音频信号的另外的选择中的每个音频信号相关联的环境系数可以基于从至少一个音频源到达的方向的在时间和/或频率上的已确定的圆方差。

确定与两个或更多相应的音频信号的另外的选择中的每个音频信号相关联的环境系数可以基于音频信号与参考音频信号之间的相干性值以及从至少一个音频源到达的方向的在时间和/或频率上的已确定的圆方差。

根据第四方面，提供了一种装置，包括：用于从多个麦克风中确定单独的麦克风的部件；用于通过分析来自单独的麦克风的相应的两个或更多音频信号来标识音频场景内的至少一个音频源的声源方向的部件；用于基于已确定的方向从多个麦克风中自适应地选择两个或更多相应的音频信号的部件；用于还基于已确定的方向从两个或更多相应的音频信号中选择参考音频信号的部件；以及用于基于已选择的两个或更多相应的音频信号的组合并且参考参考音频信号来生成表示至少一个音频源的中间信号的部件。

用于基于已确定的方向从多个麦克风中自适应地选择两个或更多相应的音频信号的部件可以包括：用于已确定的方向和麦克风方位来从多个麦克风中标识两个或更多麦克风使得已标识的两个或更多麦克风是最靠近至少一个音频源的麦克风的部件；以及用于基于已标识的两个或更多麦克风来选择两个或更多相应的音频信号的部件。

用于基于已确定的方向从多个麦克风中自适应地选择两个或更多相应的音频信号的部件可以包括：用于基于已确定的方向从已标识的两个或麦克风中标识哪个麦克风最靠近至少一个音频源的部件，以及用于从两个或更多相应的音频信号中选择参考音频信号的部件可以包括用于选择与最靠近至少一个音频源的麦克风相关联的音频信号作为参考音频信号的部件。

该装置还可以包括用于确定参考音频信号与已选择的两个或更多相应的音频信号中的其他音频信号之间的相干延迟的部件，其中相干延迟是使参考音频信号与两个或更多相应的音频信号中的另一音频信号之间的相干性最大的延迟值。

用于基于已选择的两个或更多相应的音频信号的组合并且参考参考音频信号来生成表示至少一个音频源的中间信号的部件可以包括：基于已确定的相干延迟来将已选择的两个或更多相应的音频信号中的其他音频信号与参考音频信号进行时间对准；以及将已选择的两个或更多相应的音频信号中的时间对准的其他音频信号与参考音频信号进行组合。

该装置还可以包括用于基于两个或更多相应的音频信号的麦克风方向与已确定的方向之间的差异来生成加权值的部件，其中用于生成中间信号的部件还可以包括用于在信号组合器组合之前向相应的两个或更多音频信号应用加权值的部件。

用于将已选择的两个或更多相应的音频信号中的时间对准的其他音频信号与参考音频信号进行组合的部件可以包括用于将已选择的两个或更多相应的音频信号中的时间对准的其他音频信号与参考音频信号相加的部件。

该装置还可以包括：用于进一步从多个麦克风中选择两个或更多相应的音频信号的另外的选择的部件；以及用于根据两个或更多相应的音频信号的另外的选择的组合来生成表示音频场景环境的至少两个侧信号的部件。

用于从多个麦克风中选择两个或更多相应的音频信号的另外的选择的部件可以包括用于基于以下中的至少一项来选择两个或更多相应的音频信号的另外的选择的部件：输出类型；以及多个麦克风的分布。

该装置可以包括用于确定与两个或更多相应的音频信号的另外的选择中的每个音频信号相关联的环境系数的部件；用于向两个或更多相应的音频信号的另外的选择应用已确定的环境系数以生成至少两个侧信号中的每个侧信号的信号分量的部件；以及用于解相关针对至少两个侧信号中的每个侧信号的信号分量的部件。

该装置还可以包括：用于向每个已解相关的信号分量应用一对头部相关的传递函数滤波器的部件；以及用于组合经滤波的已解相关的信号分量以生成表示音频场景环境的至少两个侧信号的部件。

用于应用这对头部相关的传递函数滤波器的部件可以包括用于生成表示音频场景环境的左通道音频信号和右通道音频信号的部件。

用于确定与两个或更多相应的音频信号的另外的选择中的每个音频信号相关联的环境系数的部件可以基于音频信号与参考音频信号之间的相干性值。

用于确定与两个或更多相应的音频信号的另外的选择中的每个音频信号相关联的环境系数的部件可以基于从至少一个音频源到达的方向的在时间和/或频率上的已确定的圆方差。

用于确定与两个或更多相应的音频信号的另外的选择中的每个音频信号相关联的环境系数的部件可以基于音频信号与参考音频信号之间的相干性值以及从至少一个音频源到达的方向的在时间和/或频率上的已确定的圆方差。

一种存储在介质上的计算机程序产品可以使得装置执行如本文中描述的方法。

一种电子设备可以包括如本文中描述的装置。

一种芯片集可以包括如本文中描述的装置。

本申请的实施例旨在解决与现有技术相关联的问题。

附图说明

为了更好地理解本申请，现在将通过示例的方式参考附图，在附图中：

图1示意性地示出了根据一些实施例的适合于实现空间音频信号处理的音频捕获装置；

图2示意性地示出了根据一些实施例的用于空间音频信号处理器的中间信号发生器；

图3示出了如图2所示的中间信号发生器的操作的流程图；

图4示意性地示出了根据一些实施例的用于空间音频信号处理器的侧信号发生器；以及

图5示出了如图4所示的侧信号发生器的操作的流程图。

具体实施方式

以下进一步详细描述用于提供有效的空间信号处理的合适的装置和可能的机制。在下面的示例中，描述了音频信号和音频捕获信号。然而，可以理解，在一些实施例中，音频信号/音频捕获是音频视频***的一部分。

空间音频捕获(SPAC)方法基于将所捕获的麦克风信号分成中间分量和侧分量，并且单独地存储和/或处理这些分量。当使用具有若干麦克风和声学遮蔽物体(诸如捕获设备的本体)的麦克风阵列时，使用传统的SPAC方法创建这些分量是不被直接支持的。因此，为了允许有效的空间信号处理，需要修改SPAC方法。

例如，传统的SPAC处理使用两个预定的麦克风来创建中间信号。在麦克风之间存在声学遮蔽物体(诸如捕获设备的本体)的情况下，使用预定的麦克风可能是有问题的。遮蔽效应取决于音频源的到达方向(DOA)和频率。因此，所捕获的音频的音色将取决于DOA。例如，与来自捕获设备正面的声音相比，来自捕获设备后面的声音可能听起来沉闷。

关于本文中讨论的实施例，可以利用声学遮蔽效应以通过对源自不同方向的声音提供改进的空间源分离来改善音频质量。

此外，传统的SPAC处理还使用两个预定的麦克风用于创建侧信号。当创建侧信号时，遮蔽物体的存在可能是有问题的，因为侧信号的所得到的频谱也取决于DOA。在本文中描述的实施例中，通过在声学遮蔽物体周围采用多个麦克风来解决这个问题。

而且，在声学遮蔽物体周围采用多个麦克风的情况下，它们的输出是相互不相关的。麦克风信号的这种自然不相关性是空间音频处理中高度期望的属性，并且在本文中描述的实施例中采用。这在本文中描述的实施例中通过生成多个侧信号来进一步利用。在这样的实施例中，可以利用侧信号的方向性方面。这是因为，在实践中，侧信号包含在针对侧信号的传统SPAC处理中没有被表示的直接声音分量。

如本文中在所示实施例中公开的概念因此将传统空间音频捕获(SPAC)方法修改和扩展为包含若干麦克风和声学遮蔽物体的麦克风阵列。

这个概念可以分解为如下几个方面：使用被自适应选择的可用麦克风子集创建中间信号；并且使用多个麦克风创建多个侧信号。在这样的实施例中，这些方面利用前面提到的麦克风阵列来改善所得到的音频质量。

关于第一方面，下文中进一步详细描述的实施例基于所估计的到达方向(DOA)自适应地选择用于创建中间信号的麦克风子集。此外，在一些实施例中，“最靠近”或“较靠近”所估计的DOA的麦克风然后被选择为“参考”麦克风。其他所选择的麦克风音频信号然后可以与来自“参考”音频信号的音频信号进行时间对准。时间对准的麦克风信号然后可以被相加以形成中间信号。在一些实施例中，所选择的麦克风音频信号可以基于所估计的DOA进行加权，以避免在从一个麦克风子集改变为另一麦克风子集时的不连续性。

关于第二方面，下文中描述的实施例可以通过使用两个或更多麦克风创建多个侧信号来创建侧信号。为了生成每个侧信号，麦克风音频信号用自适应时频相关增益被加权。此外，在一些实施例中，这些加权的音频信号与被配置为对音频信号进行解相关的预定的解相关器或滤波器进行卷积。在一些实施例中，多个音频信号的生成还可以包括使音频信号通过合适的呈现或再现相关的滤波器。例如，音频信号可以通过其中期望进行耳麦或耳机再现的头部相关的传递函数(HRTF)滤波器或者其中期望进行扬声器呈现的多通道扬声器传递函数滤波器。

在一些实施例中，呈现或再现滤波器是可选的，并且音频信号直接用扬声器再现。

如下文中进一步详细描述的这样的实施例的结果是音频场景的编码，其由于麦克风的不相关性和声学遮蔽而使得能够在随后的再现或呈现具有某种方向性的包围声场的感知。

在以下示例中，被配置为生成中间信号的信号发生器与被配置为生成侧信号的信号发生器分开。然而，在一些实施例中，可以存在被配置为生成中间信号并且生成侧信号的单个发生器或模块。

此外，在一些实施例中，中间信号生成可以例如由音频捕获/再现应用来实现，该音频捕获/再现应用被配置为从多个麦克风中确定单独的麦克风并且通过分析来自单独的麦克风的相应的两个或更多音频信号来标识音频场景内的至少一个音频源的声源方向。音频捕获/再现应用还可以被配置为基于已确定的方向从多个麦克风中自适应地选择两个或更多相应的音频信号。此外，音频捕获/再现应用可以被配置为还基于所确定的方向从两个或更多相应的音频信号中选择参考音频信号。该实现然后可以包括被配置为基于所选择的两个或更多相应的音频信号的组合并且参考参考音频信号来生成表示至少一个音频源的中间信号的(中间)信号发生器。

在本文中详述的应用中，音频捕获/再现应用应当被解释为可以具有音频捕获和音频再现能力的应用。此外，在一些实施例中，音频捕获/再现应用可以被解释为仅具有音频捕获能力的应用。换言之，没有能力再现所捕获的音频信号。在一些实施例中，音频捕获/再现应用可以被解释为仅具有音频再现能力的应用，或者仅被配置为从麦克风阵列获取先前捕获或记录的音频信号以用于编码或音频处理输出目的。

根据另一视图，实施例可以由包括用于增强的音频捕获的多个麦克风的装置来实现。该装置可以被配置为从多个麦克风中确定单独的麦克风，并且通过分析来自单独的麦克风的相应的两个或更多音频信号来标识音频场景内的至少一个音频源的声源方向。该装置还可以被配置为基于已确定的方向从多个麦克风中自适应地选择两个或更多相应的音频信号。此外，该装置可以被配置为还基于已确定的方向从两个或更多相应的音频信号中选择参考音频信号。该装置因此可以被配置为基于已选择的两个或更多相应的音频信号的组合并且参考参考音频信号来生成表示至少一个音频源的中间信号。

关于图1，示出了根据一些实施例的适合于实现空间音频信号处理的示例音频捕获装置。

音频捕获装置100可以包括麦克风阵列101。麦克风阵列101可以包括多个(例如，数目N个)麦克风。图1所示的示例示出了麦克风阵列101，该麦克风阵列101包括以六面体配置被组织的8个麦克风121₁至121₈。在一些实施例中，麦克风可以被组织成使得它们位于音频捕获设备壳体的角落处，使得音频捕获装置100的用户可以持有该装置而不覆盖或阻挡任何麦克风。然而，可以理解，可以采用任何合适的麦克风配置和任何合适数目的麦克风。

本文中示出和描述的麦克风121可以是被配置为将声波转换为合适的电音频信号的换能器。在一些实施例中，麦克风121可以是固态麦克风。换言之，麦克风121可以能够捕获音频信号并且输出合适的数字格式信号。在一些其他实施例中，麦克风或麦克风阵列121可以包括任何合适的麦克风或音频捕获部件，例如电容式(condenser)麦克风、电容器式(capacitor)麦克风、静电麦克风、驻极体电容式麦克风、动态麦克风、带状麦克风、碳麦克风、压电式麦克风或微机电***(MEMS)麦克风。在一些实施例中，麦克风121可以将所捕获的音频信号输出到模数转换器(ADC)103。

音频捕获装置100还可以包括模数转换器103。模数转换器103可以被配置为从麦克风阵列101中的每个麦克风121接收音频信号并且将其转换为适合于处理的格式。在其中麦克风121是集成麦克风的一些实施例中，模数转换器不是必需的。模数转换器103可以是任何合适的模数转换或处理部件。模数转换器103可以被配置为将音频信号的数字表示输出到处理器107或存储器111。

在一些实施例中，音频捕获装置100包括至少一个处理器或中央处理单元107。处理器107可以被配置为执行各种程序代码。所实现的程序代码可以包括例如空间处理、中间信号生成、侧信号生成、时域到频域音频信号转换、频域到时域音频信号转换和其他代码例程。

在一些实施例中，音频捕获装置包括存储器111。在一些实施例中，至少一个处理器107耦合到存储器111。存储器111可以是任何合适的存储部件。在一些实施例中，存储器111包括程序代码部分，用于存储在处理器107上可实现的程序代码。此外，在一些实施例中，存储器111还可以包括用于存储数据的存储的数据部分，例如已经或要根据本文中描述的实施例被处理的数据。存储在程序代码部分内的所实现的程序代码和存储在所存储的数据部分内的数据可以在需要时由处理器107经由存储器处理器耦合来获取。

在一些实施例中，音频捕获装置包括用户接口105。在一些实施例中，用户接口105可以耦合到处理器107。在一些实施例中，处理器107可以控制用户接口105的操作并且从用户接口105接收输入。在一些实施例中，用户接口105可以使得用户能够例如经由小键盘向音频捕获装置100输入命令。在一些实施例中，用户接口105可以使得用户能够从装置100获取信息。例如，用户接口105可以包括被配置为将来自装置100的信息显示给用户的显示器。在一些实施例中，用户接口105可以包括能够使得信息能够被输入到装置100以及进一步向装置100的用户显示信息的触摸屏或触摸接口。

在一些实现中，音频捕获装置100包括收发器109。在这样的实施例中，收发器109可以耦合到处理器107并且被配置为例如经由无线通信网络来实现与其他装置或电子设备的通信。在一些实施例中，收发器109或任何合适的收发器或发射器和/或接收器部件可以被配置为经由导线或有线耦合与其他电子设备或装置通信。

收发器109可以通过任何合适的已知的通信协议与另外的装置通信。例如，在一些实施例中，收发器109或收发器部件可以使用合适的通用移动电信***(UMTS)协议、诸如例如IEEE 802.X的无线局域网(WLAN)协议、诸如蓝牙的合适的短程无线电频率通信协议、或红外数据通信路径(IRDA)。

在一些实施例中，音频捕获装置100包括数模转换器113。数模转换器113可以耦合到处理器107和/或存储器111，并且被配置为将音频信号(诸如来自处理器107)的数字表示转换为适合于经由音频子***输出来呈现的合适的模拟格式。在一些实施例中，数模转换器(DAC)113或信号处理部件可以是任何合适的DAC技术。

此外，在一些实施例中，音频子***可以包括音频子***输出115。如图1所示的示例是一对扬声器131₁和131₂。在一些实施例中，扬声器131可以被配置为接收来自数模转换器113的输出并且将模拟音频信号呈现给用户。在一些实施例中，扬声器131可以表示头戴式耳机(headset)，例如耳麦(earphone)集合或无绳耳麦。

此外，示出了在其中存在多个音频源的环境或音频场景内操作的音频捕获装置100。在图1所示和在本文中描述的示例中，环境包括第一音频源151，诸如在第一位置处讲话的人的声源。此外，图1所示的环境包括第二音频源153，诸如在第二位置处的小号演奏的器乐源。第一音频源151和第二音频源153的第一位置和第二位置可以分别不同。此外，在一些实施例中，第一音频源和第二音频源可以生成具有不同频谱特性的音频信号。

虽然音频捕获装置100被示出为具有音频捕获和音频呈现组件，但是应当理解，在一些实施例中，装置100可以仅包括音频捕获元件，使得仅存在麦克风(用于音频捕获)。类似地，在下面的示例中，音频捕获装置100被描述为适合于执行在下文中描述的空间音频信号处理。在一些实施例中，音频捕获组件和空间信号处理组件可以是分开的。换言之，音频信号可以由包括麦克风阵列和合适的发射器的第一装置来捕获。音频信号然后可以以本文中描述的方式在包括接收器和处理器和存储器的第二装置中被接收和处理。

如本文所述，该装置被配置为生成被配置为表示音频源信息的至少一个中间信号和被配置为表示环境音频信息的至少两个侧信号。例如在诸如源空间平移、源空间聚焦和源强调的应用中使用中间信号和侧信号是本领域已知的，并且不进一步详细描述。因此，以下描述集中于使用麦克风阵列生成中间信号和侧信号。

关于图2，示出了示例中间信号发生器。中间信号发生器作为被配置为在空间上处理麦克风音频信号并且生成中间信号的组件的集合。在一些实施例中，中间信号发生器被实现为可以在处理器上执行的软件代码。然而，在一些实施例中，中间信号发生器至少部分地被实现为与处理器分开或在处理器上实现的独立硬件。例如，中间信号发生器可以包括以片上***(SoC)架构的形式在处理器上实现的组件。换言之，中间信号发生器可以用硬件、软件或硬件和软件的组合来实现。

如图2所示的中间信号发生器是中间信号发生器的示例性实现。然而，可以理解，中间信号发生器可以在不同的合适的元件内实现。例如，在一些实施例中，中间信号发生器可以例如由音频捕获/再现应用来实现，该音频捕获/再现应用被配置为从多个麦克风中确定单独的麦克风并且通过分析来自单独的麦克风的相应的两个或更多音频信号来标识音频场景内的至少一个音频源的声源方向。音频捕获/再现应用还可以被配置为基于已确定的方向从多个麦克风中自适应地选择两个或更多相应的音频信号。此外，音频捕获/再现应用可以被配置为还基于已确定的方向从两个或更多相应的音频信号中选择参考音频信号。该实现因此可以包括被配置为基于已选择的两个或更多相应的音频信号的组合并且参考参考音频信号来生成表示至少一个音频源的中间信号的(中间)信号发生器。

在一些实施例中，中间信号发生器被配置为以时域格式接收麦克风信号。在这样的实施例中，在时间t，麦克风音频信号可以用时域数字表示被表示为表示第一麦克风音频信号的x₁(t)至表示第八麦克风音频信号的x₈(t)。更一般地，第n麦克风音频信号可以用x_n(t)表示。

在一些实施例中，中间信号发生器包括时域到频域变换器201。时域到频域变换器201可以被配置为生成来自每个麦克风的音频信号的频域表示。时域到频域变换器201或合适的变换器部件可以被配置为对音频数据执行任何合适的时域到频域变换。在一些实施例中，时域到频域变换器可以是离散傅立叶变换器(DFT)。然而，变换器201可以是任何合适的变换器，诸如离散余弦变换器(DCT)、快速傅里叶变换器(FFT)或正交镜像滤波器(QMF)。

在一些实施例中，中间信号发生器还可以在时域到频域变换器201之前通过对音频信号进行成帧和加窗来对音频信号进行预处理。换言之，时域到频域变换器201可以被配置为从麦克风接收音频信号并且将数字格式信号分成音频信号的帧或组。在一些实施例中，时域到频域变换器201还可以被配置为使用任何合适的加窗函数对音频信号进行加窗。时域到频域变换器201可以被配置为针对每个麦克风输入生成音频信号数据的帧，其中每个帧的长度和每个帧的交叠程度可以是任何合适的值。例如，在一些实施例中，每个音频帧是20毫秒长，并且帧之间具有10毫秒的交叠。

因此，时域到频域变换器201的输出通常可以表示为X_n(k)，其中n标识麦克风通道，并且k标识特定时间帧的频带或子带。

时域到频域变换器201可以被配置为针对每个麦克风输入将频域信号输出至到达方向(DOA)估计器203和通道选择器207。

在一些实施例中，中间信号发生器包括到达方向(DOA)估计器203。DOA估计器203可以被配置为从每个麦克风接收频域音频信号并且生成针对音频场景的(并且在一些实施例中针对每个音频源的)合适的到达方向估计。到达方向估计可以被传递给(最近的)麦克风选择器205。

DOA估计器203可以针对任何主导音频源采用任何合适的到达方向确定。例如，DOA估计器或合适的DOA估计部件可以为子带的每个麦克风选择频率子带和相关联的频域信号。

DOA估计器203然后可以被配置为对子带中的麦克风音频信号执行方向分析。在一些实施例中，DOA估计器203可以被配置为执行麦克风通道子带频域信号之间的互相关。

在DOA估计器203中，求解互相关的延迟值，其使两个麦克风音频信号之间的频域子带信号的互相关最大化。在一些实施例中，这个延迟可以用于估计距用于子带的主导音频信号源的角度(相对于麦克风之间的线)或表示该角度。该角度可以定义为α。应当理解，尽管一对或两个麦克风通道可以提供第一角度，但是通过使用多于两个麦克风通道并且优选地通过在两个或更多个轴上的麦克风，可以生成改进的方向估计。

在一些实施例中，DOA估计器203可以被配置为确定多于一个频率子带的到达方向估计，以确定环境是否包括多于一个音频源。

本文中的示例描述了使用频域相关值的方向分析。然而，可以理解，DOA估计器203可以使用任何合适的方法来执行方向分析。例如，在一些实施例中，DOA估计器可以被配置为输出特定的方位角仰角值而不是最大的相干延迟值。此外，在一些实施例中，可以在时域中执行空间分析。

在一些实施例中，该DOA估计器可以被配置为从一对麦克风通道音频信号开始执行方向分析，并且因此可以被定义为接收音频子带数据；

其中n_b是第b子带的第一索引。在一些实施例中，对于每个子带，本文中描述的方向分析如下。首先，使用两个通道来估计方向。方向分析器求解使针对子带b的两个通道之间的相关性最大化的延迟τ_b。例如的DFT域表示可以使用下式移动τ_b个时域样本

在一些实施例中，最佳延迟可以从下式中获得

其中Re指示结果的实部，并且*表示复共轭。和被认为是长度为n_b+1-n_b个样本的向量。在一些实施例中，方向分析器可以实现用于搜索延迟的一个时域采样的分辨率。

在一些实施例中，物体检测器和分离器可以被配置为生成“相加”信号。“相加”信号可以在数学上定义为

换言之，DOA估计器203被配置为生成“相加”信号，其中首先发生事件的通道的内容被不加修改地相加，而稍后发生事件的通道被移位以获得与第一通道的最佳匹配。

应当理解，延迟或偏移τ_b指示声源与另一麦克风(或通道)相比有多更靠近一个麦克风(或通道)。方向分析器可以被配置为将实际距离差异确定为

其中Fs是信号的采样率，并且v是信号在空气中(如果进行水下记录，则是在水中)的速度。

声音的到达角度由方向分析器确定为，

其中d是麦克风通道对之间的距离/通道间距，并且b是声源与最近的麦克风之间的估计距离。在一些实施例中，方向分析器可以被配置为将b的值设置为固定值。例如，已经发现b＝2米用以提供稳定的结果。

应当理解，本文中描述的确定为声音的到达方向提供两个备选方案，因为只有两个麦克风/通道不能确定确切的方向。

在一些实施例中，DOA估计器203被配置为使用来自另外的麦克风通道的音频信号来定义确定中的哪个符号是正确的。第三通道或麦克风与两个估计声源之间的距离是：

其中h是等边三角形(其中通道或麦克风确定三角形)的高度，即

上述确定的距离可以被认为等于如下的(样本中的)延迟；

在这两个延迟中，在一些实施例中，DOA估计器203被配置为选择能够提供与总和信号更好的相关性的一个延迟。相关性可以例如表示为

在一些实施例中，物体检测器和分离器然后可以将针对子带b的主导声源的方向确定为：

示出了使用三个麦克风通道音频信号来生成子带b中的主导音频源的到达方向估计α_b(相对于麦克风)的DOA估计器203。在一些实施例中，可以对其他“三角”麦克风通道音频信号执行这些确定，以确定至少一个音频源DOA估计θ，其中θ是相对于定义的合适的坐标参考来定义到达方向的向量θ＝[θ_x θy θz]。此外，可以理解，本文中所示的DOA估计仅是示例DOA估计，并且DOA可以使用任何合适的方法来确定。

在一些实施例中，中间信号发生器包括(最近的)麦克风选择器205。在本文中所示的示例中，选择是所选择的麦克风的子集，因为它们被确定为相对于声源的到达方向最近。最近的麦克风选择器205可以被配置为接收到达方向(DOA)估计器203的输出θ。最近的麦克风选择器205可以被配置为基于来自DOA估计器203的估计θ和来自装置上的麦克风的配置的信息来确定最靠近音频源的麦克风。在一些实施例中，最近的麦克风“三角”基于麦克风的预定义映射和DOA估计而被确定或选择。

选择最靠近音频源的麦克风的方法的示例可以在V.Pulkki的1997年6月的J.Audio Eng.Soc.,vol.45,pp.456–466的“Virtual source positioning using vectorbase amplitude panning”中找到。

所选择的(最近的)麦克风通道(其可以由合适的麦克风通道索引或指示符表示)可以被传递给通道选择器207。

而且，所选择的最近的麦克风通道和到达方向值可以被传递给参考麦克风选择器209。

在一些实施例中，中间信号发生器包括参考麦克风选择器209。参考麦克风选择器209可以被配置为从(最近的)麦克风选择器205接收到达方向值以及另外接收所选择的(最近的)麦克风指示符。参考麦克风选择器209然后可以被配置为确定参考麦克风通道。在一些实施例中，参考麦克风通道是与到达方向相比的最近的麦克风。例如，最近的麦克风可以使用下面的等式来求解

c_i＝θ_xM_x，i+θ_yM_y，i+θ_zM_z，i

其中θ＝[θ_xθ_yθ_z]是DOA向量，并且Mi＝[M_x,i M_y,i M_z,i]是网格中的每个麦克风的方向向量。产生最大c_i的麦克风是最近的麦克风。该麦克风被设置为参考麦克风，并且表示麦克风的索引被传递给相干延迟确定器211。在一些实施例中，参考麦克风选择器209可以被配置为选择“最近的”麦克风之外的麦克风。参考麦克风选择器209可以被配置为选择第二“最近的”麦克风、第三“最近的”麦克风等。在一些情况下，参考麦克风选择器209可以被配置为接收其他输入并且基于这些另外的输入来选择麦克风通道。例如，麦克风故障指示器输入可以被接收，其指示“最近的”麦克风当前有故障、(被用户或其他方式)阻塞或者遭受一些问题，并且因此参考麦克风选择器209可以被配置为选择没有这样的所确定的错误的“最近的”麦克风。

在一些实施例中，中间信号发生器包括通道选择器207。通道选择器207被配置为接收频域麦克风通道音频信号，并且选择或过滤与由(最近的)麦克风选择器205指示的所选择的最近的麦克风相匹配的麦克风通道音频信号。然后，这些所选择的麦克风通道音频信号可以被传递给相干延迟确定器211。

在一些实施例中，中间信号发生器包括相干延迟确定器211。相干延迟确定器211被配置为从参考麦克风选择器209接收所选择的参考麦克风索引或指示符，并且还从通道选择器207接收所选择的麦克风通道音频信号。相干延迟确定器211然后可以被配置为确定使参考麦克风通道音频信号与其他麦克风信号之间的相关性最大化的延迟。

例如，在通道选择器选择三个麦克风通道音频信号的情况下，相干延迟确定器211可以被配置为确定参考麦克风音频信号与第二已选择的麦克风音频信号之间的第一延迟，并且确定参考麦克风音频信号与第三已选择的麦克风音频信号之间的第二延迟。

在一些实施例中，麦克风音频信号X₂与参考麦克风X₃之间的相干延迟可以从下式获得

其中Re指示结果的实部，并且*表示复共轭。和被认为是长度为n_b+1-n_b个样本的向量。

相干延迟确定器211然后可以将所确定的相干延迟(例如，第一相干延迟和第二相干延迟)输出到信号发生器215。

中间信号发生器还可以包括方向依赖权重确定器213。方向依赖权重确定器213可以被配置为接收DOA估计、所选择的麦克风信息和所选择的参考麦克风信息。例如，DOA估计、所选择的麦克风信息和所选择的参考麦克风信息可以从参考麦克风选择器209接收。方向依赖权重确定器213还可以被配置为根据这个信息生成方向依赖加权因子w_i。加权因子w_i可以根据麦克风位置与DOA之间的距离来确定。因此，例如加权函数可以被计算为

w_i＝c_i

在这样的实施例中，加权函数自然地增强来自最靠近(最接近)DOA的麦克风的音频信号，并且因此可以避免可能的人为因素，其中源相对于捕获装置移动并且围绕麦克风阵列“旋转”并且使得所选择的麦克风改变。在一些实施例中，加权函数可以根据在V.Pulkki的1997年6月的J.Audio Eng.Soc.,vol.45,pp.456–466的“Virtual sourcepositioning using vector base amplitude panning”中给出的算法来确定。权重可以被传递给信号发生器215。

在一些实施例中，最近的麦克风选择器、参考麦克风选择器和方向依赖权重确定器可以被至少部分地预先确定或者预先计算。例如，诸如所选择的麦克风三角形、参考麦克风和加权增益的所有需要的信息可以使用DOA作为输入从表格中提取或获取。

在一些实施例中，中间信号发生器可以包括信号发生器215。信号发生器215可以被配置为从相干延迟确定器接收所选择的麦克风音频信号和相干延迟值，并且从方向依赖权重确定器213接收方向依赖权重。

信号发生器215可以包括信号时间对准器或信号对准部件，其在一些实施例中向非参考麦克风音频信号应用所确定的延迟以对所选择的麦克风音频信号进行时间对准。

此外，在一些实施例中，信号发生器215可以包括被配置为向时间对准的音频信号应用加权函数w_i的乘法器或权重应用部件。

最后，信号发生器215可以包括被配置为对时间对准的(以及在一些实施例中方向加权的)所选择的麦克风音频信号进行组合的加法器或组合器。

所得到的中间信号可以表示为

其中K是离散傅里叶变换(DFT)大小。通过应用基于DOA的HRTF渲染，所得到的中间信号可以使用任何已知的方法来再现，例如类似于传统的SPAC。

然后可以输出中间信号，即输出。中间信号输出可以根据需要进行存储或处理。

关于图3，进一步详细示出了示出图2所示的中间信号发生器的操作的示例流程图。

如本文中所述，中间信号发生器可以被配置为从麦克风或者从模数转换器(当音频信号是实时的)或者从存储器(当音频信号被存储或者先前被捕获时)或者从单独的捕获装置接收麦克风信号。

接收麦克风音频信号的操作在图3中由步骤301示出。

将所接收的麦克风音频信号从时域变换到频域。

将音频信号从时域变换到频域的操作在图3中由步骤303示出。

然后可以分析频域麦克风信号以估计音频场景内的音频源的到达方向。

估计音频源的到达方向的操作在图3中由步骤305示出。

在估计到达方向之后，该方法还可以包括确定(最近的)麦克风。如本文中讨论的，到音频源的最近的麦克风可以被定义为三角形(三个)麦克风及其相关联的音频信号。然而，可以确定任何数目的最近的麦克风用于选择。

确定最近的麦克风的操作在图3中由步骤307示出。

该方法然后还可以包括选择与所确定的最近的麦克风相关联的音频信号。

选择最近的麦克风音频信号的操作在图3中由步骤309示出。

该方法还可以包括从最近的麦克风中确定参考麦克风。如前所述，参考麦克风可以是最靠近音频源的麦克风。

确定参考麦克风的操作在图3中由步骤311示出。

该方法然后还可以包括确定其他所选择麦克风音频信号关于所选择的参考麦克风音频信号的相干延迟。

确定其他所选择的麦克风音频信号关于参考麦克风音频信号的相干延迟的操作在图3中由步骤313示出。

该方法然后还可以包括确定与每个所选择的麦克风音频信号相关联的方向依赖加权因子。

确定与每个所选择的麦克风通道相关联的方向依赖加权因子的方法在图3中由步骤315示出。

该方法还可以包括根据所选择的麦克风音频信号生成中间信号的操作。根据所选择的麦克风音频信号生成中间信号的操作可以被细分为三个操作。第一子操作可以是通过向其他所选择的麦克风音频信号应用相干延迟来关于参考麦克风音频信号对其他或另外的所选择的麦克风音频信号进行时间对准。第二子操作可以是向所选择的麦克风音频信号应用所确定的加权函数。第三子操作可以是将时间对准的和可选地加权的所选择的麦克风音频信号相加或组合以形成中间信号。然后可以输出该中间信号。

从所选择的麦克风音频信号生成中间信号的操作(并且其可以包括时间对准、加权和组合所选择的麦克风音频信号的操作)在图3中由步骤317示出。

关于图4，进一步详细地示出了根据一些实施例的侧信号发生器。侧信号发生器被配置为接收麦克风音频信号(时域或频域版本)，并且基于这些信号来确定音频场景的环境分量。在一些实施例中，侧信号发生器可以被配置为与中间信号发生器并行地生成音频源的到达方向(DOA)估计，然而，在以下示例中，侧信号发生器被配置为接收DOA估计。类似地，在一些实施例中，侧信号发生器可以被配置为独立地执行麦克风选择、参考麦克风选择和相关性估计，并且与中间信号发生器分离。然而，在下面的示例中，侧信号发生器被配置为接收所确定的相干延迟值。

在一些实施例中，侧信号发生器可以被配置为取决于其中正在采用信号处理器的实际应用来执行麦克风选择以及因此相应的音频信号选择。例如，在输出是适合于处理音频信号以进行双耳再现的输出的情况下，侧信号发生器可以从全部多个麦克风中选择音频信号来生成侧信号。另一方面，例如，在输出适合于扬声器再现的情况下，侧信号发生器可以被配置为从多个麦克风中选择音频信号，使得音频信号的数目等于扬声器的数目，并且音频信号被选择为使得各个麦克风在设备整个周围(而不是从有限的区域或方向)被引导或分布。在存在很多麦克风的一些实施例中，侧信号发生器可以被配置为选择来自多个麦克风的仅一些音频信号，以降低生成侧信号的计算复杂度。在这样的示例中，可以进行音频信号的选择，使得相应麦克风“围绕”该装置。

以这样的方式，选择来自多个麦克风的所有音频信号还是仅一些音频信号，在这些实施例中，侧信号是根据来自不仅在同一侧的麦克风的相应的音频信号生成的(与中间信号创建相反)。

在本文中描述的实施例中，选择来自(两个或更多)麦克风的相应的音频信号用于创建侧信号。如上所述，该选择可以基于麦克风分布、输出类型(例如，耳麦还是扬声器)以及***的其他特性(诸如装置的计算/存储能力)来进行。

在一些实施例中，针对上文描述的中间信号生成操作和下面的侧信号生成而被选择的音频信号可以是相同的，具有至少一个共同的信号或者可以没有共同的信号。换言之，在一些实施例中，中间信号通道选择器可以提供用于生成侧信号的音频信号。然而，可以理解，被选择用于生成中间信号和侧信号的相应音频信号可以共享来自麦克风的至少一些相同的音频信号。

换言之，在一些实施例中，可以能够使用来自相同麦克风的音频信号来创建中间信号，以及使用来自另外的麦克风的其他音频信号用于侧信号。

此外，在一些实施例中，侧信号选择可以选择不是被选择用于生成中间信号的任何音频信号的音频信号。

在一些实施例中，为所生成的侧信号选择的音频信号/麦克风的最小数目是2。换言之，至少两个音频信号/麦克风被用于生成侧信号。例如，假设装置中总共有3个麦克风，并且使用来自麦克风1和麦克风2(如所选择的)的音频信号来生成中间信号，则用于生成侧信号的选择可能性可以是(麦克风1，麦克风2，麦克风3)或(麦克风1，麦克风3)或(麦克风2，麦克风3)。在该示例中，使用全部的三个麦克风将产生“最佳”侧信号。

在其中仅选择两个音频信号/麦克风的示例中，所选择的音频信号将被复制，并且目标方向将被选择为覆盖整个球体。因此，例如，有两个麦克风位于±90度的位置。与-90度处的麦克风相关联的音频信号将被转换为三个精确的副本，并且用于这些信号如稍后讨论的HRTF对滤波器例如将被选择为-30度、-90度和-150度。相应地，与+90度处的麦克风相关联的音频信号将被转换为三个精确的副本，并且用于这些信号的HRTF对滤波器例如将被选择为+30°、+90°和+150°。

在一些实施例中，例如，处理与2个麦克风相关联的音频信号，使得用于它们的HRTF对滤波器将处于±90度。

在一些实施例中，侧信号发生器被配置为包括环境确定器401。在一些实施例中，环境确定器401被配置为根据每个麦克风音频信号确定应当使用的环境或侧信号的部分的估计。所确定的环境因此可以被配置为估计环境部分系数。

在一些实施例中，这个环境部分系数或因子可以从参考麦克风与其他麦克风之间的相关性得出。例如，第一环境部分系数g'可以基于下式来确定

其中γ_i是参考麦克风与具有延迟补偿的其他麦克风之间的相关性。

在一些实施例中，可以通过计算随着时间和/或频率的圆方差使用估计的DOA来获得环境部分系数估计g″。

其中N是所使用的DOA估计θ_n的数目。

在一些实施例中，环境部分系数估计g可以是这些估计的组合。

g_a＝max(g′_a，g"_a)

环境部分系数估计g(或g'或g″)可以被传递给侧信号分量发生器403。

在一些实施例中，侧信号发生器包括侧信号分量发生器403。侧信号分量发生器403被配置为接收来自环境确定器401的环境部分系数值g以及麦克风音频信号的频域表示。然后，侧信号分量发生器403可以使用以下表达式来生成侧信号分量

X_s，i(k)＝g_aX_i(k)

这些侧信号分量然后可以被传递给滤波器405。

尽管环境部分系数估计的确定被示出为已经在侧信号发生器内被确定，但是可以理解，在一些实施例中，环境系数可以从中间信号创建中获得。

在一些实施例中，侧信号发生器包括滤波器405。在一些实施例中，滤波器可以是一组独立的滤波器，每个滤波器被配置为产生经修改的信号。例如，当在耳麦的不同通道上再现时，基于空间印象而被感知为基本上相似的两个信号是两个非相干信号。在一些实施例中，滤波器可以被配置为生成多个信号，该多个信号在多通道扬声器***上再现时基于空间印象而被感知为基本上相似。

滤波器405可以是解相关滤波器。在一些实施例中，一个独立的解相关器滤波器接收一个侧信号作为输入，并且产生一个信号作为输出。对于每个侧信号重复这个处理，使得对于每个侧信号可以存在独立的解相关器。解相关滤波器的示例实现是以不同的频率向所选择的侧信号分量应用不同的延迟的解相关滤波器。

因此，在一些实施例中，滤波器405可以包括两个独立的解相关器滤波器，其被配置为产生两个信号，该两个信号在不同的耳麦通道上再现时产生基于空间印象而被感知为基本相似，是两个非相干信号的。滤波器可以是解相关器或提供解相关器功能的滤波器。

在一些实施例中，滤波器可以是被配置为向所选择的侧信号分量应用不同延迟的滤波器，其中用于到所选择的侧信号分量的延迟取决于频率。

经滤波的(解相关的)侧信号分量然后可以被传递给头部相关的传递函数(HRTF)滤波器407。

在一些实施例中，侧信号发生器可以可选地包括输出滤波器407。然而，在一些实施例中，侧信号发生器可以在没有输出滤波器的情况下被输出。

对于耳麦相关的优化示例，输出滤波器407可以包括头部相关的传递函数(HRTF)滤波器对(一个滤波器与一个耳麦通道相关联)或滤波器对的数据库。在这样的实施例中，每个经滤波的(解相关的)信号被传递给唯一的HRTF滤波器对。这些HRTF滤波器对以这样的方式被选择，即它们各自的方向适当地覆盖收听者周围的整个球面。HRTF滤波器(对)因此产生包围的感知。此外，针对每个侧信号的HRTF以这样的方式被选择，即其方向靠近音频捕获装置麦克风阵列中的相应的麦克风的方向。因此，由于捕获装置的声学遮蔽，经处理的侧信号具有一定程度的方向性。在一些实施例中，输出滤波器407可以包括合适的多通道传递函数滤波器组。在这样的实施例中，滤波器集合包括多个滤波器或滤波器的数据库，滤波器以这样的方式被选择，即其方向可以基本上覆盖收听者周围的整个球体，以便产生包围的感知。

此外，在一些实施例中，这些HRTF滤波器对以这样的方式被选择，即它们各自的方向基本上或适当地均匀地覆盖收听者周围的整个球体，使得HRTF滤波器(对)产生包围的感知。

诸如HRTF滤波器对等输出滤波器407的输出(用于耳麦输出)被传递给侧信号通道发生器409，或者可以被直接输出(对于多通道扬声器***)。

在一些实施例中，侧信号发生器包括侧信号通道发生器409。例如，侧信号通道发生器409可以接收来自HRTF滤波器的输出并且将这些输出组合以生成两个侧信号。例如，在一些实施例中，侧信号通道发生器可以被配置为生成左侧通道音频信号和右侧通道音频信号。换言之，解相关的侧信号分量和HRTF滤波的侧信号分量可以被组合，使得它们产生用于左耳的一个信号和用于右耳的一个信号。

对于多通道扬声器播放是类似的。来自滤波器405的输出信号可以直接用多通道扬声器设置再现，其中扬声器可以由输出滤波器407“定位”。或者，在一些实施例中，实际的扬声器可以被“定位”。

所得到的信号因此可以被感知为具有某种方向性的广阔的(spacious)并且包围的环境和/或类似混响的信号。

关于图5，进一步详细示出了如图4所示的侧信号发生器的操作的流程图。

该方法可以包括接收麦克风音频信号。在一些实施例中，该方法还包括接收相关性和/或DOA估计。

接收麦克风音频信号的操作(以及可选的相关性和/或DOA估计)在图5中由步骤500示出。

该方法还包括确定与麦克风音频信号相关联的环境部分系数值。这些系数值可以基于相关性、到达方向或这两种类型的估计而被生成。

确定环境部分系数值的操作在图5中由步骤501示出。

该方法还包括通过向相关联的麦克风音频信号应用环境部分系数值来生成侧信号分量。

通过向相关联的麦克风音频信号应用环境部分系数值来生成侧信号分量的操作在图5中由步骤503示出。

该方法还包括向侧信号分量应用(解相关)滤波器。

对侧信号分量进行(解相关)滤波的操作在图5中由步骤505示出。

该方法还包括向解相关的侧信号分量应用输出滤波器，该输出滤波器诸如头部相关的传递函数滤波器对(用于耳麦输出实施例)或多通道扬声器传递滤波器。

向解相关的侧信号分量应用诸如头部相关的传递函数(HRTF)滤波器对的输出滤波器的操作在图5中用步骤507示出。可以理解，在一些实施例中，这些输出的经滤波的音频信号被输出，例如在为多通道扬声器***生成侧音频信号的情况下。

此外，对于基于耳麦的实施例，该方法可以包括对HRTF和解相关的侧信号分量进行相加或组合以形成左耳麦通道侧信号和右耳麦通道侧信号的操作。

组合HRTF滤波的侧信号分量以生成左耳麦通道侧信号和右耳麦通道信号的操作在图5中由步骤509示出。

通常，本发明的各种实施例可以用硬件或专用电路、软件、逻辑或其任何组合来实现。例如，一些方面可以用硬件来实现，而其他方面可以用可由控制器、微处理器或其他计算设备执行的固件或软件来实现，但是本发明不限于此。尽管可以将本发明的各个方面示出和描述为框图、流程图或使用一些其他图形表示，但是很好理解，作为非限制性示例，本文中描述的这些框、装置、***、技术或方法可以用硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备、或其某种组合来实现。

本发明的实施例可以用由移动设备的数据处理器可执行的计算机软件来实现，诸如在处理器实体中，或者用硬件，或者用软件和硬件的组合。另外，在这方面，应当注意，如附图中的逻辑流程的任何框可以表示程序步骤、或者互连的逻辑电路、框和功能、或者程序步骤和逻辑电路、框和功能的组合。软件可以存储在物理介质上，诸如存储器芯片、在处理器内实现的存储器块、诸如硬盘或软盘的磁介质、以及诸如例如DVD及其数据变型、CD的光学介质。

存储器可以是适合于本地技术环境的任何类型，并且可以使用任何合适的数据存储技术来实现，诸如基于半导体的存储器设备、磁存储器设备和***、光存储器设备和***、固定存储器和可移动存储器。数据处理器可以是适用于本地技术环境的任何类型，并且作为非限制性示例，可以包括通用计算机、专用计算机、微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、门级电路和基于多核处理器架构的处理器。

本发明的实施例可以在诸如集成电路模块的各种组件中实践。集成电路的设计大体上是高度自动化的过程。复杂和强大的软件工具可用于将逻辑级设计转换为准备好在半导体基底上蚀刻和形成的半导体电路设计。

诸如由加利福尼亚州山景城的Synopsys公司和加利福尼亚州圣何塞的Cadence设计公司提供的程序使用已经确立的设计规则以及预先存储的设计模块的库来自动布线导体并且在半导体芯片上定位组件。一旦半导体电路的设计完成，则可以将标准化的电子格式(例如，Opus、GDSII等)的所得到的设计传输到半导体制造工厂或“fab”以进行制造。

以上描述已经通过示例性而非限制性的示例提供了本发明的示例性实施例的全面和信息性的描述。然而，当结合附图和所附权利要求阅读时，鉴于前面的描述，各种修改和适应对于相关领域的技术人员来说可以变得显而易见。然而，对本发明的教导的所有这样的和类似的修改仍然落入如所附权利要求限定的本发明的范围内。

Claims

1.一种装置，包括：

音频捕获应用，被配置为从多个麦克风中确定单独的麦克风并且通过分析来自所述单独的麦克风的相应的两个或更多音频信号来标识音频场景内的至少一个音频源的声源方向，其中所述音频捕获应用还被配置为基于已确定的方向从所述多个麦克风中自适应地选择两个或更多相应的音频信号并且还被配置为还基于已确定的方向从所述两个或更多相应的音频信号中选择参考音频信号；以及

信号发生器，被配置为基于已选择的两个或更多相应的音频信号的组合并且参考所述参考音频信号来生成表示所述至少一个音频源的中间信号。

2.根据权利要求1所述的装置，其中所述音频捕获应用还被配置为：

基于已确定的方向和麦克风方位来从所述多个麦克风中标识两个或更多麦克风，使得已标识的两个或更多麦克风是最靠近所述至少一个音频源的麦克风；以及

基于已标识的两个或更多麦克风来选择所述两个或更多相应的音频信号。

3.根据权利要求2所述的装置，其中所述音频捕获应用还被配置为基于已确定的方向从已标识的两个或麦克风中标识哪个麦克风最靠近所述至少一个音频源，并且被配置为选择最靠近所述至少一个音频源的所述麦克风的相应的音频信号作为所述参考音频信号。

4.根据权利要求3所述的装置，其中所述音频捕获应用还被配置为确定所述参考音频信号与已选择的两个或更多相应的音频信号中的其他音频信号之间的相干延迟，其中所述相干延迟是使所述参考音频信号与所述两个或更多相应的音频信号中的另一音频信号之间的相干性最大的延迟值。

5.根据权利要求4所述的装置，其中所述信号发生器被配置为：

基于已确定的相干延迟来将已选择的两个或更多相应的音频信号中的其他音频信号与所述参考音频信号进行时间对准；以及

将已选择的两个或更多相应的音频信号中的已时间对准的其他音频信号与所述参考音频信号进行组合。

6.根据权利要求5所述的装置，其中所述信号发生器还被配置为基于针对所述两个或更多相应的音频信号的麦克风方向与已确定的方向之间的差异来生成加权值，并且还被配置为在信号组合器组合之前向所述相应的两个或更多音频信号应用所述加权值。

7.根据权利要求5或6中任一项所述的装置，其中所述信号发生器被配置为将已选择的两个或更多相应的音频信号中的已时间对准的其他音频信号与所述参考音频信号相加。

8.根据权利要求1至7中任一项所述的装置，还包括另外的信号发生器，所述另外的信号发生器被配置为还从所述多个麦克风中选择两个或更多相应的音频信号的另外的选择，并且根据两个或更多相应的音频信号的所述另外的选择的组合来生成表示音频场景环境的至少两个侧信号。

9.根据权利要求8所述的装置，其中所述另外的信号发生器被配置为基于以下中的至少一项来选择两个或更多相应的音频信号的所述另外的选择：

输出类型；以及

所述多个麦克风的分布。

10.根据权利要求8和9中任一项所述的装置，其中所述另外的信号发生器被配置为：

确定与两个或更多相应的音频信号的所述另外的选择中的每个音频信号相关联的环境系数；

向两个或更多相应的音频信号的所述另外的选择应用已确定的环境系数以生成针对所述至少两个侧信号中的每个侧信号的信号分量；以及

解相关针对所述至少两个侧信号中的每个侧信号的所述信号分量。

11.根据权利要求10所述的装置，其中所述另外的信号发生器被配置为：

应用一对头部相关的传递函数滤波器；以及

组合所述经滤波的已解相关的信号分量以生成表示所述音频场景环境的所述至少两个侧信号。

12.根据权利要求11所述的装置，其中所述另外的信号发生器被配置为生成经滤波的已解相关的信号分量以生成表示音频场景环境的左通道音频信号和右通道音频信号。

13.根据权利要求10至12中任一项所述的装置，其中针对来自两个或更多相应的音频信号的所述另外的选择的音频信号的所述环境系数基于所述音频信号与所述参考音频信号之间的相干值。

14.根据权利要求10至12中任一项所述的装置，其中针对来自两个或更多相应的音频信号的所述另外的选择的音频信号的所述环境系数基于从所述至少一个音频源到达的方向的在时间和/或频率上的已确定的圆方差。

15.根据权利要求10至12中任一项所述的装置，其中针对来自两个或更多相应的音频信号的所述另外的选择的音频信号的所述环境系数基于所述音频信号与所述参考音频信号之间的相干值以及从所述至少一个音频源到达的方向的在时间和/或频率上的已确定的圆方差。

16.一种方法，包括：

从多个麦克风中确定单独的麦克风；

通过分析来自所述单独的麦克风的相应的两个或更多音频信号来标识音频场景内的至少一个音频源的声源方向；

基于已确定的方向从所述多个麦克风中自适应地选择两个或更多相应的音频信号；

还基于已确定的方向从所述两个或更多相应的音频信号中选择参考音频信号；以及

基于已选择的两个或更多相应的音频信号的组合并且参考所述参考音频信号来生成表示所述至少一个音频源的中间信号。

17.根据权利要求16所述的方法，其中基于已确定的方向从所述多个麦克风中自适应地选择两个或更多相应的音频信号包括：

18.根据权利要求17所述的方法，其中基于已确定的方向从所述多个麦克风中自适应地选择两个或更多相应的音频信号可以包括：

基于已确定的方向从已标识的两个或麦克风中标识哪个麦克风最靠近所述至少一个音频源；以及

从所述两个或更多相应的音频信号中选择参考音频信号可以包括选择与最靠近所述至少一个音频源的麦克风相关联的音频信号作为所述参考音频信号。

19.根据权利要求18所述的方法，还包括确定所述参考音频信号与已选择的两个或更多相应的音频信号中的其他音频信号之间的相干延迟，其中所述相干延迟是使所述参考音频信号与所述两个或更多相应的音频信号中的另一音频信号之间的相干性最大的延迟值。

20.根据权利要求19所述的方法，其中基于已选择的两个或更多相应的音频信号的组合并且参考所述参考音频信号来生成表示所述至少一个音频源的中间信号包括：

基于已确定的相干延迟来将已选择的两个或更多相应的音频信号中的所述其他音频信号与所述参考音频信号进行时间对准；以及

21.根据权利要求20所述的方法，还包括基于针对所述两个或更多相应的音频信号的麦克风方向与已确定的方向之间的差异来生成加权值，其中生成中间信号还包括在信号组合器组合之前向所述相应的两个或更多音频信号应用所述加权值。

22.根据权利要求20或21中任一项所述的方法，其中将已选择的两个或更多相应的音频信号中的已时间对准的其他音频信号与所述参考音频信号进行组合包括将已选择的两个或更多相应的音频信号中的已时间对准的其他音频信号与所述参考音频信号相加。

23.根据权利要求16至22中任一项所述的方法，还包括：

进一步从所述多个麦克风中选择两个或更多相应的音频信号的另外的选择；以及

根据两个或更多相应的音频信号的所述另外的选择的组合来生成表示音频场景环境的至少两个侧信号。

24.根据权利要求23所述的方法，其中从所述多个麦克风中选择两个或更多相应的音频信号的另外的选择包括基于以下中的至少一项来选择两个或更多相应的音频信号的所述另外的选择：

输出类型；以及

所述多个麦克风的分布。

25.根据权利要求23或24所述的方法，还包括：