CN104019885A

CN104019885A - 声场分析***

Info

Publication number: CN104019885A
Application number: CN201310064537.XA
Authority: CN
Inventors: 大卫·古纳万; 施栋; 格伦·N·迪金森
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2013-02-28
Filing date: 2013-02-28
Publication date: 2014-09-03
Also published as: EP2800402A1; US9451379B2; EP2800402B1; US20140241528A1

Abstract

本发明涉及一种声场分析***。在一个实施例中，通过提取空间角度信息、发散度信息（并且可选地提取声音等级信息）来映射声场。映射所提取的信息以用于以黎曼球体的形式来展示，其中，沿着球体，空间角度在经度上变化，发散度在维度上变化，并且等级在径向上变化。更一般的映射利用将空间角度和发散度信息映射到代表性区域上，以表现在与所提取的空间信息相对应的到达的方向中的变化以及在与所提取的发散度信息相对应的距离中的变化。

Description

声场分析***

技术领域

本公开涉及音频场景，并且更具体地，涉及根据音频场景的特征提取。

背景技术

音频场景包括多维环境，其中不同声音出现在各种时间和位置处。音频场景的示例可以是会议室、工作室、演奏厅、游戏环境、餐厅、森林场景、繁忙的街道、或者其中在不同时间和位置处出现声音的任何室内或室外环境。

使用方向或者全方向性麦克风的阵列或者其他方式，音频场景可以被记录为音频数据。在用于音频场景的典型捕获布置中，N个记录设备放置在音频空间内以记录音频场景。所捕获的信号随后可选地被处理并且被发送到终端用户或者应用可以根据各种处置（rendering）算法来选择的处置侧（或者可替选地被存储用于稍后的耗用），其中，基于来自重构的音频空间的偏好，处置算法可能影响倾听点和/或音频信息的朝向和特性。处置方随后根据与所期望和选择的、源声场的感知表现相对应的多个记录来提供经处理的信号。记录设备可以是具有音频灵敏度的方向性特性的麦克风，但是可以利用其他类型的具有任何形式的适当特性的麦克风。此外，所利用的多个麦克风可以不必是等效的甚至不必是相似的，并且可以使用具有不同空间和/或频率特性的麦克风。经处置或者处理的输出信号可以是单、立体、或双耳信号，或者其可以包括多个信道。

发明内容

如本文所述，一种用于创建对声场的空间音频场景分析的方法包括：响应于声音来生成电信号，根据电信号提取空间角度信息，根据电信号提取发散度信息，以及映射空间角度和发散度信息以用于以封闭的二维表面或者其更高维突出体的形式来展示，其中该二维表面具有相对于半球的同构，使得沿着半球或者等价地在该表面上，对象空间角度中的变化在经度上展示了变化，并且源的发散度（以及因而相关联的距离）的变化在纬度上变化，使得更发散或者更远的源收敛到该封闭二维表面中的点。

而且，如本文所述，一种用于基于响应于声场中的声音而接收的电信号来映射声场的***包括：空间角度提取模块，其适于提取空间角度信息；发散度提取模块，其适于提取发散度信息；以及映射模块，其适于以封闭的二维表面或者其更高维突出体的方式来展示空间角度和发散度信息，其中，该二维表面具有相对于半球的同构，使得沿着半球或者等价地在该表面上，对象空间角度中的变化在经度上展示了的变化，并且源的发散度（以及因而相关联的距离）的变化在纬度上变化，使得更发散或者更远的源收敛到该封闭二维表面中的点。

而且，如本文所述，一种***包括：麦克风的阵列，其适于根据声场来生成电信号；以及处理器，其响应于电信号。处理器适于根据电信号来提取空间角度信息，根据电信号来提取发散度信息，并且映射空间角度和发散度信息以用于以封闭的二维表面或者其更高维突出体的形式来展示，其中该二维表面具有相对于半球的同构，使得沿着半球或者等价地在该表面上，对象空间角度中的变化在经度上展示了的变化，并且源的发散度（以及因而相关联的距离）的变化在纬度上变化，使得更发散或者更远的源收敛到该封闭二维表面中的点。

本文描述的实施例通常涉及特征空间的映射，其创建了分析和解读听觉场景的改进的能力。可以认识到的一些优点包括：

–与其中对象可以潜在地是无穷远的自然物理空间映射相反，本文的公开将对象空间映射到封闭的表面。这具有紧凑的优点以及允许对离散的可解析对象的数目的已知约束的优点。

–就简单的距离度量使得具有相似的预期实际不确定性和差异（differentiation）的区域和距离相等而言，用于对象和观察结果的映射和相关联的空间是相对一致的。这避免了需要对于不同空间区域中的预测的对象尺寸进行特定学习。

–映射避免了任何具有奇异性的点，在具有奇异性的点中一个维度随着另一维度的收敛而变得不确定。特别地，通常在混响室内环境中观察到的关系是源的方向随着源变得更远（或者更发散）而变得更加不确定。通过使该常规（normal）的奇异性点与具有“北极”或者半球的顶点的区域相关联，在所表现的映射中与角度不确定性一起捕获了发散和距离的该关系。该拓扑自然地支持了在发散的或者远的对象的情况下角度中的不确定性。

–与先前的点相关，映射避免了如下的区域，其中原本会存在由于初始提取的特征中所期望的物理或实际不确定性而出现在观察结果中的、所期望的大的不连续性。特别地，通过将该拓扑反映到其中针对远的源的大的角度变化仅展示为所映射的特征空间中的位置中的小的变化的拓扑中，避免了在角度在大距离处变得不确定时大的位置变化的观点。

-映射允许当存在观察结果的冲突时（即，在并存的源的情况下只可能解析有限个（在给定N个信道时通常是N-1个）的方向），将在这些具有不确定性的时间期间的观察结果推离与各个对象观察结果相关联的区域或者从该区域中聚类出去。

在所表现的映射是详细且非琐碎的并且是依赖于对初始特征的本性和用于聚类和分析的空间的有用属性这两者的知识的同时，对于本领域普通技术人员而言应该显然的是，以上属性的集合在任何后续分析中都是非常有用的。

附图说明

并入本说明书并且构成本说明书的一部分的附图图示了实施例的一个或更多个示例，并且与示例实施例的描述一起服务于说明实施例的原理和实施方式。

在图中：

图1是声场捕获***的说明图；

图2是示出了用于特征提取和映射处理的处理流程的框图；

图2A是示出了用在一个示例性实施例中时，水平平面中X-Y信号的八个形状模式（figure eight patterns）以及全方向性W信道的示意图；

图3是瞬时的对平滑的发散度的图表；并且

图4至6是示出了按照特定实施例的、具有声场对象的所提取的源角度（θ）、源发散度（ρ）和源等级（L）特征的黎曼球体映射的图。

具体实施方式

在用于根据紧凑的方向性阵列来执行针对音频场景分析的特征提取的计算机、服务器和软件的***以及处理的背景中，本文描述了示例实施例。本领域普通技术人员会认识到以下描述仅仅是示意性的而非意图以任何方式进行限制。其他实施例会容易地将它们自己暗示给受益于本公开的那些技术人员。如附图中所图示的，现在将作出对示例实施例的实施方式的详细参考。在可能贯穿图和以下说明的范围内，将对使用相同的参考标记来指代相同或相似的项目。

为了清楚起见，没有示出和描述本文所述的实施方式的全部常规特征。当然，要理解的是，在任何实际的实施方式的开发中，必须做出大量特定于实施方式的决定，以便实现开发者的特定目的，诸如符合与应用和商业相关的规定，还要理解的是，这些特定目的会根据实施方式的不同和开发者的不同而变化。此外，要理解的是，这样的开发努力必然是复杂而费时的，但是尽管如此，对于受益于本公开的本领域普通技术人员而言依旧是常规的工程任务。

按照本公开，可以使用各种类型的操作***、计算平台、计算机程序和/或通用机器来实现本文所述的部件、处理步骤和/或数据结构。此外，本领域普通技术人员会认识到，在不脱离本文所述的创造性概念的范围和精神的情况下，也可以使用具有更不通用的本性的设备（诸如硬线设备、现场可编程门阵列（FPGA）、特定于应用的集成电路（ASIC）等）。在通过计算机或者机器来实现包括一系列处理步骤的方法并且这些处理步骤可以存储为一系列机器可读的指令的情况下，它们可以存储在有形介质（诸如计算机存储器设备（例如ROM（只读存储器）、PROM（可编程只读存储器）、EEPROM（电可擦除可编程只读存储器）、FLASH存储器、跳跃驱动器（Jump Drive）等）、磁存储介质（例如磁带、磁盘驱动器等）、光存储介质（例如CD-ROM（压缩盘只读存储器）、DVD-ROM（数字多功能盘只读存储器）、纸卡、纸带等）和其他类型的程序存储器）上。

术语“示例性”在本文中使用时意在表示“用作示例、实例或阐释”。本文描述为“示例性”的任何实施例不必理解为优选的或者与其他实施例相比是有利的。

在为了特定目的或应用捕获音频信号本身之外处理***可以在捕获的点或者更下游处执行对展示了声场的进入音频信号的详细分析。本文的布置与特定形式的分析有关，其中已知场景展示了听觉发出对象和声学环境。特别地，关于本文的公开的一个考虑是普通主体在贯穿工作和或休闲的活动的通常经历中一般会遇到的那种听觉场景的情况。已知这样的听觉场景具有特定属性和特性，其中之一是该场景会包含相区别的或者被相区别地感知到的声音对象。参见Bregman（Bregman,A.S.(1993).AuditoryScene Analysis:Hearing in Complex Environments.Thinking in Sound： The Cognitive Psychology of Human Audition.S.McAdams and E.Bigand.Oxford:10-36.），以类似于人类感知的方式进行寻求分析和理解听觉场景的处理。

本领域普通技术人员已知该区域为计算听觉场景分析（CASA）。通常执行该场景分析，以在对所捕获的信号的适当信号处理的应用和控制中进行辅助，并且/或者以提取可以具有在某个进一步的应用领域中所捕获的音频的处置和利用的下游的优势的数据。场景分析可以附加地用于其他信息的目的，诸如显示或者法庭风格日志（forensic style logging）。通常的事实是，计算听觉场景分析被设计为利用感知方面的源识别和分组，因为其提供了可以用于改进所提取的听觉场景的稳定性和主观性能的有用的标准、假设和先验信息的集合。

因为听觉场景涉及对离散的源、声学对象和/或一般背景噪音以及声学干扰的展示，具有某个“特征空间”的内部展示是有利的，如果不是严格需要的话，其中，来自麦克风或时间上的不同点处的多信道信号的观察结果和估值可以被放置并适当分组到该“特征空间”中。本文的公开是在听觉场景中的听觉对象的识别和分离之前的、用于形成该内部多维展示的方案。特别地，对于鲁棒且实际的算法，经常期望的是具有反应与在先问题和所预期的实际不确定性有关的特定拓扑或者本性相关联的距离度量的空间。特别地，本文的公开涉及一类从传统的特征空间映射到修改的多维特征展示的映射，该多维特征展示被发现高度有利于计算听觉场景分析的处理。该空间对于可视化、静态分析、观测结果聚类和对象识别都是有用的。本文的公开在本性和具体设计两者上涉及特征的具体选择的两个特别的创造性方面，并且涉及从简单特征空间到已发现在本申请领域非常有效的展示的特别的映射。

图1是按照本文所述的特定实施例的声场波或***100的说明图。声场捕获***100包括耦合到处理设备104的麦克风阵列102。麦克风阵列102包括两个或更多个麦克风。在图1的布置中，使用了三个心形麦克风（cardioid microphone）M1、M2和M3。麦克风被布置为在直径约5cm的圆形配置中相隔120度。这样的示例性布置允许对平面声场（没有z分量）的第一阶估值。麦克风M1、M2和M3借助于指派为L、R、S的各个信号来根据音频场景捕获大致标记为左、右和周围的音频信号。

图2是示出了用于由处理设备104执行的特征提取和映射处理的处理流程的框图。由麦克风阵列102（图1）产生的声场捕获被提供给特征提取模块202。特征映射模块204接收特征提取模块的输出，并且声场特征映射。在特定实施例中，所生成的特征映射是封闭的空间，其中，简单的度量具有相对一致的、由于实际不确定性导致的方差的，避免了由于所预期的物理或实际度量不确定性导致的奇异性或者不连续性，并且支持了由于抵触的音频激励导致的真实对象观察结果和虚拟观察结果之间的差异。由处理设备104执行的处理包括映射处理，其中与音频场景中的一个或更多个对象所提取的角度、发散度和可选的等级信息为了展示而被映射到作为封闭的盘或者半球凸壳的展示的拓扑中，以用于展示了方向和发散度的特征，以及用于另外的特征（特别是音频活动的功率或者信号等级）的附加维度。用于本文详述的该映射的一个方案是黎曼球体映射的衍生。在该情况下，信号等级附加地修改观察结果的所映射的距原点的半径，如下所详述。

在示例性实施例中，声场捕获是由麦克风阵列102的麦克风M1、M2和M3提供给202的输入信号的函数。根据指派为L、R和S的这些输入信号，特征提取模块202进行操作以提取声场的瞬时空间特征。包括源角度（θ）、原发散度（ρ）和可选的源等级（L）的这些特征由映射模块204映射到用作使来自声场捕获的空间静止的音频对象的方差的均匀性最大化的特征空间上。该意义中的映射意在表示展示的形式，而不一定限定为视觉展示，尽管在特定实施例中考虑了视觉展示。

在特定实施例中，逐帧地（典型地约20ms）分析声场。对于源角度（θ），针对每帧来计算角度估值。角度估值对应于声场中活跃对象的瞬时或者适当估计的角度。在特定实施例中，这是声场中最响亮的对象。在其他实施例中，这是正在被追踪的特定对象。所提取的特征和相关联的发声对象对应于与音频场景中当前正在被追踪的或者被估计为活跃的对象相关的所选择的区域。在另外的实施例中，其也可以包含与静止和/或发散的背景噪音的方向性偏差相关的角度信息，诸如在很多音频捕捉应用中所预期的。

对象的发散度（ρ）展示了在发出声音时（例如在人类讲话时）声场变得发散的程度。发散度是房间或者环境的回声以及对象源距离麦克风阵列的距离的指示符。发散度或者类似特征可以用许多不同方式来定义或者衍生。这样的示例包括：

-评估输入信号协方差矩阵的短期估值的特征量，其中，第一特征量与随后的特征量的比率是直接声音的强度的指示符，

-利用给定的一个或多个频带中的功率或者信号幅度的梯度，其中，更快的变强或变弱是更不发散或更不起回声的入射音频的指示符。

-利用已知的或者合理建模的源的频谱特性，其中，更高频率的衰减与来自源的直接的和随后的声音所行进的距离相关，

-利用针对可以是已知的或者良好建模的任何源的等级或者估计的等级的方面，

-对互相关性和自相关性项之间的各种比率的利用，诸如在起回声的或者远的声音在任何紧凑的麦克风阵列处通常具有较小相关性的情况下，根据输入信道之间的相关性的简单度量而得到的利用，

-利用麦克风之间的幅度的区别作为距离的指示符，例如（Dickins,Kennedy，“On the spatial localization of a wireless transmitter from amultisensor receiver”,Signal Processing and Communication Systems,2008.ICSPCS 2008）中所呈现的。

在结合如下事实的情况下其他方式可以是已知的或者通常设想的：在相关联的真实声学和物理空间中源到麦克风阵列的距离的印象可以与到该所选择的且随后所映射的特征的单调关系相关联。

作为可以提取的可选特征的等级（L）对应于当前帧的功率。其可以展示特定角度处的功率，诸如会根据以特定方向来操纵或者计算的束而得到的那样，或者共同入射在麦克风阵列上的整个声场的总功率。

返回图2，特征提取模块202从麦克风阵列102的麦克风M1、M2和M3接收LRS输入信号。在特定实施例中，可以多于三个的所接收的信号使用简单线性变换矩阵或者等效混合和提取操作来转换为第一阶声场“WXY”格式，其中W指代全方向性（第0阶）而X和Y指代八个形状或者在水平面上彼此垂直的第一阶信号，如图2A中所示。对于本领域普通技术人员而言应该明显的是，用于输入信号计数、麦克风几何和中间处理格式的许多可能性都有可能适用于特征提取处理。本文所示的基于LRS和WXY的示例性实施例在其表现的简易性和在应用领域中的实际价值上都是方便的。应用第一阶声场信号WXY作为给用于执行如下空间角度估值以及可选的语音等级估值和可选的发散度估值的特征提取处理的输入。

-空间角度估值

通常，提取空间角度包括生成进入信号或者进入信号对于信号的子集或者频率范围的变形之间的一个或更多个协方差矩阵，以及分析所生成的协方差矩阵以提取一个或更多个源的相关联的方向性信息。

让W(ω,n)、X(ω,n)和Y(ω,n)分别代表频域的WXY麦克风信号，同时ω是规范化的角度频率，其中其中f_s是采样频率而n是帧索引。信道首先如下被变换为LRS格式：

[\begin{matrix} L (ω, n) \\ R (ω, n) \\ S (ω, n) \end{matrix}] = [\begin{matrix} \frac{1}{2} & \frac{1}{4} & \frac{\sqrt{3}}{4} \\ \frac{1}{2} & \frac{1}{4} & - \frac{\sqrt{3}}{4} \\ \frac{1}{2} & - \frac{1}{2} & 0 \end{matrix}] [\begin{matrix} W (ω, n) \\ X (ω, n) \\ Y (ω, n) \end{matrix}] - - - (1)

指定X(ω，n)＝[L(ω，n)R(ω，n)S(ω，n)]^T，如下计算针对频率ω的信道协方差：

cov(ω，n)＝αcov(ω，n-1)+(1-α)X(ω，n)X^H(ω，n) （2）

其中α是平滑因子（设定为0.9并且在某些实施例中适当地基于当前信号活动的分类或干扰而在时间上变化）而[x]^H代表向量x的共轭转置。通常，当存在更近的语音或者活跃源时平滑应该被降低。该协方差平均的本性已经准备好在其起始处更快地改变为高功率信号。

如下计算所有感兴趣的的总和方差矩阵：

{cov}_{s} (n) = Σ_{ω_{i} = ω_{L}}^{ω_{U}} cov (ω_{i}, n) w (ω_{i}, n) - - - (3)

其中ω_L和ω_u是感兴趣的频率的下限和上限。此处，下限和上限被分别设置为200Hz和8000Hz，因为大部分语音分量位于该范围内。此外，排除其余采样箱体（bin）会提供更低的计算复杂度和估值噪声。w(ω_i，n)是允许我们基于进一步调整每个采样箱体的重要性的相应权重。

对cov_s(n)执行特征分解：

[V，D]＝eigen(cov_s(n)) （4）

其中V是3乘3矩阵，其中每列代表cov_s(n)的特征向量，而D是对角矩阵，其中以降序排列相应特征值。让v₁是V对应于最大特征值的的第一列。而且，让P是M乘3矩阵，其中第k行定义为：

P_{k} = [0.5 + 0.5 \cos (\frac{2 πk}{M} - \frac{π}{3}) 0.5 + 0.5 \cos (\frac{2 πk}{M} + \frac{π}{3}) 0.5 + 0.5 \cos (\frac{2 πk}{M} - π)] - - - (5)

是3乘1行向量。（5）是基于针对角度（在半径上）处特定源具有给定幅度的响应的所提取的麦克风阵列的方向性而衍生的。预定义的值M定义了角度解析度，即，整个平面被划分为离散点的数量。因此，P存储了针对所有定义的角度的理想幅度“模式”。P因此是360乘3矩阵。

通过使用（4）和（5），源的角度可以估计为P中与v₁的点积最大的行的索引：

θ(n)＝arg max(Pv₁) （6）

在（6）中，Pv₁是M乘1向量，其中每个条目代表来自给定角度具有预定义的幅度的v₁的点积。该向量中最大值的索引对应于源的角度。

针对该示例性实施例中所建议的麦克风阵列以及针对大得多的类别的方向性和非方向性麦克风阵列，存在用于确定瞬时的或者另外估计的到达的方向的其他技术。已知一些特定示例是最大似然，MUSIC（Stoica,P“Maximum likelihood methods for direction-of-arrival estimation”IEEE Tran Acoustics,Speech and Signal Processing,Volume:38Issue:7Page(s):1132-1143）和ESPRIT（Paulraj,A.“Estimation Of SignalParameters Via Rotational Invariance Techniques-Esprit”NineteethAsilomar Conference on Circuits,Systems and Computers,1985.）。

-语音等级估值

在帧索引n处的语音等级如下简单地得到：

L (n) = P_{V} (n) 10 \log 10 (Σ_{ω_{i} = ω_{L}}^{ω_{U}} | W (ω_{i}, n) |^{2}) (7)

其中W(ω_i，n)是频域版本的上述W信道，而P_V(n)是针对帧n具有语音的可能性（可以通过使用语音活动检测器来得到）并且是二进制数（0/1）。仅仅在存在语音时才考虑语音等级。在聚合频率采样箱体之外，可以使用平均或者简单的第一阶过滤器（诸如稍早关于协方差矩阵计算所建议的）针对时间来过滤该等级估值。这样的过滤通常是低延时和因果的，以允许实时操作；然而，其可以不严格限制于此。此外，在其他实施例中，可以不仅针对语音活动来累积等级，从而允许包括背景噪音的非语音对象被以等级来适当地识别，并且被附加到任何映射以及相关联的场景分析。

-发散度估值

发散度度量是声学信号从特定源到达麦克风位置的回声情况的指示。通过使用在（4）得到的特征值，瞬时发散度被定义为第二大特征值与最大特征值的比率：

ρ_{inst} (n) \overset{Δ}{=} \frac{d_{2}}{d_{1}} - - - (8)

其中d₁和d₂分别是D中的第一和第二对角线分量。这样做的原因是基于以下假设的：最大特征值对应于直接源能量，而第二大特征值对应于反射和回声。因此，对于更不起回声的房间，该比率会比更起回声的房间低得多。因为瞬时发散度ρ_inst(n)是嘈杂的可以包含很多尖峰，进一步利用中间滤波器来提供更平滑的输出：

ρ(n)＝med([ρ_inst(n)ρ_inst(n-1)，...ρ_inst(n-Q-1)]^T) （9）

其中med(x)代表求向量x的中值。在（9）中，基于当前瞬时值和所存储的过去Q-1个瞬时值来寻找发散度的中值，其中Q是预定的存储器长度。图3示出了瞬时发散度和中间过滤版本中间的比较。

根据图3可以看到，瞬时发散度具有大量尖峰并且因此具有大得多的方差，而中间过滤的版本快速地追踪瞬时发散度的底值并且具有相比而言小得多的方差。因此，通过使用（9），增强了发散度的鲁棒性和稳定性。

由特征提取模块202确定的空间角度估值、语音等级估值和发散度估值被提供给特征映射模块204。在每个时间帧处，特征映射模块将与到达的方向相对应的所提取的特征和发散度映射到具有与盘的拓扑相似的封闭拓扑的半球体或者更一般的凸壳上。在其中存在从中央原点沿着半径的附加维度的三维展示的情况下，映射被示为等价于黎曼球体展示的映射或者与其相关。已知该变换将复杂平面或者无限扩展的二维平面映射到封闭球体中，或者将特定半径之外的复杂平面映射到半球体上。

图4至6是示出了具有声场对象的所提取的源角度（θ）、源发散度（ρ）和源等级（L）特征的黎曼球体映射的图。在特定实施例中，特征缩放和随后的映射被设计和实施为实现由于实际度量和环境不确定性产生的任何观察结果中的方差在形状和尺寸上相对均匀的映射。因为不是所有的声音源都在一点处，声学环境的复杂性、干扰和在处理和估值中通常的不确定性，任何短期观察结果都会具有场景中真实声学对象的某些本性的方差。如图中可以看到的，本文所示的映射的本性使用于所映射的特征空间中的给定对象的聚类区域周围的观察结果的方差的不确定性相对恒定。在特定实施例中，发散的声音被映射到球体的顶部。这样的观察结果会自然地具有关于到达的真正方向的增加的不确定性，并且通过映射到球体的顶部，到达的方向的维度对应于降低所映射的特征空间内部的点的位置的变化。因而，由于实际***和声学环境的基础限制，增加源位置的不确定性不会引起所映射的特征空间中观察结果的位置的分散的变化。在特定实施例中，与更近的源相关联并且通常到达的方向更准确的直接声音映射到赤道平面，并且因而在所映射的特征空间中具有固有的空间准确性。以所映射的特征空间中与针对更远或者发散的对象的较大的角度不确定性相似缩放比例来观看针对近的源的小的角度不确定性。以该方式，与给定对象相关联的观察点可以是相同尺寸的（具有均匀的方差），使得针对对象的聚类和区分的解析度所要利用的距离度量和阈值可以在所映射的特征空间的范围上是固定的。该映射提供了所提取的声场对象的紧凑的展示。随着对象进一步变远，它们映射到半球体的北极。此外，当可选地包括等级作为径向分量时，更柔和的声音被分组得更加靠近，而更响亮的声音被放置得更加疏远。因为较低等级的声音对于环境和实际检测噪音会具有较低的信噪比，这再次直观且实际地具有吸引力（appealing）。作为该信噪比的降低的结果，较低等级的源会通常具有到达的方向和发散度或者距离度量两者的更大的不确定性。通过使低等级源朝向原点聚类，再次看到特定类别的对象可以在该所映射的特征空间中方便地分组。特别地，低等级背景噪音会被朝向原点聚类。在一些实施例中，与等级有关的径向缩放比例基于线性、对数或者对瞬时信号等级估值的功率关系来被调整。在其他实施例中，功率等级可以被缩放或者映射到给定范围，其中原点代表某个较低功率边界或者估计的噪音底值，并且壳或者单位半球体代表与从源入射的信号相关联的标定或者平均语音音量，该源具有与所映射的特征空间上的位置相关联的距离或者物理位置。以该方式，典型地映射到径向变化的等级维度被用于将背景噪音等级的背景声音或者音频对象聚类到原点处，以导致针对基于最终对象的场景分析中可以展示的任何背景噪音对象的单个聚类。

在图4至6中，映射是针对指定为圆A、B、C和D的四个对象的空间角度、发散度和等级的。x指代半球体中的对象位置处所聚类的各个帧的值，以导致四个对象的圆形指代。根据图4，可以看到，空间角度沿着赤道轴被映射，并且沿着赤道轴在经度上变化，其中向前方向被指定为0度。角度指代以“θ”来界定。

图5示出了针对发散性沿着界定为“ψ”的极轴（维度）映射的发散性的映射随着发散性而在维度上变化。在图5中，较少起回声的声音对应于接近赤道的观察结果，而较多起回声的（即，发散的）声音被映射为更靠近北极。

图6示出了针对沿着径向轴R的等级的映射。在该映射中，响亮的声音被映射为距离原点更远（更大半径），而柔和的声音被映射为更靠近原点（较小半径）。应该注意的是，该示例中的声音等级映射展示了在所映射的特征空间中的单调变化。单调变化意在统一地包括所有线性的、功率、dB、有限范围、针对平均等级的比例缩放。

针对帧f处的角度（θ）和发散度（L）的每个观察结果，我们可以将角度θ和发散度ρ映射到X-Y平面，其中使用极坐标来映射ρ（径向分量）和θ（角度分量）：

x=ρ’cos(θ)

y=ρ’sin(θ)

其中ρ’=max(ρ_min,min(ρ_max,ρ))，使得ρ_min和ρ_max是发散度所允许的最小和最大值。

根据2D平面映射，随后将每个数据点映射到黎曼球体（Xr，Yr，Zr）：

Xr=2x/(1+x²+y²)

Yr=2y/(1+x²+y²)

Zr=(x²+y²-1)/(1+x²+y²)

其将包含ρ和θ信息的点映射到黎曼球体。可以通过考虑径向分量中的L来使用可选的等级信息。

基于在与映射相关联的该特征空间内相对恒定的距离度量，随后对象被分类为聚类。就是说，在所映射的特征空间中，两个观察结果之间的欧几里得距离大致与两个观察结果相对于相同潜在音频对象的似然相关，而与这两个观察结果在所映射的空间中的绝对位置无关。以这种方式，映射能够以有意义且在计算上有效的方式利用具有到达的方向、发散性或者距离以及源等级的特性特征来聚类并且识别分立的音频对象。因为针对实际问题框架来引导和设计映射，所以其在针对相同设备的不同环境和应用之间相对一致。因此，用于随后的场景分析的聚类的问题变成了在具有恒定距离规范和简单拓扑的封闭子空间中的问题，而非随后需要更复杂的代数或位置学***面上的投影之间的距离、或者在具有与聚类相关的所需属性的空间中定义的其他适当度量或规范。

应该注意的是，尽管为了说明的目的使用了黎曼球体映射示例，但是设想了其他映射，如以上所说明的。这些其他映射的一些特征是如下特征：其中与到达的方向和距离（或发散度）中的方差相对应的所映射的区域在拓扑上等价于二维盘（其是封闭的并且具有没有不连续性的单一外凸边界而）并且在嵌入三维的情况下等价于半球体或者相似的凸壳。该映射是连续的双射映射，意味着原始特征空间中的两个相邻点在所映射的空间中依然是相邻的，并且存在双向的一一对应关系。更大的距离或者发散性涉及收敛到中央的点，更直接的声音涉及更靠近边缘的点。360度的角度方向和物理旋转对应于单圈或者绕原点的封闭曲线。普遍感兴趣的是将开放的二维空间（在该情况下具有潜在无限半径作为对象的空间延伸到远处并且是完全发散的）映射到二维中的封闭流形（在黎曼球体映射的情况下是球体的上半部）的一类功能。通常，在黎曼球体映射中半径被设定为类似总功率（Power_Total）/直接功率（Power_Direct）的东西。这给出了大于在黎曼映射中映射到上部半球体的单位（unity）的半径的范围。例如，另一相似但不那么有用的映射是映射到半径的倒数。但是球体的想法是有用的，因为其允许了附加第三维度，第三维度使得通过从二维表面映射到球体上的点的、沿着三维中的半径的变化成为相对于直接比率的方向和功率。

尽管已经示出并且描述了实施例和应用，但是对于受益于本公开的本领域普通技术人员显然的是，在不脱离本文所公开的创造性概念的情况下，远多于上述的实施例是有可能的。因此，除了在所附权利要求的精神中之外，本发明并非限制性的。

Claims

1.一种声场映射方法，其包括：

响应于所述声场中的声音来生成电信号；

根据所述电信号来提取空间角度和发散度信息；以及

映射所述空间角度和发散度信息以用于以黎曼球体的形式来展示，其中，沿着所述球体，空间角度在经度上变化，并且发散度在的纬度上变化。

2.根据权利要求1所述的方法，其还包括：

根据所述电信号来提取声音等级信息，所述映射包括映射所述声音等级信息以用于以黎曼球体的形式来展示，其中，声音等级映射到所映射的特征空间中半径上的单调变化。

3.根据权利要求1所述的方法，其中，所提取的特征对应于所述声场中最响亮的对象。

4.根据权利要求1所述的方法，其中，所提取的特征对应于与音频场景中当前正在被追踪的或者被估计为活跃的对象相关的、所选择的区域。

5.根据权利要求1所述的方法，其中，提取空间角度信息包括：

生成在进入信号或者进入信号对于信号的子集或频率范围的变形之间的一个或更多个协方差矩阵；以及

分析所生成的协方差矩阵以提取一个或更多个源的相关联的方向性信息。

6.根据权利要求5所述的方法，其中，将所述一个或更多个协方差矩阵遍及时间实例进行过滤以获得平滑的估值。

7.根据权利要求5所述的方法，其中，根据对协方差矩阵的主特征值的分析来获得到达的角度。

8.根据权利要求1所述的方法，其还包括：

根据电信号来提取声音等级信息，所述映射包括将到达的方向和发散度或距离度量映射到具有随所述声音等级单调变化的半径的半球。

9.根据权利要求8所述的方法，其中，遍及频带的范围或集合来计算并且或者在时间上平均所述声音等级。

10.根据权利要求8所述的方法，其中，在语音或者所期望的信号活动期间执行声音等级计算。

11.根据权利要求1所述的方法，其中，将所提取的特征映射到使空间静止的音频对象的变化的均匀性最大化的特征空间上。

12.一种用于基于响应于声场中的声音而接收的电信号来映射所述声场的***，所述***包括：

空间角度提取模块，其适于根据所述声场来提取空间角度信息；

发散度提取模块，其适于根据所述声场来提取发散度信息；

映射模块，其适于以黎曼球体的形式来展示空间角度和发散度信息，其中，沿着所述球体，空间角度在经度上变化，并且发散度在维度上变化。

13.根据权利要求12所述的***，其还包括：

声音等级提取模块，其适于根据所述声场来提取声音等级信息，其中，所述映射模块还适于映射所述声音等级信息以用于以黎曼球体的形式来展示，其中，声音等级映射到所映射的特征空间中半径上的单调变化。

14.根据权利要求12所述的***，其中，所述空间角度和发散度信息对象对应于音频场景中最响亮的对象。

15.根据权利要求12所述的***，其中，所述空间角度和发散度信息对应于音频场景中正在被追踪的对象。

16.根据权利要求12所述的***，其中，所述空间角度提取模块适于生成在进入信号或者进入信号对于信号的子集或频率范围的变形之间的一个或更多个协方差矩阵，并且适于分析所生成的协方差矩阵以提取一个或更多个源的相关联的方向性信息。

17.根据权利要求16所述的***，其还包括：过滤模块，其适于将所述一个或更多个协方差矩阵遍及时间实例进行过滤以获得平滑的估值。

18.根据权利要求16所述的***，其中，所述空间角度提取模块适于根据对协方差矩阵的主特征值的分析来获得到达的角度。

19.根据权利要求12所述的***，其中，所述黎曼球体展示是在使空间静止的音频对象的变化的均匀性最大化的特征空间上的。

20.一种***，其包括：

麦克风的阵列，其用于根据声场来生成电信号；以及

处理器，其适于：

根据所述电信号来提取空间角度和发散度信息；以及

21.根据权利要求20所述的***，其中，所述处理器还适于：

22.根据权利要求20所述的***，其中，所述空间角度和发散度信息对应于音频场景中最响亮的对象。

23.根据权利要求20所述的***，其中，所述空间角度和发散度信息对应于与音频场景中正在被追踪的对象。

24.根据权利要求20所述的***，其中，所述黎曼球体展示是在使空间静止的音频对象的变化的均匀性最大化的特征空间上的。

25.一种用于映射音频场景的方法，其包括：

检测声场中的声音；

响应于所述声音来生成电信号；

根据所述电信号来提取空间角度和发散度信息；以及

将所述空间角度和发散度信息映射到代表性区域上，以表现在与所提取的空间信息相对应的到达的方向中的变化以及在与所提取的发散度信息相对应的距离中的变化。

26.根据权利要求25所述的方法，其还包括：根据所述电信号来提取声音等级信息，并且表现沿着所述代表性区域的维度的声音等级中的变化。