CN117221801A

CN117221801A - 环绕声***中扬声器位置的自动发现和定位

Info

Publication number: CN117221801A
Application number: CN202311425874.7A
Authority: CN
Inventors: D·阿提加; G·圣高尔; D·M·费舍尔; A·玛蒂奥斯索尔; D·斯凯尼; A·J·希菲尔德
Original assignee: Dolby International AB; Dolby Laboratories Licensing Corp
Current assignee: Dolby International AB; Dolby Laboratories Licensing Corp
Priority date: 2016-09-29
Filing date: 2017-09-28
Publication date: 2023-12-12
Also published as: EP3519846A1; WO2018064410A1; EP4235207A2; CN109791193A; US20200366994A1; CN109791193B; US11425503B2; EP4235207A3; US20190253801A1; EP3519846B1; US10779084B2

Abstract

本公开涉及环绕声***中扬声器位置的自动发现和定位。描述了用于定位一组扬声器(106)和麦克风(108)的方法的实施例，其仅具有每个扬声器和麦克风之间的到达时间。自动发现过程(107)使用外部输入来设置：全局平移(3个连续参数)、全局旋转(3个连续参数)和离散对称，即任何轴对的交换和/或任何轴的反转。可以使用不同的到达时间获取技术，例如超声波扫描或通用多轨道音频内容。自动发现算法基于最小化某个成本函数，并且该过程允许记录中延迟，该延迟可能与发射中的延迟相关联。

Description

环绕声***中扬声器位置的自动发现和定位

本申请是基于申请号为201780060656.4、申请日为2017年9月28日、发明名称为“环绕声***中扬声器位置的自动发现和定位”的专利申请的分案申请。

技术领域

一个或多个实现总体涉及环绕声扬声器***，并且更具体地涉及自动确定收听环境中的扬声器位置。

背景技术

环绕声扬声器***包括数个扬声器以及低频效果(LFE)扬声器(低音炮)，它们被设计为放置在房间中的指定位置以在水平平面中提供360度声音的音频环绕效果。在大多数情况下，环绕声***将每个源声道映射到其自己的扬声器。许多不同的环绕声配置已经被开发出来，目前大多数环绕声应用的标准是5.1环绕声格式，其具有3个前置扬声器、2个后置扬声器和1个LFE声道。这常用于电影、电视和消费者应用，并且通常由传统多声道混音所需的规定位置驱动。

对于环绕声***定义了相对严格的扬声器放置规则，例如L和R声道之间60度，中置扬声器位于收听者正前方，环绕声道被放置为与中央声道成100-120度，任何额外的环绕扬声器均匀分布在60到150度之间。5.1环绕声***通常受限于其传送180度或类似全景声音的能力，因此已经开发了更广泛的环绕声格式。例如，7.1声道环绕声常用于大型电影院，并增加了两个额外的声道以提供额外的左/右环绕声道或甚至额外的屏幕声道。其他环绕声配置包括9.1，10.2，11.1，22.2等等。

在影院和家庭环境中，环绕声***设置过程中的一个常见问题是房间内扬声器的位置。不同的房间大小和尺寸可能对扬声器定位造成约束，并且每个扬声器的定向角度以及它们的相对位置也是重要的。高级音频处理***(例如Atmos^TM)的出现已经引入了对于诸如5.1.2(5个环绕，1个LFE和2个高度扬声器)，7.1.2，7.1.4，9.1.2等的配置使用包括高度扬声器的许多不同扬声器的可能性。随着能够在影院和家庭影院应用中支持多达24.1.10个声道，要被定位和定向的扬声器数量可能非常高。这给用户带来了显著的设置负担，并且可能导致扬声器的非最佳放置。

为了增强新一代环绕声***的可用性，需要如下这样一种方法，该方法允许用户容易地在多扬声器音频***中放置扬声器，这样允许***中扬声器的相对任意放置以及允许***中扬声器的自动发现(自动搜寻)。

背景技术部分中讨论的主题不应仅仅因为在背景技术部分中提及而被认为是现有技术。类似地，不应假设在背景技术部分中提到的或与背景技术部分的主题相关的问题先前已在现有技术中被认识到。背景技术部分中的主题仅代表不同的方法，这些方法本身也可以是发明。Dolby Atmos，Dolby Digital Plus，Dolby TrueHD和Dolby Pulse是DolbyLaboratories(杜比实验室)的商标。

出于本说明书的目的，以下术语具有相关联的含义：术语“声道”指的是音频信号加元数据，其中位置被编码为频道标识符，例如左前或右上环绕；“基于声道的音频”是如下这样的音频，该音频被格式化以用于通过预定义的扬声器区域集合进行重放，扬声器区域集合具有相关联的标称位置，例如5.1,7.1等等(即上文刚刚定义的声道集)；术语“对象”指的是具有诸如视在源位置(例如，3D坐标)、视在源宽度等的参数源描述的一个或多个音频声道；“基于对象的音频”是指刚刚定义的对象集；“沉浸式音频”、“空间音频”或“自适应音频”指的是基于声道的和对象或基于对象的音频信号加上元数据，其使用在其中位置被编码为空间中的3D位置的音频流加元数据基于回放环境来呈现音频信号；“收听环境”指的是任何开放的，部分封闭的或完全封闭的区域，例如可用于音频内容单独回放或音频内容与视频或其他内容一起回放的房间，并且可以体现在家庭、影院、剧院、礼堂、工作室、游戏机等中。这样的区域可以在其中设置有一个或多个表面，例如可以直接反射或漫反射声波的墙壁或挡板。术语“驱动器”指的是单个电声换能器，其响应于电气音频输入信号而产生声音。术语“扬声器”或“扩音器”指的是整体外壳中的一个或多个驱动器，术语“机壳”或“外壳”指的是包围一个或多个驱动器的整体外壳。术语“扬声器馈送”可以指的是从音频呈现器发送到扬声器以便通过一个或多个驱动器进行声音回放的音频信号。

发明内容

描述了如下方法的实施例，该方法通过确定n个扬声器和m个麦克风中的每一个的到达时间(TOAs)并且获得房间中的扬声器的种子(初始)布局和被定义的配置参数来执行扬声器定位和自动发现。该方法评估多个候选TOA，作为提高过程鲁邦性的方法。这些数据项被输入到成本函数，通过使用TOA值来最小化该成本函数以求解扬声器和麦克风的位置以及每个扬声器的回放延迟(latency)和每个麦克风的记录延迟。该过程使用经最小化的成本函数输出以及配置参数和种子布局来生成扬声器和麦克风的估计位置、每个扬声器的估计延迟、以及结果质量的评估。然后，基于***配置将输出的布局和延迟变换为规范格式(canonical format)。最小化算法的残差提供了原始TOA矩阵的内部相干性的估计，并且这用于生成误差估计，其允许***迭代进行成本最小化过程以适当地改进估计。执行任何所需的后处理，例如优化呈现，基于特定应用(例如影院或家庭影院使用)提供关于扬声器/麦克风位置的用户警报和消息。

实施例还包括用于通过如下操作在具有第一数量(n)的扬声器和第二数量(m)的麦克风的收听环境中定位扬声器的方法，该操作包括接收n个扬声器中的每个扬声器到m个麦克风中的每个麦克风的一个或多个相应到达时间(TOA)，以产生多个TOA候选；接收收听环境的配置参数；使用每个扬声器的一个或多个相应TOA值中的每一个来最小化成本函数，以估计相应扬声器和麦克风的位置和延迟；在多个TOA候选中的每个TOA候选上迭代进行成本函数最小化；以及使用配置参数和经最小化的成本函数来向一个或多个后处理组件或音频呈现组件提供扬声器位置信息。

换句话说，实施例包括用于在具有第一数量(n)的扬声器和第二数量(m)的麦克风的收听环境中定位扬声器的方法。该方法可以例如包括接收(或获得)n个扬声器中的每个扬声器到m个麦克风中的每个麦克风的相应到达时间(TOA)，其中所接收(获得)的TOA包括至少一个扬声器到至少一个麦克风的多个TOA候选；接收(或获得)收听环境的配置参数；使用扬声器和麦克风中的每一个的相应TOA值中的每一个来最小化成本函数，以估计相应扬声器和麦克风的位置和延迟；在多个TOA候选中的每个TOA候选上迭代进行成本函数最小化；以及使用配置参数和经最小化的成本函数来向一个或多个后处理组件或音频呈现组件提供扬声器位置信息。所接收(获得)的TOA优选地可包括每一扬声器到每一麦克风的多个TOA候选。

实施例还涉及执行或体现处理命令的***和制品，该处理命令执行或实现上述方法操作。

附图说明

在以下附图中，类似的附图标记用于指示类似的元件。尽管以下附图示出了各种示例，但是一个或多个实施方式不限于附图中所示出的示例。

图1示出了根据一些实施例的具有与具有自动发现组件的音频呈现器一起使用的数个扬声器的收听环境。

图2示出了根据一些实施例的自动发现过程的主要功能组件。

图3示出了根据一些实施例的用于在自动发现过程中执行成本函数最小化的***。

图4是示出用于图3的实施例的最小化算法的输入和输出参数的简化图。

图5是示出根据一些实施例的执行扬声器定位和自动发现的方法的流程图。

图6示出了示例性沉浸式音频***中的扬声器放置，该***提供了用于回放高度声道的高度扬声器。

图7是示出根据一些实施例的在沉浸式音频***中执行扬声器定位的方法的流程图。

图8示出了根据一些实施例的用于在沉浸式音频应用中执行扬声器自动发现和定位的***。

图9示出了根据一些实施例的无线扬声器的集成***。

图10是示出根据一些实施例的在无线***中执行自动发现的方法的流程图。

具体实施方式

描述了自动扬声器发现过程的***和方法，该自动扬声器发现过程使用多个到达时间和延迟数据来定位房间中的扬声器，但是实施例不限于此。这里描述的一个或多个实施例的各方面可以在音频或视听***中实现，该音频或视听***回放在具有解码/回放***的呈现/编码***中产生的源音频信息，其中呈现和回放***都包括执行软件指令的一个或多个计算机或处理设备。任何所述实施例可以单独使用或以任何组合一起使用。尽管各种实施例可能是由现有技术的各种缺陷而激发的，这些缺陷可能在说明书中的一个或多个地方被讨论或提及，但是实施例不一定必然解决这些缺陷中的任何缺陷。换句话说，不同的实施例可以解决可能在说明书中讨论的不同缺陷。一些实施例可以仅部分地解决可能在说明书中讨论的一些缺陷或仅一个缺陷，而一些实施例可能不解决所有这些缺陷。

实施例涉及一种自动定位和校准多扬声器音频***中的任意放置的扬声器的***。该自动发现***同时定位一组扬声器和一组麦克风，而仅具有每个扬声器/麦克风对之间的到达时间(TO A)。它还考虑了扬声器和麦克风到达时间的可变延迟。自动发现方法适用于任何实际数量的扬声器和麦克风(例如可在高计数环绕声或Dolby Atmos***中找到)，并使用外部输入设置全局平移(三个连续参数)、全局旋转(三个连续参数)和离散对称(例如，任何轴的反转或任何轴对的交换)。麦克风可以与扬声器集成或紧密相联系(共同定位)，或者它们可以作为分离的单元被提供并安装在房间中。它们也可被临时放置以用于测量，例如在影院中，它们可以仅在校准过程时被放置。

***配置

在一个实施例中，自动发现和扬声器定位过程被实现为作为呈现器组件的一部分的或与呈现器组件紧密关联的组件或可执行过程，该呈现器组件生成用于通过扬声器阵列回放音频内容的扬声器馈送。图1示出了根据一些实施例的具有数个扬声器的收听环境，该数个扬声器与具有自动发现组件的音频呈现器一起使用。如图1所示，收听环境(房间)102具有显示监视器(例如，电视，投影屏幕，剧院屏幕，游戏控制台显示器等)104和布置在房间周围的数个扬声器106。AVR/呈现器105将音频信号以扬声器馈送的形式发送到每个扬声器。组件105通常表示集成的接收器/放大器单元，其通常被称为“呈现器”。这样的呈现器可以包括或耦合到编解码器，该编解码器接收来自源的音频信号，对信号进行解码并将它们发送到放大器输出级，该放大器输出级产生要发送到房间中的各个扬声器的扬声器馈送。音频内容可以是基于声道的环绕声音频或空间音频内容，其中声道被直接发送到它们的相关联扬声器或被下混到现有扬声器组，并且音频对象由解码器以灵活的方式呈现。因此，呈现功能可以包括音频解码的方面，并且除非另有说明，否则术语“呈现器”和“解码器”都可以用于指代沉浸式音频呈现器/解码器105，例如图1中所示。通常，术语“呈现器”指的是将扬声器馈送发送到扬声器的组件，其可以已在上游解码或可以不在上游解码。

收听环境100可以包括用于向观众回放电影和相关音频(电影内容)的电影剧场或类似场所。这些信号由内容解码和呈现组件105接收，内容解码和呈现组件105对编码的电影内容进行解码并呈现音频以供通过影院收听环境中的扬声器106回放。回放级可以包括一个或多个放大器、缓冲器或声音处理组件，其放大和处理音频以便通过扬声器回放。扬声器可包括单个扬声器或扬声器阵列，例如环绕声阵列或沉浸式音频扬声器阵列。对于典型的回放环境，解码和呈现组件105可以体现为影院的控制室或投影室内的回放控制台或控制单元，并且收听环境可以包括影院的观众座位部分或剧场。解码和呈现组件105可以包括任何数量的适当子组件，例如D/A(数字到模拟)转换器、翻译器、编解码器、接口、放大器、滤波器、声音处理器等。收听环境100还可以表示家庭影院环境，其中AVR单元和扬声器阵列按比例缩小以用于典型的家庭或小型场所而不是影院。AVR单元的某些组件还可以体现在小型便携式无线设备(例如，移动电话、平板电脑、游戏设备等)中，以用于具有至少一些无线扬声器的***。

在一个实施例中，由***处理的音频可以包括单声道(单个声道)音频、立体声(双声道)音频、基于声道的音频(环绕声)、基于对象的音频、或可以被称为“沉浸式音频”的基于声道和对象的音频(例如，混合或空间音频)。在对象或沉浸式音频的情况下，音频包括元数据或与元数据相关联，该元数据指示如何呈现音频以便在特定终端设备和收听环境上回放。基于声道的音频通常是指音频信号加元数据，其中位置被编码为声道标识符，其中音频被格式化以便通过具有相关联的标称环绕声位置(例如5.1，7.1等等)的预定义的一组扬声器区域进行回放；基于对象指的是具有参数源描述的一个或多个音频通道，例如视在源位置(例如，3D坐标)、视在源宽度等。术语“沉浸式音频”可以用于表示基于声道的和/或基于对象的音频信号加元数据，其使用音频流加在其中位置被编码为空间3D位置的元数据基于回放环境呈现音频信号。通常，收听环境可以是任何开放的、部分封闭的或完全封闭的区域，例如房间，但是实施例还可以包括通过耳机或其他紧邻终端设备的回放。音频对象可以被认为是可以被感知为从环境中的一个或多个特定物理位置发出的声音元素组，并且这样的对象可以是静态的或动态的。音频对象由元数据控制，该元数据尤其详细描述了在给定时间点的声音的位置，并且在回放时，它们根据位置元数据被呈现。在混合音频***中，除了音频对象之外，还可以处理基于声道的内容(例如，“床”)，其中床有效地是基于声道的子混音或词干。这些可被提供以用于最终回放(呈现)，并且可以在不同的基于声道的配置(例如5.1，7.1等)中被创建。

在一个实施例中，每个扬声器106可以体现在任何适当大小和配置的多驱动器配置中，如落地式、书架式、卫星格式等。为了再现沉浸式音频，每个驱动器可以是可单独寻址的并指向不同的方向(例如，向前，向上，侧向等)。例如，具有前射和向上发射驱动器两者的扬声器可以用于使用反射声音的沉浸式音频应用中。扬声器106可以彼此相同，但是根据位置通常为不同的扬声器类型，并且基于它们在房间内的位置和朝向而从呈现器1 05接收不同的扬声器馈送。

通常，“扬声器阵列”是具有特定位置分配的一组扬声器，例如对应于已建立的环绕声放置指南。出于描述的目的，“一组扬声器”指的是放置在收听环境中的没有严格的位置分配的扬声器，但可以至少粗略地对应于任何适当的环绕声或沉浸式音频布置。如图1所示。为了简化说明，扬声器106以标称5.1环绕声配置被布置，从而扬声器106b和106a是L/R侧声道扬声器，106d和106c是L/R环绕声道扬声器，106e是低音炮(LFE)扬声器和106f是中置声道扬声器。应该注意的是，图1中的扬声器106的布置旨在作为示例，并且扬声器的任何其他数量和布置也是可能的，例如7.1，9.1，9.2或类似布局。低音炮扬声器106e可以体现为是与其他扬声器106a-d相同类型的集成扬声器，但通常体现为单独的专用低音炮扬声器。

在一个实施例中，图1的AVR或呈现器/解码器105包括用于家庭娱乐环境(家庭影院、家庭电视等)的音频/视频接收器。AVR通常执行三个功能。首先，它为多个源设备提供连接点，AVR负责在输入之间进行切换。其次，它对扬声器进行放大。第三，它执行音频解码和处理(例如，环绕声处理，Dolby Pro Logic^TM处理，Dolby Digital^TM处理，Dolby TrueHD^TM处理等)。

AVR 105可以通过直接有线连接耦合到无源扬声器，或者通过无线链路耦合到有源扬声器，在这种情况下，每个扬声器可以包括板载放大器级和无线接收器。无线扬声器可以经由Bluetooth^TM连接，WiFi^TM连接或专有连接(例如，使用其他射频传输)连接到AVR 105或音频源，该专有连接可以(或可以不)基于WiFi标准或其他标准。AVR 105还可以有线连接到有源扬声器，从而它执行互连和解码/处理的步骤，而扬声器本身提供放大。

收听环境102可以代表大型场所，例如礼堂，影院或室外舞台，或者它可以代表小型场所，例如会议室或家庭影院。因此，扬声器106的数量和位置可以由特定指示来指定，用户或AV安装专业人员必须遵循该特定指示，以用于扬声器相对于最佳或基准收听位置(通常称为“甜蜜点”)的正确放置和定向。对于图1的实施例，提供自动发现组件107以有助于相对随机地放置扬声器，使得AVR 105可以基于扬声器的实际位置生成扬声器馈送，即使它们未按照预定义的位置和配置被放置。自动发现组件107包括确定房间中每个扬声器的空间位置的扬声器定位过程。然后，该位置信息被用于帮助生成针对各个扬声器的适当扬声器馈送。还可以通过适当的用户界面(UI)使用该位置信息来向用户提供关于扬声器放置的指导或指示，或者在一个或多个扬声器不工作或最初放置得离理想或可行位置太远的情况下提供警报。自动发现组件107可以被提供为AVR内的组件或可执行过程，诸如呈现功能内的子电路或子程序，或者被提供为功能上耦合到AVR 105的单独组件或过程。

如图1所示，自动发现组件107使用了数个麦克风108。麦克风可以被提供为分布在房间102周围的单独的麦克风阵列，或者它们可以与每个扬声器或至少扬声器的子集共同定位或与其紧邻地放置。因此，对于图1中所示的示例配置，扬声器106a具有麦克风108a，扬声器106b具有麦克风108b，扬声器106c具有麦克风108c，扬声器106d具有麦克风108d，而扬声器106f具有麦克风108f。这样的麦克风可以放置或安装在扬声器箱上，或者可以集成在相应的扬声器内。作为替代，仅一个麦克风或麦克风阵列可被使用并被放置在适当的位置，例如房间102的中心或显示器104的区域中。因此，麦克风的数量可以与扬声器的数量相同或不同，并且房间102通常具有第一数量(m)的扬声器和第二数量(n)的麦克风，其中m可以等于或不等于n。应该注意，可以使用扬声器上麦克风和独立阵列两者的任何组合。例如，在一个实施例中，麦克风被设置在扬声器上，加上一个麦克风处于收听位置，使得可以定位扬声器和收听位置两者。中央或收听位置麦克风可以是移动电话、计算机或平板电脑上的麦克风，以便易于使用。

自动发现

在一个实施例中，图1的***使用在仅具有每个扬声器和麦克风之间的到达时间的情况下同时定位一组扬声器和一组麦克风的技术。自动发现过程107使用外部输入来设定：全局平移(3个连续参数)、全局旋转(3个连续参数)、和离散对称，即任何轴的反转和/或任何轴对的交换。可以使用不同的到达时间获取技术，例如准备好的信号(例如，使用超声波扫描，或准备好的预告片)或通用多轨道音频内容。自动发现算法基于最小化某个成本函数，并且该过程允许可能彼此相关联的发射和记录两者中的未知延迟。

图2示出了根据一些实施例的自动发现过程的主要功能组件。如图2所示，自动发现过程可以分为五个主要组件，其中某些可选特征由虚线表示。这些包括被提供的校准音频序列204和记录202(或流式音频)的去卷积206、峰值选择过程208、成本函数最小化过程210、评估过程212和可选的后处理操作214。下面将进一步详细地提供每个过程206至214的主要子过程和功能组件。

应当注意，这里使用的术语“去卷积”不一定指的是严格数学术语中的去卷积，而指的是导致计算可从其提取到达时间(TOA)的脉冲响应或伪脉冲响应(IR)的任何过程。通常，去卷积包括从所记录的声音到脉冲响应(可从其提取TOA)的任何过程，但是不包括迭代峰值搜索算法。应该注意的是，存在如下情形，其中“去卷积”过程可能产生与真实IR不同的事物，从而产生所谓的“伪IR”。因此，术语伪IR可指的是允许直接提取一组候选峰值或TOA的输入音频的任何被处理形式。

去卷积过程206的最终产品是用于自动发现算法的TOA的集合。具有由多个(n)扬声器和多个(m)麦克风组成的多声道音频***，目标是恢复与从n个扬声器中的每一个到m个麦克风中的每一个的传播相对应的n×m TOA矩阵。估计IR可以通过将已知参考音频序列与从***中的麦克风获得的该序列的记录互相关、从而获得伪脉冲响应来实现。另一种估计方法是通过对所记录的校准音频序列204和所记录的音频202进行去卷积来获得脉冲响应，如图2所示。根据IR或伪IR，峰值搜索算法根据需要以迭代方式估计最佳TOA候选。对于峰值搜索算法，可以使用各种不同的技术，例如用于基于SNR(信噪比)的峰值搜索的可变阈值，峰值分组等。

可以使用若干技术来对校准音频序列204进行去卷积以获得房间脉冲响应。一种方法是使用由n个扬声器中的每一个顺序发射并由m个麦克风同时记录的房间校准音频序列，如扫描(对数正弦音调)或MLS序列。这些方法是标准的，经过良好测试的，并且具有良好的信噪比；然而，这些用于校准的信号对于收听者来说并不令人愉快。作为替代，可以使用被带限于近超声范围(18至24kHz)的校准音频序列，例如扫描(对数正弦音调)或MLS序列。在这个音频范围内，大多数标准音频设备能够发射和记录声音，但这种信号无法被感知，因为它超出了正常人类听觉能力。因此，发出的校准序列是听不见的，对于收听者完全透明。然而，因为它们被局限于超声频率范围，这样获得的脉冲响应只能用于定位而不能用于均衡。

获得TOA的另一种方法是使用任意多声道音频序列。通过知晓所发出的音频和相应的接收音频，可以从一般性多声道音频序列恢复房间脉冲响应。然而，该技术的缺点是同时回放和信道相关。多个通道中的同时回放在不同通道之间产生主要干扰，由于通道通常没有去相关这一事实而加剧。另一个缺点是空的或水平非常低的声道。环绕声道通常以比屏幕声道低得多的水平发射，并且确定这些声道的脉冲响应可能非常困难或者是不可能的。源材料通常不是全带宽，因此实际上不可能计算全带IR。

另一种替代方法涉及使用特别设计或特别定义的多声道音频序列，其通过具有多个片段而吸引收听者并且同时来避免上述问题，其中每个扬声器单独发出声音，声音是以相同或相当的水平被发射，并且声音对应于全带宽或准全带宽声音。这种特别的多声道音频序列可以为***特别设计或自动生成。

一旦执行去卷积206，峰值选择过程208就选择多个TOA候选。多个候选TOA解决方案的使用与使用单个或最少TOA值的***相比增加了鲁棒性，并确保误差对于找到最佳扬声器布局的影响最小。在获得由去卷积206提供的***的IR之后，可以通过搜索对应于直达声的峰值来恢复每个TOA矩阵元素。在理想条件下(即，没有噪声，在源和接收器之间的直达路径中没有障碍物，以及扬声器直接指向麦克风)，该峰值可作为脉冲响应中的最大峰值被容易地识别。然而，在存在噪声、障碍物或扬声器和麦克风未对齐的情况下，对应于直达声的峰值不一定对应于最大值，并且实际上难以与其他反射和/或噪声隔离。直达声识别是一个精密的过程，并且直达声的错误识别可能完全破坏整个自动发现过程。因此，在存在混乱的情况下，考虑直达声的多个候选是有效的。峰值选择过程208由两部分组成：(1)直达声搜索算法，其寻找合适的峰值候选；以及(2)峰值候选评估过程212，以增加选取正确的TOA矩阵元素的概率。

关于搜索直达声候选峰值的过程，过程208包括基于以下五个步骤识别直达声的相关候选的方法：(1)识别一个第一参考峰值(例如，IR的绝对值的最大值)，“第一峰值”；(2)评估所述第一峰值周围(之前和之后)的噪声水平；(3)搜索在所述第一峰值之前(以及在某些情况下之后)的高于噪声水平的替代峰值；(4)将所发现的峰值根据它们对应于正确TOA的概率进行排序；(5)可能地，将接近的峰值分组(减少候选数量)。

一旦识别出直达声候选峰值，该过程就执行多峰值评估步骤112。作为直达声候选峰值搜索的结果，对于每个TOA矩阵元素，将存在根据其估计概率被排序的一个或多个候选值。可以通过在不同候选值中进行选择来形成多个TOA矩阵。为了评估给定TOA矩阵的似然性(likehood)，执行最小化过程(下面更详细地描述)。该过程生成最小化的残差，这是对TOA矩阵的内部相干性的良好估计。完美的无噪声TOA矩阵将导致零残差，而具有错误矩阵元素的TOA矩阵将导致大的残差。在实践中，该方法将寻找创建具有较小残差的TOA矩阵的候选TOA矩阵元素的集合。在一个实施例中，评估过程212执行以下步骤：(1)选择初始TOA矩阵；(2)用最小化过程的残差来评估初始矩阵；(3)从TOA候选列表中改变TOA矩阵的一个矩阵元素；(4)用最小化过程的残差重新评估矩阵；(5)如果残差更小则接受该改变，否则不接受；(6)迭代步骤3到5。

上面参考图2描述的自动发现过程例如可被看作用于在具有第一数量(n)的扬声器和第二数量(m)的麦克风的收听环境中定位扬声器的方法。该方法可以包括获得(或接收)n个扬声器中的每个扬声器到m个麦克风的每个麦克风的相应到达时间(TOA)。所获得的(或接收的)TOA可以包括用于至少一个扬声器到至少一个麦克风的多个TOA候选。换句话说，不是获得(或接收)扬声器到麦克风的单个TOA，而是对于扬声器到麦克风可获得多个TOA候选。获得(或接收)的扬声器到麦克风的一个或多个TOA候选可以例如被称为TOA值或TOA候选。该方法可以包括获得(或接收)收听环境的配置参数。该方法可以包括使用扬声器和麦克风中的每一个的相应TOA值来最小化成本函数，以估计相应扬声器和麦克风的位置和延迟。该方法可以包括在多个TOA候选中的每个TOA候选上迭代成本函数最小化。该方法可以包括使用配置参数和被最小化的成本函数来向一个或多个后处理或音频呈现组件提供扬声器位置信息。

如上所述，TAO候选可以例如通过去卷积206和峰值选择208获得。然而，不是使用这样的特定示例实现，而是用于定位扬声器的方法通常可以包括基于由一个或多个扬声器回放的参考音频序列以及从一个或多个麦克风获得的参考音频序列的记录来估计收听环境的脉冲响应(IR)，并使用IR来搜索直达声候选峰值，其中多个TOA候选对应于在搜索中识别的各个候选峰值。换句话说，可以通过在IR中搜索可能是直达声峰值的那些峰值来获得TOA候选。如上面参考图2所述，搜索直达声候选峰值(或峰值选择208)可以例如包括评估参考峰值并使用参考峰值周围的噪声水平。搜索直达声候选峰值可以例如包括评估参考峰值，并且使用参考峰值周围的噪声水平来搜索参考峰值周围的替代峰值(或者至少在位于参考峰值之前和/或之后的IR的一部分中搜索替代峰值)。所获得的TOA可以例如包括用于每个扬声器到每个麦克风的多个TOA候选。

由该方法提供给一个或多个后处理或音频呈现组件的扬声器位置信息可以例如基于对于其最小化步骤的残差低于特定阈值的TOA候选中的选择。例如，TOA候选可被选择为使得成本函数最小化产生尽可能低的残差值。

用于在收听环境中定位扬声器的方法可以例如包括通过以下操作之一来估计收听环境的脉冲响应(IR)：将已知的参考音频序列与从麦克风获得的该序列的记录进行互相关以导出伪脉冲响应，或对校准音频序列和从麦克风获得的校准音频序列的记录进行去卷积。该方法可以例如包括使用IR通过评估参考峰值并使用参考峰值周围的噪声水平来搜索直达声候选峰值，其中TOA候选对应于搜索中识别的候选峰值；并且通过选择初始TOA矩阵，利用最小化步骤的残差评估初始矩阵，以及改变TOA矩阵元素直到残差低于定义的阈值来执行多峰值评估。

获得(或接收)每个扬声器和每个麦克风的TOA值的步骤可以例如包括对发送到每个扬声器的校准音频序列进行去卷积以获得房间脉冲响应(IR)；并且使用IR通过评估参考峰值并使用参考峰值周围的噪声水平来搜索直达声候选峰值。例如，可以通过选择初始TOA矩阵，利用最小化步骤的残差评估初始矩阵，以及改变TOA矩阵元素直到残差低于定义的阈值来执行多峰值评估。

成本函数最小化

***200的主要功能是成本函数和受约束最小化210的过程。这是针对被施加的约束和成本函数的最小化而采取的独特方法，并且包括添加要通过最小化算法估计的未知延迟。

图3示出了根据一些实施例的用于在自动发现过程中执行成本函数最小化的***。在具有n个扬声器和m个麦克风的情况下，最小化算法310接收从每个扬声器到每个麦克风的TOA值302、以及对于收听环境、扬声器、麦克风和其他环境特性指定的任何配置参数304，作为输入数据。可以针对最大房间尺寸、2D或3D配置、扬声器布局约束、扬声器/麦克风相关性、以及其他类似特性来定义配置参数。用于成本函数312的最小化算法310返回扬声器和麦克风的估计位置320、每个扬声器和麦克风的估计延迟317，以及结果的质量评估316作为输出。

在一个实施例中，最小化算法310通过最小化成本函数312来工作，其考虑了来自扬声器和麦克风位置的测量到达时间与估计到达时间的差异。该成本函数被馈送到最小化算法310，以及布局必须遵守的一些其他可能约束308(例如，一些麦克风和扬声器在相同位置)。

在一个实施例中，最小化算法310使用内部优化方法(IPOPT)，其需要由对于成本函数312的输出和约束308执行的导数计算314提供的成本函数的雅可比(Jacobian)和海森(Hessian)以及可能约束。关于导数计算314，对于许多优化技术(例如IPOPT)，明确地提供关于未知数的约束以及成本函数的显式一阶导数(雅可比)和二阶导数(海森)是有利的。然而，这并不总是严格需要，因为导数也可被数值计算或者使用自动微分技术计算。在使用其他优化技术的情况下，这样的技术可能不依赖于导数。

最小化算法310还需要种子布局作为输入，该种子布局是从配置参数304生成306的。种子布局定义了初始扬声器放置，并且可以参考标准(例如环绕声惯例)来定义，并且应该包括准确扬声器计数。最小化残差315提供结果的质量估计，并且可用于评定到达时间集合的似然性，如在评估函数316中处理的那样。

在一个实施例中，最小化算法310是解决以下问题的非线性算法：

最小化C(x),x∈Rⁿ

条件是：x^L≤x≤x^U,g_α ^L≤g_α(x)≤g_α ^(U),α＝1,…,m

其中C(x):Rⁿ→R是所谓的成本函数，x∈Rⁿ是表示多维参数空间中的点的变量，x^L和x^U是参数空间，g_α(x)是约束，g_α ^L和g_α ^U是约束的界限。

在一个实施例中，最小化算法可以使用内点优化(IPOPT)程序，该程序包括用于大规模非线性优化的软件库。IPOPT实现了原始对偶内点过滤线搜索算法。作为替代，也可以使用可以处理具有上文给出的形式的问题的任何类似的优化库。这些包括梯度下降优化方法。

在一个实施例中，成本函数是针对具有n个扬声器和m个麦克风的***而制定的，并且使用以下数据：扬声器i(i＝1...n)到麦克风j(j＝1...m)的TOA；TOA_ij以求解以下未知数：

a.每个扬声器的位置s_i,i＝1…n(每个扬声器3个坐标)

b.每个麦克风的位置m_j,j＝1…m(每个麦克风3个坐标)

c.每个扬声器的回放延迟l_i,i＝1…n(每个扬声器1个值)

d.每个麦克风的记录延迟k_j,j＝1…m(每个麦克风1个值)

可以制定以下成本函数：

其中c是声速。每个变量可以被限界于最大值和最小值之间，例如，被限制在房间大小内。

一些成本函数未知数可以通过(可选的)约束函数308以若干方式相互联系起来。例如，扬声器和麦克风可以被约束为并置或集成，或者分开所限定的最大距离；例如对于无线扬声器，记录和回放延迟可以被约束为相同；以及例如对于影院环境，一组给定的麦克风(和/或扬声器)可以被约束为位于给定行上。约束总是可用以下形式表达：

g_α ^L≤g_α(s_i,m_j,l_i,k_j)≤g_α ^(U)

如果g_α ^L＝g_α ^(U)，则约束称为等式约束，否则称为不等式约束。例如，如果特定扬声器(扬声器1)的记录和回放延迟相同，则给定约束可以是：g₁＝l₁–k₁＝0。取决于初始配置参数304，自动发现过程可以接受不同数量的预定义约束，并且如上所述，约束是可选的，并且不必总是存在或作为因素被计入到最小化算法310中。

如图3所示，配置参数也被输入到种子生成函数306。种子是最小化算法开始搜索定位过程的初始点。种子必须包含：(1)在合理定义的初始位置的扬声器和麦克风的正确数量(例如，五个扬声器最初可能位于规范的5.1环绕声位置)；以及(2)延迟的初始值(例如，初始的小值通常就足够了)。种子应该验证任何现有的约束；例如，如果麦克风必须连接到扬声器，则初始种子也应符合此要求。在执行时间期间根据初始配置参数304创建种子，并且最终结果320不应该依赖于所提供的初始种子。

也可以使用其他成本函数最小化技术，例如隐含地涉及最小化某个成本函数的某些数学方法。这种方法的例子包括伪逆和MDS(多维缩放)的代数技术。通常，术语“成本函数最小化”可以包括这些数学方法以及上述算法最小化方法。

图4是说明用于图3的实施例的最小化算法的输入和输出参数的简化图。如图4所示，最小化算法310的输入包括作为n×m矩阵的n个扬声器和m个麦克风的TOA值302、以及配置参数304。在一个实施例中，配置参数包括扬声器和麦克风的数量(n和m)、房间大小(以米或其他尺寸为单位)、最大记录和回放延迟的界限、定位是应该是二维(例如，简单环绕)还是三维(例如，沉浸式音频)的规定、对扬声器和/或麦克风的位置的约束(例如，共同定位的扬声器/麦克风、中央麦克风阵列等)、以及对旋转、平移和轴反转对称消歧的参考。如果必要和适当，也可以使用其他配置参数。最小化算法310使用TOA和配置参数来最小化成本函数312以产生一组输出320，其包括扬声器和麦克风的估计位置、估计的回放和记录延迟、以及最小化残差(即，最小化后的成本函数的值)。取决于由算法310处理的所使用的配置参数和成本函数，还可以提供其他输出值。

关于对称消歧(在参数304中)，通常，成本函数312在欧几里德变换E(3)下是不变的，该欧几里德变换E(3)包括全局空间平移、全局空间旋转和轴反转对称。此外，延迟具有一个额外的平移T(1)对称性，对应于同时向所有麦克风和扬声器添加相等的延迟导致无法区分的结果这一事实。通过任何对称变换而相关的所有不同布局在这个框架中完全无法区分，并被定义为属于同一个等价类。选择允许唯一地定义表示整个等价类的规范布局的准则是重要的。尽管不是严格必要的，但是如果该规范布局定义了靠近参考收听位置的收听者的参考帧的参考帧，则是方便的。

该过程使用全局平移T(3)(3个连续参数)、全局旋转SO(3)(3个连续参数)和轴反转对称(x→-x/y→-y/z→-z)(3个离散参数，只有1个独立的)。延迟平移对称是T(1)(1个参数)(l_m→l_m+L,k_m→+L)。通过上述变换之一而相关的所有不同布局被称为在同一等价类下。选择如下准则是方便的，该准则允许对称性消歧，即，唯一地定义表示通过对称性而相关的布局的整个等价类的规范布局。尽管从数学观点来看不是必需的，但是在实践中，如果该规范布局定义了接近参考收听位置附近的收听者的参考系的参考系，则是方便的，如上所述。

实现是完全通用的，并且为了确定规范布局，该过程使用某些输入。为了全局平移消歧，***可以使用中心参考来建立坐标中心的位置(示例1：麦克风n.1的位置，其可以是位于参考收听位置的智能手机；示例2：所有扬声器的平均位置)。为了全局旋转消歧，该过程可以使用地面参考来确定地面的方向(示例1：由地面扬声器定义的“平均”平面；示例2：由所有天花板扬声器定义的平均平面)。它还可以使用正面参考来确定前面的位置，屏幕通常位于该位置(示例1：C(中央声道)扬声器的位置；示例2：电视扬声器的位置)。

为了轴反转对称消歧，该过程可以使用左右参考来进行左右对称消歧(示例1：L扬声器减去R扬声器的位置；示例2：用户提供的外部输入)；以及使用上下参考来进行上下对称消歧(示例1：天花板扬声器的位置减去扬声器在平面上的位置；示例2：用户提供的外部输入)。

为了延迟消歧，该过程可以使用延迟参考来确定延迟的哪个部分是记录延迟以及哪个部分是回放延迟。作为第一个例子，平均记录延迟可以设置为某个固定量。作为第二个例子，麦克风n.1的记录延迟可以设置为某个恒定值。

由最小化算法310确定的布局320可以具有任意朝向。根据上述参考，通过应用旋转和平移使布局成为规范形式。

如图3所示，最小化算法310产生最小化残差，该最小化残差由函数316使用，该函数316评估结果以生成在最终输出320中使用的误差估计。为了算法310工作，数据的数量必须大于要估计的参数的数量。引入自由度的数目N_def是有用的，其可以如下定义：

N_def＝N_data–(N_unknown–N_constraints–N_symmetries)

其中，对于n个扬声器和m个麦克风，N_data＝nm是TOA矩阵的元素数，N_unknowns＝4n+4m是未知数(每个扬声器或麦克风3个坐标加上延迟)，N_constraints是约束数，和N_symmetries＝7，这是连续对称的数目(其中，所提出的值在3D中是有效的)。如果N_def<0，问题就无法解决。如果N_def＝0，原则上问题是可以解决的。如果N_def>＝1，则求解中存在一些冗余。

当自由度的数目至少为1时，在求解中存在可以被利用的一些冗余，诸如增加估计的鲁棒性和/或估计最小化的质量。对于误差估计，假设N_def≥1，则最小化的距离误差估计d_{error-estimate}可被计算为SQRT(C/N_def)，其中C是最小化残差，其是最小点处的成本函数的值。

图5是总体示出根据一些实施例的执行扬声器定位和自动发现的方法的流程图。在步骤502中，***确定n个扬声器和m个麦克风中的每一个的到达时间。它还获得定义的配置参数和种子布局，步骤504。这些数据项被输入到成本函数，通过使用TOA值来最小化该成本函数以求解扬声器和麦克风的位置以及每个扬声器的回放延迟和每个麦克风的记录延迟，步骤506。在步骤508中，该过程使用经最小化的成本函数输出以及配置参数和种子布局来生成扬声器和麦克风的估计位置、每个扬声器的估计延迟以及结果的质量评估。然后，基于***的配置，将输出布局和延迟变换为规范格式，步骤510。最小化算法的残差提供了原始TOA矩阵的内部相干性的估计，并且这被用于生成误差估计，该误差估计允许***在适当的情况下迭代进行成本最小化过程以改进估计，步骤512。另一个迭代过程涉及评估替代候选TOA。因此，如图5所示，在步骤512之后，该过程返回到步骤506以评估其他替代候选TOA。一旦TOA和所有替代候选TOA已被评估，该过程执行任何所需的后处理，例如优化呈现，基于特定应用(例如影院或家庭影院使用)提供关于扬声器/麦克风位置的用户警报和消息，步骤514。

电影后处理

参照图2和图5步骤512，一旦执行了最小化算法并确定了布局，就可以执行一个或多个可选的后处理步骤214。具体的后处理功能可以根据自动发现过程是用于影院(专业)环境还是家庭(消费者)环境而变化。

对于影院应用，一个特定的使用情况是Dolby Atmos***，它代表了沉浸式音频***和相关的音频格式。这种***包括高度(上/下)维度，其可以实现为9.1.x环绕***或类似的环绕声配置。图6示出了简化示例Dolby Atmos***中的扬声器放置，其提供高度扬声器以回放高度声道。这样的***可以代表家庭影院***，并且可以通过使用额外的扬声器来扩展以用于礼堂和影院应用。9.1***600的扬声器配置由位于地面和高度平面以及靠近屏幕的编号为1到12的数个扬声器组成。在Atmos***中，高度扬声器(例如，扬声器9和10通常放置在从墙壁进入房间的路途的四分之一处，但是高度和墙壁位置可能有许多变型。在一些安装中，也可以提供向下投射的实际天花板扬声器，并且作为替代，扬声器可以具有向上发射驱动器以使得声音从天花板反射到房间中。通常，扬声器可用于产生声音，该声音被设计成在房间内或多或少地准确地从任何位置发出。

预定义的扬声器配置(例如图6中所示的那些)可能天然地限制准确表示给定声源位置的能力。例如，声源不能比左扬声器本身进一步向左平移。这适用于每个扬声器，因此形成一维(例如，左-右)，二维(例如，前-后)或三维(例如，左-右，前-后，上-下)几何形状，其中呈现受到约束。在这种扬声器布局中可以使用各种不同的扬声器配置和类型。例如，某些增强型音频***可以使用9.1、11.1、13.1、19.4或其他配置中的扬声器。扬声器类型可包括全频直接扬声器、扬声器阵列、环绕扬声器、低音炮，高音扬声器和其他类型的扬声器。如上所述，相同或不同的***滤波器可以应用于基于声道/对象的环绕声***(例如图1的***600)内的不同扬声器或扬声器组。

在完整的Atmos影院***中，布局由30-60个独立扬声器组成，形成六个不同的阵列：两个天花板，两个侧环绕，两个后环绕，加上屏幕，但其他配置也是可能的。为了校准***，使用大约八个麦克风的阵列，放置在参考收听位置周围的区域中，但是其他麦克风数量/配置也是可能的。在传统的过程中，安装人员在专用软件程序中手动指示每个扬声器的物理位置，并为其分配正确的声道路由。对于如此大量的扬声器，该过程耗时且容易出错。从每个扬声器到每个麦克风的脉冲响应在该过程中稍后使用正弦扫描方法被测量，以用于电影均衡化。由于异步发射和接收过程，这些脉冲响应具有未知的延迟。自动发现过程200允许***使用脉冲响应测量以不仅用于均衡而且还用于定位。通过自动发现，该过程被简化，因为安装者仅需要指示每个阵列中的扬声器的数量，并且一些附加参考允许自动发现解决了对称性(例如，L，C和R信道的路由)。根据这些信息以及一组脉冲响应，自动发现过程能够自动地进行如下：首先，定位房间中的每个扬声器，用于校正任何可变的延迟；第二，确定每个扬声器的正确路由；第三，将每个扬声器分配给一个给定的阵列；第四，将扬声器对齐并配对成常规的Atmos布局；以及最后，生成由呈现者使用的Dolby Atmos配置。虽然该过程可以是完全自动的，但是用户有机会查看定位结果并且如果愿意的话则可恢复到手动模式。

关于用于影院的后处理214，如上所述，在Atmos电影院中，通常有许多扬声器(例如，多达60个扬声器)要被定位，并且它们属于不同的扬声器阵列：屏幕，左和右环绕，后环绕，以及左右天花板。然而，定位过程本身可能不将标记或识别扬声器作为输出320的一部分。因此，方便的是提供附加的后处理步骤，其识别扬声器，并根据需要将它们适当地对齐到不同的阵列中。图7是示出根据一些实施例的在沉浸式音频(例如，Dolby Atmos)***中执行扬声器定位的方法的流程图。对于图7的实施例，该过程从第一阶段最小化步骤(自由或无约束最小化)702开始，其中成本函数被最小化，如上文参考图3所述。在步骤704，执行扬声器识别(路由)，其中，根据定位信息，识别扬声器并将其分配给不同的阵列(例如，屏幕，L/R环绕，后环绕，L/R天花板等)。在步骤706中，执行分类、对齐和左/右对称，其中根据上面的识别对扬声器进行分类。对齐不同的阵列，并通过将每个左扬声器与其右对应物配对来实行左右对称。在步骤708中，可以执行可选的第二阶段最小化(受约束最小化)。在该步骤中，通过运行第二最小化操作来改进扬声器的位置，其中扬声器的位置被约束为与其对应的阵列对齐。然后，该过程从结果生成(Atmos)配置文件，步骤710。

图8示出了根据一些实施例的用于在沉浸式音频应用中执行扬声器自动发现和定位的***。如图8所示，使用扫描记录802以提取TOA值808。TOA值、用于左，中和右声道804的基本配置路由以及初始种子806被输入到最小化过程810。最小化过程输出未对齐布局延迟，其被输入到分类、对齐和L/R对称过程812以产生对齐的布局路由。这与未对齐的布局延迟一起被输入到评估过程814。然后***确定布局是否是最佳816。如果是，则将该布局存储为最佳布局818，如果不是，则***通过从对齐最佳结果824生成新种子来迭代进行最小化和评估步骤。当达到迭代限制时，如在步骤820中确定的，***输出未对齐布局和对齐布局路由延迟822。

家庭影院后处理

尽管沉浸式音频(例如Atmos)最初可能是为了在影院环境中播放的电影节目而开发的，但它已经很好地适用于家庭音频和较小场地应用。在家庭环境中播放基于对象的音频包括源自在水平平面(主扬声器)和头顶平面(高度扬声器)中在收听位置的前方和周围的音频信号呈现给收听者。完整的家用扬声器***布局典型地包括：前置扬声器(例如，左，中，右，可选左中，右中，左屏幕，右屏幕，左宽度和右宽度)，环绕扬声器(例如：左环绕，右环绕，可选择左环绕1，右环绕1，左环绕2，右环绕2)，环绕后置扬声器(例如，左后环绕，右后环绕，中环绕，可选左后环绕1，右后环绕1，左后环绕2，右后环绕2，左中环绕，右中环绕)，高度扬声器(例如，左前高度，右前高度，左上前，右上前，左上中，右上中，左上后，右上后，左后高，右后高)和低音炮扬声器。可以使用不同的命名和术语来区分所定义的阵列中的扬声器。收听者进入如下的各种类型：a)室内(架子上或柜子里的传统箱式扬声器)；b)墙内(传统地安装在收听者周围在水平面中的墙内)；c)墙上(传统地安装在收听者周围在水平面中的墙上)；d)天花板内(传统地安装在收听者上方的天花板中(用于环绕声)以及前方(用于前置))；和e)天花板上(传统地安装在收听者上方的天花板上(用于环绕声)以及前方(用于前置))。

在一个实施例中，后处理功能214可以适于允许自动发现过程用于家庭影院(消费者)应用。在定位扬声器的情况下，这些位置可用于优化消费者回放环境内的音频的空间呈现。Atmos呈现将房间配置作为输入，其中扬声器被约束为位于由单位立方体表示的规范房间内，如图6所示。因此，需要一种用于将扬声器的物理位置映射到这些Atmos坐标的技术。假设收听者相对于检测到的物理扬声器坐标位于原点，简单的映射技术包括：(1)将原点(收听位置)平移到规范Atmos房间的中心地面(例如，坐标0.5，0.5，0)；(2)缩放扬声器位置的x，y和z坐标，使得具有每个坐标的最大绝对值的扬声器位于规范房间的相应壁上。使用这种技术可确保扬声器跨越规范房间的整个范围。在一些消费者应用中，定位的扬声器可以是支持Atmos的扬声器，其包含额外的向上发射驱动器，用于通过来自天花板的声反射来再现头顶音频。在这种情形下，最好假设所有定位的扬声器都位于地平面上，在这种情况下，每个扬声器的Atmos z坐标在上述映射中被强制为零。另外，为每个向上发射驱动器创建虚拟天花板扬声器位置。每个虚拟天花板扬声器的位置可以通过以下被计算：(1)将Atmos z坐标设置为1(在天花板上)；(2)将Atmos x和y坐标计算为相关联扬声器的Atmos x和y坐标(上面计算的)与收听者位置(0.5,0.5,0)之间的插值。上面的插值考虑了向上发射驱动器略微朝向收听位置倾斜这一事实，导致天花板反射位置位于物理扬声器位置和收听者位置之间。

典型的家庭或影院应用通常包含物理连接到AVR单元的多个扬声器。在一个实施例中，自动发现***也可以用在无线扬声器***中。无线扬声器的集成***可以通过无线协议组合图1的组件以实现简化校准。图9示出了根据一些实施例的无线扬声器的集成***。假设该***具有双向通信能力，通过Wi-Fi或类似解决方案实现。一个示例实现是Wi-Fi显示(Miracast)标准的修改版本。对于图9的实施例，源设备902具有无线源组件904和Wi-Fi驱动器906，用于与一个或多个无线扬声器920通信，每个无线扬声器920包括无线接收器922，Wi-Fi驱动器组件924和音频驱动器926。无线源904包括自动发现组件908，其与无线接收器922中的自动发现捕获过程928通信。在这样的***中，可以支持以下特征：(1)发现一个或多个接收器(无线扬声器)以及在TCP连接上使用RTSP能力交换进行能力交换；(2)用于将UDP/IP RTP分组从源流式传输到多个接收器的会话管理；(3)通过诸如通用精确时间协议(gPTP)或IEEE 802.1AS之类的机制协商公共时钟基础的能力；(4)支持用于从接收器到源发送内容的附加反向信道连接的能力。

使用这样的***，可以通过以下顺序执行校准：(1)用户触发校准；(2)***提供RTSP校准开始消息，其指示将使用公共时间基准在开始和停止时间戳之间进行校准；(3)源将校准音频序列无线传输到所有接收器；(4)接收器在指示的开始和停止时间捕获音频；(5)接收器通过反向信道将捕获的音频发送回源；(6)源使用捕获的音频的时间戳来执行捕获的音频的初步对齐。

校准完成后，就可以执行自动发现过程。图10是示出根据一些实施例的在无线***中执行自动发现的方法的流程图。在步骤1002中，该过程使用互相关、修正互相关、卷积或类似技术来计算从每个扬声器到每个麦克风的捕获音频的脉冲响应。然后，从测量的脉冲响应中选择候选峰值，并将候选和替代存储在到达时间矩阵中，步骤1004。然后，该过程将非线性优化算法候选到达时间结果馈送到最小化算法中，并最小化成本函数的误差，直到找到最优解，步骤1006。应当注意，TOA矩阵被馈送到最小化算法，该算法被设计为处理多值TOA矩阵。TOA矩阵如上文参考图2所述地被导出。然后找到最佳布局并将其传递给内容呈现算法，步骤1008。

在一个实施例中，可以根据校准的目的来选择校准音频，例如仅自动发现(可能是不可听的)，或自动发现和EQ(可听)。对于无线***，可以适当地应用附加约束以进一步改善性能。这些约束包括：(1)麦克风的子集可以与扬声器重合(例如，麦克风可以内置在扬声器箱中)；(2)麦克风(可能作为智能手机的一部分)可用于识别主要收听位置；(3)启发式算法可用于建立锚点，从而防止某些反转问题。对于无线应用，自动发现过程的其他考虑因素可能包括以下事实：脉冲响应计算和峰值识别(TOA)可以直接在发射或记录硬件(例如，无线扬声器，智能手机等)上执行，或者所记录的信号可以被发送到云，在该处计算脉冲响应和峰值，并创建TOA矩阵并将其发送回***。

这里描述的方法和***的各方面可以在适当的基于计算机的声音处理网络环境中实现，用于处理数字或数字化音频文件。沉浸式音频***的各部分可以包括一个或多个网络，其包括任何期望数量的单独机器，包括用于缓冲和路由在计算机之间传输的数据的一个或多个路由器(未示出)。这样的网络可以构建在各种不同的网络协议上，并且可以是因特网，广域网(WAN)，局域网(LAN)或其任何组合。在网络包括因特网的实施例中，一个或多个机器可以被配置为通过网络浏览器程序访问因特网。

可以通过控制***的基于处理器的计算设备的执行的计算机程序来实现组件、块、过程或其他功能组件中的一个或多个。还应注意，依照其行为、寄存器传送、逻辑组件和/或其他特性，本文公开的各种功能可以使用硬件、固件和/或作为在各种机器可读或计算机可读介质中体现的数据和/或指令的任何数量的组合被描述。其中可以体现这种格式化数据和/或指令的计算机可读介质包括但不限于各种形式的物理(非暂时性)、非易失性存储介质，诸如光学，磁性或半导体存储介质。

实施例还涉及执行或体现执行或实现上述方法动作(例如图5的流程图中所示的那些)的处理命令的***和制品。

除非上下文明确要求，否则在整个说明书和权利要求书中，词语“包括”，“包含”等应被解释为包含性意义而不是排他性或穷举性意义；也就是说，从“包括但不限于”的意义而言。使用单数或复数的词也分别包括复数或单数。另外，词语“文中”，“下文”，“上文”，“下面”和类似含义的词语指示本申请整体，而不是指本申请的任何特定部分。当单词“或”用于提及两个或多个项目的列表时，该单词涵盖该单词的所有以下解释：列表中的任何项目，列表中的所有项目以及列表中的项目的任何组合。

尽管通过示例和特定实施例已描述了一种或多种实现，但要理解的是，本发明的实现不限于所公开的实施例。相反，它意图覆盖本领域技术人员将清楚的各种修改和类似布置。因此，所附权利要求的范围应当赋予最宽的解释以便包括所有这样的修改和类似布置。

Claims

1.一种用于在收听环境中定位扬声器的方法，所述收听环境具有多个扬声器和麦克风，所述方法包括：

接收所述多个扬声器中的每个扬声器到所述多个麦克风中的每个麦克风的一个或多个相应的到达时间(TOA)，以产生多个TOA候选，其中每个麦克风接近单个相应的扬声器；

接收所述收听环境的配置参数；

使用每个扬声器的一个或多个相应的TOA值中的每一个来最小化成本函数，以估计相应的扬声器和麦克风的位置和延迟；

在所述多个TOA候选中的每个TOA候选上迭代进行成本函数最小化；以及

使用所述配置参数和经最小化的成本函数来向一个或多个后处理组件或者音频呈现组件提供扬声器位置信息。

2.根据权利要求1所述的方法，其中每个麦克风被放置在单个相应的扬声器的扬声器箱的内部、顶部、或者附接到单个相应的扬声器的扬声器箱，并且进一步地，其中接收的TOA包括扬声器中的至少一个到麦克风中的至少一个的多个TOA候选。

3.根据权利要求1所述的方法，包括：

基于由扬声器中的一个或多个回放的参考音频序列和从麦克风中的一个或多个获得的所述参考音频序列的记录来估计所述收听环境的脉冲(IR)；以及

使用所述IR来搜索直达声候选峰值，其中所述多个TOA候选与在所述搜索中识别的相应的候选峰值对应，

其中提供给一个或多个后处理组件或者音频呈现组件的所述扬声器位置信息是基于最小化步骤的残差低于某个阈值的TOA候选当中的选择。

4.根据权利要求1所述的方法，包括：

通过以下中的一个来估计所述收听环境的脉冲响应(IR)：将已知的参考音频序列与从麦克风获得的所述序列的记录互相关以导出伪脉冲响应、或者对校准音频序列和从麦克风获得的所述校准音频序列的记录进行去卷积；

使用所述IR通过评估参考峰值并且使用所述参考峰值周围的噪声水平来搜索直达声候选峰值，其中所述多个TOA候选与在所述搜索中识别的相应的候选峰值对应；以及

通过选择初始TOA矩阵、利用最小化步骤的残差评估所述初始矩阵、以及改变TOA矩阵元素直到残差低于定义的阈值来执行多峰值评估。

5.根据权利要求4所述的方法，其中使用所述IR来搜索直达声候选峰值包括：

至少在所述IR的位于所述参考峰值之前的部分中搜索替代峰值。

6.根据权利要求1所述的方法，其中所述延迟包括至少一个扬声器的回放延迟。

7.根据权利要求1所述的方法，其中所述延迟包括至少一个麦克风的记录延迟。

8.根据权利要求1所述的方法，其中所述配置参数包括以下中的至少一个：扬声器和麦克风的数量、所述收听环境的大小；回放和记录延迟的界限；二维或三维扬声器位置的规定；扬声器和麦克风相对定位的约束；扬声器和麦克风相对延迟的约束；以及对于旋转、平移和轴反转对称消歧的参考。

9.根据权利要求1所述的方法，还包括向所述成本函数提供种子布局，所述种子布局指定在相对于定义的扬声器布局标准被定义的初始位置中扬声器和麦克风的正确数量。

10.根据权利要求9所述的方法，还包括基于所述收听环境中的扬声器的配置将估计的位置信息变换为规范格式。

11.根据权利要求1所述的方法，其中所述收听环境中的扬声器被置于环绕声配置中，所述环绕声配置具有多个前置扬声器、后置扬声器和环绕扬声器、以及一个或多个低频效果扬声器，并且其中至少一些扬声器是高度扬声器，所述高度扬声器提供在包括沉浸式音频内容的输入音频信号中存在的高度提示的回放。

12.根据权利要求1所述的方法，其中可以使用以下中的至少一个以从多声道音频序列恢复房间脉冲响应来执行获得所述一个或多个相应的TOA值：由扬声器中的每一个顺次地发出并且由麦克风同时地记录的房间校准音频序列；带限至例如18至24kHz的近超声距离范围的校准音频序列；任意的多声道音频序列；以及特别地定义的多声道音频序列。

13.根据权利要求12所述的方法，还包括使用估计的扬声器位置信息来修改向每个扬声器发送扬声器馈送的呈现过程，并且其中所述收听环境包括家庭影院或播放电影内容的大型场地中的一个，并且其中扬声器中的至少一些包括无线扬声器，所述无线扬声器通过无线数据网络耦合到执行所述呈现过程的呈现器。

14.根据权利要求1所述的方法，还包括：

通过以下中的一个来估计所述收听环境的脉冲响应(IR)：将已知的参考音频序列与从麦克风获得的所述序列的记录互相关以导出伪脉冲响应、或者对校准音频序列和记录的音频节目进行去卷积；以及

使用迭代峰值搜索算法来从估计的IR或伪IR中的至少一个估计一个或多个最佳的TOA候选。

15.根据权利要求1所述的方法，还包括：

使用最小化步骤的残差值来提供原始TOA值的内部相干性的估计；以及

生成误差估计以允许迭代成本函数最小化过程来改进估计的位置。

16.根据权利要求1所述的方法，其中TOA值被格式化为维数为n×n的矩阵，其中n是扬声器和位于同一地点的麦克风的数量。

17.根据权利要求1所述的方法，其中使用所述多个TOA候选接收每个麦克风到每个扬声器的TOA值的步骤包括：

对发送到每个扬声器的校准音频序列进行去卷积以获得房间脉冲响应(IR)；

使用所述IR通过评估参考峰值并且使用所述参考峰值周围的噪声水平来搜索直达声候选峰值；以及

18.根据权利要求17所述的方法，其中使用可执行软件程序中的内点优化软件库利用非线性最小化算法来执行最小化步骤。

19.根据权利要求17所述的方法，进一步包括显式地提供成本函数的显式一阶导数(Jacobian)和二阶导数(Hessian)以及关于成本函数的未知数的约束。

20.一种用于确定房间中的多个扬声器的位置的***，包括：接近所述多个扬声器中的每个扬声器放置的麦克风；

第一组件，所述第一组件确定来自所述房间中的扬声器中的每一个的声音的到达时间，并且获得定义的配置参数和扬声器的种子布局；

第二组件，所述第二组件使用到达时间来最小化成本函数，以求解扬声器和麦克风的位置以及每个扬声器的回放延迟和每个麦克风的记录延迟；以及

第三组件，所述第三组件使用经最小化的成本函数输出以及所述配置参数和种子布局来生成扬声器和麦克风的估计位置、每个扬声器的估计延迟、以及结果质量的评估，以向呈现器或用户界面提供输入，所述呈现器向扬声器发送扬声器馈送，所述用户界面向用户提供输出。