CN107439019A

CN107439019A - 用于动态声学环境中的多信道声音的声学回波抵消的校准

Info

Publication number: CN107439019A
Application number: CN201680021287.3A
Authority: CN
Inventors: 安德烈·古斯塔沃·舍维茨瓦; 巴巴克·福鲁坦保尔; 阿西夫·伊克巴勒·***; 金莱轩
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2015-04-17
Filing date: 2016-03-01
Publication date: 2017-12-05
Anticipated expiration: 2036-03-01
Also published as: CN107439019B; KR20170138429A; WO2016167890A1; AU2016247284B2; US20160309275A1; EP3284272A1; AU2016247284A1; BR112017022264A2; US9769587B2; JP2018516497A

Abstract

本发明提供一种多信道声音MCS***，所述MCS***具有(例如声学回波抵消AEC的)智能校准的特征以供在动态声学环境中使用。利用传感器子***来检测和鉴别所述声学环境的改变且确定对应于关于所述环境的所得声学特征的“场景”。将这个检测到的场景与对应于所述声学环境的预定场景进行比较。为得到最优AEC性能，每一预定场景具有对应预调谐滤波器配置。基于所述比较的结果，对应于最紧密匹配所述检测到的场景的所述预定场景的所述预调谐滤波器配置由所述多信道声音***的所述AEC子***利用。

Description

用于动态声学环境中的多信道声音的声学回波抵消的校准

背景技术

例如立体声、环绕声、3D声、各种多音(例如，八声道(octophonic))声音配置、三度多声道(ambiosonics)、环绕声等的多信道声音(MCS)是指用于改进音频源的声音再现质量的各种技术中的任一种，所述技术使用路由到以协同方式操作的扩音器的多个离散音频信道，从而使用多个方向的分化的声音信号来包围一或多个收听者。在MCS***的背景下，“回波”由从不同扩音器发射的特定声音行进不同路径且在不同时间到达收听者的任何情况产生，由此产生双重、重复或“模糊”音效。对于多扩音器***，每一扩音器可有效地促成回波效应，因为由每一扩音器产生的声音在到达收听者的耳朵之前将在某一程度上行进唯一声学路径。

为补偿回波效应，MCS***可主动地学习来自关于声学环境内发现的特定目标收听位置的扩音器中的每一个的声学路径。这种有效方法可包括校准模式，所述校准模式在每一扩音器处单独地产生一或多个测试声音，使用一或多个麦克风测量这些声音，且确定用于相对于目标收听位置的每一此类扩音器的习得的声学路径。然而，这种方法的缺点是在执行校准时，由MCS***执行的“校准”大部分仅可应用于声学环境的特定特征且因此对于静态(即，非变化的)声学环境作用良好。对于具有动态(即，变化的)特征的声学环境，所述校准可能不是有帮助的并且在某些个例中甚至可造成(而非减轻)回波效应。

发明内容

本文中所公开的各种实施方案是针对校准多信道声音***中的声学回波抵消，其通过从声学环境确定场景，从多个预定场景中鉴别最匹配所述场景的预定场景(其中来自所述多个预定场景的每一预定场景对应于预调谐滤波器配置)，及使用对应于经鉴别的预定场景的所述预调谐滤波器配置来校准多信道声音***。

数个实施方案具有检测声学环境的改变的特征，其中对于某些实施方案，量化所述改变且确定所述改变匹配作为用于校准多信道声音***的条件的阀值。对于一些实施方案，从声学环境确定场景是响应于检测声学环境的改变，同时对于其它实施方案，检测声学环境的改变是基于从声学环境确定的场景。为选择实施方案，还可基于所述匹配的紧密度来量化最匹配所述场景的预定场景以确定所述匹配的所述紧密度是否匹配作为用于校准多信道声音***的的最小阀值。

本文中所公开的各种实施方案可用于包含(但不限于)房间或交通工具内部的多种声学环境中。此外，对于某些实施方案，多个预定场景被存储在本地或存储在远端且可经由通信连接存取。可通过基于相机的传感器和/或通过借用的传感器来执行确定场景。

提供此发明内容来以简化形式引入下文在具体实施方式中进一步描述的概念选择。本发明内容并非意图鉴别所主张的主题的关键特征或基本特征，也并非意图用于限制所主张的主题的范围。

附图说明

当结合附图阅读时，更好地理解前述发明内容以及说明性实施例的以下详细描述。出于说明实施例的目的，图式中展示实施例的实例构造；然而，所述实施例不限于所公开的特定方法和工具。在图式中：

图1是说明可应用各种实施方案的示范性多信道声音(MCS)***的框图；

图2是说明在可利用各种实施方案的声学环境中操作的图1的示范性MCS***的框图。

图3A是对应于图2的声学环境的框图，其中所述声学环境的配置已改变；

图3B是对应于图2和3的声学环境且进一步包含以各种姿势站立或坐在如所说明的房间中的人的框图。

图4是对应于可利用本文所提供的各种实施方案的交通工具的内部的替代性声学环境的框图；

图5是说明表示本文所公开的各种实施方案的用于校准和/或重新校准动态声学环境中的多信道声音的声学回波抵消的的示范性方法的过程流程图；

图6是说明表示本文中所公开的数个实施方案的用于校准和/或重新校准动态声学环境中的多信道声音的声学回波抵消的替代性示范性方法的过程流程图；及

图7说明可包含在用于实施本文中所公开的各种实施方案的电子装置内的某些组件。

具体实施方式

例如立体声、环绕声、3D声、各种多音(例如，八声道)声音配置、三度多声道、环绕声等的多信道声音(MCS)是指用于改进音频源的声音再现质量的各种技术中的任一种，所述技术使用路由到以协同方式操作的扩音器的多个离散音频信道，从而使用多个方向的分化的声音信号来包围一或多个收听者。MCS大致表征为目标收听位置(TLL)或“最有效点”(在所述位置音频效果是最优的)且在此位置处将声场的固定前进视角呈现给收听者。MCS技术通过采用相对于收听者能力的听声辨位来增强声音空间化的感知以就方向和距离而言来鉴别检测到的声音的位置或来源。各种MCS格式和技术是可用的且在录入方法、声音再现和多个离散音频信道的编号和定位方面变化。

图1是说明可应用本文中所公开的各种实施方案的示范性MCS***10的框图。多个扩音器20a至20f和麦克风22在操作上耦合到处理器***24。对于MCS，可将麦克风22安置在对应于期望将收听者安排在声学环境内且***经配置用于在那个位置中的收听者的最优性能之TLL或“最有效点”22'处。如所说明，扩音器20a至20f被安排来提供本领域技术人员已知的“5.1环绕声”，尽管此仅是一个实例且本文中所公开的各种实施方案不限于这种配置，但实际上此可涵盖包括相同或不同数量个扩音器的数个不同配置中的任一种且无限制。

图2是说明在可利用本文中所公开的各种实施方案的声学环境100(例如房间)中操作的图1的示范性MCS***10的框图。除MCS***的各种组件以外，声学环境100还可包括壁102、门104、窗106、椅子108a和108b及显示装置110，此外影响声学环境的声学特征且可造成回波效应。

在MCS***的情形下，“回波”由从不同扩音器发射的声音行进不同路径且在不同时间到达收听者由此产生双重、重复或“模糊”音效的任何条件产生。对于多扩音器***，每一扩音器可促成回波效应，因为由每一扩音器产生的声音在到达收听者的耳朵之前将在某一程度上行进唯一声学路径。此外，对于可采用多个麦克风的各种MCS***(出于多种目的中的任一种)，这些不同麦克风可部分地检测由一个或多个扩音器产生的声音并且在一或多个扩音器处以进一步增强回波效应的方式无意地再生所述声音。

为补偿回波效应，MCS***可从扩音器中的每一个来主动地学习关于在声学环境100内发现的特定目标收听位置(例如图1的麦克风22)的声波路径。此有效方法可包括校准模式，所述校准模式在每一扩音器(例如扩音器20a至20f)处单独产生一或多个测试声音，使用一或多个麦克风(例如麦克风22)来测量这些声音，并且确定针对关于目标收听位置的每一此扩音器的习得声学路径。MCS可随后通过使用习得的声学路径混合个别测试声音信号来产生单声道远端参考信号。此单声道远端参考信号可用于通过使用“固定”(即，预配置，因此“固定滤波器”)来抵消回波的滤波器恰当地修改(延迟、静音等)由每一扩音器产生的声音信号来抵消回波。

然而，此方法的一个缺点是在执行校准时，由MCS***执行的“校准”大部分仅可应用于声学环境的特定特征且因此对于静态(即，非变化的)声学环境作用良好。相比之下，对于具有动态(即，变化的)特征的声学环境，所述校准可能不是有帮助的并且在某些个例中甚至可造成(而非减轻)回波效应。

许多声学环境不是固定或静态但反而是动态的，其中环境的声学不断地变化。举例来说，对于某些动态声学环境，例如房间、交通工具(例如汽车)的内部或舱或其它限定的空间，当人进入、离开或在环境周围移动时以及当打开或关闭窗或门、移动或重新布置家具等时，声学可改变。举例来说，打开门可极大地影响房间的声学(通过将无限制吸收的声学表面(在所述声学表面之上声波停止反射)引入到声学环境中)以及引入来自打开的门外的空间的二次效应。

图3A是对应于图2的声学环境100的框图，但其中所述声学的配置已改变。具体来说，在图中，移动了椅子108a和108b、添加了椅子108c到108d并且打开了门104和窗106。声学环境100还包含可用作传感器来检测和鉴别声学环境100中的变化的数码相机150。因此，图3A中所说明的声学环境的声学特征改变且现在不同于图2中所说明的声学环境的声学特征。

图3B是对应于图2和3A的声学环境100且进一步包含以各种姿势站立、坐在椅子上或甚至坐在地板上的人130a到130e的框图。声学环境100还包含可用作传感器来检测和鉴别声学环境100中的变化的数码相机150。因此，由于新的声学表面(即，人130a到130e)的添加和因为可能不再存在TLL“最有效点”(如所展示)，图3B中所说明的声学环境的声学特征改变且现在不同于如图2和图3A中所说明的声学环境的声学特征，或可基于在声学环境内人130a到130e单独和共同所处的位置已经改变。

图4是对应于可利用本文所提供的各种实施方案的交通工具的内部的替代性声学环境100'的框图。在图4中，将用于提供声音信号的多个扩音器204a到204h和用于捕获声音信号的多个麦克风202a到202g并入MCS***中，尽管这仅是示范性但也涵盖各种其它配置。数个乘客112a到112d占据配置于三个行226a到226c中的多个座位224a到224g的子集。交通工具的内部可另外扩增具有数码相机150'(例如类似于图3A和3B中所说明的数码相机150)且可用作传感器来检测和鉴别声学环境100'中的变化。交通工具的内部的声学环境100'可比图2、3A和3B的房间的声学环境100更静态，其中声学环境的变化可很大程度上基于乘客的数量和那些乘客占据的特定座位。

然而无论声学环境的类型，随着声学环境改变，源自校准操作期间的固定滤波器不能够实现理想效能且相反结果是降低声学环境内的音质(即基于声音的表现)，例如可受负面影响的音乐、电影音频和其它音频播放源。

因此，为补偿变化的回波效果，动态声学环境将得益于更动态形式的回波抵消。为此，本文中所公开的各种实施方案针对响应于声学环境中的改变而校准回波抵消。

如本领域技术人员将了解，可使用自适应滤波器在单信道实施方案(特征为具有单一声源)中实现动态声学回波抵消(AEC)。用于此类型的自适应滤波的一个方法是捕获损坏的声音信号(即包括回波的声音信号)作为主输入并且从其减去已捕获的作为参考输入(且通常在声音信号的源头处俘获)的对应未损坏的声音信号(即不具有回波)。所得差是回波分量，出于从主输入减去此回波分量以产生经校正输出的目的，按回波分量实时调适滤波器。

然而，当存在多个声源时，自适应滤波器操作不良，因为多个声源产生难以实时地合成为通过自适应滤波器从主信号减去的差的多个参考输入。此外，通过针对每一扬声器执行自适应滤波从而有效地变成到所有其它自适应滤波器的最新参考输入可使这个困难加大，且这个困难将转而影响以递归方式发生于每一其它扬声器处的自适应滤波。因此，对于包含MCS实施方案的特征为具有多个声源的声学环境，典型的动态滤波是不合意的，而是替代地，应在其既定用途之前使用大致源自MCS***的校准模式期间的固定滤波器来执行AEC，即使具有应用于动态声学环境(如上文所描述)的缺点也如此。

为解决这些缺点，本文中所公开的各种实施方案是针对对于用于动态声学环境中的多信道声音***的声学回波抵消的智能校准。对于数个此类实施方案，利用传感器子***使用一或多个声学和/或非声学传感器(例如计算机视觉)来检测且鉴别声学环境中的改变。举例来说，图3A和3B中所说明的数码相机150可用作传感器来检测且鉴别声学环境100中的改变。

对于数个实施方案，MCS***的传感器是用来检测声学环境中已发生改变并且确定对应于关于那个环境的所得声学特征的场景。将这个检测到的场景与对应于声学环境的一或多个预定场景相比。为了最优AEC性能，每一预定场景具有对应预调谐滤波器配置。基于比较的结果，由MCS***的AEC子***利用对应于最紧密匹配所检测到的场景的预定场景的预调谐滤波器配置。

对于某些实施方案，场景可确定为改变检测过程的部分，同时对于其它实施方案，可在通过不同装置检测到改变之后确定场景。

举例来说，对于某些实施方案，预定场景和/或预调谐滤波器配置可存储(和存取)在本地和/或可构成数据库中的条目。对于某些其它实施方案，例如，可通过通信连接(例如经由因特网或经由无线电信连接)来远程存储和存取预定场景和/或预调谐滤波器配置。

图5是说明表示本文所公开的各种实施方案的用于校准和/或重新校准动态声学环境中的多信道声音声学回波抵消的示范性方法500的过程流程图。

在图5中，方法500开始于MCS***确定关于声学环境的场景的框502，所述场景包括由MCS***的一个或多个传感器检测到的声学环境的声学特征。

在框504处，将所确定的场景与MCS***可访问的多个预定场景相比以鉴别对所确定的场景的最接近匹配，其中每一预定场景对应于MCS也可存取的预调谐滤波器配置。

在框506处，将对应于最接近匹配的预定场景的预调谐滤波器配置应用到MCS***的AEC子***的固定滤波器以用一组预调谐滤波器配置来校准固定滤波器

对于某些实施方案，MCS可使用已知装置(例如，如本文中早先所论述的基于对应于所需TLL“最有效点”22'的麦克风22的位置)确定用于MCS***的最初校准的最初场景。这个最初场景随后成为用于后来确定声学环境的改变是否迫使由AEC子***使用的固定滤波器中的改变成为必需的参考场景(基于随后确定的场景)。接着，当由AEC子***使用的固定滤波器中发生改变时，产生所述改变的后来确定的场景可成为随后确定的场景对照比较的新的参考场景。

应注意，校准响应于声学环境中的改变的固定滤波器可具有多种不同影响包含(但不限于)(1)将声学环境内的TLL“最有效点”从一个位置移动到另一位置；(2)增大(但递减)声学环境内的TLL“最有效点”；或(3)以降低对于声学环境的其它部分的音质的代价来提高对于声学环境的选择部分的音质。

图6是说明用于针对代表本文中所公开的数个实施方案的动态声学环境中的多信道声音的校准和/或重新校准声学回波抵消的替代性示范性方法600的过程流程图。

在图6中，方法600开始于MCS***执行AEC子***(和固定滤波器)的最初校准的框610(包含确定对应于作为第一参考场景的这个最初校准的最初场景)。在框620处，MCS***确定用于声学环境的后续场景。在框630处，MCS***将参考场景与后续场景进行比较。

在框640处，MCS基于框630中的比较来确定声学环境是否已充分地改变。如果声学环境尚未充分地改变，那么过程返回到框620以进行迭代操作。然而，如果声学环境已充分地改变，那么过程继续到框650，其中MCS***从可保持在本地或远端的用于存储多个预定场景的参考存储装置(例如库或资料库)鉴定出最接近匹配的预定场景。一旦鉴别出最接近匹配的预定场景，在框660处，将对应于最接近匹配的预定场景的预调谐滤波器配置(其还可包含于相同参考存储器中)应用到AEC子***以使用新设置来更新固定滤波器，在框670处，后续场景成为参考场景直到其自身随后被替换。过程返回到框620来继续迭代操作。

对于某些实施方案，可将在图6的框610中确定的最初场景连同对应AEC固定滤波器设定一起存储于用于多个预定场景的参考存储器中，作为第一条目或后续条目。同样地，对于使用已知装置(例如，如本文中早先所论述基于对应于所需TLL“最有效点”22'的麦克风22的位置)进行的MCS***的任何后续校准，无论手动还是自动开始，可使得确定的场景及对应AEC设置用于存储于参考存储装置中。此外，对于某些实施方案，可用典型声学环境的一或多个通用或默认场景(和对应设置)预填充参考存储器，以提供用于比较目的的默认通用类子集。

相对于声学环境是否已充分地改变和对于本文所公开的数个实施方案，可量化所确定的改变且将其与最小阈值相比使得当改变小于阈值时不更新MCS***且当改变等于或大于阈值时更新MCS***，或其变化形式。

同样地，对于其它实施方案，当声学环境已充分地改变时，也可量化最接近预定场景与所确定的场景之间的匹配且对照阈值评估来确定是更新MCS***(针对良好匹配)，不更新MCS***(针对不良匹配)还是采取替代性操作。对于一些此类实施方案，替代性操作可以是自动地执行对于改变的声学环境的典型的校准，通知执行(手动)典型的校准的愿望度的用户，执行部分校准，返回到默认或先前状态，通过一些其它装置确定用于AEC子***的新固定滤波器设置等中的一种。

举例来说，当检测到声学环境中的任何变化时，MCS***可运行声学环境的一或多个特定信号特征的测试来确定是否经由本文中所公开的各种实施方案中的任一种继续进行校准。此类测试可包含(例如)回波抵消自适应滤波器内的模型化声学环境响应的稀疏性的确定和/或通过线性回声消除器或其它源头提供的回波抑制(即回波回程损耗增强或ERLE)的测量。然而，熟练的技术人员将了解这两个测试通过自身皆不可足以精确地测量且估算校准的需要。举例来说，当人移动到直接地站立在相机型传感器的前方时，所观察到的改变未必指示声学环境中的改变且因此当发生改变时应被鉴别出且被排除以防止误报。同样地，听觉信号特征可能也独自在某些背景(例如在双端通话发生期间)中不可靠且同样应在鉴别出时排除。

在图6中，且对于选择配置，为延迟这个元件的立即操作，在确定用于声学环境的后续场景前可存在最小等待时间、MCS***使用时间或其它触发事件。然而，例如图6中所展示的其它配置可迭代地确定后续场景且无延迟来立刻检测声学环境中的改变且因此继续进行来提供实时动态校准。

对于一些实施方案，最接近预定场景可能需要满足对于其对应预调谐滤波器配置的应用程序的最小阈值的类似性。对于此类实施方案，当所检测到的场景不满足这个阈值时，所述***可替代地选择执行新的实时校准，可利用默认配置(或基于可确定判据从多个默认配置当中选定的一个默认配置)，或可能按原样继续使用上一配置。

在多种声学环境和背景(包含(但不限于)家庭影院、交通工具的内部和其它限定的声学环境)中也可利用本文中所公开的各种实施方案。在每一这种声学环境内，对于可有限的(例如在具有预限定位置、方向和基于所提供的座位的配置的编号的交通工具的内部的情况下)到理论上无限(例如在能够容纳在各种位置和无数方向的数个人的大房间的情况下)的不同配置的人，不同场景可以是可确定的。此外，在交通工具的内部作为声学环境的背景下，特定实施方案可利用基于限制数量个座位(和有限和可能的可确定的座位配置)的使用一或多个通用或默认场景(和对应设置)特定预填充的参考存储器。

本文中所公开的各种实施方案还可使用一个或多个传感器来确定用于声学环境的场景。这些传感器可以是声学的(例如本文先前所论述的可另外用于典型校准操作的麦克风)和/或非声学的。举例来说，MCS可使用相机(或计算机视觉或任何无论什么种类的任何其它图像捕获装置)通过数个方法中的任一种(例如在大于阈值像素百分比随时间变化而改变时)来确定声学环境中的改变(其将在人行走到房间中、打开门等发生)。接着，响应于伴随着先前通过MCS***传导学习/培训的运动，MCS***可确定场景(可基于数字输入自身)和调节AEC来匹配最接近匹配的预定场景。

还涵盖类似替代性实施方案用于结合游戏***、家庭安全***等利用，所述***可向MCS提供一或多个借用传感器(例如与MCS分开的一个或多个传感器)。举例来说，家庭娱乐视频游戏***可包括能够使用户控制及与***互动且无需接触实体游戏控制器的运动传感输入装置(例如相机和/或结构光传感器)。当用户进行其它活动例如(例如)观看电影时，还可由MCS***利用这个相同运动传感输入装置作为传感器(沿着或与其它传感器组合)以改良音频体验。同样适用于用于家庭安全和其它视频(和其它传感)源的相机，所述相机可同样地为MCS***提供不是源于MCS***(但替代地是借用)的一或多个传感器。

对于某些实施方案，可鉴别和追踪声学环境内的特定目标使得当用来确定声学环境的改变和/或确定场景与预定场景之间之的最好匹配时，这是单独使用或给予不同加权的这些目标的移动相反，也可特定地鉴别其它目标(例如人、宠物等)来因此针对前述确定改变程度和增加或减小加权。举例来说，可能有目的地忽略宠物的检测使得由于它们的运动而不调节环境的声学。

图7说明可包含在用于实施本文中所公开的各种实施方案的电子装置702内的某些组件。结合图7所描述的电子装置702可以是根据本文所描述的电子装置的一实例和/或可根据本文所描述的电子装置中之一或多种来实施。

电子装置702包含处理器747。处理器747可以是通用单芯片或多芯片微处理器(例如，ARM)、专用微处理器(例如，数字信号处理器(DSP))、微控制器、可编程门阵列等。处理器747可被称作中央处理单元(CPU)。尽管图7的电子装置702中仅展示单一处理器747，但在替代性配置中，可使用处理器的组合(例如，ARM和DSP)。

电子装置702还包含与处理器747电子通信的存储器731(即，处理器747可从存储器731读取信息和/或将信息写入到存储器731)。存储器731可以是能够存储电子信息的任何电子组件。存储器731可以是随机存取存储器(RAM)、只读存储器(ROM)、磁盘存储媒体、光学存储媒体、RAM中的快闪存储器装置、随处理器一起包含的机载存储器、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除PROM(EEPROM)、寄存器等，包含其组合。

资料733和指令735可存储于存储器731中。指令735可包含一或多个程序、常式、子常式、功能、程序、代码等。指令735可包含单个电脑可读语句或多个电脑可读语句。可由处理器747执行指令735来实施上文所描述的方法中的一或多个。实行指令735可涉及使用存储于存储器731中的数据733。图7展示将一些指令735a和数据733a加载到处理器747中。

电子装置702还可包含发射器743和接收器745来允许电子装置702与远程位置(例如基站)之间的信号的发射和接收。发射器743和接收器745可统称为收发器741。天线739可电耦合到收发器741。电子装置702还可包含(未展示)多个发射器、多个接收器、多个收发器和/或多个天线。

电子装置702的各种组件可由一或多个总线耦合到一起，所述总线可包含电力总线、控制信号总线、状态信号总线、数据总线等。为简单起见，各种总线在图7中说明为总线***737。

如本文中所使用，术语“校准(calibrating和calibration)”(和其各种其它形式)应包含(但不限于)先前已校准的环境的任何重新校准。同样地，如本文中所使用的术语相机、视频、图像捕获等应包含任何图像捕获装置。

提供对所描述的配置的演示以使得所属领域的技术人员能够制作或使用本文中所公开的方法和其它结构。本文中所展示和描述的流程图、框图和其它结构仅为实例，且这些结构的其它变型也在本发明的范围内。对这些配置的各种修改均为可能的，且本文中所呈现的一般原理还可应用于其它配置。因此，本发明不希望限于以上展示的配置，而是将符合与本文中(包含在形成原始公开内容的部分的所申请的所附权利要求书中)以任何方式公开的原理及新颖特征一致的最广范围。

除非通过其上下文明确地限制，否则在本文中使用术语“信号”来指示其一般含义中的任一个，包含如在导线、总线或其它发射媒体上表达的存储器位置的状态(或一组存储器位置)。除非通过其上下文明确地限制，否则在本文中使用术语“产生”来指示其一般含义中的任一个，例如计算或以其它方式产生。除非通过其上下文明确地限制，否则在本文中使用术语“计算”来指示其一般含义中的任一个，例如计算、评估、估计，和/或从多个值中选择。除非通过其上下文明确地限制，否则术语“获得”用以指示其一般含义中的任一个，例如计算、导出、(例如从外部装置)接收和/或(例如从存储元件阵列)检索。除非通过其上下文明确地限制，否则使用术语“选择”来指示其一般含义中的任一个，例如鉴别、指示、应用和/或使用一组两个或多于两个中的至少一个和少于所有。在本发明描述及权利要求书中使用术语“包括”时，并不排除其它元素或操作。术语“基于”(如在“A是基于B”中)是用来指示其一般含义中的任一个，包含情况(i)“自…获得”(例如“B是A的前体”)，(ii)“至少基于”(例如“A至少是基于B”)以及，适当时在具体背景中，(iii)“等于”(例如，“A等于B”或“A与B相同”)。类似地，使用术语“响应于”用来指示其一般含义中的任一个，包含“至少响应于”。除非上下文另有指示，否则对扬声器的“位置”的提及指示所述扬声器的声学产生面的中心的位置。根据特定上下文，有时使用术语“信道”来指示信号路径且在其它时候指示由此路径携载的信号。

此外，除非另有指示，否则揭示具有特定特征的设备的操作也明确地希望揭示具有类似特征的方法(反之亦然)，且揭示根据特定配置的设备的操作也明确地希望揭示根据类似配置的方法(反之亦然)。术语“配置”可参考由其特定上下文指示的方法、设备和/或***来使用。除非特定上下文另有指示，否则术语“方法”、“过程”、“程序”和“技术”通用地且可互换地使用。除非特定上下文另有指示，否则术语“设备”和“装置”也通用地且可互换地使用。术语“元件”和“模块”通常用来指示较大配置的一部分。除非由其上下文明确限制，否则术语“***”在本文中用来指示其一般意义中的任一种，包含“交互以用于共同目的的元件群组”。

参考文献的一部分的任何并入也应理解为并入在所述部分内参考的术语或变量的定义，其中所述定义出现在文献中的其它地方，以及在所并入部分中参考的任何图。除非最初通过定冠词引入，否则用于修饰权利要求元素的序数术语(例如，“第一”、“第二”、“第三”等)本身不指示所述权利要求元素相对于另一权利要求元素的所述权利要求元素的任何优先级或次序，而是仅区别所述权利要求元素与具有相同名称(如果没有序数术语)的另一权利要求元素。除非其上下文明确地限制，否则本文使用术语“多个”和“一组”中的每一个来指示大于一的整数数量，而本文使用术语“子集”来指示大于或等于一的整数数量。

应注意，在兼容的情况下，结合本文中所描述的配置中的任一种所描述的特征、功能、程序、组件、元件、结构等中的一或多个可与结合本文中所描述的其它配置中的任一种所描述的功能、程序、组件、元件、结构等中的一或多个组合。换句话说，可根据本文中所公开的***和方法来实施本文中所描述的功能、程序、组件、元件等的任何相容的组合。

本文中所公开的方法包括用于实现所描述方法的一或多个步骤或动作。在不脱离权利要求书的范围的情况下，方法步骤和/或动作可以彼此互换。换句话说，除非正描述的方法的适当操作需要步骤或动作的特定次序，否则，在不脱离权利要求书的范围的情况下，可修改特定步骤和/或动作的次序和/或使用。然而，除非另外明确地指定，否则短语“基于”并不意味着“仅基于”。换句话说，短语“基于”描述“仅基于”和“至少基于”两个。

在以上描述中，有时结合各种术语而使用参考标号。在术语结合参考标号使用的情况下，这可意在指代一或多个图中所展示的特定元件。在无参考标号而使用术语的情况下，这可意在大体指代所述术语，而不限于任何特定图。

所属领域的技术人员将理解，可使用多种不同技术及技艺中的任一个来表示信息和信号。举例来说，可通过电压、电流、电磁波、磁场或磁粒子、光场或光粒子或其任何组合来表示在贯穿上文描述中可能参考的数据、指令、命令、信息、信号、位和符号。

用于如本文中所公开的配置的实施方案的设计要求可包含最小化处理延迟和/或计算复杂度(通常每秒或MIPS在数百万指令中测量)，特别是用于计算密集型应用程序，例如压缩音频或视听信息(例如，根据压缩格式编码的文件或串流，例如本文鉴别的实例中的一个)的播放或用于宽带通信(例如，以高于八千赫兹，例如12、16、32、44.1、48或192KHz的取样率的语音通信)的应用程序。

本文中所公开的设备(例如被配置成执行本文所述的技术的任何装置)可用硬件与软件和/或与固件的任何被视为适合于既定应用程序的组合实施。举例来说，可将此设备的元件制造为(例如)驻留在相同芯片上或芯片组中的两个或多于两个芯片当中的电子和/或光学装置。此装置的一个实例是逻辑元件(例如，晶体管或逻辑门)的固定或可编程阵列，及可实施为一或多个所述阵列的这些元件中的任一个。这些元件中的任何两个或多于两个或甚至全部可实施于同一个(一些)阵列内。此类一或多个阵列可在一或多个芯片内(例如，包含两个或多于两个芯片的芯片组内)实施。

本文中所公开的设备的各个实施方案的一或多个元件可完全或部分地实施为一或多个指令集，所述一或多个指令集经配置以在逻辑元件的一或多个固定或可编程阵列上执行，例如微处理器、嵌入式处理器、IP核心、数字信号处理器、FPGA(现场可编程门阵列)、ASSP(专用标准产品)和ASIC(专用集成电路)。本文中所公开的设备的实施方案的各种元件中的任一个也可实施为一或多个计算机(例如，包含经编程以执行一或多个指令集或序列的一或多个阵列的机器，也被称为“处理器”)和可在同一个(一些)此计算机内实施的这些元件中的两个或多于两个或甚至全部。

可将如本文中所公开的处理器或用于处理的其它装置制造为(例如)驻留在相同芯片上或芯片组中的两个或多于两个芯片当中的一或多个电子和/或光学装置。此装置的一个实例是逻辑元件(例如，晶体管或逻辑门)的固定或可编程阵列，及可实施为一或多个所述阵列的这些元件中的任一个。此类一或多个阵列可在一或多个芯片内(例如，包含两个或多于两个芯片的芯片组内)实施。此类阵列的实例包含逻辑元件的固定或可编程阵列，例如微处理器、嵌入式处理器、IP核心、DSP、FPGA、ASSP和ASIC。如本文中所公开的处理器或用于处理的其它装置还可体现为一或多个计算机(例如，包含经编程以执行一或多个指令集或序列的一或多个阵列的机器)或其它处理器。有可能使用本文所述的处理器来执行任务或执行不直接地与关于各种图所描述的方法的实施方案的程序相关的其它指令集，例如关于其中嵌入处理器的装置或***(例如音频传感装置)的另一操作的任务。还可能如本文中所公开的方法的一部分由音频传感装置的处理器执行，且在一或多个其它处理器的控制下执行方法的另一部分。

此外，所属领域的技术人员将了解，结合本文中所公开的配置而描述的各种说明性模块、逻辑块、电路及测试和其它操作可实施为电子硬件、计算机软件或两个的组合。可使用通用处理器、数字信号处理器(DSP)、ASIC或ASSP、FPGA或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件、或其经设计以产生如本文中所公开的配置的任何组合来实施或执行所述模块、逻辑块、电路及操作。举例来说，可将此类配置至少部分地实施为硬连线电路、实施为制造到专用集成电路中的电路配置，或实施为加载到非易失性存储装置的固件程序或作为机器可读代码从数据存储媒体加载或加载到数据存储媒体中的软件程序，此类代码为可由例如通用处理器或其它数字信号处理单元等逻辑元件阵列执行的指令。通用处理器可为微处理器，但在替代方案中，处理器可为任何常规的处理器、控制器、微控制器或状态机。处理器也可实施为计算装置的组合，例如DSP和微处理器的组合、多个微处理器、与DSP核心结合的一或多个微处理器，或任何其它此类配置。软件模块可驻留在非暂时性存储媒体中，所述非暂时性存储媒体例如为RAM(随机存取存储器)、ROM(只读存储器)、非易失性RAM(NVRAM)(例如，快闪RAM、可擦除可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM))、寄存器、硬盘、可装卸式磁盘或CD-ROM；或驻留在此项技术中已知的任何其它形式的存储媒体中。说明性存储媒体耦合到处理器，使得处理器可从存储媒体读取信息及将信息写入到存储媒体。在替代方案中，存储媒体可与处理器成整体。处理器和存储媒体可驻留在ASIC中。ASIC可驻留在用户终端中。在替代方案中，处理器和存储媒体可以作为离散组件驻留在用户终端中。

应注意，本文中所公开的各种方法可以通过逻辑元件阵列(例如处理器)执行，并且本文所述的设备的各种元件可以实施为经设计以在此阵列上执行的模块。如本文所使用，术语“模块”或“子模块”可指代以软件、硬件或固件形式的任何方法、设备、装置、单元或包含计算机指令(例如逻辑表达式)的电脑可读数据存储媒体。应理解，可将多个模块或***组合为一个模块或***，且可将一个模块或***分离成多个模块或***以执行相同功能。在以软件或其它计算机可执行指令实施时，过程的元素基本上是用以例如使用常式、程序、目标、组件、数据结构及其类似物执行相关任务的代码段。术语“软件”应理解为包含源代码、汇编语言代码、机器代码、二进制代码、固件、宏码、微码、可由逻辑元件阵列执行的任何一或多个指令集或序列以及此类实例的任何组合。程序或代码段可存储于处理器可读媒体中或由体现在发射媒体或通信链路上的载波中的计算机数据信号发射。

本文所公开的方法、方案和技术的实施方案还可(例如在如本文所列的一或多个计算机可读存储媒体的有形、计算机可读特征中)有形地实施为可由包含逻辑元件(例如处理器、微处理器、微控制器或其它有限状态机)的阵列的机器可执行的一或多个指令集。术语“计算机可读媒体”可包含可存储或传送信息的任何媒体，包含易失性、非易失性、可装卸式和非可装卸式媒体。计算机可读媒体的实例包含电子电路、半导体存储器装置、ROM、快闪存储器、可擦除ROM(EROM)、软盘或其它磁性存储装置、CD-ROM/DVD或其它光学存储装置、硬盘或可用来存储所要信息的任何其它媒体、光纤媒体、射频(RF)链路或可用来携载所要信息并可存取的任何其它媒体。计算机数据信号可包含可通过发射媒体传播的任何信号，所述发射媒体例如电子网络信道、光纤、空气、电磁、RF链路等。可经由例如因特网或企业内部网的计算机网络下载代码段。在任何情况下，不应将本发明的范围解释为受此类实施例限制。

本文中所描述的方法的任务中的每一个可直接以硬件、以由处理器执行的软件模块，或以所述两个的组合来体现。在如本文中所公开的一种方法的实施方案的典型应用程式中，逻辑元件(例如逻辑门)的阵列被配置以执行所述方法的各种任务中的一个、多于一个或甚至全部。还可将任务中的一或多个(可能全部)实施为代码(例如，一或多个指令集)、体现于通过包含逻辑元件(例如，处理器、微处理器、微控制器或其它有限状态机)的阵列的机器(例如计算机)可读和/或可执行的计算机程序产品(例如(例如)磁盘、快闪或其它非易失性存储器卡、半导体存储器芯片等的一或多个数据存储媒体)中。还可通过多于一个这类阵列或机器来执行如本文中所公开方法的实施方案的任务。在这些或其它实施方案中，可在用于无线通信的装置(例如蜂窝式电话或具有此类通信能力的其它装置)内执行所述任务。此装置可经配置以与电路交换和/或分组交换网络通信(例如，使用一或多个协议，例如VoIP)。举例来说，此装置可包含经配置以接收和/或发射经编码帧的RF电路。

明确地公开本文中所公开的各种方法可(至少部分地)由便携式通信装置执行，例如手持机、头戴式耳机或便携式数字助理(PDA)，且本文所述的各种设备可包含在此装置内。

在一或多个示范性实施例中，本文中所描述的操作可在硬件、软件、固件或其任何组合中实施。如果实施于软件中，那么可将此类操作作为一或多个指令或代码存储在计算机可读媒体上或通过计算机可读媒体发射。术语“计算机可读媒体”包含计算机可读存储媒体和通信(例如发射)媒体两个。借助于实例而非限制，计算机可读存储媒体可包括存储元件阵列，例如半导体存储器(其可包含(不限于)动态或静态RAM、ROM、EEPROM和/或快闪RAM)，或铁电、磁阻式、双向、聚合或相变存储器；CD-ROM或其它光盘存储装置；和/或磁盘存储装置或其它磁性存储装置。此类存储媒体可以可由计算机存取的指令或数据结构的形式存储信息。通信媒体可包括可用于携载呈指令或数据结构的形式的所要程序代码且可由计算机存取的任何媒体，包含促进将计算机程序从一处传送到另一处的任何媒体。并且，适当地将任何连接称作计算机可读媒体。举例来说，如果使用同轴电缆、光缆、双绞线、数字订户线(DSL)或无线技术(例如，红外线、无线电及/或微波)从网站、服务器或其它远程源发射软件，那么所述同轴电缆、光缆、双绞线、DSL或无线技术(例如，红外线、无线电及/或微波)包含在媒体的定义中。如本文中所使用的磁盘及光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字影音光盘(DVD)、软性磁盘及蓝光DiscTM(蓝光光盘协会，环球影城，加拿大)，其中磁盘通常以磁性方式再现数据，而光盘用激光以光学方式再现数据。以上的组合也应包含在计算机可读媒体的范围内。

可将如本文所述的设备并入到电子装置(例如通信装置)中，其接受语音输入以便控制某些操作，或可另外受益于所要噪声与背景噪声的分离。许多应用程序可受益于从源自多个方向的后台声音促进或分离明晰的所要的声音。此类应用程序可包含并入例如话音辨识及检测、话语增强及分离、话音激活控制及类似物等能力的电子或计算装置中的人机接口。可能需要实施在仅提供有限处理能力的装置中合适的此类声学信号处理设备。

可将本文所描述的模块、元件及装置的各种实施方案的元件制造为驻留在(例如)相同芯片上或芯片组中的两个或多于两个芯片当中的电子及/或光学装置。此装置的一个实例是逻辑元件(例如，晶体管或门)的固定或可编程阵列。还可将本文中描述的设备的各种实施方案的一或多个元件完全或部分地实施为经配置以在逻辑元件的一或多个固定或可编程阵列上执行的一或多个指令集，所述逻辑元件例如为微处理器、嵌入式处理器、IP核心、数字信号处理器、FPGA、ASSP和ASIC。

如本文所描述的设备的实施方案的一或多个元件有可能用于执行任务或执行不直接与所述设备的操作相关的其它指令集，例如，与其中嵌入所述设备的装置或***的另一操作相关的任务。此设备的实施方案的一个或多个元件还可能具有共同结构(例如用来在不同时间执行对应于不同元件的代码的部分的处理器、在不同时间被执行来执行对应于不同元件的任务的指令集或在不同时间执行针对不同元件的操作的电子和/或光学装置的配置)。

提供对本发明的先前描述，使得本领域的技术人员能够进行或使用本发明。所属领域的技术人员将易于了解对本发明的各种修改，且可将本文所定义的一般原理应用到其它变体而不脱离本发明的范围。因此，本发明并不希望限于本文中所描述的实例和设计，而应被赋予与本文中所公开的原理和新颖特征相一致的最广范围。

尽管示范性实施方案可能参考利用在一或多个独立计算机***的背景中的当前公开的主题的方面，但所述主题不受如此限制，而是可结合任何计算环境(例如网络或分布式计算环境)来实施。再者，当前公开的主题的方面可在多个处理芯片或装置中或跨越多个处理芯片或装置而实施，且可类似地跨越多个装置实现存储。此类装置可能包含例如PC、网络服务器和手持式装置。术语“确定”涵盖多种多样的动作，且因此“确定”可包含计算、运算、处理、导出、调查、查找(例如，在表、数据库或另一数据结构中查找)、查实等。而且，“确定”可包含接收(例如，接收信息)、存取(例如，在存储器中存取数据)等。并且，“确定”可包含解析、选择、挑选、建立等。换句话说，应理解，所附权利要求书不限于上文所说明的精确配置和组件，且可在不脱离所附权利要求书的范围的情况下，在本文所述的***、方法和设备的配置、操作和细节中进行各种修改、改变和变化。

此外，尽管已经以特定地针对结构特征和/或方法动作的语言来描述主题，但应理解，所附权利要求书中所界定的主题未必限于上文所描述的具体特征或动作。实际上，公开上文所描述的特定特征和动作以作为实施所附权利要求书的实例形式。

Claims

1.一种校准多信道声音***的方法，所述方法包括：

从声学环境确定场景；

从多个预定场景当中鉴别出最匹配所述场景的预定场景，其中来自所述多个预定场景当中的每一预定场景对应于一预调谐滤波器配置；及

使用对应于所述经鉴别的预定场景的所述预调谐滤波器配置来校准所述多信道声音***。

2.根据权利要求1所述的方法，其进一步包括检测所述声学环境的改变。

3.根据权利要求2所述的方法，其中检测所述声学环境的所述改变包括量化所述改变，且确定所述改变是否满足作为用于校准所述多信道声音***的条件的阈值。

4.根据权利要求2所述的方法，其中从所述声学环境确定所述场景是响应于检测所述声学环境的所述改变做出的。

5.根据权利要求2所述的方法，其中检测所述声学环境的所述改变是基于从所述声学环境确定的所述场景做出的。

6.根据权利要求1所述的方法，其中鉴别最匹配所述场景的所述预定场景包括基于所述匹配的紧密度而量化所述预定场景且确定所述匹配的所述紧密度是否满足作为用于校准所述多信道声音***的条件的最小阈值。

7.根据权利要求1所述的方法，其中所述多个预定场景被存储在本地或存储在远端，且可经由通信连接存取。

8.根据权利要求1所述的方法，其中所述声学环境是房间或交通工具的内部中的一个。

9.一种用于校准多信道声音***的设备，所述设备包括：

存储器；及

处理器，其与所述存储器通信且被配置成：

从声学环境确定场景；

10.根据权利要求9所述的设备，其中所述处理器进一步被配置成检测所述声学环境的改变。

11.根据权利要求10所述的设备，其中所述处理器进一步被配置成量化所述改变，且确定所述改变是否满足作为用于所述处理器校准所述多信道声音***的条件的阈值。

12.根据权利要求10所述的设备，其中所述处理器被配置成响应于所述处理器检测到所述声学环境的所述改变而从所述声学环境确定所述场景。

13.根据权利要求10所述的设备，其中所述处理器被配置成基于所述处理器从所述声学环境中确定的所述场景来检测所述声学环境的所述改变。

14.根据权利要求9所述的设备，其中对于最匹配所述场景的所述预定场景，所述处理器被配置成基于所述匹配的紧密度来量化所述预定场景且确定所述匹配的所述紧密度是否满足作为用于所述处理器校准所述多信道声音***的条件的最小阈值。

15.根据权利要求9所述的设备，其中所述处理器使用基于相机的传感器确定所述场景。

16.根据权利要求9所述的设备，其中所述处理器使用与所述设备分离的传感器确定所述场景。

17.一种多信道声音***，其包括：

用于从声学环境确定场景的装置；

用于从多个预定场景当中鉴别出最匹配所述场景的预定场景的装置，其中来自所述多个预定场景当中的每一预定场景对应于一预调谐滤波器配置；及

用于使用对应于所述鉴别出的预定场景的所述预调谐滤波器配置来校准所述多信道声音***的装置。

18.根据权利要求17所述的***，其进一步包括用于检测所述声学环境的改变的装置。

19.根据权利要求18所述的***，其中所述检测装置包括用于量化所述改变的装置和用于确定所述改变是否满足作为用于所述校准装置校准所述多信道声音***的条件的阈值的装置。

20.根据权利要求18所述的***，其中所述确定装置被配置成响应于所述检测装置检测到所述声学环境的所述改变而从所述声学环境确定所述场景。

21.根据权利要求18所述的***，其中所述检测装置被配置成基于从所述声学环境确定的所述场景来检测所述声学环境的所述改变。

22.根据权利要求17所述的***，其中对于最匹配所述场景的所述预定场景，所述鉴别装置被配置成基于所述匹配的紧密度来量化所述预定场景并且确定所述匹配的所述紧密度是否满足作为用于所述校准装置校准所述多信道声音***的条件的最小阈值。

23.一种非暂时性计算机可读媒体，其包括启用多信道声音***的校准的计算机可执行指令，所述计算机可执行指令包括使得处理器进行以下操作的指令：

从声学环境确定场景；

24.根据权利要求23所述的计算机可读媒体，其进一步包括使得所述处理器检测所述声学环境的改变的指令。

25.根据权利要求24所述的计算机可读媒体，其中所述指令使得所述处理器量化所述改变并且确定所述改变是否满足作为用于所述处理器校准所述多信道声音***的条件的阈值。

26.根据权利要求24所述的计算机可读媒体，其中所述指令使得所述处理器响应于所述处理器检测到所述声学环境的所述改变而从所述声学环境中确定所述场景。

27.根据权利要求24所述的计算机可读媒体，其中所述指令使得所述处理器基于从所述声学环境中确定的所述场景来检测所述声学环境的所述改变。

28.根据权利要求23所述的计算机可读媒体，其中使得所述处理器鉴别出最匹配所述场景的所述预定场景的所述指令进一步包括使得所述处理器执行以下操作的指令：

基于所述匹配的紧密度而量化所述预定场景；及

确定所述匹配的所述紧密度是否满足作为用于所述处理器校准所述多信道声音***的条件的最小阈值。

29.根据权利要求23所述的计算机可读媒体，其进一步包括使得所述处理器使用基于相机的传感器确定所述场景的指令。

30.根据权利要求23所述的计算机可读媒体，其进一步包括使得所述处理器使用借用传感器确定所述场景的指令。