CN104321812A - 在呼叫期间的三维声音压缩及空中发射 - Google Patents

在呼叫期间的三维声音压缩及空中发射 Download PDF

Info

Publication number
CN104321812A
CN104321812A CN201380026946.9A CN201380026946A CN104321812A CN 104321812 A CN104321812 A CN 104321812A CN 201380026946 A CN201380026946 A CN 201380026946A CN 104321812 A CN104321812 A CN 104321812A
Authority
CN
China
Prior art keywords
signal
radio communication
circuit
codec
communication device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201380026946.9A
Other languages
English (en)
Other versions
CN104321812B (zh
Inventor
埃里克·维瑟
金莱轩
向佩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN104321812A publication Critical patent/CN104321812A/zh
Application granted granted Critical
Publication of CN104321812B publication Critical patent/CN104321812B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/06Receivers
    • H04B1/16Circuits
    • H04B1/20Circuits for coupling gramophone pick-up, recorder output, or microphone to receiver
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/24Radio transmission systems, i.e. using radiation field for communication between two or more posts
    • H04B7/26Radio transmission systems, i.e. using radiation field for communication between two or more posts at least one of which is mobile
    • H04B7/2662Arrangements for Wireless System Synchronisation
    • H04B7/2671Arrangements for Wireless Time-Division Multiple Access [TDMA] System Synchronisation
    • H04B7/2678Time synchronisation
    • H04B7/2687Inter base stations synchronisation
    • H04B7/2696Over the air autonomous synchronisation, e.g. by monitoring network activity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/006Systems employing more than two channels, e.g. quadraphonic in which a plurality of audio signals are transformed in a combination of audio signals and modulated signals, e.g. CD-4 systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Stereophonic Arrangements (AREA)

Abstract

本发明揭示一种用于通过无线通信装置编码三维音频的方法。所述无线通信装置检测多个可定位音频源的指示。所述无线通信装置还记录与所述多个可定位音频源相关联的多个音频信号。所述无线通信装置还编码所述多个音频信号。

Description

在呼叫期间的三维声音压缩及空中发射
相关申请案
本申请案涉及且主张来自2012年5月24日申请的用于“在呼叫期间的三维声音压缩及空中发射(THREE-DIMENSIONAL SOUND COMPRESSION AND OVER-THE-ADR TRANSMISSION DURING A CALL)”的第61/651,185号美国临时专利申请案的优先权。
技术领域
本发明涉及音频信号处理。更具体来说,本发明涉及在呼叫期间的三维声音压缩及空中发射。
背景技术
随着技术进步,我们看见了网络速度及存储的明显增长,所述增长已不仅支持文本,而且支持多媒体数据。在实时蜂窝式通信***中,用以捕捉、压缩及发射三维(3-D)音频的能力目前并不可用。挑战之一为捕捉三维音频信号。因此,可通过捕捉及再现三维音频用于个别听觉体验的较现实及沉浸式交换来实现益处。
发明内容
本发明揭示一种用于通过无线通信装置编码三维音频的方法。所述方法包含确定多个可定位音频源的空间方向的指示。所述方法还包含记录与所述多个可定位音频源相关联的多个音频信号。所述方法进一步包含编码所述多个音频信号。所述可定位音频源的空间方向的指示可是基于接收的输入。
所述方法可包含确定可定位音频源的数目。所述方法还可包含估计每一可定位音频源的到达方向。所述方法可包含根据三维音频编码方案来编码多通道信号。
所述方法可包含应用第一端射式方向中的射束以获得第一滤波信号。所述方法还可包含应用第二端射式方向中的射束以获得第二滤波信号。所述方法可组合第一滤波信号与第二滤波信号的延迟版本。第一及第二滤波信号中的每一者可具有至少两通道。滤波信号中的一者可相对于另一滤波信号延迟。所述方法可相对于第一滤波信号的第二通道延迟第一滤波信号的第一通道,及相对于第二滤波信号的第二通道延迟第二滤波信号的第一通道。所述方法可相对于组合信号的第二通道延迟组合信号的第一通道。
所述方法可将具有第一方向的射束的滤波器应用到第一对麦克风所产生的信号以获得第一空间滤波信号,及将具有第二方向的射束的滤波器应用到第二对麦克风所产生的信号以获得第二空间滤波信号。所述方法接着可组合第一及第二空间滤波信号以获得输出信号。
对于阵列中的多个麦克风中的每一者,所述方法可包含记录对应输入通道。所述方法还可包含对于多个观看方向中的每一者,将对应多通道滤波器应用到多个所记录输入通道以获得对应输出通道。所述多通道滤波器中的每一者可应用对应观看方向中的射束及其它观看方向中的空射束。所述方法可包含处理所述多个输出通道以产生双耳记录。所述方法可包含应用射束到介于低阈值与高阈值之间的频率。所述低及高阈值中的至少一者是基于麦克风之间的距离。
本发明揭示一种用于通过无线通信装置选择编解码器的方法,所述方法包含确定多个音频信号的能量分布曲线。所述方法还包含显示所述多个音频信号中的每一者的能量分布曲线。所述方法还包含检测选择能量分布曲线的输入。所述方法还包含使编解码器与所述输入相关联。所述方法进一步包含基于编解码器来压缩多个音频信号以产生包。所述方法可包含在空中发射所述包。所述方法可包含发射通道识别。
本发明揭示一种用于通过无线通信装置增加分配的方法。所述方法包含确定多个音频信号的能量分布曲线。所述方法还包含显示所述多个音频信号中的每一者的能量分布曲线。所述方法还包含检测选择能量分布曲线的输入。所述方法还包含使编解码器与所述输入相关联。所述方法进一步包含基于所述输入而增加对用以压缩音频信号的编解码器的位分配。所述音频信号的压缩可产生在空中发射的四个包。
本发明描述一种用于通过无线通信装置编码三维音频的无线通信装置。所述无线通信装置包含空间方向电路,其检测多个可定位音频源的空间方向的指示。所述无线通信装置还包含耦合到空间方向电路的记录电路。记录电路记录与多个可定位音频源相关联的多个音频信号。无线通信装置还包含耦合到记录电路的编码器。编码器编码所述多个音频信号。
本发明描述一种用于通过无线通信装置选择编解码器的无线通信装置。所述无线通信装置包含确定多个音频信号的能量分布曲线的能量分布曲线电路。所述无线通信装置包含耦合到能量分布曲线电路的显示器。所述显示器显示所述多个音频信号中的每一者的能量分布曲线。所述无线通信装置包含耦合到显示器的输入检测电路。所述输入检测电路检测选择能量分布曲线的输入。所述无线通信装置包含耦合到输入检测电路的关联电路。所述关联电路使编解码器与输入相关联。无线通信装置包含耦合到关联电路的压缩电路。压缩电路基于编解码器来压缩多个音频信号以产生包。
本发明描述一种用于通过无线通信装置来增加位分配的无线通信装置。所述无线通信装置包含确定多个音频信号的能量分布曲线的能量分布曲线电路。所述无线通信装置包含耦合到能量分布曲线电路的显示器。所述显示器显示所述多个音频信号中的每一者的能量分布曲线。所述无线通信装置包含耦合到显示器的输入检测电路。所述输入检测电路检测选择能量分布曲线的输入。所述无线通信装置包含耦合到输入检测电路的关联电路。所述关联电路使编解码器与输入相关联。无线通信装置包含耦合到关联电路的位分配电路。所述位分配电路基于所述输入而增加对用以压缩音频信号的编解码器的位分配。
本发明描述一种用于编码三维音频的计算机程序产品。所述计算机程序产品包含具有指令的非暂时性有形计算机可读媒体。所述指令包含用于致使无线通信装置检测多个可定位音频源的空间方向的指示的代码。所述指令包含用于致使所述无线通信装置记录与多个可定位音频源相关联的多个音频信号的代码。所述指令包含用于致使所述无线通信装置编码多个音频信号的代码。
本发明描述一种用于选择编解码器的计算机程序产品。所述计算机程序产品包含具有指令的非暂时性有形计算机可读媒体。所述指令包含用于致使无线通信装置确定多个音频信号的能量分布曲线的代码。所述指令包含用于致使无线通信装置显示多个音频信号中的每一者的能量分布曲线的代码。所述指令包含用于致使无线通信装置检测选择能量分布曲线的输入的代码。所述方法还包含使编解码器与所述输入相关联。所述指令包含用于致使无线通信装置基于编解码器来压缩多个音频信号以产生包的代码。
本发明描述一种用于增加位分配的计算机程序产品。所述计算机程序产品包含具有指令的非暂时性有形计算机可读媒体。所述指令包含用于致使无线通信装置确定多个音频信号的能量分布曲线的代码。所述指令包含用于致使无线通信装置显示多个音频信号中的每一者的能量分布曲线的代码。所述指令包含用于致使无线通信装置检测选择能量分布曲线的输入的代码。所述方法还包含使编解码器与所述输入相关联。所述指令包含用于致使无线通信装置基于所述输入而增加对用以压缩音频信号的编解码器的位分配的代码。
附图说明
图1说明放置在蜂窝式电话的代表性手机上的麦克风;
图2A说明基于用户接口输入的麦克风/射束形成器选择的方法的流程图;
图2B说明用于麦克风对的空间选择性的区域;
图3说明用于选择两维度中的所要记录方向的用户接口;
图4说明界定在经配置以执行主动噪声消除(ANC)的头戴式耳机周围的可能空间扇区;
图5说明三麦克风布置;
图6说明使用四麦克风设置的用于空间译码的全向及一阶捕捉;
图7说明便携式通信装置的一个实例的前视图及后视图;
图8说明记录来自宽边方向的源信号的情况;
图9说明记录来自宽边方向的源信号的另一情况;
图10说明组合端射式射束的情况;
图11说明用于前中心、前左侧、前右侧、后左侧及后右侧方向上的射束的图表的实例;
图12说明用以获得右后侧空间方向上的信号的处理的实例。
图13说明使用具有三麦克风阵列的两麦克风对盲源分离的空射束形成方法;
图14说明其中组合前侧及右侧方向上的射束以获得右前侧方向上的结果的实例;
图15说明用于如图13中所说明的方法的空射束的实例;
图16说明使用具有四麦克风阵列的四通道盲源分离的空射束形成方法;
图17说明用于拐角方向FL、FR、BL及BR的一组四滤波器的射束图案的实例;
图18说明根据移动扬声器数据了解的独立向量分析会聚滤波器射束图案的实例;
图19说明根据精细的移动扬声器数据了解的独立向量分析会聚滤波器射束图案的实例;
图20说明组合端射式射束的方法的流程图;
图21说明用于一般双对情况的方法的流程图;
图22说明用于三麦克风情况的图21的方法的实施方案;
图23说明使用具有四麦克风阵列的四通道盲源分离的方法的流程图;
图24说明用于盲目分离滤波器组的部分路由图;
图25说明用于2×2滤波器组的路由图;
图26A说明根据一般配置的多麦克风音频感测装置的框图;
图26B说明通信装置的框图;
图27A说明麦克风阵列的框图;
图27B说明麦克风阵列的框图;
图28说明不同话音编解码器在其上操作的不同频率范围及频带的图表;
图29A、29B及29C各自说明用于使用针对可经压缩的每一信号类型的四个非窄带编解码器的第一配置的可能方案,即全带(FB)、超宽带(SWB)及宽带(WB);
图30A说明用于第二配置的可能方案,其中两个编解码器具有平均音频信号;
图30B说明用于第二配置的可能方案,其中一或多个编解码器具有平均音频信号;
图31A说明用于第三配置的可能方案,其中编解码器中的一或多者可平均一或多个音频信号;
图31B说明用于第三配置的可能方案,其中非窄带编解码器中的一或多者具有平均音频信号;
图32说明四个窄带编解码器;
图33为说明使用图29A、图29B或图29C的任何方案的四个非窄带编解码器的编码器/解码器***的端对端***的流程图;
图34为说明使用四个编解码器(例如,来自图30A或图30B中的任一者)的编码器/解码器***的端对端***的流程图;
图35为说明使用四个编解码器(例如,来自图31A或图31B中的任一者)的编码器/解码器***的端对端***的流程图;
图36为说明用于使用用以编码的四个非窄带编解码器(例如,来自图29A、图29B或图29C)的组合与用以解码的四个宽带编解码器或窄带编解码器中的任一者而产生及接收音频信号包的另一方法的流程图;
图37为说明编码器/解码器***的端对端***的流程图,其中基于与声音的四个拐角的能量的可视化相关联的用户选择而在一个或两个信号的压缩期间具有不同的位分配,但在空中通道中发射四个包;
图38为说明编码器/解码器***的端对端***及流程图,其中基于与声音的四个拐角的能量的可视化相关联的用户选择而压缩及发射一个音频信号;
图39为说明包括编解码器组合的四个配置的无线通信装置的实施方案的框图;
图40为说明无线通信装置的实施方案的框图,其说明其中使用图29的4个宽带编解码器来进行压缩的配置。
图41为说明包括编解码器组合的四个配置的通信装置的实施方案的框图,其中可使用任选编解码器预滤波器;
图42为说明包括编解码器组合的四个配置的通信装置的实施方案的框图,其中任选滤波可作为滤波器组阵列的一部分而发生;
图43为说明包括编解码器组合的四个配置的通信装置的实施方案的框图,其中来自听觉场景的声源数据可在用编解码器配置中的一者编码之前与来自一或多个滤波器的数据混合;
图44为说明用于使用集成编解码器来编码多方向音频信号的方法的流程图;
图45为说明用于音频信号处理的方法的流程图;
图46为说明用于编码三维音频的方法的流程图;
图47为说明用于选择编解码器的方法的流程图;
图48为说明用于增加位分配的方法的流程图;及
图49说明可包含在无线通信装置内的某些组件。
具体实施方式
通信装置的实例包含蜂窝式电话基站或节点、接入点、无线网关及无线路由器。通信装置可根据某些产业标准来操作,例如第三代合作伙伴计划(3GPP)长期演进(LTE)标准。通信装置可遵守的其它标准实例包含电气与电子工程师协会(IEEE)802.11a、802.11b、802.11g、802.1 In及/或802.11ac(例如,无线保真度或“Wi-Fi”)标准、IEEE802.16(例如,全球微波接入互操作性或“WiMAX”)标准及其它标准。在一些标准中,通信装置可称作节点B、演进型节点B等。虽然本文所揭示的***及方法中的一些可关于一或多个标准来描述,但此不应限制本发明的范围,因为所述***及方法可适用于许多***及/或标准。
一些通信装置(例如,接入终端、客户端装置、客户站等)可与其它通信装置无线地通信。一些通信装置(例如,无线通信装置)可称作移动装置、移动站、订户站、客户端、客户站、用户设备(UE)、远程站、接入终端、移动终端、终端、用户终端、订户单元等。通信装置的额外实例包含膝上型或台式计算机、蜂窝式电话、智能电话、无线调制解调器、电子阅读器、平板装置、游戏***等。这些通信装置中的一些可根据如上所述的一或多个产业标准来操作。因此,一般术语“通信装置”可包含用根据产业标准的不同命名来描述的通信装置(例如,存取终端、用户设备、远程终端、接入点、基站、节点B、演进型节点B等)。
一些通信装置可能够提供对通信网络的接入。通信网络的实例包含(但不限于)电话网络(例如,“陆线”网络,例如公共交换电话网络(PSTN)或蜂窝式电话网络)、因特网、局域网(LAN)、广域网(WAN)、城域网(MAN)等。
除非上下文明确地限制,否则术语“信号”在本文用以指示其普通含义中的任一者,包含如在导线、总线或其它发射媒体上表达的存储器位置(或存储器位置集合)的状态。除非上下文明确地限制,否则术语“产生”在本文用以指示其普通含义中的任一者,例如推算或以其它方式产生。除非上下文明确地限制,否则术语“计算”在本文用以指示其普通含义中的任一者,例如推算、评估、平滑及/或从多个值中进行选择。除非上下文明确地限制,否则术语“获得”用以指示其普通含义中的任一者,例如计算、导出、接收(例如,从外部装置)及/或检索(例如,从存储元件阵列)。除非上下文明确地限制,否则术语“选择”用以指示其普通含义中的任一者,例如识别、指示、应用及/或使用两个或两个以上的集合中的至少一者及少于全部。在本发明描述及权利要求书中使用术语“包括”的情况下,其并不排除其它元件或操作。术语“基于”(如在“A基于B”中)用以指示其普通含义中的任一者,包含以下情况:(i)“导出”(例如,“B为A的前驱者”);(ii)“至少基于”(例如,“A至少基于B”)及,在特定上下文中适当的情况下;(iii)“等于”(例如,“A等于B”)。类似地,术语“响应于”用以指示其普通含义中的任一者,包含“至少响应于”。
参考多麦克风音频感测装置的麦克风的“位置”指示所述麦克风的听觉敏感面的中心的位置,除非上下文另有指示。术语“通道”有时用以指示信号路径,及根据特定上下文而在其它时候用以指示此类路径所载运的信号。除非另有指示,否则术语“系列”用以指示一序列的两个或两个以上项目。术语“对数”用以十为基底的对数,但此类运算到其它基底的扩展是在本发明的范围内。术语“频率分量”用以指示信号的频率或频带集合当中的一者,例如信号的频域表示的样本(例如,如由快速傅里叶变换所产生)或信号的子带(例如,巴克(Bark)刻度或梅尔(mel)刻度子带)。
除非另外指示,否则对具有特定特征的设备的操作的任何揭示内容还明确地意图揭示具有类似特征的方法(且反之亦然),且对根据特定配置的设备的操作的任何揭示内容还明确地意图揭示根据类似配置的方法(且反之亦然)。术语“配置”可用以参考如由其特定上下文指示的方法、设备及/或***。术语“方法”、“过程”、“程序”及“技术”经一般化且互换地使用,除非特定上下文另有指示。术语“设备”及“装置”也经一般化且互换地使用,除非特定上下文另有指示。术语“元件”及“模块”通常用以指示较大配置的一部分。除非上下文明确地限制,否则术语“***”在本文用以指示其普通含义中的任一者,包含“交互以服务共同目的的元件群组”。通过参考文档的一部分的任何并入还应被理解为并入在所述部分内参考的术语或变数的定义,其中此类定义出现在所述文档中的其它地方以及所并入部分中参考的任何图式中。
如本文所述的方法可经配置以将所捕捉信号处理为一系列分段。典型分段长度范围从约五或十毫秒到约四十或五十毫秒,且所述分段可重叠(例如,其中相邻分段重叠25%或50%)或非重叠。在一个特定实例中,信号分为一系列非重叠分段或“帧”,每一者具有十毫秒的长度。如由此类方法处理的分段也可为如由不同操作处理的较大分段的分段(即,“子帧”),或反之亦然。现今,我们正体验经由快速发展的社交网络服务(例如,脸书(Facebook)、推特(Twitter)等)的个别信息的快速交换。同时,我们还看见了网络速度及存储的明显增长,所述增长已不仅支持文本,而且支持多媒体数据。在此环境中,可认识到用于捕捉及再现三维(3D)音频用于个别听觉体验的较现实及沉浸式交换的重要需要。在实时蜂窝式通信***中,用以捕捉、压缩及发射3-D音频的能力目前并不可用。挑战之一为捕捉3-D音频信号。还可在本文中使用2011年10月24日申请的名为“使用多麦克风的三维声音捕捉及再现(THREE-DIMENSIONAL SOUNDCAPTURING AND REPRODUCING WITH MULTI-MICROPHONES)”的代理人案号为102978U2的第13/280,303号美国专利申请案中所描述的一些技术中,以描述如何捕捉及可如何记录3-D音频信息的方式。然而,此申请案通过描述3-D音频可与实时蜂窝式通信***中发现的话音编解码器组合的方式来扩展先前所揭示的能力。
首先,描述3-D音频的捕捉。在一些实施方案中,可记录可听信息。本文所述的可听信息还可通过一或多个独立话音编解码器来压缩且在一或多个空中通道中发射。
图1说明具有用于不同声源方向的可配置麦克风104a-e阵列几何形状的无线通信装置102的三种不同视图。无线通信装置102可包含听筒108及一或多个扩音器110a-b。取决于用例,可选择装置102的麦克风104a-e的不同组合(例如,对)以支持不同源方向的空间选择性音频记录。举例来说,在视频摄像机情况下(例如,其中摄像机镜头106在无线通信装置102的后面上),可使用前后麦克风104a-e对(例如,第一麦克风104a及第四麦克风104d,第一麦克风104a及第五麦克风104e或第三麦克风104c及第四麦克风104d)来记录前面及后面方向(即,引导射束进入及远离摄像机镜头106),其中可手动及自动地配置左边及右边方向偏好。对于在正交于前后轴线的方向上的声音记录,麦克风104a-e对(例如,第一麦克风104a及第二麦克风104b)可为另一选项。另外,还可使用可配置麦克风104a-e阵列几何形状来压缩及发射3-D音频。
可针对给定设计方法范围的各种麦克风104a-e组合(即,最小方差无失真响应(MVDR)、线性约束最小方差(LCMV)、相位阵列)来离线计算不同的射束形成器数据库。在使用期间,可取决于当前用例需求而经由用户接口中的菜单来选择这些射束形成器中的所要一者。
图2A说明用于此类方法200的概念流程图。首先,无线通信装置102可获得201一或多个优选声音捕捉方向(例如,如自动地及/或经由用户接口而选择)。接着,无线通信装置102可选择203提供指定方向性的射束形成器与麦克风阵列(例如,对)的组合。指定方向性还可与一或多个话音编解码器组合使用。
图2B说明用于一对麦克风204a-b的空间选择性的区域。举例来说,第一空间205a可表示可通过使用第一麦克风204a及第二麦克风204b而应用端射式射束形成而聚焦音频所来自的空间。类似地,第二空间205b可表示可通过使用第二麦克风204b及第一麦克风204a而应用端射式射束形成而聚焦音频所来自的空间。
图3说明无线通信装置302的用户接口312的实例。如上所述,在一些实施方案中,可经由用户接口312来选择记录方向。举例来说,用户接口312可显示一或多个记录方向。用户可经由用户接口312来选择所要记录方向。在一些实例中,用户接口312还可用以选择与用户希望用较多位压缩的特定方向相关联的音频信息。在一些实施方案中,无线通信装置302可包含听筒308、一或多个扩音器310a-b及一或多个麦克风304a-c。
图4说明可包含三个麦克风404a-c的立体声头戴式耳机414a-b的相关用例。举例来说,立体声头戴式耳机414a-b可包含中心麦克风404a、左麦克风404b及右麦克风404c。麦克风404a-c可支持例如语音捕捉及/或主动噪声消除(ANC)的应用程序。对于此类应用程序,可界定头部周围的不同扇区416a-d(即,后扇区416a、左扇区416b、右扇区416c及前扇区416d),以用于使用此三麦克风404a-c配置(图4,使用全向麦克风)来进行记录。类似地,此用例可用以压缩及发射3-D音频。
还可使用专用麦克风设置(例如,如图5中所示的三麦克风504a-c布置)来执行三维音频捕捉。此类布置可经由线518或无线地连接至记录装置520。记录装置520可包含本文描述的用于检测装置520定向及根据选定音频记录方向在麦克风504a-c当中(即,从中心麦克风504a、左麦克风504b及右麦克风504c当中)选择一对的设备。在替代布置中,中心麦克风504a可位于记录装置520上。类似地,此用例可用以压缩及发射3-D音频。
一般假定远端用户使用立体声头戴式耳机(例如,自适应噪声消除或ANC头戴式耳机)来收听所记录空间声音。然而,在其它应用中,能够再现两个以上空间方向的多扩音器阵列可在远端可用。为支持此类用例,可需要在3-D音频信号的记录或捕捉期间同时启用一个以上麦克风/射束形成器组合以用以压缩及发射3-D音频。
多麦克风阵列可与空间选择性滤波器一起使用以产生用于一或多个源方向中的每一者的单声道声音。然而,此类阵列还可用以支持两个或三个维度上的空间音频编码。可用如本文所述的多麦克风阵列支持的空间音频编码方法的实例包含:5.1环绕、7.1环绕、杜比(Dolby)环绕、杜比定向逻辑(Pro-Logic)或任何其它相幅矩阵立体声格式;杜比数字、DTS或任何离散多通道格式;及波场合成。五通道编码的一个实例包含左边、右边、中心、左边环绕及右边环绕通道。
图6说明使用四麦克风604a-d设置的用于近似用于空间译码的一阶捕捉的全向麦克风604a-d布置。可使用如本文描述的多麦克风604a-d阵列支持的空间音频编码方法的实例还可包含可最初意图用于供特殊麦克风604a-d使用的方法,例如立体混响(Ambisonic)B格式或高阶立体混响格式。举例来说,立体混响编码方案的经处理多通道输出可包含在测量点上的三维泰勒展开式(Taylor expansion),其可使用如图6中描绘的三维定位麦克风阵列而至少近似高达一阶。通过较多麦克风,可增加逼近阶。根据实例,第二麦克风604b可与第一麦克风604a在z方向上分离距离Δz。第三麦克风604c可与第一麦克风604a在y方向上分离距离Δy。第四麦克风604d可与第一麦克风604a在x方向上分离距离Δx。
为了将沉浸式声音体验传达给用户,环绕声记录可为独立的或结合录像带录制,环绕声记录可使用利用单向麦克风604a-d的单独麦克风设置。在此实例中,可分别剪辑一或多个单向麦克风604a-d。在本发明中,呈现与空间滤波组合的基于多个全向麦克风604a-d的替代方案。在此配置的实例中,嵌入于智能电话或平板计算机上的一或多个全向麦克风604a-d可支持多个声音记录应用程序。举例来说,两个麦克风604a-d可用于宽场立体声,及具有适当麦克风604a-d轴线的至少三个全向麦克风604a-d可用于环绕声,可用以记录智能电话或平板装置上的多个声音通道。这些通道可继而成对处理或用经设计以具有所要观看方向上的特定空间拾取图案的滤波器同时滤波。由于空间混叠,可选择麦克风间距离以使得图案在最相关频带上有效。可在环绕声设置中播放所产生立体声或5.1输出通道以产生沉浸式声音体验。
图7说明无线通信装置702(例如,智能电话)的一个实例的前视图及后视图。前麦克风704a及第一后麦克风704c的阵列可用以产生立体声记录。其它麦克风704配对的实例包含第一麦克风704a(在前面)与第二麦克风704b(在前面)、第三麦克风704c(在后面)与第四麦克风704d(在后面)、及第二麦克风704b(在前面)与第四麦克风704d(在后面)。麦克风704a-d相对于源的不同位置(其可取决于装置702的固持位置)可产生可使用空间滤波强化的立体声效应。为了产生评论员与所记录场景(例如,在录像带录制期间)之间的立体声图像,可需要使用利用第一麦克风704a(在前面)及第三麦克风704c(在后面)的端射式配对,其间具有所述装置(如图1的侧视图中所示)的厚度的距离。然而,应注意还可使用不同固持位置中的相同麦克风704a-d,且可产生具有朝向z轴(例如,如图1的后视图中所示)的距离的端射式配对。在后者情况下,可产生朝向所述场景的立体声图像(例如,来自场景左边的声音被捕捉为左边传来的声音)。在一些实施方案中,无线通信装置可包含听筒708、一或多个扩音器710a-b及/或摄像机镜头706。
图8说明使用第一麦克风704a(在前面)及第三麦克风704c(在后面)的端射式配对的情况,其间具有装置702的厚度的距离以记录来自宽边方向的源信号。在此情况下,X轴874增加到右边,Y轴876增加到左边,及Z轴878增加到顶部。在此实例中,两麦克风704a、704c的坐标可为(x=0,y=0,z=0)及(x=0,y=0.10,z=-0.01)。可应用立体声射束形成,使得沿着y=0平面的区可说明宽边方向上的射束,且周围的区(x=0,y=-0.5,z=0)可说明端射式方向上的空射束。当评论员从宽边方向说话时(例如,向着装置702的背面),由于相对于围绕麦克风704a、704c对的轴的旋转的模糊性,可难以区别评论员的声音与装置702前面的场景。在此实例中,可不强化用以分离评论员的声音与所述场景的立体声效应。
图9说明使用第一麦克风704a(在前面)及第三麦克风704c(在后面)的端射式配对的另一情况,其间具有装置702的厚度的距离以记录来自宽边方向的源信号,其中麦克风704a(在前面)、704c(在后面)坐标可与图8相同。在此情况下,X轴974增加到右边,Y轴976增加到左边,及Z轴978增加到顶部。在此实例中,射束可经定向朝向端射式方向(穿过点(x=0,y=-0.5,z=0)),使得用户的(例如,评论员的)语音可在一个通道中腾空。所述射束可使用空的射束形成器或另一方法形成。举例来说,盲源分离(BSS)方法,例如独立分量分析(ICA)或独立向量分析(IVA)可提供比空射束形成器宽的立体声效应。请注意,为了提供用于所录制场景本身的较宽立体声效应,其可足以使用相同麦克风704a、704c的端射式配对,其间具有朝向Z轴978(例如,如图1的后视图中所示)的距离。
图10为说明组合端射式射束的情况的图表。在此情况下,X轴1074增加到右边,Y轴1076增加到左边,及Z轴1078增加到顶部。由于无线通信装置702处于宽边固持位置,可需要组合端射式射束到左边及右边(例如,如图9及10中所示)以增强与原始记录相比的立体声效应。此类处理还可包含添加通道间延迟(例如,模仿麦克风间隔)。此类延迟可用以将两射束形成器的输出延迟标准化到空间中的共同参考点。当在头戴受话器上播放立体声通道时,操纵延迟还可帮助在优选方向上旋转空间图像。装置702可包含指示固持位置的加速度计、磁力计及/或回转仪(例如,如可在名为“用于定向敏感记录控制的***、方法、设备及计算机可读媒体(SYSTEMS,METHODS,APPARATUS AND COMPUTER-READABLE MEDIA FOR ORIENTATION-SENSITIVERECORDING CONTROL)”的代理人案号为102978U1的第13/280,211号美国专利申请案中描述)。下文论述的图20说明此类方法的流程图。
当装置处于端射式固持位置中时,所述记录可提供宽场立体声效应。在此情况下,空间滤波(例如,使用空射束形成器或BSS解决方案,例如ICA或IVA)可稍微增强所述效应。
在双麦克风情况下,立体声记录的文件可经由如上所述的空间滤波而增强(例如,增加用户的语音与所记录场景的分离)。可需要产生来自所捕捉立体声信号的若干不同定向通道(例如,用于环绕声),以便将信号上混到两个以上通道。举例来说,可需要将信号上混到五个通道(例如,用于5.1环绕声方案),使得可使用用于每一通道的五个扬声器阵列中的不同一者来播放。此类方法可包含在对应方向上应用空间滤波以获得上混的通道。此类方法还可包含应用多通道编码方案到上混通道(例如,杜比环绕的版本)。
对于其中使用两个以上麦克风704a-d用于记录的情况,可能使用空间滤波及不同麦克风704a-d组合来在多个方向(例如,五个方向,根据5.1标准)上进行记录,接着播放所记录信号(例如,使用五个扩音器)。此类处理可在无上混的情况下执行。
图11说明用于前中心(FC)1180、前左侧(FL)1182、前右侧(FR)1184、后左侧(BL)1186及后右侧(BR)1188方向上的此类射束的图表的实例。X、Y及Z轴在这些图表中类似定向(每一范围的中间为零,且尽端为+/-0.5,其中X轴增加到右边,Y轴增加朝向左边,及Z轴增加朝向顶部),及暗区指示所述的射束或空射束方向。用于每一图表的射束经定向穿过以下点(z=0):用于前中心(FC)1180的(x=0,y=+0.5),用于前右侧(FR)1184的(x=+0.5,y=+0.5),用于后右侧(BR)1188的(x=+0.5,y=-0.5),用于后左侧(BL)1186的(x=-0.5,y=-0.5),及用于前左侧(FL)1182的(x=-0.5,y=+0.5)。
与四个不同方向(FR 1184、BR 1188、BL 1186、FL 1182)相关联的音频信号可使用无线通信装置702上的话音编解码器来压缩。在接收器侧,播放/或解码与不同定向声音相关联的四个重建构音频信号的用户的中心声音可通过FR 1184、BR 1188、BL1186、FL 1182通道的组合来产生。与不同方向相关联的这些音频信号可使用无线通信装置702来实时压缩及发射。四个独立源中的每一者可从某些低带频率(LB)频率向上压缩及发射到某些上带频率(UB)。
空间滤波技术的有效性可限于取决于以下因素的带通范围:例如,小的麦克风间间隔、空间混叠及高频散射。在一个实例中,信号可在空间滤波之前经低通滤波(例如,具有8kHz的截止频率)。
对于来自单个点源的声音被捕捉的情况,用来自其它方向的信号的掩蔽来补充此类射束形成可导致非方向路径信号的强烈衰减及/或在达到所要掩蔽效应所需的进取性层级的可听失真。此类假影对于高清晰度(HD)音频可为不合要求的。在一个实例中,HD音频可以48kHz的取样速率来记录。为减轻此类假影,代替使用进取性空间滤波的信号,可需要仅使用每一通道的经处理信号的能量分布曲线,及针对原始输入信号或掩蔽之前的空间处理输出上的每一通道来应用根据能量分布曲线的增益平移规则。请注意,由于声音事件可在时频图中为稀疏的,所以可能使用甚至具有多源情况的此类后增益平移方法。
图12说明用以获得右后侧空间方向上的信号的处理的实例。图表A 1290(振幅对时间)说明原始麦克风记录。图表B 1292(振幅对时间)说明对麦克风信号进行低通滤波(具有8kHz的截止频率)及执行具有掩蔽的空间滤波的结果。图表C 1294(量值对时间)说明基于图表B 1292中的信号的能量的相关空间能量(例如,样本值的平方和)。图表D 1296(状态对时间)说明基于低频空间滤波所指示的能量差的平移分布曲线,及图表E1298(振幅对时间)说明48kHz平移输出。
对于双麦克风对情况,可需要设计用于一个对的至少一个射束及用于另一对的在不同方向的至少两个射束。射束可经设计或经学习(例如,使用盲源分离方法,例如独立分量分析或独立向量分析)。这些射束中的每一者可用以获得记录的不同通道(例如,用于环绕声记录)。
图13说明使用具有三麦克风1304a-c阵列的两麦克风对盲源分离(例如,独立分量分析或独立向量分析)的空射束形成方法。对于前面及后面可定位音频源1380a、1380b,可使用第二麦克风1304b及第三麦克风1304c。对于左边及右边可定位音频源1380c、1380d,可使用第一麦克风1304a及第二麦克风1304b。可需要两麦克风1304a-c对的轴为正交的或至少实质上正交的(例如,与正交相差不超过五、十、十五或二十度)。
通道中的一些可通过组合射束中的两者或两者以上而产生。图14说明其中可组合前射束1422a与右射束1422b(即,前面及右边方向上的射束)以获得前右侧方向上的结果的实例。射束可由一或多个麦克风1404a-c(例如,第一麦克风1404a、第二麦克风1404b及第三麦克风1404c)来记录。可按相同方式获得用于前左侧、后右侧及/或后左侧方向上的结果。在此实例中,以此方式组合重叠射束1422a-d可提供一信号,其中来自对应拐角的信号比来自其它位置的信号大6dB。在一些实施方案中,可形成后空射束1422c及左空射束1422d(即,左边及后面方向上的射束可为空的)。在一些情况下,可应用信道间延迟以将两射束形成器的输出延迟标准化到空间中的共同参考点。当组合“左右端射式对”及“前后端射式对”时,可需要将参考点设置到麦克风1404a-c阵列的重心。此类操作可支持在所要拐角位置的最大化射束发射,其中在两对之间具有经调整延迟。
图15说明用于如图13中所说明的方法的在前面1501、后面1503、左边1505及右边1507方向上的空射束的实例。射束可使用最小方差无失真响应射束形成器来设计或使用学习其中装置702与声音源(或源)的相对位置固定的情形的盲源分离(例如,独立分量分析或独立向量分析)滤波器而会聚。在这些实例中,所展示频率区间的范围对应于从0到8kHz的带。可见空间射束图为互补的。还可见,因为这些实例中的左右对的麦克风1304a-c与前后对的麦克风1304a-c之间的不同间隔,所以空间混叠不同地影响这些射束图。
由于空间混叠,取决于麦克风间距离,可需要将射束应用到小于所捕捉信号的整个频率范围(例如,如上所述的从0到8kHz的范围)。在低频内容经空间滤波之后,可在后方添加高频内容,具有用于空间延迟、处理延迟及/或增益匹配的一些调整。在一些情况下(例如,手持式装置形状因子),还可需要仅滤波频率的中间范围(例如,仅降低到200或500Hz),这是因为由于麦克风间隔限制而总是可预期一些方向性损耗。
如果存在某一种类的非线性相位失真,那么可不良地执行根据相同到达方向(DOA)的基于所有频率的相同延迟的标准射束/空形成技术,这是因为由非线性相位失真所引起的一些频率上的微分延迟。然而,基于如本文描述的独立向量分析的方法基于源分离来操作,及因此可预期此类方法甚至在存在用于相同到达方向的微分延迟的情况下产生良好的结果。此类稳固性可为使用独立向量分析用于获得环绕处理系数的潜在优势。
对于其中未在某一截止频率(例如,8kHz)以上进行空间滤波的情况,所述最终高清晰度信号可包含高通滤波原始前/后通道及在后面添加从8kHz到24kHz的带。此类操作可包含调整空间及高通滤波延迟。还可需要调整8-24-kHz带的增益(例如,以便不混淆空间分离效应)。图12中所说明的实例可在时域中滤波,但明确地涵盖且因此揭示用以在其它域中(例如,频域)滤波的本文所描述的方法的应用。
图16说明使用具有四个麦克风1604a-d阵列的四通道盲源分离(例如,独立分量分析或独立向量分析)的空射束形成方法。可需要四个麦克风1604a-d的各种对中的至少两者的轴为正交的或至少实质上正交的(例如,与正交相差不超过五、十、十五或二十度)。除了双麦克风配对之外可使用此类四麦克风1604a-d滤波器以产生拐角方向中的射束图。在一个实例中,滤波器可使用独立向量分析及训练数据而学习,且将所得会聚独立向量分析滤波器实施为固定滤波器,将所述固定滤波器应用于四个所记录麦克风1604a-d输入以产生用于5.1环绕声中的相应五个通道方向中的每一者的信号(FL、FC、FR、BR、BL)。为充分利用五个扬声器,可例如使用以下方程式获得前中心通道FC:下文论述的图23说明用于此类方法的流程图。下文论述的图25说明用于此类滤波器组的部分路由图,其中麦克风n提供到列n中的滤波器的输入(1<=n<=4),且输出通道中的每一者为对应行中的滤波器的输出的总和。
在此类学习过程的一个实例中,独立声音源定位于四麦克风1604a-d阵列周围的四个经设计位置(例如,四个拐角位置FL、FR、BL及BR)中的每一者处,且所述阵列用以捕捉四通道信号。请注意,所捕捉四通道输出中的每一者为所有四个源的混合物。接着可应用盲源分离技术(例如,独立向量分析)以分离四个独立源。在会聚之后,可获得分开的四个独立源以及会聚的滤波器集合,所述滤波器集合基本上射束发射朝向目标拐角及未朝向其它三个拐角。
图17说明用于拐角方向前左侧(FL)1709、前右侧(FR)1711、后左侧(BL)1713及后右侧(BR)1715的此类一组四个滤波器的射束图的实例。对于风景记录模式,获得及应用滤波器可包含使用两前麦克风及两后麦克风,针对相对于所述阵列的固定位置处的源执行四通道独立向量分析学习算法,及应用所述会聚滤波器。
射束图可取决于所获取混合数据而变化。图18说明在后左侧(BL)1817方向、后右侧(BR)1819方向、前左侧(FL)1821方向及前右侧(FR)1823方向上的在移动扬声器数据上学习的独立向量分析会聚滤波器射束图的实例。图19说明在后左侧(BL)1917方向、后右侧(BR)1919方向、前左侧(FL)1921方向及前右侧(FR)1923方向上的在精细移动扬声器数据上学习的独立向量分析会聚滤波器射束图的实例。这些实例与图18中所示的相同,除了前右侧射束图之外。
使用独立向量分析训练四麦克风滤波器的过程可包含射束发射朝向所要方向,但还是未朝向干涉方向。举例来说,用于前左侧(FL)方向的滤波器会聚到包含以下射束的解决方案:所述射束朝向前左侧(FL)方向及在前右侧(FR)、后左侧(BL)及后右侧(BR)方向上为空的。如果已知精确的麦克风阵列几何形状,那么可确切地进行此类训练操作。或者,独立向量分析过程可用丰富的训练数据来执行,其中一或多个音频源(例如,话音、音乐器材等)位于每一拐角处且由四麦克风阵列捕捉。在此情况下,可不管麦克风配置(即,不需要关于麦克风几何形状的信息)来执行训练过程一次,且滤波器可在稍后时间针对特定阵列配置为固定的。只要阵列包含在投影二维(x-y)平面中的四个麦克风,就可应用此学习处理的结果以产生适当的四拐角滤波器组。如果所述阵列的麦克风布置在两个正交或几乎正交的轴(例如,与正交相差15度内)上,那么此类经训练滤波器可用以在没有特定麦克风阵列配置的约束下记录环绕声图像。举例来说,如果两个轴非常接近正交,那么三麦克风阵列足矣,且每一轴上的麦克风之间的分隔之间的比率并不重要。
如上所述,高清晰度信号可通过空间处理低频且通过高频项而获得。然而,如果计算复杂性的增加并非特定设计的重要问题,那么可代替执行整个频率区域的处理。因为四麦克风独立向量分析方法更多地聚焦在空位而非射束发射上,所以所述高频项中的混叠效应可减少。空混叠可发生在射束发射方向中的少数频率下,使得射束发射方向中的大部分频率区域可保持不被空混叠影响,尤其对于小的麦克风间距离。对于较大麦克风间距离,空位可实际上变得随机化,使得所述效应类似于正好通过未经处理高频项的情况。
对于小的形状因子(例如,手持式装置102),可需要避免执行低频下的空间滤波,这是因为麦克风间隔可能太小而不能支持良好结果,且高频下的性能可能折衷。同样地,可需要避免执行高频下的空间滤波,这是因为此类频率通常已经定向,且滤波可对于空间混叠频率以上的频率无效。
如果使用少于四个麦克风,那么可难以在三个其它拐角形成空位(例如,由于不足的自由度)。在此情况下,可需要使用替代方案,例如如参考图14、21及22论述的端射式配对。
图20说明组合端射式射束的方法2000流程图。在一个实例中,无线通信装置102可应用2002在一个端射式方向上的射束。无线通信装置102可应用2004在另一端射式方向上的射束。在一些实例中,麦克风104a-e对可应用在端射式方向上的射束。接着,无线通信装置102可组合2006滤波信号。
图21说明用于在一般双对麦克风情况中组合射束的方法2100的流程图。在一个实例中,第一麦克风104a-e对可应用2102在第一方向上的射束。第二麦克风104a-e对可应用2104在第二方向上的射束。接着,无线通信装置102可组合2106滤波信号。
图22说明在三麦克风情况中组合射束的方法2200的流程图。在此实例中,第一麦克风104a及第二麦克风104b可应用2202在第一方向上的射束。第二麦克风104b及第三麦克风104c可应用2204在第二方向上的射束。接着,无线通信装置102可组合2206滤波信号。每一对端射式射束形成可具有+90及-90度的聚焦区。作为实例,为具有前面(前后对的+90)左边(左右对的+90),可使用均具有+90度聚焦区的两端射式射束形成的组合。
图23为使用四通道盲源分离的四个麦克风2304a-d(例如,第一麦克风通道2304a、第二麦克风通道2304b、第三麦克风通道2304c及第四麦克风通道2304d)的阵列的框图。麦克风2304a-d通道可各自耦合到四个滤波器2324a-d中的每一者。为充分利用五个扬声器,可通过(例如)经由第一滤波器2324a及第二滤波器2324b的输出而组合前右侧通道2304a及左通道2304b而获得前中心通道2304e。
图24说明用于盲源分离滤波器组2426的部分路由图。四个麦克风2404(例如,第一麦克风2404a、第二麦克风2404b、第三麦克风2404c及第四麦克风2404d)可耦合到滤波器组2426以产生在前左侧(FL)方向、前右侧(FR)方向、后左侧(BL)方向及后右侧(BR)方向上的音频信号。
图25说明用于2×2滤波器组2526的路由图。四个麦克风2504(例如,第一麦克风2504a、第二麦克风2504b、第三麦克风2504c及第四麦克风2504d)可耦合到滤波器组2526以产生在前左侧(FL)方向、前右侧(FR)方向、后左侧(BL)方向及后右侧(BR)方向上的音频信号。请注意,在2×2滤波器组的输出处,3-D音频信号FL、FR、BR及BL为输出。如图23中所说明,可从其它滤波器中的两者(第一及第二滤波器)的组合再现中央通道。
此描述包含使用多个全向麦克风2504a-d来提供来自所记录信号的5.1通道记录的揭示内容。可需要使用多个全向麦克风2504a-d来产生来自所捕捉信号的双耳记录。举例来说,如果没有来自用户侧的5.1通道环绕***,那么可需要将5.1通道降混到立体声双耳记录,使得用户可具有处于具有环绕声***的实际听觉空间中的体验。而且,此能力可提供其中用户可在其记录地点上的场景的同时监视环绕记录及/或使用立体声头戴式耳机代替家庭影院***而在其移动装置上播放所记录视频及环绕声的选项。
本文所述的***及方法可提供来自全向麦克风2504a-d的阵列的定向声音源,其意图经过位于起居室空间中的指定位置(FL、FR、C、BL(或左环绕)及BR(或右环绕))处的扩音器来播放。使用头戴受话器再现此情形的一个方法可包含测量每一扩音器到位于所要听觉空间中的每一耳朵内部的麦克风2504a-d的双耳脉冲响应(BIR)(例如,双耳转移函数)的离线过程。双耳脉冲响应可编码听觉路径信息,包含用于扩音器阵列及两耳朵当中的每个源接收器对的来自每一扩音器的直接路径以及反射路径。小的麦克风2504a-d可位于针对人耳内部,或使用例如具有硅胶耳朵的头部及躯干模拟器(例如,HATS、布吕埃尔(Bruel)及克亚尔(Kjaer)、DK)的仿真头部。
对于双耳再现,所测量双耳脉冲响应可与用于指定扩音器位置的每一定向声音源卷积。在将所有定向源与双耳脉冲响应卷积之后,可将用于每一耳朵记录的结果求和。在此情况下,复制人耳所捕捉的左边及右边信号的两通道(例如,左边及右边)可经由头戴受话器来播放。请注意,来自全向麦克风2504a-d的阵列的5.1环绕产生可用作从阵列到双耳再现的经过点。因此,此方案可取决于产生经过点的方式而普及。举例来说,较多定向源由阵列所捕捉的信号产生,其可用作具有从所要扩音器位置到耳朵的近似测量的双耳脉冲响应的经过点。
可需要在便携式音频感测装置内执行如本文描述的方法,所述装置具有经配置以接收听觉信号的两个或两个以上麦克风2504a-d的阵列。可经实施以包含此类阵列及可用于音频记录及/或语音通信应用的便携式音频感测装置的实例包含:电话手机(例如,蜂窝式电话手机);有线或无线头戴式耳机(例如,蓝牙头戴式耳机);手持式音频及/或视频记录器;经配置以记录音频及/或视频内容的个人媒体播放器;个人数字助手(PDA)或其它手持式计算装置;及笔记型计算机、膝上型计算机、迷你笔记型计算机、平板计算机或其它便携式计算装置。便携式计算装置的种类当前包含具有以下名称的装置:例如膝上型计算机、笔记型计算机、迷你笔记型计算机、超便携式计算机、平板计算机、移动因特网装置、智能本及智能电话。此类装置可具有包含显示屏幕的顶部面板及可包含键盘的底部面板,其中两面板可以蛤壳式或其它铰接关系来连接。可将此类装置类似地实施为在顶部表面上包含触摸屏显示器的平板计算机。可经建构以执行此类方法及包含阵列实例且可用于音频记录及/或语音通信应用的音频感测装置的其它实例包含机顶盒及音频及/或视频会议装置。
图26A说明根据一般配置的多麦克风音频感测装置2628的框图。音频感测装置2628可包含本文所揭示的麦克风阵列2630的实施方案中的任一者以及可实施为音频感测装置2628的实例的本文所揭示的音频感测装置中的任一者的实例。音频感测装置2628还可包含可经配置以通过执行如本文所揭示的方法中的一或多者的实施方案而处理多通道音频信号(MCS)的设备2632。设备2632可经实施为硬件(例如,处理器)与软件及/或与固件的组合。
图26B说明可为装置2628的实施方案的通信装置2602的框图。无线通信装置2602可包含芯片或芯片组2634(例如,移动站调制解调器(MSM)芯片组),其包含设备2632。芯片/芯片组2634可包含一或多个处理器。芯片/芯片组2634还可包含阵列2630的处理元件(例如,下文论述的音频预处理级的元件)。芯片/芯片组2634还可包含:接收器,其可经配置以接收射频(RF)通信信号且解码及复制在所述RF信号内编码的音频信号;及发射器,其可经配置以编码可基于设备2632所产生的经处理信号的音频信号,且发射描述经编码音频信号的RF通信信号。举例来说,芯片/芯片组2634的一或多个处理器可经配置以在多通道信号的一或多个通道上执行如上所述的噪声减少操作,使得经编码音频信号是基于噪声减少的信号。
阵列2630的每一麦克风可具有为全向、双向或单向(例如,心脏线)的响应。可用于阵列2630中的各种类型的麦克风可包含(非限制)压电麦克风、动态麦克风及驻极体麦克风。在用于便携式语音通信的装置(例如手机或头戴式耳机)中,阵列2630的相邻麦克风之间的中心到中心间隔可在从约1.5cm到约4.5cm的范围中,但较大间隔(例如,高达10或15cm)在例如手机或智能电话的装置中也是可能的,且甚至更大间隔(例如,高达20、25或30cm或30cm以上)在例如平板计算机的装置中可是可能的。阵列2630的麦克风可沿着线(具有均匀或非均匀麦克风间隔)经布置,或者,使得其中心位于二维(例如,三角形)或三维形状的顶点处。
明确指出,可将麦克风较大体实施为对除了声音之外的辐射或发射敏感的换能器。在一个此类实例中,可将麦克风对实施为一对超声波换能器(例如,对大于十五、二十、二十五、三十、四十或五十千赫或五十千赫以上的声频敏感的换能器)。
在多麦克风音频感测装置2628的操作期间,阵列2630可产生多通道信号,其中每一通道是基于麦克风中的对应一者对声学环境的响应。一个麦克风可比另一麦克风更直接地接收特定声音,使得对应通道彼此不同以共同提供比可使用单个麦克风所捕捉的更完整的声学环境的表示。在一些实施方案中,芯片组2634可耦合到一或多个麦克风2604a-b、扩音器2610、一或多个天线2603a-b、显示器2605及/或小键盘2607。
图27A为经配置以执行一或多个操作的麦克风2704a-b的阵列2730的框图。可需要阵列2730对麦克风2704a-b所产生的信号执行一或多个处理操作,以产生多通道信号。阵列2730可包含音频预处理级2736,其经配置以执行一或多个此类操作,可包含(非限制)阻抗匹配、模拟/数字转换、增益控制、及/或模拟及/或数字域中的滤波。
图27B为经配置以执行一或多个操作的麦克风阵列2730的另一框图。阵列2730可包含音频预处理级2736,其可包含模拟预处理级2738a及2738b。在一个实例中,级2738a及2738b可各自经配置以对对应麦克风信号执行高通滤波操作(例如,具有50、100或200Hz的截止频率)。
可需要阵列2730产生作为数字信号的多通道信号,也就是说,作为样本序列。举例来说,阵列2730可包含模拟/数字转换器(ADC)2740a及2740b,其各自经配置以对对应模拟通道取样。用于声学应用的典型取样速率可包含8kHz、12kHz、16kHz及从约8kHz到约16kHz的范围中的其它频率,但还可使用高达约44kHz的取样速率。在此特定实例中,阵列2730还可包含数字预处理级2742a及2742b,其各自经配置以对对应数字化通道执行一或多个预处理操作(例如,回声消除、噪声减少及/或频谱塑形),以产生多通道信号MCS的对应通道MCS-1、MCS-2。尽管图27A及27B展示两通道实施方案,但将理解可将相同原理扩展到任意数目个麦克风2704a-b及多通道信号MCS的对应通道。
用于沉浸式音频再现的当前格式包含(a)双耳3D、(b)听觉传输型(transaural)3D、及(c)5.1/7.1环绕声。对于双耳及听觉传输型3D两者,通常仅发射立体声通道/信号。对于环绕声,可发射不仅仅立体声信号。本发明提出一种用于发射不止立体声用于环绕声的用于移动装置中的译码方案。
当前***可发射如图1所说明的“B格式音频”,来自音频工程社会杂志,第57卷、第9期、2009年9月。B格式音频具有有4个通道的1个经过点,且要求特殊记录设置。其它***聚焦于广播而非语音通信。
本发明的***及方法具有用于实时通信***中的四个经过点,其中经过点可存在于环绕声***的四个拐角(例如,前左侧、前右侧、后左侧及后右侧)中的每一者处。这四个拐角的声音发射可一起或独立地完成。在这些配置中,可使用任何数目个话音编解码器来压缩四个音频信号。在一些情况下,可不需要记录设置(例如,用于B格式音频中的设置)。可省略z轴。进行此并不会使信号降级,因为信息仍可由人耳辨别。
新的译码方案能够提供具有失真的压缩,主要限于话音编解码器所固有的失真。最终音频输出可针对可能扩音器放置而内插。另外,其可与其它格式兼容,例如B格式(除了z轴及双耳记录之外)。此外,新的译码方案可受益于使用与位于大多数移动装置的音频路径中的话音编解码器串联工作的回声消除器的使用,这是因为四个音频信号可主要是不正确的。
本发明的***及方法可处理实时通信的问题。在一些实例中,可将来自高达某些上带(UB)频率(例如,[LB,UB])的某些低带(LB)频率的频带发射作为个别通道。可取决于可用通道容量来发射某些上带(UB)频率以上到奈奎斯特(Nyquist)频率(例如,[UB,NF]))的不同通道。举例来说,如果四个通道可用,那么可发射四个音频通道。如果两个通道可用,那么可在平均前面两个及后面两个通道之后发射前面及后面通道。如果一个通道可用,那么了发射所有麦克风输入的平均值。在一些配置中,未发射通道,且可使用类似于频带复制的技术来从低带(例如,[LB,UB])产生高带(例如,[UB,NF])。对于低带频率(LB)以下的那些带(例如,[0,LB]),可发射所有麦克风输入的平均值。
在一些实例中,音频信号的编码可包含选择性编码。举例来说,如果用户想要发送一个特定定向源,(例如,用户的语音),那么无线通信装置可通过最小化其它通道的动态范围以及减少其它方向的能量来分配较多译码位资源用于所述方向。另外或替代地,如果用户对特定定向源(例如,用户的语音)有兴趣,那么无线通信装置可发射一个或两个通道。
图28说明一或多个音频信号2844a-d的频带的图表。音频信号2844a-d可表示从不同方向接收的音频信号。举例来说,一个音频信号2844a可为来自环绕声***中的前左侧(FL)方向的音频信号,另一音频信号2844b可为来自后左侧(BL)方向的音频信号,另一音频信号2844c可为来自前右侧(FR)方向的音频信号,及另一音频信号2844d可为来自后右侧(BR)方向的音频信号。
根据一些配置,音频信号2844a-d可分为一或多个带。举例来说,前左侧音频信号2844a可分为带1A 2846a、带1B 2876a、带2A 2878a、带2B 2880a及带2C 2882a。其它音频信号2844b-d可类似地划分。如本文所使用的术语“带1B”可指介于某一低带频率(LB)与某一上带频率(UB)(例如,[LB,UB])之间的频带。音频信号2844a-d的带可包含一或多个类型的带。举例来说,音频信号2844a可包含一或多个窄带信号。在一些实施方案中,窄带信号可包含带1A 2846a-d及带1B 2876a-d的一部分(例如,带1B2876a-d的小于4kHz的部分)。换句话说,如果某一上带频率(UB)大于4kHz,那么带1B 2876a-d可大于窄带信号。在其它实施方案中,窄带信号可包含带1A 2846a-d、带1B 2876a-d及带2A 2878a-d的一部分(例如,带2A 2878a-d的小于4kHz的部分)。音频信号2844a还可包含一或多个非窄带信号(例如,带2A 2878a的一部分(大于4kHz的部分)、带2B 2880a及带2C 2882a)。如本文所使用,术语“非窄带”指非窄带信号的任何信号(例如,宽带信号、超宽带信号及全带信号)。
所述带的范围可如下:带1A 2846a-d可跨距从0到200Hz。在一些实施方案中,带1A 2846a-d的上限可高达大约500Hz。带1B 2876a-d可跨距从带1A 2846a-d的最大频率(例如,200Hz或500Hz)高达大约6.4kHz。带2A 2878a-d可跨距从带1B 2876a-d的最大范围(例如,6.4kHz)及大约8kHz。带2B 2880a-d可跨距从带2A 2878a-d的最大范围(例如8kHz)高达大约16kHz。带2C 2882a-d可跨距从带2B 2880a-d的最大范围(例如,16kHz)高达大约24kHz。
在一些实施方案中,带1B 2876a-d的上限可取决于一或多个因数,包含(但不限于)麦克风的几何放置及麦克风的机械设计(例如,单向麦克风对全向麦克风)。举例来说,带1B 2876a-d的上限可在麦克风经定位较靠近在一起时与在麦克风经定位分开较远时不同。在此实施方案中,其它带(例如,带2A-C 2878a-d、2880a-d、2882a-d)可从带1B 2876a-d导出。
高达带1B 2876a-d的上部边界的频率范围可为窄带信号(例如,高达4kHz)或稍微高于窄带限制(例如,6.4KHz)。如上所述,如果带1B 2876a-d的上部边界小于窄带信号(例如,4kHz),那么带2A 2878a-d的一部分可包含窄带信号。通过比较,如果带1B2876a-d的上部边界大于窄带信号(例如,4kHz),那么带2A 2878a-d可不包含窄带信号。高达带2A 2878a-d的上部边界(例如,8kHz)的频率范围的一部分可为宽带信号(例如,大于4kHz的部分)。高达带2B 2880a-d上部边界(例如,16kHz)的频率范围可为超宽带信号。高达带2C 2882a-d的上部边界(例如,24kHz)的频率范围可为全带信号。
取决于网络的可用性及移动装置102中可用的话音编解码器的可用性,可使用编解码器的不同配置。当涉及压缩时,有时在音频编解码器与话音编解码器之间进行区分。话音编解码器可被称作语音编解码器。音频编解码器及话音编解码器具有不同的压缩方案,且压缩量可在两者之间广泛变化。音频编解码器可具有较佳保真度,但可在压缩音频信号2844a-d时需要较多位。因此,压缩比率(即,编解码器中的输入信号的位数目与编解码器的输出信号的位数目)对于音频编解码器比话音编解码器低。因此,由于小区(被多个基站覆盖的区域)中的空中带宽约束,所以在旧的2G(第二代)及3G(第三代)通信***中未使用音频编解码器来发射语音,这是因为发射话音包所需的位的数目是不合要求的。结果,在2G及3G通信***中或已使用话音编解码器来在从一个移动装置到另一移动装置的语音通道中在空中发射经压缩话音。
尽管音频编解码器存在于移动装置中,但音频包(即,通过音频编解码器进行的音频的压缩的描述)的发射已在空中数据通道上完成。音频编解码器的实例包含MPEG-2/AAC立体声、MPEG-4BSAC立体声、实时音频、SBC蓝牙、WMA及WMA 10Pro。应注意,这些音频编解码器可在3G***中的移动装置中发现,但经压缩音频信号并未在业务通道或语音通道上实时空中发射。话音编解码器用以实时压缩音频信号及空中发射。话音编解码器的实例包含AMR窄带话音编解码器(5.15kbp)、AMR宽带话音编解码器(8.85Kbps)、G.729AB话音编解码器(8kbps)、GSM-EFR话音编解码器(12.2kbps)、GSM-FR话音编解码器(13kbps)、GSM-HR话音编解码器(5.6kpbs)、EVRC-NB、EVRC-WB。经压缩话音(或音频)封装在声码器包中且在业务通道中在空中发送。话音编解码器有时称为声码器。在被空中发送之前,将声码器包***到较大的包中。在2G及3G通信中,在语音通道中发射语音,但还可使用VOIP(IP语音)在数据通道中发射语音。
取决于空中带宽,各种编解码器方案可用于编码上带(UB)频率与奈奎斯特频率(NF)之间的信号。图29-33中呈现这些方案的实例。
图29A说明使用四个全带编解码器2948a-d的第一配置的一个可能方案。如上所述,音频信号2944a-d可表示从不同位置接收的音频信号2944a-d(例如,前左侧音频信号2944a、后左侧音频信号2944b、前右侧音频信号2944c及后右侧音频信号2944d)。类似地,如上所述,音频信号2944a-d可分为一或多个带。通过使用全带编解码器2948a-d,音频信号2944a可包含带1A 2946a、带1B 2976a及带2A-2C 2984a。在一些情况下,所述带的频率范围可为先前所描述的频率范围。
在此实例中,每一音频信号2944a-d可使用用于压缩及发射音频信号2944a-d的各种带的全带编解码器2948a-d。举例来说,介于由某一低带频率(LB)及某一上带频率(UB)所界定的频率范围内的每一音频信号2944a-d的那些带(例如,包含带1B 2976a-d)可经滤波。根据此配置,对于包含大于某一上带频率(UB)及小于奈奎斯特频率(例如,带2A-2C 2984a-d)的频率的带,在最接近所要拐角位置2944a-d的麦克风处捕捉的原始音频信号可经编码。类似地,对于包含小于某一低带频率(LB)(例如,带1A 2946a-d)的频率的带,在最接近所要拐角位置2944a-d的麦克风处捕捉的原始音频信号可经编码。在一些配置中,编码在最接近所要拐角位置2944a-d的麦克风处捕捉的原始音频信号可表示带2A-2C 2984a-d的指定方向,这是因为其捕捉了麦克风通道之间的自然延迟及增益差异。在一些实例中,捕捉最接近所要位置的麦克风与经滤波范围之间的差异为:与经滤波频率区域相比,定向性的效应并非如此强烈。
图29B说明使用四个超宽带编解码器2988a-d的第一配置的一个可能方案。通过使用超宽带编解码器2988a-d,音频信号2944a-d可包含带1A 2946a-d、带1B 2976a-d及带2A-2B 2986a-d。
在此实例中,介于由某一低带频率(LB)及某一上带频率(UB)所界定的频率范围内的每一音频信号2944a-d的那些带(例如,包含带1B 2976a-d)可经滤波。根据此配置,对于包含大于某一上带频率(UB)及小于奈奎斯特频率(例如,带2A-2B 2986a-d)的频率的带,在最接近所要拐角位置2944a-d的麦克风处捕捉的原始音频信号可经编码。类似地,对于包含小于某一低带频率(LB)(例如,带1A 2946a-d)的频率的带,在最接近所要拐角位置2944a-d的麦克风处捕捉的原始音频信号可经编码。
图29C说明使用四个宽带编解码器2990a-d的第一配置的一个可能方案。通过使用宽带编解码器2990a-d,音频信号2944a-d可包含带1A 2946a-d、带1B 2976a-d及带2A 2978a-d。
在此实例中,介于由某一低带频率(LB)及某一上带频率(UB)所界定的频率范围内的每一音频信号2944a-d的那些带(例如,包含带1B 2976a-d)可经滤波。根据此配置,对于包含大于某一上带频率(UB)及小于奈奎斯特频率(例如,带2A 2978a-d)的频率的带,在最接近所要拐角位置2944a-d的麦克风处捕捉的原始音频信号可经编码。类似地,对于包含小于某一低带频率(LB)(例如,带1A 2946a-d)的频率的带,在最接近所要拐角位置2944a-d的麦克风处捕捉的原始音频信号可经编码。
图30A说明用于第二配置的可能方案,其中两个编解码器3094a-d具有平均音频信号。在一些实例中,不同编解码器3094a-d可用于不同音频信号3044a-d。举例来说,前左侧音频信号3044a及后左侧音频信号3044b可分别使用全带编解码器3094a、3094b。此外,前右侧音频信号3044c及后右侧音频信号3044d可使用窄带编解码器3094c、3094d。当图30A描绘两全带编解码器3094a、3094b及两窄带编解码器3094c、3094d时,可使用编解码器的任何组合,且本发明的***及方法并不受图30A中描绘的配置限制。举例来说,前右侧音频信号3044c及后右侧音频信号3044d可使用宽带或超宽带编解码器来代替图30A中描绘的窄带编解码器3094c-d。在一些实例中,如果上带频率(UB)大于窄带限制(例如,4kHz),那么前右侧音频信号3044c及后右侧音频信号3044d可使用宽带编解码器来改进空间译码效应或可在网络资源有限的情况下使用窄带编解码器。
在此配置中,全带编解码器3094a、3094b可平均前右侧音频信号3044c及后右侧音频信号3044d的某一上部边界以上的频率范围的一或多个音频信号3044a-d。举例来说,全带编解码器3094a、3094b可平均包含大于某一上带频率(UB)的频率的音频信号带(例如,带2A-2C 3092a、3092b)。来源于同一大体方向的音频信号3044a-d可一起被平均。举例来说,前左侧音频信号3044a及前右侧音频信号3044c可一起被平均,及后左侧音频信号3044b及后右侧音频信号3044d可被一起平均。
平均音频信号3044a-d的实例给定如下。前左侧音频信号3044a及后左侧音频信号3044b可使用全带编解码器3094a、3094b。在此实例中,前右侧音频信号3044c及后右侧音频信号3044d可使用窄带编解码器3094c、3094d。在此实例中,全带编解码器3094a、3094b可包含用于相应音频信号(例如,前左侧音频信号3044a及后左侧音频信号3044b)的某一低带频率(LB)与某一上带频率(UB)之间的那些经滤波带(例如,带1B3076a-b)。全带编解码器3094a、3094b还可平均含有类似定向的音频信号(例如,前音频信号3044a、3044c及后音频信号3044b、3044d)的某一上带频率(UB)以上的频率的音频信号带(例如,带2A-2C 3092a-b)。类似地,全带编解码器3094a、3094b可包含某一低带频率(LB)以下的带(例如,带1A 3046a-b)。
此外,在此实例中,窄带编解码器3094c、3094d可包含用于相应音频信号(例如,前右侧音频信号3044c、后右侧音频信号3044d)的含有介于某一低带频率(LB)与最大4kHz与某一上带频率(UB)之间的频率的那些经滤波带(例如,带1B 3076c、3076d)。窄带编解码器3094c、3094d还可包含用于相应音频信号(例如,前右侧音频信号3044c、后右侧音频信号3044d)的某一低带频率(LB)以下的带。在此实例中,如果某一上带频率(UB)小于4kHz,那么在最接近所要拐角位置3044a-d的麦克风处捕捉的原始音频信号可经编码。
如上所述,当图30A描绘两全带编解码器3094a、3094b及两窄带编解码器3094c、3094d时,可使用编解码器的任何组合。举例来说,两超宽带编解码器可替代两全带编解码器3094a、3094b。
图30B说明用于第二配置的可能方案,其中一或多个编解码器3094a-b、e-f具有平均音频信号。在此实例中,前左侧音频信号3044a及后左侧音频信号3044b可使用全带编解码器3094a、3094b。在此实例中,前右侧音频信号3044c及后右侧音频信号3044d可使用宽带编解码器3094e、3094f。在此配置中,全带编解码器3094a、3094b可平均上部边界以上的频率范围的一部分的一或多个音频信号3044a-d。举例来说,全带编解码器2094a、2094b可平均前右侧音频信号3044c及后右侧音频信号3044d的频率范围的一部分(例如,带2B 3092a、2C 3092b)的一或多个音频信号3044a-d。来源于同一大体方向的音频信号3044a-d可一起被平均。举例来说,前左侧音频信号3044a及前右侧音频信号3044c可一起被平均,及后左侧音频信号3044b及后右侧音频信号3044d可被一起平均。
在此实例中,全带编解码器3094a、3094b可包含带1A 3046a-b、带1B 3076a-b、带2A 3078a-b及平均带2B、2C 3092a-b。宽带编解码器3094e、3094f可包含用于相应音频信号(例如,前右侧音频信号3044c及后右侧音频信号3044d)的含有某一低带频率(LB)与某一上带频率(UB)之间的频率的那些经滤波带(例如,带1B 3076c-d)。宽带编解码器3094e、3094f还可包含在带2A 3078c-d的最接近麦克风信号处捕捉的原始音频信号。通过编码最接近麦克风信号,定向性仍可通过麦克风通道之间的内在时间及等级差来编码(尽管没有某一低带频率(LB)与某一上带频率(UB)之间的频率的空间处理那么戏剧化)。宽带编解码器3094e、3094f还可包含用于相应音频信号(例如,前右侧音频信号3044c及后右侧音频信号3044d)的某一低带频率(LB)以下的带(例如,带1A 3046c-d)。
图31A说明用于第三配置的可能方案,其中编解码器中的一或多者可平均一或多个音频信号。此配置中的平均的实例给定如下。前左侧音频信号3144a可使用全带编解码器3198a。后左侧音频信号3144b、前右侧音频信号3144c及后右侧音频信号3144d可使用窄带编解码器3198b、3198c、3198d。
在此实例中,全带编解码器3198a可包含用于音频信号3144a的含有介于某一低带频率(LB)与某一上带频率(UB)之间的频率的那些经滤波带(带1B 3176a)。全带编解码器3198a还可平均含有音频信号3144a-d的某一上带频率(UB)以上的频率的音频信号带(例如,带2A-2C 3192a)。类似地,全带编解码器3198a可包含某一低带频率(LB)以下的带(例如带1A 3146a)。
窄带编解码器3198b-d可包含用于相应音频信号(例如,3144b-d)的包含介于某一低带频率(LB)与最大4kHz与某一上带频率(UB)之间的频率的那些经滤波带(例如,带1B3176b-d)。窄带编解码器3198b-d还可包含用于相应音频信号(例如,3144b-d)的含有某一低带频率(LB)以下的频率的带(例如,带1A 3146b-d)。
图31B说明用于第三配置的可能方案,其中非窄带编解码器中的一或多者具有平均音频信号。在此实例中,前左侧音频信号3144a可使用全带编解码器3198a。后左侧音频信号3144b、前右侧音频信号3144c及后右侧音频信号3144d可使用宽带编解码器3194e、3194f及3194g。在此配置中,全带编解码器3198a可平均用于音频信号3144a-d的频率范围的一部分(例如,带2B-2C 3192a、3192b)的一或多个音频信号3144a-d。
在此实例中,全带编解码器3198a可包含带1A 3146a、带1B 3176a、带2A 3178a及带2B-2C 3192a。宽带编解码器3198e-g可包含用于相应音频信号(例如,3144b-d)的包含介于某一低带频率(LB)与某一上带频率(UB)之间的频率的那些经滤波带(例如,带1B 3176b-d)。宽带编解码器3198e-g还可包含用于某一上带频率(UB)以上的频率的在最接近所要拐角位置的麦克风处捕捉的原始音频信号(例如,带2A 3178b-d)。宽带编解码器3198e-g还可包含用于相应音频信号(例如,3144b-d)的含有某一低带频率(LB)以下的频率的带(例如,带1A 3146b-d)。
图32说明四个窄带编解码器3201a-d。在此实例中,含有介于某一低带频率(LB)与最大4kHz与某一上带频率(UB)之间的频率的那些带针对每一音频信号3244a-d而经滤波。如果某一上带频率(UB)小于4kHz,那么来自最接近麦克风的原始音频信号可针对大于高达4kHz的某一上带频率(UB)的频率范围而经编码。在此实例中,可产生四个通道,对应于每一音频信号3244a-d。每一通道可包含用于所述音频信号3244a-d的经滤波带(例如,至少包含带1B 3276a-d的一部分)。窄带编解码器3201a-d还可包含用于相应音频信号(例如,3244a-d)的含有某一低带频率(LB)以下的频率的带(例如,带1A3246a-d)。
图33为说明用于使用图29A、图29B或图29C的任何方案的四个非窄带编解码器来产生及接收音频信号包3376的方法3300的流程图。方法3300可包含记录3302四个音频信号2944a-d。在此配置中,可通过麦克风阵列来记录或捕捉四个音频信号2944a-d。作为实例,可使用图26及27中所说明的阵列2630、2730。所记录音频信号2944a-d可对应于接收音频的方向。举例来说,无线通信装置102可记录来自四个方向的四个音频信号(例如,前左侧2944a、后左侧2944b、前右侧2944c及后右侧2944d)。
无线通信装置102可接着产生3304音频信号包3376。在一些实施方案中,产生3304音频信号包3376可包含产生一或多个音频通道。举例来说,给定图29A的编解码器配置,介于某一低带频率(LB)与某一上带频率(UB)内的音频信号的带(例如,[LB,UB])可经滤波。在一些实施方案中,对这些带滤波可包含应用盲源分离(BSS)滤波器。在其它实施方案中,属于低带频率(LB)与上带频率(UB)内的音频信号2944a-d中的一或多者可成对组合。对于大于高达奈奎斯特频率的上带频率(UB)的带及对于小于低带频率(LB)的带,原始音频信号2944a-d可与经滤波音频信号组合为音频通道。换句话说,音频通道(对应于音频信号2944a-d)可包含某一低带频率(LB)与某一上带频率(UB)之间的经滤波带(例如,带1B 2976a-d)以及高达奈奎斯特频率的某一上带频率(UB)以上的原始带(例如,2A-2C 2984a-d)及低带频率(LB)以下的原始带(例如,带1A 2946a-d)。
产生3304音频信号包3376还可包含将一或多个非窄带编解码器应用到音频通道。根据一些配置,无线通信装置102可使用如图29A-C中描绘的编解码器的第一配置中的一或多者来编码音频通道。举例来说,给定图29A中描绘的编解码器,无线通信装置102可使用用于每一音频通道的全带编解码器2948a-d来编码四个音频通道。或者,图33中的非窄带编解码器可为如图29B中所说明的超宽带编解码器2988a-d或如图29C中所说明的宽带编解码器2990a-d。可使用编解码器的任何组合。
在产生音频信号包3376后,无线通信装置102可发射3306音频信号包3376到解码器。解码器可包含在音频输出装置中,例如无线通信装置102。在一些实施方案中,音频信号包3376可在空中发射。
解码器可接收3308音频信号包3376。在一些实施方案中,接收3308音频信号包3376可包含解码所接收的音频信号包3376。解码器可根据第一配置来进行此操作。根据上述实例绘制,解码器可使用用于每一音频通道的全带编解码器来解码音频通道。或者,解码器可取决于所产生的发射包3376而使用超宽带编解码器2988a-d或宽带编解码器2990a-d。
在一些配置中,接收3308音频信号包3376可包含重建构前中心通道。举例来说,接收音频输出装置可组合前左侧音频通道与前右侧音频通道以产生前中心音频通道。
接收3308音频信号包3376还可包含重建构超低音通道。此可包含将音频信号2944a-d中的一或多者通过低通滤波器。
接着可将所接收音频信号在音频输出装置上播放3310。在一些情况下,此可包含以环绕声格式播放音频信号。在其它情况下,音频信号可经下混且以立体声格式播放。
图34为说明用于使用四个编解码器(例如,来自图30A或图30B中的任一者)来产生及接收音频信号包3476的另一方法3400的流程图。方法3400可包含记录3402一或多个音频信号3044a-d。在一些实施方案中,此可结合图33根据描述来进行。无线通信装置102可接着产生3404音频信号包3476。在一些实施方案中,产生3404音频信号包3476可包含产生一或多个音频通道。举例来说,介于某一低带频率(LB)与某一上带频率(UB)内的音频信号3044a-d的带(例如,[LB,UB])可经滤波。在一些实施方案中,此可根据图33中的描述来进行。
在一些实施方案中,可产生四个低带通道(例如,对应于图30A或30B中所说明的四个音频信号3044a-d)。低带通道可包含音频信号3044a-d的[0,8]kHz之间的频率。这四个低带通道可包含某一低带频率(LB)与某一上带频率(UB)之间的滤波信号(例如,带1B 3076a-d)以及大于高达8kHz的某一上带频率(UB)的原始音频信号及四个音频信号3044a-d的低带频率(LB)以下的原始音频信号(例如,带1A 3046a-d)。类似地,可产生对应于平均前/后音频信号的两个高带通道。高带通道可包含从零高达24kHz的频率。高带通道可包含用于音频信号3044a-d的某一低带频率(LB)与某一上带频率(UB)之间的滤波信号(例如,带1B 3076a-d)以及大于高达8kHz的某一上带频率(UB)的原始音频信号及低带频率(LB)以下的原始音频信号(例如,四个音频信号3044a-d的带1A3046a-d)。高带通道还可包含8kHz以上的高达24kHz的平均音频信号。
产生3404音频信号包3476还可包含将一或多个编解码器3094a-f应用到音频通道。根据一些配置,无线通信装置102可使用如图30A及30B中描绘的编解码器3094a-f的第二配置中的一或多者来编码音频通道。
举例来说,给定如图30B中描绘的编解码器,无线通信装置102可分别使用全带编解码器3094a、3094b来编码前左侧音频信号3044a及后左侧音频信号3044b,及可分别使用宽带编解码器3094c、3094d来编码前右侧音频信号3044c及后右侧音频信号3044d。换句话说,可产生四个音频信号包3476。对于使用全带编解码器3094a、3094b的对应于音频信号3044a-d的包3476(例如,前左侧音频信号3044a及后左侧音频信号3044b),所述包3476可包含所述音频信号3044a-d(例如,音频信号3044a、3044b)的低带通道(例如,[0,8]kHz)以及在大体方向上高达平均音频信号3044a-d(例如,前音频信号3044a、3044c及后音频信号3044b、3044d)的高达24kHz(例如,全带编解码器3094a、3094b所允许的最大频率)的高带通道。对于使用宽带编解码器3094e-f的对应于音频信号3044a-d的音频信号包3476(例如前右侧音频信号3044c及后右侧音频信号3044d),音频信号包3476可包含所述音频信号3044a-d(例如,音频信号3044c、3044d)的低带通道(例如,[0,8]kHz)。
在产生音频信号信息后,无线通信装置102可发射3406音频信号信息。在一些实施方案中,此可结合图33根据描述来进行。
解码器可接收3408音频信号信息。在一些实施方案中,接收3408音频信号信息可包含解码所接收的音频信号信息。在一些实施方案中,此可结合图33根据描述来进行。给定图30B的编解码器方案,解码器可使用全带编解码器3094a、3094b来解码前左侧音频信号3044a及后左侧音频信号3044b,及可使用宽带编解码器3094e、3094f来解码前右侧音频信号3044b及后右侧音频信号3044d。音频输出装置还可使用如含于全带音频通道中的平均高带通道的一部分(例如,[8,24]kHz部分)来重建构宽带音频通道的[8,24]kHz范围,(例如,使用前右侧音频通道的前左侧音频信号的平均高带通道及使用后右侧音频通道的后左侧音频信号的平均高带通道)。
在一些配置中,接收3408音频信号信息可包含重建构前中心通道。在一些实施方案中,此可结合图33根据描述来进行。
接收3408音频信号信息还可包含重建构超低音信号。在一些实施方案中,此可结合图33根据描述来进行。
接着可将所接收音频信号在音频输出装置上播放3410。在一些实施方案中,此可结合图33根据描述来进行。
图35为说明用于使用四个编解码器(例如,来自图31A或图31B中的任一者)来产生及接收音频信号包3576的另一方法3500的流程图。方法3500可包含记录3502一或多个音频信号3144a-d。在一些实施方案中,此可结合图33根据描述来进行。
无线通信装置102可接着产生3504音频信号包3576。在一些实施方案中,产生3504音频信号包3576可包含产生一或多个音频通道。举例来说,介于某一低带频率(LB)与某一上带频率(UB)内的音频信号3144的带(例如,带1B 3176a-d)可经滤波。在一些实施方案中,此可根据图33中的描述来进行。
在一些实施方案中,可产生对应于四个音频信号3144的四个低带通道。在一些实施方案中,此可根据图34中的描述来进行。类似地,可产生对应于平均音频信号(例如,前左侧音频信号3144a、后左侧音频信号3144b、前右侧音频信号3144c及后右侧音频信号3144d)的高带通道。在一些实施方案中,此可根据图34中的描述来进行。
产生3504音频信号包3576还可包含将一或多个编解码器3198a-g应用到音频通道。根据一些配置,无线通信装置102可使用如图31A及31B中描绘的编解码器3198a-g的第三配置中的一或多者来编码音频通道。举例来说,给定如图31B中描绘的编解码器,无线通信装置102可使用全带编解码器3198a来编码前左侧音频信号3144a,及分别使用宽带编解码器3198e、宽带编解码器3198f及宽带编解码器3198g来编码后左侧音频信号3144b、前右侧音频信号3144c及后右侧音频信号3144d。换句话说,可产生四个音频信号包3576。
对于使用全带编解码器3198a的对应于音频信号3144a的包3576,所述包3576可包含音频信号3144a的低带通道及平均音频信号3144a-d的高达24kHz(例如,全带编解码器3198a所允许的最大频率)的高带通道。对于使用宽带编解码器3198e-g的对应于音频信号3144a-d的音频信号包3576(例如,音频信号3144b-d),音频信号包3576可包含音频信号3144a-d(例如,音频信号3144b-d)的低带通道及大于高达8kHz的某一上带频率(UB)的原始音频信号。
在产生音频信号信息后,无线通信装置102可发射3506音频信号信息。在一些实施方案中,此可结合图33根据描述来进行。
解码器可接收3508音频信号信息。在一些实施方案中,接收3508音频信号信息可包含解码所接收的音频信号信息。在一些实施方案中,此可结合图33根据描述来进行。音频输出装置还可使用如含于全带音频通道中的平均高带通道的一部分(例如,[8,24]kHz部分)来重建构宽带音频通道的[8,24]kHz范围。
在一些配置中,接收3508音频信号信息可包含重建构前中心通道。在一些实施方案中,此可结合图33根据描述来进行。
接收3508音频信号信息还可包含重建构超低音信号。在一些实施方案中,此可结合图33根据描述来进行。
接着可将所接收音频信号在音频输出装置上播放3510。在一些实施方案中,此可结合图33根据描述来进行。
图36为说明用于使用用以编码的四个窄带编解码器(例如,来自图29A、图29B或图29C)的组合与用以解码的四个宽带编解码器或窄带编解码器中的任一者而产生及接收音频信号包3676的另一方法3600的流程图。方法3600可包含记录3602一或多个音频信号2944。在一些实施方案中,此可结合图33根据描述来进行。
无线通信装置102可接着产生3604音频信号包3676。产生3604音频信号包3676可包含产生一或多个音频通道。在一些实施方案中,此可根据图33中的描述来进行。
产生3604音频信号包3676还可包含将一或多个非窄带编解码器(如图29A-C中所描绘)应用到音频通道。举例来说,无线通信装置102可使用图29B中描绘的宽带编解码器2988a-d来编码音频通道。
在产生音频信号包3676后,无线通信装置102可发射3606音频信号包3676到解码器。在一些实施方案中,此可根据图33中的描述来进行。
解码器可接收3608音频信号包3676。在一些实施方案中,接收3608音频信号包3676可包含解码所接收的音频信号包3676。解码器可使用一或多个宽带编解码器或一或多个窄带编解码器来解码音频信号包3676。音频输出装置还可使用宽带通道带宽扩展基于所接收音频信号包3676来重建构音频通道的[8,24]kHz范围。在此实例中没有从上带频率(UB)到奈奎斯特频率的发射是必要的。此范围可使用类似于频带复制(SBR)的技术而从低带频率到上带频率(UB)范围而产生。举例来说,可通过平均麦克风输入来发射低带频率(LB)以下的带。
在一些配置中,接收3608音频信号包3676可包含重建构前中心通道。在一些实施方案中,此可根据图33中的描述来进行。
接收3608音频信号包3676还可包含重建构超低音通道。在一些实施方案中,此可根据图33中的描述来进行。接着可将所接收音频信号在音频输出装置上播放3310。在一些实施方案中,此可根据图33中的描述来进行。
译码位可基于特定方向来指派或分布。此方向可由用户来选择。举例来说,用户的语音所来自的方向可具有指派到其的较多位。此可通过最小化其它通道的动态范围以及减少其它方向上的能量来执行。另外,在不同配置中,可产生环绕声的四个拐角的能量分布的可视化。哪个定向声音的用户选择应分配较多的位,即,声音较佳,或具有较佳所要声音方向可基于能量分布的可视化来选择。在此配置中,可用较多位来编码一个或两个通道,但发射一或多个通道。
图37为说明用于产生及接收音频信号包3776的另一方法3700的流程图,其中在编码期间对于一个或两个音频通道的不同位分配可基于用户选择。在一些实施方案中,在编码期间对于一个或两个音频信号的不同位分配可基于与环绕声***的四个方向的能量分布的可视化相关联的用户选择。在此实施方案中,在空中通道上发射四个经编码源。
方法3700可包含记录3702一或多个音频信号2944。在一些实施方案中,此可结合图33根据描述来进行。无线通信装置102可接着产生3704音频信号包3776。产生3704音频信号包3776可包含产生一或多个音频通道。在一些实施方案中,此可根据图33-36中的描述来进行。
产生3704音频信号包3776还可包含产生四个拐角(例如,四个音频信号2944a-d)的能量分布的可视化。根据此可视化,用户可选择哪个定向声音应分配较多位(例如,用户的语音所来自之处)。基于用户选择(例如,空间方向3878的指示),无线通信装置102可将较多位应用到编解码器(例如,图29A-C中描绘的编解码器)的第一配置的编解码器中的一者或两者。产生3704音频信号信息还可包含将一或多个非窄带编解码器应用到音频通道。在一些实施方案中,此可虑及用户选择而根据图33中的描述来进行。
在产生音频信号包3776后,无线通信装置102可发射3706音频信号包3776到解码器。在一些实施方案中,此可结合图33根据描述来进行。解码器可接收3708音频信号信息。在一些实施方案中,此可结合图33根据描述来进行。
接着可将所接收音频信号在音频输出装置上播放3710。在一些实施方案中,此可结合图33根据描述来进行。类似地,如果用户对特定定向源感兴趣(例如,用户的语音、或用户集中感兴趣的某一其它声音),那么可执行一个或两个通道的发射。在此配置中,编码并发射一个通道。
图38为说明用于产生及接收音频信号包3876的另一方法3800的流程图,其中基于用户选择来压缩及发射一个音频信号。方法3800可包含记录3802一或多个音频信号2944a-d。在一些实施方案中,此可结合图33根据描述来进行。
无线通信装置102可接着产生3804音频信号包3876。产生3804音频信号包3876可包含产生一或多个音频通道。在一些实施方案中,此可根据图33-36中的描述来进行。产生3804音频信号包3876还可包含产生四个拐角(例如,四个音频信号2944a-d)的能量分布的可视化。根据此可视化,用户可选择哪个定向声音(例如,空间方向3878的指示)应被编码及发射(例如,用户的语音所来自之处)。产生3804音频信号信息还可包含将一非窄带编解码器(如图29A-C中所描绘)应用到选定音频通道。在一些实施方案中,此可虑及用户选择而结合图33中的描述来进行。
在产生音频信号信息后,无线通信装置102可发射3806音频信号包3876到解码器。在一些实施方案中,此可结合图33根据描述来进行。连同音频信号包3876一起,无线通信装置可发射3806通道识别。
解码器可接收3808音频信号信息。在一些实施方案中,此可结合图33根据描述来进行。
接着可将所接收音频信号在音频输出装置上播放3810。在一些实施方案中,所接收音频信号可结合图33根据描述来播放3810。通过编码及解码用户界定的通道及使其它通道输出归零,可使用多通道再现及/或头戴受话器呈现***来产生增强但空间化输出。
图39为说明无线通信装置3902的实施方案的框图,其可经实施以产生包括编解码器组合3974a-d的四个配置的音频信号包3376。通信装置3902可包含阵列3930,类似于先前所述的阵列2630。阵列3930可包含类似于先前所述的麦克风的一或多个麦克风3904a-d。举例来说,阵列3930可包含接收来自四个记录方向(例如,前左侧、前右侧、后左侧及后右侧)的四个麦克风3904a-d。
无线通信装置3902可包含耦合到麦克风阵列3930的存储器3950。存储器3950可接收麦克风阵列3930所提供的音频信号。举例来说,存储器3950可包含关于四个所记录方向的一或多个数据集。换句话说,存储器3950可包含用于前左侧麦克风3904a音频信号、前右侧麦克风3904b音频信号、后右侧麦克风3904c音频信号及后左侧麦克风3904d音频信号的数据。
无线通信装置3902还可包含接收处理信息的控制器3952。举例来说,控制器3952可接收到用户接口中的用户信息输入。更具体来说,用户可指示所要的记录方向。在其它实例中,用户可指示一或多个音频通道以分配较多处理位,或用户可指示将编码及发射哪个音频通道。控制器3952还可接收带宽信息。举例来说,带宽信息可向控制器3952指示分配到无线通信装置3902的用于发射音频信号信息的带宽(例如,全带、超宽带、宽带及窄带)。
基于来自控制器3952的信息,(例如,用户输入及带宽信息)及存储在存储器3950中的信息,通信装置3902可从一或多个编解码器配置3974a-d中选择特定配置以应用到音频通道。在一些实施方案中,存在于无线通信装置上的编解码器配置3974a-d可包含图29A-C的第一配置、图30A-B的第二配置、图31A-B的第三配置及图32的配置。举例来说,无线通信装置3902可使用图29A的第一配置的来编码音频通道。
图40为说明无线通信装置4002的实施方案的框图,其包括类似于图29A-C的非窄带编解码器的四个非窄带编解码器4048a-d的配置4074以压缩音频信号。无线通信装置4002可包含麦克风4004a-d的阵列4030、存储器4050、控制器4052、或这些元件(对应于先前所描述的元件)的某一组合。在此实施方案中,无线通信装置4002可包含用以编码音频信号包3376的编解码器4048a-d的配置4074。举例来说,无线通信装置4002可包含且实施如图29B中描绘的一或多个宽带编解码器2990a-d以编码音频信号信息。或者,可使用全带编解码器2948a-d或超宽带编解码器2988a-d。无线通信装置4002可发射音频信号包4076a-d(例如,FL、FR、BL及BR包)到解码器。
图41为说明包括编解码器组合的四个配置4174a-d的通信装置4102的实施方案的框图,其中可使用任选编解码器预滤波器4154。无线通信装置4102可包含麦克风4104a-d的阵列4130、存储器4150、控制器4152、或这些元件(对应于先前所描述的元件)的某一组合。编解码器预滤波器4154可使用来自控制器4152的信息来控制将什么音频信号数据存储在存储器中,且因此,控制哪些数据经编码及发射。
图42为说明包括编解码器组合的四个配置4274a-d的通信装置4202的实施方案的框图,其中任选滤波可作为滤波器组阵列4226的一部分而发生。无线通信装置4202可包含麦克风4204a-d、存储器4250、控制器4252、或这些元件(对应于先前所描述的元件)的某一组合。在此实施方案中,任选滤波可作为滤波器组阵列4226的一部分而发生,其中4226类似地对应于先前描述的元件。
图43为说明包括编解码器组合的四个配置4374a-d的通信装置4302的实施方案的框图,其中来自听觉场景的声源数据可在用编解码器配置4374a-d中的一者编码之前与来自一或多个滤波器的数据混合。无线通信装置4302可包含麦克风的阵列4330、存储器4350及/或控制器4352、或这些元件(对应于先前所描述的元件)的某一组合。在一些实施方案中,无线通信装置4302可包含一或多个混频器4356a-d。一或多个混频器4356a-d可在用编解码器配置中的一者编码之前使音频信号与来自一或多个滤波器的数据混频。
图44为说明用于使用集成编解码器来编码多方向音频信号的方法4400的流程图。方法4400可通过无线通信装置102来执行。无线通信装置102可记录4402的多个定向音频信号。多个定向音频信号可由多个麦克风记录。举例来说,位于无线通信装置102上的多个麦克风可记录来自前左侧方向、后左侧方向、前右侧方向、后右侧方向或某一组合的定向音频信号。在一些情况下,无线通信装置102(例如)经由用户接口312基于用户输入而记录4402多个定向音频信号。
无线通信装置102可产生4404多个音频信号包3376。在一些配置中,音频信号包3376可基于多个音频信号。多个音频信号包3376可包含平均信号。如上所述,产生4404多个音频信号包3376可包含产生多个音频通道。举例来说,可将多个定向音频信号的一部分压缩及在空中发射为多个音频通道。在一些情况下,经压缩的定向音频信号的数目可不等于所发射的音频通道的数目。举例来说,如果四个定向音频信号经压缩,那么所发射的音频通道的数目可等于三。音频通道可对应于一或多个定向音频信号。换句话说,无线通信装置102可产生对应于前左侧音频信号的前左侧音频通道。多个音频通道可包含经滤波频率范围(例如,带1B)及未经滤波频率范围(例如,带1A、2A、2B及/或2C)。
产生4404多个音频信号包3376还可包含将编解码器应用到音频通道。举例来说,无线通信装置102可将全带编解码器、宽带编解码器、超宽带编解码器或窄带编解码器中的一或多者应用到多个音频信号。更具体来说,无线通信装置102可在低带中压缩至少一个定向音频信号,及可在高带中压缩不同定向音频信号。
在一些实施方案中,产生4404多个音频信号包3376可基于所接收输入。举例来说,无线通信装置102可接收来自用户的输入以确定编解码器的位分配。在一些情况下,位分配可基于待被压缩的方向的能量的可视化。无线通信装置102还可接收与压缩定向音频信号相关联的输入。举例来说,无线通信装置102可接收来自用户的关于压缩(及空中发射)哪个定向音频信号的输入。在一些情况下,输入可指示哪个定向音频信号应具有较佳音频质量。在这些实例中,输入可基于用户的手部的手势,例如通过触摸无线通信装置的显示器。类似地,输入可基于无线通信装置的移动。
在产生音频信号包3376后,无线通信装置102可发射4406多个音频信号包3376到解码器。无线通信装置102可在空中发射4406多个音频信号包3376。在一些配置中,解码器包含在无线通信装置102中,例如音频感测装置。
图45为说明用于音频信号处理的方法4500的流程图。方法4500可通过无线通信装置102来执行。无线通信装置102可捕捉4500听觉场景。举例来说,多个麦克风可捕捉来自多个定向源的音频信号。无线通信装置102可估计每一音频信号的到达方向。在一些实施方案中,无线通信装置102可选择记录方向。选择记录方向可基于便携式音频感测装置的定向(例如,无线通信装置上的麦克风)。另外或替代地,选择记录方向可基于输入。举例来说,用户可选择应具有较佳音频质量的方向。无线通信装置102可将听觉场景分解4504为至少四个音频信号。在一些实施方案中,音频信号对应于四个独立方向。举例来说,第一音频信号可对应于前左侧方向,第二音频信号可对应于后左侧方向,第三音频信号可对应于前右侧方向,及第四音频信号可对应于后右侧方向。无线通信装置102还可压缩4506至少四个音频信号。
在一些实施方案中,分解4504听觉场景可包含将音频信号分割为一或多个频率范围。举例来说,无线通信装置可将音频信号分割为第一窄带频率范围集合及第二宽带频率范围集合。另外,无线通信装置可压缩与窄带频率范围集合中的第一频带相关联的音频样本。在压缩音频样本后,无线通信装置可发射经压缩音频样本。
无线通信装置102还可应用第一端射式方向中的射束以获得第一滤波信号。类似地,第二端射式方向中的第二射束可产生第二滤波信号。在一些情况下,射束可适用于介于低阈值与高阈值之间的频率。在这些情况下,阈值中的一者(例如,低阈值或高阈值)可基于麦克风之间的距离。
无线通信装置可组合第一滤波信号与第二滤波信号的延迟版本。在一些情况下,第一及第二滤波信号可各自具有两通道。在一些情况下,滤波信号(例如,第一滤波信号及第二滤波信号)的一个通道可相对于其它通道延迟。类似地,组合信号(例如,第一滤波信号与第二滤波信号的组合)可具有可相对于彼此延迟的两通道。
无线通信装置102可包含产生第一空间滤波信号。举例来说,无线通信装置102可将具有第一方向的射束的滤波器应用到第一麦克风对所产生的信号。以类似方式,无线通信装置102可产生第二空间滤波信号。在一些情况下,第一麦克风对(例如,用以产生所述第一空间滤波信号的麦克风)的轴可至少实质上与第二麦克风对(例如,用以产生第二空间滤波信号的麦克风)的轴正交。无线通信装置102可接着组合第一空间滤波信号与第二空间滤波信号以产生输出信号。输出信号可对应于不同于第一空间滤波信号及第二空间滤波信号的方向的方向。
无线通信装置还可记录一输入通道。在一些实施方案中,输入通道可对应于阵列中的多个麦克风中的每一者。举例来说,输入通道可对应于四个麦克风的输入。可将多个多通道滤波器应用于输入通道以获得输出通道。在一些情况下,多通道滤波器可对应于多个观看方向。举例来说,四个多通道滤波器可对应于四个观看方向。应用一个观看方向中的多通道滤波器可包含应用其它观看方向中的空射束。在一些实施方案中,多个麦克风中的第一对的轴可与多个麦克风中的第二对的轴的正交小于十五度。
如上所述,应用多个多通道滤波器可产生一输出通道。在一些情况下,无线通信装置102可处理所述输出通道以产生基于双耳信号的总和的双耳记录。举例来说,无线通信装置102可将双耳脉冲响应应用到输出通道。此可产生可用以产生双耳记录的双耳信号。
图46为说明用于编码三维音频的方法4600的流程图。方法4600可通过无线通信装置102来执行。无线通信装置102可检测4602多个可定位音频源的空间方向的指示。如本文所使用,术语“可定位”指来自特定方向的音频源。举例来说,可定位音频源可为来自前左侧方向的音频信号。无线通信装置102可确定可定位音频源的数目。此可包含估计每一可定位音频源的到达方向。在一些情况下,无线通信装置102可检测来自用户接口312的指示。举例来说,用户可基于来自无线通信装置302的用户接口312的用户输入来选择一或多个空间方向。用户输入的实例包含用户的手部的手势(例如,在无线通信装置的触摸屏上,无线通信装置的移动)。
无线通信装置102可接着记录4604与可定位音频源相关联的多个音频信号。举例来说,位于无线通信装置102上的一或多个麦克风可记录4604来自前左侧、前右侧、后左侧及/或后右侧方向的音频信号。
无线通信装置102可编码4606多个音频信号。如上所述,无线通信装置102可使用任何数目个编解码器以编码信号。举例来说,无线通信装置102可使用全带编解码器来编码4606前左侧及后左侧音频信号,及可使用宽带编解码器来编码4606前右侧及后右侧音频信号。在一些情况下,无线通信装置102可根据三维音频编码方案来编码多通道信号。举例来说,无线通信装置102可使用结合图29-32所描述的配置方案中的任一者来编码4606多个音频信号。
无线通信装置102还可应用第一端射式方向中的射束以获得第一滤波信号。类似地,第二端射式方向中的第二射束可产生第二滤波信号。在一些情况下,射束可适用于介于低阈值与高阈值之间的频率。在这些情况下,阈值中的一者(例如,低阈值或高阈值)可基于麦克风之间的距离。
无线通信装置可组合第一滤波信号与第二滤波信号的延迟版本。在一些情况下,第一及第二滤波信号可各自具有两通道。在一些情况下,滤波信号(例如,第一滤波信号及第二滤波信号)的一个通道可相对于其它通道延迟。类似地,组合信号(例如,第一滤波信号与第二滤波信号的组合)可具有可相对于彼此延迟的两通道。
无线通信装置102可包含产生第一空间滤波信号。举例来说,无线通信装置102可将具有第一方向的射束的滤波器应用到第一麦克风对所产生的信号。以类似方式,无线通信装置102可产生第二空间滤波信号。在一些情况下,第一麦克风对(例如,用以产生所述第一空间滤波信号的麦克风)的轴可至少实质上与第二麦克风对(例如,用以产生第二空间滤波信号的麦克风)的轴正交。无线通信装置102可接着组合第一空间滤波信号与第二空间滤波信号以产生输出信号。输出信号可对应于不同于第一空间滤波信号及第二空间滤波信号的方向的方向。
无线通信装置还可记录一输入通道。在一些实施方案中,输入通道可对应于阵列中的多个麦克风中的每一者。举例来说,输入通道可对应于四个麦克风的输入。可将多个多通道滤波器应用于输入通道以获得输出通道。在一些情况下,多通道滤波器可对应于多个观看方向。举例来说,四个多通道滤波器可对应于四个观看方向。应用一个观看方向中的多通道滤波器可包含应用其它观看方向中的空射束。在一些实施方案中,多个麦克风中的第一对的轴可与多个麦克风中的第二对的轴的正交小于十五度。
如上所述,应用多个多通道滤波器可产生一输出通道。在一些情况下,无线通信装置102可处理所述输出通道以产生基于双耳信号的总和的双耳记录。举例来说,无线通信装置102可将双耳脉冲响应应用到输出通道。此可产生可用以产生双耳记录的双耳信号。
图47为说明用于选择编解码器的方法4700的流程图。方法4700可通过无线通信装置102来执行。无线通信装置102可确定4702多个音频信号的能量分布曲线。无线通信装置102可接着显示4704多个音频信号中的每一者的能量分布曲线。举例来说,无线通信装置102可显示4704前左侧、前右侧、后左侧及后右侧音频信号的能量分布曲线。无线通信装置102可接着检测4706选择能量分布曲线的输入。在一些实施方案中,输入可基于用户输入。举例来说,用户可选择应基于图形表示而经压缩的能量分布曲线(例如,对应于定向声音)。在一些实例中,选择可反映哪个定向音频信号应具有较佳声音质量的指示,例如,所述选择可反映用户的语音来自的方向。
无线通信装置102可关联4708与输入相关联的编解码器。举例来说,无线通信装置102可关联4708编解码器以产生用于用户所选择的定向音频信号的较佳音频质量。无线通信装置102可接着基于编解码器来压缩4710多个音频信号以产生音频信号包。如上所述,接着可在空中发射包。在一些实施方案中,无线通信装置还可发射通道识别。
图48为说明用于增加位分配的方法4800的流程图。方法4800可通过无线通信装置102来执行。无线通信装置102可确定4802多个音频信号的能量分布曲线。无线通信装置102可接着显示4804多个音频信号中的每一者的能量分布曲线。举例来说,无线通信装置102可显示4804前左侧、前右侧、后左侧及后右侧音频信号的能量分布曲线。无线通信装置102可接着检测4806选择能量分布曲线的输入。在一些实施方案中,输入可基于用户输入。举例来说,用户可基于图形表示来选择应分配较多位用于压缩的能量分布曲线(例如,对应于定向声音)。在一些实例中,选择可反映哪个定向音频信号应具有较佳声音质量的指示,例如,所述选择可反映用户的语音来自的方向。
无线通信装置102可关联4808与输入相关联的编解码器。举例来说,无线通信装置102可关联4808编解码器以产生用于用户所选择的定向音频信号的较佳音频质量。无线通信装置102接着可基于输入而增加4810到用以压缩音频信号的编解码器的位分配。如上所述,接着可在空中发射包。
图49说明可包含在无线通信装置4902内的某些组件。上述无线通信装置中的一或多者可与图49中所示的无线通信装置4902类似地配置。
无线通信装置4902包含处理器4958。处理器4958通用单或多芯片微处理器(例如,ARM)、专用微处理器(例如,数字信号处理器(DSP))、微控制器、可编程门阵列等。处理器4958可被称作中央处理单元(CPU)。尽管在图49的无线通信装置4902中仅展示单个处理器4958,但在替代配置中,可使用处理器4958(例如,ARM及DSP)的组合。
无线通信装置4958还包含与处理器4958电子通信的存储器4956(即,处理器4958可读取来自存储器4956的信息及/或写入信息到存储器4956)。存储器4956可为能够存储电子信息的任何电子组件。存储器4956可为随机存取存储器(RAM)、只读存储器(ROM)、磁盘存储媒体、光学存储媒体、RAM中的快闪存储器装置、与处理器4958一起包含的板上存储器、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除PROM(EEPROM)、寄存器等等,包含其组合。
数据4960及指令4962可存储在存储器4956中。指令4962可包含一或多个程序、例程、子例程、函式、规程、代码等。指令4962可包含单个计算机可读语句或许多计算机可读语句。指令4962可由处理器4958执行以实施上述方法中的一或多者。执行指令4962可涉及使用存储于存储器4956中的数据4960。图49说明加载于处理器4958中的一些指令4962a及数据4960a(其可来自存储器4956中的指令4962及数据4960)。
无线通信装置4902还可包含发射器4964及接收器4966以允许在无线通信装置4902与远程位置(例如,通信装置、基站等)之间发射及接收信号。发射器4964及接收器4966可统称为收发器4968。天线4970可电耦合到收发器4968。无线通信装置4902还可包含(未图示)多个发射器4964、多个接收器4966、多个收发器4968及/或多个天线4970。
在一些配置中,无线通信装置4902可包含一或多个麦克风用于捕捉声学信号。在一个配置中,麦克风可为将声学信号(例如,语音、话音)转换为电或电子信号的声学信号的换能器。另外或替代地,无线通信装置4902可包含一或多个扬声器。在一个配置中,扬声器可为将电信号或电子信号转换为声学信号的换能器。
无线通信装置4902的各种组件可通过一或多个总线耦合在一起,总线可包含电力总线、控制信号总线、状态信号总线、数据总线等。为了简单性,在图49中将各种总线说明为总线***4972。
本文所揭示的方法及设备可大体适用于任何收发及/或音频感测应用,尤其此类应用的移动或其它便携式实例。举例来说,本文所揭示的配置范围包含驻留于经配置以使用码分多址(CDMA)空中接口的无线电话通信***中的通信装置。然而,所属领域的技术人员将理解,具有本文中所描述的特征的方法及设备可驻留于采用所属领域的技术人员所已知的广泛范围的技术的各种通信***中的任一者中,例如经由有线及/或无线(例如,CDMA、TDMA、FDMA及/或TD-SCDMA)传输通道采用IP语音(VoIP)的***。
明确地涵盖且在此揭示本文所揭示的通信装置可适于在包交换(例如,经配置以根据例如VoIP的协议来载运音频发射的有线及/或无线网络)及/或电路交换的网络中使用。还明确地涵盖且在此揭示本文所揭示的通信装置可适于在窄带译码***(例如,编码约四或五千赫的频率范围的***)中使用及/或在宽带译码***(例如,编码大于五千赫的音频频率的***)中使用,包含整体带宽带译码***及***带宽带译码***。
提供对所描述配置的先前呈现以使得所属领域的技术人员能够制作或使用本文揭示的方法及其它结构。本文所展示及描述的流程图、框图及其它结构仅为实例,且这些结构的其它变体也在本发明的范围内。这些配置的各种修改是可能的,且本文所呈现的一般原理还可适用于其它配置。因此,本发明不希望限于上文所展示的配置,而是应符合与在本文中以任何方式揭示的原理及新颖特征一致的最广范围(包含在所申请的附加权利要求书中),所述权利要求书形成原始揭示内容的一部分。
所属领域的技术人员将了解,可使用多种不同技艺及技术中的任一者来表示信息及信号。举例来说,可由电压、电流、电磁波、磁场或磁粒子、光场或光粒子或其任何组合来表示在以上描述中始终参考的数据、指令、命令、信息、信号、位及符号。
用于如本文所揭示的配置的实施方案的重要设计要求可包含最小化尤其用于以下应用的处理延迟及/或计算复杂性(通常以每秒百万个指令或MIPS来测量):计算密集型应用,例如压缩音频或视听信息(例如,根据压缩格式编码的文件或流,例如本文所识别实例中的一者)的播放,或者宽带通信的应用(例如,取样速率高于八千赫的语音通信,例如12、16或44kHz)。
多麦克风处理***的目的可包含:在整体噪声减少中实现10到12dB;在所要扬声器移动期间保留语音等级及色彩;获得噪声已移动到背景中而非积极噪声移除的感知;话音的消混响;及/或启用后处理的选项用于较积极的噪声减少。
如本文所揭示的设备的实施方案的各种元件可体现在被认为适于预期应用的硬件与软件及/或与固件的任何组合中。举例来说,此类元件可被制造为驻留于(例如)同一芯片或芯片组中的两个或两个以上芯片中的电子及/或光学装置。此类装置的一个实例为固定或可编程逻辑元件(例如,晶体管或逻辑门)阵列,且这些元件中的任一者可经实施为一或多个此类阵列。这些元件中的任何两者或两者以上乃至全部可实施于相同阵列内。此类阵列可实施于一或多个芯片内(例如,包含两个或两个以上芯片的芯片组内)。
本文所揭示的设备的各种实施方案的一或多个元件还可整体或部分实施为一或多个指令集合,所述指令经配置以执行于逻辑元件的一或多个固定或可编程阵列上,例如微处理器、嵌入式处理器、IP核心、数字信号处理器、FPGA(现场可编程门阵列)、ASSP(专用标准产品)及ASIC(专用集成电路)。如本文所揭示的设备的实施方案的各种元件中的任一者还可体现为一或多个计算机(例如,包含可编程以执行指令的一或多个集合或序列的机器,还称作“处理器”)、及可实施于相同此类计算机内的这些元件中的任何两者或两者以上或甚至全部。
如本文所揭示的用于处理的处理器或其它装置可经制造为驻留于(例如)同一芯片或芯片组中的两个或两个以上芯片中的一或多个电子及/或光学装置。此类装置的一个实例为固定或可编程逻辑元件(例如,晶体管或逻辑门)阵列,且这些元件中的任一者可经实施为一或多个此类阵列。此类阵列可实施于一或多个芯片内(例如,包含两个或两个以上芯片的芯片组内)。此类阵列的实例包含逻辑元件的固定或可编程阵列,例如微处理器、嵌入式处理器、IP核心、DSP、FPGA、ASSP及ASIC。如本文所揭示的用于处理的处理器或其它装置还可体现为一或多个计算机(例如,包含经编程以执行指令或多个集合或序列的一或多个阵列的机器)或其它处理器。如本文描述的处理器可能用以执行未与定向编码规程直接相关的任务其它指令集,例如关于其中嵌入处理器的装置或***(例如,音频感测装置)的另一操作的任务。如本文所揭示的方法的部分还可能由音频感测装置的处理器执行及所述方法的另一部分在一或多个其它处理器的控制下执行。
所属领域的技术人员将了解,结合本文所揭示的配置而描述的各种说明性模块、逻辑块、电路及测试及其它操作可实施为电子硬件、计算机软件或两者的组合。可使用经设计以产生如本文所揭示的配置的通用处理器、数字信号处理器(DSP)、ASIC或ASSP、FPGA或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其任何组合来实施或执行此类模块、逻辑块、电路及操作。举例来说,此类配置可至少部分实施为硬连线电路、经制造于专用集成电路中的电路配置、或加载于非易失性存储装置中的固件程序或作为机器可读代码自数据存储媒体加载或到数据存储媒体中的软件程序,此类代码为可由逻辑元件阵列执行的指令,例如通用处理器或其它数字信号处理单元。通用处理器可为微处理器,但在替代方案中,处理器可为任何常规的处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合,例如,DSP与微处理器的组合、多个微处理器、一或多个微处理器与DSP核心的组合,或任何其它此类配置。软件模块可驻留于RAM(随机存取存储器)、ROM(只读存储器)、非易失性RAM(NVRAM)(例如快闪RAM)、可擦除可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)、寄存器、硬盘、可移动磁盘、CD-ROM或此项技术中已知的任何其它形式的存储媒体中。说明性存储媒体耦合到处理器而使得处理器可从存储媒体读取信息及写入信息到存储媒体。在替代方案中,存储媒体可与处理器成一体式。处理器及存储媒体可驻留于ASIC中。ASIC可驻留于用户终端中。在替代方案中,处理器及存储媒体可作为离散组件而驻留于用户终端中。
应注意,本文所揭示的各种方法可由例如处理器的逻辑元件阵列执行,且如本文描述的设备的各种元件可经实施为经设计以在此类阵列上执行的模块。如本文所使用,术语“模块”或“子模块”可指包含呈软件、硬件或固件形式的计算机指令(例如,逻辑表达)的任何方法、设备、装置、单元或计算机可读数据存储媒体。应理解可将多个模块或***组合为一个模块或***,且可将一个模块或***分离为多个模块或***以执行相同功能。当以软件或其它计算机可执行指令实施时,过程的原始本质上为用以执行例如与例程、程序、对象、组件、数据结构等有关的任务的代码段。术语“软件”应理解为包含源代码、汇编语言代码、机器代码、二进制代码、固件、宏码、微码、可由逻辑元件阵列执行的任何一或多个指令集或序列以及此类实例的任何组合。程序或代码段可存储于处理器可读媒体中或由体现在载波中的计算机数据信号经由传输媒体或通信链路传输。
本文所揭示的方法、方案及技术的实施方案还可有形地体现(例如,在如本文所列出的一或多个计算机可读媒体中)为机器可读及/或可执行的一或多个指令集,所述机器包含逻辑元件阵列(例如,处理器、微处理器、微控制器或其它有限状态机)。术语“计算机可读媒体”可包含可存储或传送信息的任何媒体,包含易失性、非易失性、可移动及非可移动媒体。计算机可读媒体的实例包含电子电路、半导体存储器装置、ROM、快闪存储器、可擦除ROM(EROM)、软盘或其它磁性存储装置、CD-ROM/DVD或其它光学存储装置、硬盘、光纤媒体、射频(RF)链路,或可用于存储所要信息且可被存取的任何其它媒体。计算机数据信号可包含可经由传输媒体(例如电子网络通道、光纤、空气、电磁、RF链路等)传播的任何信号。代码段可经由例如因特网或企业内部网络等计算机网络来下载。在任何情况下,不应将本发明的范围理解为受到此类配置限制。
可直接以硬件、以由处理器执行的软件模块或以上述两者的组合来体现本文所揭示的方法的任务中的每一者。在如本文所揭示的方法的实施方案的典型应用中,逻辑元件阵列(例如,逻辑门)经配置以执行所述方法的各种任务中的一者、一者以上或甚至全部。所述任务中的一或多者(可能所有)还可实施为在计算机程序产品(例如,一或多个数据存储媒体,例如磁盘、快闪或其它非易失性存储卡、半导体存储器芯片等)中体现的代码(例如,一或多个指令集),所述计算机程序产品可由包含逻辑元件的阵列(例如,处理器、微处理器、微控制器或其它有限状态机)的机器(例如,计算机)读取及/或执行。如本文所揭示的方法的实施方案的任务还可由一个以上此类阵列或机器执行。在这些或其它实施方案中,所述任务可在用于无线通信的装置内执行,所述装置例如为蜂窝式电话或具有此通信能力的其它装置。此类装置可经配置以与电路交换及/或包交换网络通信(例如,使用一或多个协议(例如VoIP))。举例来说,此类装置可包含经配置以接收及/或发射经编码帧的RF电路。
明确地揭示,本文所揭示的各种方法可由便携式通信装置执行,例如手机、头戴式耳机或便携式数字助手(PDA),且本文所描述的各种设备可包含在此类装置内。典型的实时(例如,在线)应用是使用此类移动装置进行的电话会话。
在一或多个示范性配置中,本文中所描述的操作可以硬件、软件、固件或其任何组合来实施。如果以软件实施,那么可将此类操作作为一或多个指令或代码而存储在计算机可读媒体上或经由计算机可读媒体传输。术语“计算机可读媒体”包含计算机存储装置媒体及通信媒体两者,包含促进将计算机程序从一处传送到另一处的任何媒体。存储媒体可为可由计算机存取的任何可用媒体。通过实例的方式(且非限制),此类计算机可读媒体可包括存储元件的阵列,例如半导体存储器(其可包含但非限于动态或静态RAM、ROM、EEPROM及/或快闪RAM)、或铁电体、磁阻、双向、聚合或相变存储器;CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置、或可用以在可由计算机存取的有形结构中存储呈指令或数据结构形式的所要程序代码的任何其它媒体。而且,可恰当地将任何连接称作计算机可读媒体。举例来说,如果使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)或例如红外线、无线电及/或微波的无线技术从网站、服务器或其它远程源传输软件,那么同轴电缆、光纤电缆、双绞线、DSL或例如红外线、无线电及/或微波的无线技术包含在媒体的定义中。如本文中所使用,磁盘及光盘包含紧密光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软盘及Blu-ray DiscTM(蓝光光盘协会,加州环球市(Universal City,CA)),其中磁盘通常以磁性方式再生数据,而光盘用激光以光学方式再生数据。上文的组合也应包含在计算机可读媒体的范围内。
如本文描述的声学信号处理设备可并入到接受话音输入以便控制某些操作的电子装置中,或可以其它方式受益于来自背景噪声的所要噪声的分离(例如通信装置)。许多应用可受益于增强或分离来自来源于多个方向的背景声音的清晰的所要声音。此类应用可包含电子或计算装置中的人机接口,其并入有例如语音辨识及检测、话音增强及分离、语音激活式控制等能力。可需要将此类声学信号处理设备实施为适于仅提供有限处理能力的装置。
本文所描述的模块、元件及装置的各种实施方案的元件可被制造为驻留于(例如)同一芯片或芯片组中的两个或两个以上芯片中的电子及/或光学装置。此类装置的一个实例为固定或可编程逻辑元件(例如,晶体管或门)阵列。本文中所描述的设备的各种实施方案中的一或多个元件还可全部地或部分地实施为经布置以在一或多个固定或可编程逻辑元件阵列(例如,微处理器、嵌入式处理器、IP核心、数字信号处理器、FPGA、ASSP及ASIC)上执行的一或多个指令集。
有可能使如本文中所描述的设备的实施方案的一或多个元件用于执行并非与所述设备的操作直接相关的任务或其它指令集,例如与其中嵌入所述设备的装置或***的另一操作相关的任务。还有可能使此类设备的实施方案的一或多个元件具有共同结构(例如,用于在不同时间执行对应于不同元件的代码部分的处理器、经执行以在不同时间执行对应于不同元件的任务的指令集,或在不同时间对不同元件执行操作的电子及/或光学装置的布置)。
在以上描述中,有时将参考标号结合各种术语一起使用。当结合参考标号使用术语时,此可意味着指在图式中的一或多者中展示的特定元件。当在无参考标号的情况下使用术语时,此可意味着大体指所述术语而不限于任何特定的图。
根据本发明,移动装置中的电路可适于接收与多个类型的压缩音频位流相关的信号转换命令及随附数据。相同电路、不同电路或相同或不同电路的第二区段可适于执行一变换作为用于多个类型的压缩音频位流的信号转换的部分。第二区段可有利地耦合到第一区段,或其可体现于与第一区段相同的电路中。另外,相同电路、不同电路,或相同或不同电路的第三区段可适于执行一互补处理作为用于多个类型的压缩音频位流的信号转换的部分。第三区段可有利地耦合到第一及第二区段,或其可体现于与第一及第二区段相同的电路中。另外,相同电路、不同电路,或相同或不同电路的第四区段可适于控制提供上述功能性的电路的配置或电路的区段。
术语“确定”涵盖广泛多种动作,且因此“确定”可包含推算、计算、处理、导出、调查、查找(例如,在表、数据库或另一数据结构中查找)、断定及其类似者。而且,“确定”可包含接收(例如,接收信息)、存取(例如,在存储器中存取数据)及其类似者。而且,“确定”可包含解析、选择、挑选、建立及其类似者。

Claims (50)

1.一种用于通过无线通信装置编码三维音频的方法,其包括:
检测多个可定位音频源的空间方向的指示;
记录与所述多个可定位音频源相关联的多个音频信号;及
编码所述多个音频信号。
2.根据权利要求1所述的方法,其中所述可定位音频源的所述空间方向的所述指示是基于接收的输入。
3.根据权利要求1所述的方法,进一步包括:
确定可定位音频源的数目;及
估计每一可定位音频源的到达方向。
4.根据权利要求1所述的方法,其进一步包括根据三维音频编码方案来编码多通道信号。
5.根据权利要求1所述的方法,其进一步包括:
应用第一端射式方向中的射束以获得第一滤波信号;
应用第二端射式方向中的射束以获得第二滤波信号;及
组合所述第一滤波信号与所述第二滤波信号的延迟版本。
6.根据权利要求5所述的方法,其中所述第一及第二滤波信号中的每一者具有至少两个通道,及其中所述滤波信号之一相对于另一滤波信号而延迟。
7.根据权利要求6所述的方法,其进一步包括:
相对于所述第一滤波信号的第二通道延迟所述第一滤波信号的第一通道;及
相对于所述第二滤波信号的第二通道延迟所述第二滤波信号的第一通道。
8.根据权利要求6所述的方法,其进一步包括相对于所述组合信号的第二通道延迟所述组合信号的第一通道。
9.根据权利要求1所述的方法,其进一步包括:
将具有第一方向中的射束的滤波器应用到第一对麦克风所产生的信号以获得第一空间滤波信号;
将具有第二方向中的射束的滤波器应用到第二对麦克风所产生的信号以获得第二空间滤波信号;及
组合所述第一及第二空间滤波信号以获得输出信号。
10.根据权利要求1所述的方法,其进一步包括:
对于阵列中的多个麦克风中的每一者记录对应输入通道;及
对于多个观看方向中的每一者,将对应多通道滤波器应用到多个所述所记录输入通道以获得对应输出通道,
其中所述多通道滤波器中的每一者应用所述对应观看方向中的射束及所述其它观看方向中的空射束。
11.根据权利要求10所述的方法,其进一步包括处理所述多个输出通道以产生双耳记录。
12.根据权利要求5所述的方法,其中应用端射式方向中的所述射束包括将所述射束应用到低阈值与高阈值之间的频率,其中所述低及高阈值中的至少一者是基于麦克风之间的距离。
13.一种用于由无线通信装置选择编解码器的方法,其包括:
确定多个音频信号的能量分布曲线;
显示所述多个音频信号中的每一者的所述能量分布曲线;
检测选择能量分布曲线的输入;
使编解码器与所述输入相关联;及
基于所述编解码器来压缩所述多个音频信号以产生包。
14.根据权利要求13所述的方法,其进一步包括在空中发射所述包。
15.根据权利要求13所述的方法,其进一步包括发射通道识别。
16.一种用于由无线通信装置增加位分配的方法,其包括:
确定多个音频信号的能量分布曲线;
显示所述多个音频信号中的每一者的所述能量分布曲线;
检测选择能量分布曲线的输入;
使编解码器与所述输入相关联;及
基于所述输入而增加对用以压缩音频信号的所述编解码器的位分配。
17.根据权利要求16所述的方法,其中所述音频信号的压缩产生在空中发射的四个包。
18.一种用于编码三维音频的无线通信装置,其包括:
空间方向电路,其检测多个可定位音频源的空间方向的指示;
记录电路,其耦合到所述空间方向电路,其中所述记录电路记录与所述多个可定位音频源相关联的多个音频信号;及
编码器,其耦合到所述记录电路,其中所述编码器编码所述多个音频信号。
19.根据权利要求18所述的无线通信装置,其中所述可定位音频源的所述空间方向的所述指示是基于接收的输入。
20.根据权利要求18所述的无线通信装置,其进一步包括:
音频源确定电路,其确定可定位音频源的数目;及
估计电路,其耦合到所述音频源确定电路,其中所述估计电路估计每一可定位音频源的到达方向。
21.根据权利要求18所述的无线通信装置,其进一步包括耦合到所述估计电路的编码电路,其中所述编码电路根据三维音频编码方案来编码多通道信号。
22.根据权利要求18所述的无线通信装置,其进一步包括:
耦合到分解电路的第一射束应用电路,其中所述第一射束应用电路应用第一端射式方向中的射束以获得第一滤波信号;
耦合到所述第一射束应用电路的第二射束应用电路,其中所述第二射束应用电路应用第二端射式方向中的射束以获得第二滤波信号;及
耦合到所述第二射束应用电路及所述第一射束应用电路的组合电路,其中所述组合电路组合所述第一滤波信号与所述第二滤波信号的延迟版本。
23.根据权利要求22所述的无线通信装置,其中所述第一及第二滤波信号中的每一者具有至少两个通道,及其中所述滤波信号之一相对于另一滤波信号而延迟。
24.根据权利要求23所述的无线通信装置,其进一步包括:
耦合到所述分解电路的延迟电路,其中所述延迟电路相对于所述第一滤波信号的第二通道延迟所述第一滤波信号的第一通道,及相对于所述第二滤波信号的第二通道延迟所述第二滤波信号的第一通道。
25.根据权利要求24所述的无线通信装置,其中所述延迟电路相对于所述组合信号的第二通道延迟所述组合信号的第一通道。
26.根据权利要求18所述的无线通信装置,其进一步包括:
耦合到所述分解电路的滤波器电路,其中所述滤波器电路将具有第一方向的射束的滤波器应用到第一对麦克风所产生的信号以获得第一空间滤波信号,并将具有第二方向的射束的滤波器应用到第二对麦克风所产生的信号以获得第二空间滤波信号;及
耦合到所述滤波器电路的组合电路,其中所述组合电路组合所述第一及第二空间滤波信号以获得输出信号。
27.根据权利要求18所述的无线通信装置,其进一步包括:
耦合到所述分解电路的记录电路,其中对于阵列中的多个麦克风中的每一者,所述记录电路记录对应输入通道;及
耦合到所述记录电路的多通道滤波器电路,其中对于多个观看方向中的每一者,所述多通道滤波器电路将对应多通道滤波器应用到多个所述所记录输入通道以获得对应输出通道,
其中所述多通道滤波器中的每一者应用所述对应观看方向中的射束及所述其它观看方向中的空射束。
28.根据权利要求27所述的无线通信装置,其进一步包括耦合到所述多通道滤波器电路的双耳记录电路,其中所述双耳记录电路处理所述多个输出通道以产生双耳记录。
29.根据权利要求22所述的无线通信装置,其中应用端射式方向中的所述射束包括将所述射束应用到低阈值与高阈值之间的频率,其中所述低及高阈值中的至少一者是基于麦克风之间的距离。
30.一种用于选择编解码器的无线通信装置,其包括:
确定多个音频信号的能量分布曲线的能量分布曲线电路;
耦合到所述能量分布曲线电路的显示器,其中所述显示器显示所述多个音频信号中的每一者的所述能量分布曲线;
耦合到所述显示器的输入检测电路,其中所述输入检测电路检测选择能量分布曲线的输入;
耦合到所述输入检测电路的关联电路,其中所述关联电路使编解码器与所述输入相关联;及
耦合到所述关联电路的压缩电路,其中所述压缩电路基于所述编解码器来压缩所述多个音频信号以产生包。
31.根据权利要求30所述的无线通信装置,其进一步包括耦合到所述压缩电路的发射器,其中所述发射器在空中发射所述包。
32.根据权利要求30所述的无线通信装置,其中所述发射器发射通道识别。
33.一种用于增加位分配的无线通信装置,其包括:
确定多个音频信号的能量分布曲线的能量分布曲线电路;
耦合到所述能量分布曲线电路的显示器,其中所述显示器显示所述多个音频信号中的每一者的所述能量分布曲线;
耦合到所述显示器的输入检测电路,其中所述输入检测电路检测选择能量分布曲线的输入;
耦合到所述输入检测电路的关联电路,其中所述关联电路使编解码器与所述输入相关联;及
耦合到所述关联电路的位分配电路,其中所述位分配电路基于所述输入而增加对用以压缩音频信号的所述编解码器的位分配。
34.根据权利要求33所述的无线通信装置,其中所述音频信号的压缩产生在空中发射的四个包。
35.一种用于编码三维音频的计算机程序产品,其包括具有指令的非暂时性有形计算机可读媒体,所述指令包括:
用于致使无线通信装置检测多个可定位音频源的空间方向的指示的代码;
用于致使所述无线通信装置记录与所述多个可定位音频源相关联的多个音频信号的代码;及
用于致使所述无线通信装置编码所述多个音频信号的代码。
36.根据权利要求35所述的计算机程序产品,其中所述可定位音频源的所述空间方向的所述指示是基于接收的输入。
37.根据权利要求35所述的计算机程序产品,其中所述指令进一步包括用于致使所述无线通信装置根据三维音频编码方案来编码多通道信号的代码。
38.一种用于选择编解码器的计算机程序产品,其包括具有指令的非暂时性有形计算机可读媒体,所述指令包括:
用于致使无线通信装置确定多个音频信号的能量分布曲线的代码;
用于致使所述无线通信装置显示所述多个音频信号中的每一者的所述能量分布曲线的代码;
用于致使所述无线通信装置检测选择能量分布曲线的输入的代码;
用于致使所述无线通信装置使编解码器与所述输入相关联的代码;及
用于致使所述无线通信装置基于所述编解码器来压缩所述多个音频信号以产生包的代码。
39.所述权利要求38所述的计算机程序产品,其中所述指令进一步包括用于致使所述无线通信装置在空中发射所述包的代码。
40.所述权利要求38所述的计算机程序产品,其中所述指令进一步包括用于致使所述无线通信装置发射通道识别的代码。
41.一种用于增加位的计算机程序产品,其包括具有指令的非暂时性有形计算机可读媒体,所述指令包括:
用于致使无线通信装置确定多个音频信号的能量分布曲线的代码;
用于致使所述无线通信装置显示所述多个音频信号中的每一者的所述能量分布曲线的代码;
用于致使所述无线通信装置检测选择能量分布曲线的输入的代码;
用于致使所述无线通信装置使编解码器与所述输入相关联的代码;及
用于致使所述无线通信装置基于所述输入而增加对用以压缩音频信号的所述编解码器的位分配的代码。
42.根据权利要求41所述的计算机程序产品,其中所述音频信号的压缩产生在空中发射的四个包。
43.一种用于编码三维音频的设备,其包括:
用于检测多个可定位音频源的空间方向的指示的装置;
用于记录与所述多个可定位音频源相关联的多个音频信号的装置;及
用于编码所述多个音频信号的装置。
44.根据权利要求43所述的设备,其中所述可定位音频源的所述空间方向的所述指示是基于接收的输入。
45.根据权利要求43所述的设备,其进一步包括用于根据三维音频编码方案来编码多通道信号的装置。
46.一种用于由无线通信装置选择编解码器的设备,其包括:
用于确定多个音频信号的能量分布曲线的装置;
用于显示所述多个音频信号中的每一者的所述能量分布曲线的装置;
用于检测选择能量分布曲线的输入的装置;
用于使编解码器与所述输入相关联的装置;及
用于基于所述编解码器来压缩所述多个音频信号以产生包的装置。
47.根据权利要求46所述的设备,其进一步包括用于在空中发射所述包的装置。
48.根据权利要求13所述的设备,其进一步包括用于发射通道识别的装置。
49.一种用于增加位分配的设备,其包括:
用于确定多个音频信号的能量分布曲线的装置;
用于显示所述多个音频信号中的每一者的所述能量分布曲线的装置;
用于检测选择能量分布曲线的输入的装置;
用于使编解码器与所述输入相关联的装置;及
用于基于所述输入而增加对用以压缩音频信号的所述编解码器的位分配的装置。
50.根据权利要求49所述的设备,其中所述音频信号的压缩产生在空中发射的四个包。
CN201380026946.9A 2012-05-24 2013-05-08 在呼叫期间的三维声音压缩及空中发射 Expired - Fee Related CN104321812B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201261651185P 2012-05-24 2012-05-24
US61/651,185 2012-05-24
US13/664,701 US9161149B2 (en) 2012-05-24 2012-10-31 Three-dimensional sound compression and over-the-air transmission during a call
US13/664,701 2012-10-31
PCT/US2013/040137 WO2013176890A2 (en) 2012-05-24 2013-05-08 Three-dimensional sound compression and over-the-air-transmission during a call

Publications (2)

Publication Number Publication Date
CN104321812A true CN104321812A (zh) 2015-01-28
CN104321812B CN104321812B (zh) 2016-10-05

Family

ID=49621612

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201380026946.9A Expired - Fee Related CN104321812B (zh) 2012-05-24 2013-05-08 在呼叫期间的三维声音压缩及空中发射

Country Status (6)

Country Link
US (3) US20130315402A1 (zh)
EP (1) EP2856464B1 (zh)
JP (1) JP6336968B2 (zh)
KR (1) KR101705960B1 (zh)
CN (1) CN104321812B (zh)
WO (2) WO2013176890A2 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104637494A (zh) * 2015-02-02 2015-05-20 哈尔滨工程大学 基于盲源分离的双话筒移动设备语音信号增强方法
CN106356074A (zh) * 2015-07-16 2017-01-25 中华映管股份有限公司 声音信号处理方法
CN108028977A (zh) * 2015-09-09 2018-05-11 微软技术许可有限责任公司 用于声源方向估计的话筒放置
CN110858943A (zh) * 2018-08-24 2020-03-03 纬创资通股份有限公司 收音处理装置及其收音处理方法
CN112259110A (zh) * 2020-11-17 2021-01-22 北京声智科技有限公司 音频编码方法及装置、音频解码方法及装置
CN113329138A (zh) * 2021-06-03 2021-08-31 维沃移动通信有限公司 视频拍摄方法、视频播放方法和电子设备
WO2024082181A1 (zh) * 2022-10-19 2024-04-25 北京小米移动软件有限公司 空间音频采集方法及装置

Families Citing this family (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11665482B2 (en) 2011-12-23 2023-05-30 Shenzhen Shokz Co., Ltd. Bone conduction speaker and compound vibration device thereof
US20130315402A1 (en) 2012-05-24 2013-11-28 Qualcomm Incorporated Three-dimensional sound compression and over-the-air transmission during a call
WO2014022280A1 (en) * 2012-08-03 2014-02-06 The Penn State Research Foundation Microphone array transducer for acoustic musical instrument
US9264524B2 (en) 2012-08-03 2016-02-16 The Penn State Research Foundation Microphone array transducer for acoustic musical instrument
WO2014046916A1 (en) * 2012-09-21 2014-03-27 Dolby Laboratories Licensing Corporation Layered approach to spatial audio coding
US10194239B2 (en) * 2012-11-06 2019-01-29 Nokia Technologies Oy Multi-resolution audio signals
KR20140070766A (ko) * 2012-11-27 2014-06-11 삼성전자주식회사 보청 장치의 무선 통신 방법 및 시스템
WO2014087195A1 (en) 2012-12-05 2014-06-12 Nokia Corporation Orientation Based Microphone Selection Apparatus
US9521486B1 (en) * 2013-02-04 2016-12-13 Amazon Technologies, Inc. Frequency based beamforming
US10750132B2 (en) * 2013-03-14 2020-08-18 Pelco, Inc. System and method for audio source localization using multiple audio sensors
EP2984854B1 (en) * 2013-04-10 2021-11-17 Nokia Technologies Oy Audio recording and playback apparatus
EP2992687B1 (en) * 2013-04-29 2018-06-06 University Of Surrey Microphone array for acoustic source separation
CN103699260B (zh) * 2013-12-13 2017-03-08 华为技术有限公司 一种启动终端功能模块的方法及终端设备
GB2521649B (en) * 2013-12-27 2018-12-12 Nokia Technologies Oy Method, apparatus, computer program code and storage medium for processing audio signals
TWI833562B (zh) 2014-03-24 2024-02-21 瑞典商杜比國際公司 應用動態範圍壓縮至高階保真立體音響信號之方法和裝置
KR102216048B1 (ko) * 2014-05-20 2021-02-15 삼성전자주식회사 음성 명령 인식 장치 및 방법
US9596554B2 (en) 2014-05-26 2017-03-14 Vladimir Sherman Methods circuits devices systems and associated computer executable code for acquiring acoustic signals
EP2960903A1 (en) 2014-06-27 2015-12-30 Thomson Licensing Method and apparatus for determining for the compression of an HOA data frame representation a lowest integer number of bits required for representing non-differential gain values
US10051364B2 (en) 2014-07-03 2018-08-14 Qualcomm Incorporated Single channel or multi-channel audio control interface
CN105451151B (zh) 2014-08-29 2018-09-21 华为技术有限公司 一种处理声音信号的方法及装置
US9875745B2 (en) * 2014-10-07 2018-01-23 Qualcomm Incorporated Normalization of ambient higher order ambisonic audio data
WO2016096021A1 (en) * 2014-12-18 2016-06-23 Huawei Technologies Co., Ltd. Surround sound recording for mobile devices
US9712936B2 (en) * 2015-02-03 2017-07-18 Qualcomm Incorporated Coding higher-order ambisonic audio data with motion stabilization
USD768596S1 (en) * 2015-04-20 2016-10-11 Pietro V. Covello Media player
US10187738B2 (en) * 2015-04-29 2019-01-22 International Business Machines Corporation System and method for cognitive filtering of audio in noisy environments
WO2016182184A1 (ko) * 2015-05-08 2016-11-17 삼성전자 주식회사 입체 음향 재생 방법 및 장치
GB2540175A (en) 2015-07-08 2017-01-11 Nokia Technologies Oy Spatial audio processing apparatus
US11722821B2 (en) 2016-02-19 2023-08-08 Dolby Laboratories Licensing Corporation Sound capture for mobile devices
WO2017143067A1 (en) * 2016-02-19 2017-08-24 Dolby Laboratories Licensing Corporation Sound capture for mobile devices
GB201607455D0 (en) * 2016-04-29 2016-06-15 Nokia Technologies Oy An apparatus, electronic device, system, method and computer program for capturing audio signals
US9858944B1 (en) * 2016-07-08 2018-01-02 Apple Inc. Apparatus and method for linear and nonlinear acoustic echo control using additional microphones collocated with a loudspeaker
KR102277438B1 (ko) 2016-10-21 2021-07-14 삼성전자주식회사 단말 장치들 간의 멀티미디어 통신에 있어서, 오디오 신호를 송신하고 수신된 오디오 신호를 출력하는 방법 및 이를 수행하는 단말 장치
US10366702B2 (en) 2017-02-08 2019-07-30 Logitech Europe, S.A. Direction detection device for acquiring and processing audible input
US10229667B2 (en) 2017-02-08 2019-03-12 Logitech Europe S.A. Multi-directional beamforming device for acquiring and processing audible input
US10366700B2 (en) 2017-02-08 2019-07-30 Logitech Europe, S.A. Device for acquiring and processing audible input
US10362393B2 (en) 2017-02-08 2019-07-23 Logitech Europe, S.A. Direction detection device for acquiring and processing audible input
US9820073B1 (en) 2017-05-10 2017-11-14 Tls Corp. Extracting a common signal from multiple audio signals
US10129648B1 (en) 2017-05-11 2018-11-13 Microsoft Technology Licensing, Llc Hinged computing device for binaural recording
US10789949B2 (en) * 2017-06-20 2020-09-29 Bose Corporation Audio device with wakeup word detection
US10665234B2 (en) * 2017-10-18 2020-05-26 Motorola Mobility Llc Detecting audio trigger phrases for a voice recognition session
JP7137694B2 (ja) * 2018-09-12 2022-09-14 シェンチェン ショックス カンパニー リミテッド 複数の音響電気変換器を有する信号処理装置
WO2020051836A1 (en) * 2018-09-13 2020-03-19 Alibaba Group Holding Limited Methods and devices for processing audio input using unidirectional audio input devices
CA3091248A1 (en) 2018-10-08 2020-04-16 Dolby Laboratories Licensing Corporation Transforming audio signals captured in different formats into a reduced number of formats for simplifying encoding and decoding operations
US11049509B2 (en) * 2019-03-06 2021-06-29 Plantronics, Inc. Voice signal enhancement for head-worn audio devices
CN111986695B (zh) * 2019-05-24 2023-07-25 中国科学院声学研究所 一种无重叠子带划分快速独立向量分析语音盲分离方法及***
US11380312B1 (en) * 2019-06-20 2022-07-05 Amazon Technologies, Inc. Residual echo suppression for keyword detection
US11638111B2 (en) * 2019-11-01 2023-04-25 Meta Platforms Technologies, Llc Systems and methods for classifying beamformed signals for binaural audio playback
TWI740339B (zh) * 2019-12-31 2021-09-21 宏碁股份有限公司 自動調整特定聲源的方法及應用其之電子裝置
US11277689B2 (en) 2020-02-24 2022-03-15 Logitech Europe S.A. Apparatus and method for optimizing sound quality of a generated audible signal
CN111246285A (zh) * 2020-03-24 2020-06-05 北京奇艺世纪科技有限公司 一种解说视频中声音的分离方法、音量调节方法及装置
US11200908B2 (en) * 2020-03-27 2021-12-14 Fortemedia, Inc. Method and device for improving voice quality

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1433355A1 (en) * 2001-07-19 2004-06-30 Vast Audio Pty Ltd Recording a three dimensional auditory scene and reproducing it for the individual listener
US7184559B2 (en) * 2001-02-23 2007-02-27 Hewlett-Packard Development Company, L.P. System and method for audio telepresence
US20090080632A1 (en) * 2007-09-25 2009-03-26 Microsoft Corporation Spatial audio conferencing
WO2012061149A1 (en) * 2010-10-25 2012-05-10 Qualcomm Incorporated Three-dimensional sound capturing and reproducing with multi-microphones

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6289308B1 (en) * 1990-06-01 2001-09-11 U.S. Philips Corporation Encoded wideband digital transmission signal and record carrier recorded with such a signal
US6072878A (en) 1997-09-24 2000-06-06 Sonic Solutions Multi-channel surround sound mastering and reproduction techniques that preserve spatial harmonics
US6813360B2 (en) * 2002-01-22 2004-11-02 Avaya, Inc. Audio conferencing with three-dimensional audio encoding
US7099821B2 (en) * 2003-09-12 2006-08-29 Softmax, Inc. Separation of target acoustic signals in a multi-transducer arrangement
WO2006003891A1 (ja) * 2004-07-02 2006-01-12 Matsushita Electric Industrial Co., Ltd. 音声信号復号化装置及び音声信号符号化装置
US7826624B2 (en) * 2004-10-15 2010-11-02 Lifesize Communications, Inc. Speakerphone self calibration and beam forming
BRPI0607303A2 (pt) 2005-01-26 2009-08-25 Matsushita Electric Ind Co Ltd dispositivo de codificação de voz e método de codificar voz
US20080004729A1 (en) 2006-06-30 2008-01-03 Nokia Corporation Direct encoding into a directional audio coding format
EP2115743A1 (en) * 2007-02-26 2009-11-11 QUALCOMM Incorporated Systems, methods, and apparatus for signal separation
US20080232601A1 (en) 2007-03-21 2008-09-25 Ville Pulkki Method and apparatus for enhancement of audio reconstruction
US8098842B2 (en) * 2007-03-29 2012-01-17 Microsoft Corp. Enhanced beamforming for arrays of directional microphones
CA2948457C (en) * 2008-06-30 2019-02-26 Constellation Productions, Inc. Methods and systems for improved acoustic environment characterization
US8005237B2 (en) * 2007-05-17 2011-08-23 Microsoft Corp. Sensor array beamformer post-processor
KR101415026B1 (ko) 2007-11-19 2014-07-04 삼성전자주식회사 마이크로폰 어레이를 이용한 다채널 사운드 획득 방법 및장치
US8175291B2 (en) * 2007-12-19 2012-05-08 Qualcomm Incorporated Systems, methods, and apparatus for multi-microphone based speech enhancement
CN101981944B (zh) 2008-04-07 2014-08-06 杜比实验室特许公司 麦克风阵列的环绕声产生
CN102084418B (zh) * 2008-07-01 2013-03-06 诺基亚公司 用于调整多通道音频信号的空间线索信息的设备和方法
US8279357B2 (en) 2008-09-02 2012-10-02 Mitsubishi Electric Visual Solutions America, Inc. System and methods for television with integrated sound projection system
RU2554510C2 (ru) 2009-12-23 2015-06-27 Нокиа Корпорейшн Устройство
EP2357649B1 (en) * 2010-01-21 2012-12-19 Electronics and Telecommunications Research Institute Method and apparatus for decoding audio signal
US8600737B2 (en) * 2010-06-01 2013-12-03 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for wideband speech coding
US8638951B2 (en) 2010-07-15 2014-01-28 Motorola Mobility Llc Electronic apparatus for generating modified wideband audio signals based on two or more wideband microphone signals
US8433076B2 (en) * 2010-07-26 2013-04-30 Motorola Mobility Llc Electronic apparatus for generating beamformed audio signals with steerable nulls
US9456289B2 (en) 2010-11-19 2016-09-27 Nokia Technologies Oy Converting multi-microphone captured signals to shifted signals useful for binaural signal processing and use thereof
US8819523B2 (en) * 2011-05-19 2014-08-26 Cambridge Silicon Radio Limited Adaptive controller for a configurable audio coding system
CN103890841B (zh) 2011-11-01 2017-10-17 皇家飞利浦有限公司 音频对象编码和解码
US20130315402A1 (en) 2012-05-24 2013-11-28 Qualcomm Incorporated Three-dimensional sound compression and over-the-air transmission during a call

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7184559B2 (en) * 2001-02-23 2007-02-27 Hewlett-Packard Development Company, L.P. System and method for audio telepresence
EP1433355A1 (en) * 2001-07-19 2004-06-30 Vast Audio Pty Ltd Recording a three dimensional auditory scene and reproducing it for the individual listener
US20090080632A1 (en) * 2007-09-25 2009-03-26 Microsoft Corporation Spatial audio conferencing
WO2012061149A1 (en) * 2010-10-25 2012-05-10 Qualcomm Incorporated Three-dimensional sound capturing and reproducing with multi-microphones

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104637494A (zh) * 2015-02-02 2015-05-20 哈尔滨工程大学 基于盲源分离的双话筒移动设备语音信号增强方法
CN106356074A (zh) * 2015-07-16 2017-01-25 中华映管股份有限公司 声音信号处理方法
CN108028977A (zh) * 2015-09-09 2018-05-11 微软技术许可有限责任公司 用于声源方向估计的话筒放置
CN108028977B (zh) * 2015-09-09 2020-03-03 微软技术许可有限责任公司 用于声源方向估计的话筒放置
CN110858943A (zh) * 2018-08-24 2020-03-03 纬创资通股份有限公司 收音处理装置及其收音处理方法
CN112259110A (zh) * 2020-11-17 2021-01-22 北京声智科技有限公司 音频编码方法及装置、音频解码方法及装置
CN113329138A (zh) * 2021-06-03 2021-08-31 维沃移动通信有限公司 视频拍摄方法、视频播放方法和电子设备
WO2024082181A1 (zh) * 2022-10-19 2024-04-25 北京小米移动软件有限公司 空间音频采集方法及装置

Also Published As

Publication number Publication date
JP2015523594A (ja) 2015-08-13
US20130315402A1 (en) 2013-11-28
EP2856464B1 (en) 2019-06-19
JP6336968B2 (ja) 2018-06-06
US20160005408A1 (en) 2016-01-07
US9161149B2 (en) 2015-10-13
WO2013176890A2 (en) 2013-11-28
US20130317830A1 (en) 2013-11-28
KR20150021052A (ko) 2015-02-27
CN104321812B (zh) 2016-10-05
KR101705960B1 (ko) 2017-02-10
EP2856464A2 (en) 2015-04-08
WO2013176959A1 (en) 2013-11-28
WO2013176890A3 (en) 2014-02-27
US9361898B2 (en) 2016-06-07

Similar Documents

Publication Publication Date Title
CN104321812B (zh) 在呼叫期间的三维声音压缩及空中发射
CN109644314B (zh) 渲染声音程序的方法、音频回放***和制造制品
CN104471960B (zh) 用于向后兼容音频译码的***、方法、设备和计算机可读媒体
JP6121481B2 (ja) マルチマイクロフォンを用いた3次元サウンド獲得及び再生
US9219972B2 (en) Efficient audio coding having reduced bit rate for ambient signals and decoding using same
US20080004729A1 (en) Direct encoding into a directional audio coding format
CN110537221A (zh) 用于空间音频处理的两阶段音频聚焦
CN109313907A (zh) 合并音频信号与空间元数据
US20220417656A1 (en) An Apparatus, Method and Computer Program for Audio Signal Processing
WO2020072369A1 (en) Representing occlusion when rendering for computer-mediated reality systems
CN106716526A (zh) 用于增强声源的方法和装置
US11140507B2 (en) Rendering of spatial audio content
CN114051736A (zh) 用于音频流送和渲染的基于定时器的访问
WO2010125228A1 (en) Encoding of multiview audio signals
CN116569255A (zh) 用于六自由度应用的多个分布式流的矢量场插值
CN114067810A (zh) 音频信号渲染方法和装置
Sun Immersive audio, capture, transport, and rendering: A review
US20240119945A1 (en) Audio rendering system and method, and electronic device
US20240119946A1 (en) Audio rendering system and method and electronic device
CN115938388A (zh) 一种三维音频信号的处理方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20161005

Termination date: 20210508