CN104428834B - 用于使用基函数系数的三维音频译码的***、方法、设备和计算机可读媒体 - Google Patents

用于使用基函数系数的三维音频译码的***、方法、设备和计算机可读媒体 Download PDF

Info

Publication number
CN104428834B
CN104428834B CN201380037024.8A CN201380037024A CN104428834B CN 104428834 B CN104428834 B CN 104428834B CN 201380037024 A CN201380037024 A CN 201380037024A CN 104428834 B CN104428834 B CN 104428834B
Authority
CN
China
Prior art keywords
basic function
function coefficient
coefficient sets
audio signal
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201380037024.8A
Other languages
English (en)
Other versions
CN104428834A (zh
Inventor
D·森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN104428834A publication Critical patent/CN104428834A/zh
Application granted granted Critical
Publication of CN104428834B publication Critical patent/CN104428834B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Stereophonic System (AREA)

Abstract

本发明描述用于编码不同类型的音频输入的统一方法的***、方法和设备。

Description

用于使用基函数系数的三维音频译码的***、方法、设备和计 算机可读媒体
依据35 U.S.C.§119的优先权主张
本专利申请案主张2012年7月15日申请且转让给本受让人的标题为“使用阶层译码的统一的基于通道、对象和场景的可缩放3D音频译码(UNIFIED CHANNEL-,OBJECT-,ANDSCENE-BASED SCALABLE 3D-AUDIO CODING USING HIERARCHICAL CODING)”的第61/671,791号临时申请案的优先权。
技术领域
本发明涉及空间音频译码。
背景技术
环绕声的演进现今已使得许多用于娱乐的输出格式可用。市场上的环绕声格式的范围包含流行的5.1家庭影院***格式,其在应用于起居室方面已最成功地超越了立体声。此格式包含以下六个通道:前左(L)、前右(R)、中心或前中心(C)、后左或环绕左(Ls)、后右或环绕右(Rs),以及低频效果(LFE)。环绕声格式的其它实例包含增长的7.1格式和由NHK(日本放送协会(Nippon Hoso Kyokai)或日本广播公司)开发的未来的22.2格式,例如用于与超高清晰度电视标准一起使用。可需要一种环绕声格式以在两个维度中和/或在三个维度中对音频进行编码。
发明内容
根据一般配置的音频信号处理的方法包含将音频信号和所述音频信号的空间信息编码为描述第一声场的第一基函数系数集合。此方法还包含将所述第一基函数系数集合与描述在时间间隔期间的第二声场的第二基函数系数集合进行组合以产生描述在所述时间间隔期间的组合声场的组合基函数系数集合。还揭示具有有形特征的计算机可读存储媒体(例如,非暂时性媒体),所述有形特征致使读取所述特征的机器执行此方法。
根据一般配置的用于音频信号处理的设备包含:用于将音频信号和所述音频信号的空间信息编码为描述第一声场的第一基函数系数集合的装置;以及用于将所述第一基函数系数集合与描述在时间间隔期间的第二声场的第二基函数系数集合进行组合以产生描述在所述时间间隔期间的组合声场的组合基函数系数集合的装置。
根据另一一般配置的用于音频信号处理的设备包含编码器,所述编码器经配置以将音频信号和所述音频信号的空间信息编码为描述第一声场的第一基函数系数集合。此设备还包含组合器,所述组合器经配置以将所述第一基函数系数集合与描述在时间间隔期间的第二声场的第二基函数系数集合进行组合以产生描述在所述时间间隔期间的组合声场的组合基函数系数集合。
附图说明
图1A说明L个音频对象的实例。
图1B展示一个基于对象的译码方法的概念概览。
图2A和2B展示空间音频对象译码(SAOC)的概念概览。
图3A展示基于场景的译码的实例。
图3B说明用于使用MPEG编解码器的标准化的一般结构。
图4展示阶数0和1的球谐基函数的量值的表面网格绘图的实例。
图5展示阶数2的球谐基函数的量值的表面网格绘图的实例。
图6A展示根据一般配置的音频信号处理的方法M100的流程图。
图6B展示任务T100的实施方案T102的流程图。
图6C展示任务T100的实施方案T104的流程图。
图7A展示任务T100的实施方案T106的流程图。
图7B展示方法M100的实施方案M110的流程图。
图7C展示方法M100的实施方案M120的流程图。
图7D展示方法M100的实施方案M300的流程图。
图8A展示方法M100的实施方案M200的流程图。
图8B展示根据一般配置的音频信号处理的方法M400的流程图。
图9展示方法M200的实施方案M210的流程图。
图10展示方法M200的实施方案M220的流程图。
图11展示方法M400的实施方案M410的流程图。
图12A展示根据一般配置的用于音频信号处理的设备MF100的框图。
图12B展示装置F100的实施方案F102的框图。
图12C展示装置F100的实施方案F104的框图。
图13A展示任务F100的实施方案F106的框图。
图13B展示设备MF100的实施方案MF110的框图。
图13C展示设备MF100的实施方案MF120的框图。
图13D展示设备MF100的实施方案MF300的框图。
图14A展示设备MF100的实施方案MF200的框图。
图14B展示根据一般配置的音频信号处理的设备MF400的框图。
图14C展示根据一般配置的用于音频信号处理的设备A100的框图。
图15A展示设备A100的实施方案A300的框图。
图15B展示根据一般配置的音频信号处理的设备A400的框图。
图15C展示编码器100的实施方案102的框图。
图15D展示编码器100的实施方案104的框图。
图15E展示编码器100的实施方案106的框图。
图16A展示设备A100的实施方案A110的框图。
图16B展示设备A100的实施方案A120的框图。
图16C展示设备A100的实施方案A200的框图。
图17A展示用于统一译码架构的框图。
图17B展示用于相关架构的框图。
图17C展示统一编码器UE10的实施方案UE100的框图。
图17D展示统一编码器UE100的实施方案UE300的框图。
图17E展示统一编码器UE100的实施方案UE305的框图。
图18展示统一编码器UE300的实施方案UE310的框图。
图19A展示统一编码器UE100的实施方案UE250的框图。
图19B展示统一编码器UE250的实施方案UE350的框图。
图20展示分析器150a的实施方案160a的框图。
图21展示分析器150b的实施方案160b的框图。
图22A展示统一编码器UE250的实施方案UE260的框图。
图22B展示统一编码器UE350的实施方案UE360的框图。
具体实施方式
除非由其上下文明确限制,否则术语“信号”在此用以指示其普通意义中的任一者,包含如在电线、总线或其它传输媒体上表示的存储器位置(或存储器位置集合)的状态。除非由其上下文明确限制,否则术语“产生”在此用以指示其普通意义中的任一者,例如计算或以其它方式产生。除非由其上下文明确限制,否则术语“计算”在此用以指示其普通意义中的任一者,例如计算、评估、估计和/或从多个值中选择。除非由其上下文明确限制,否则术语“获得”用以指示其普通意义中的任一者,例如计算、推导、接收(例如,从外部装置)和/或检索(例如,从存储元件阵列)。除非由其上下文明确限制,否则术语“选择”用以指示其普通意义中的任一者,例如识别、指示、应用和/或使用两者或两者以上的集合中的至少一者且少于全部。在本发明描述和权利要求书中使用术语“包括”的情况下,其并不排除其它元件或操作。术语“基于”(如“A基于B”中)用以指示其普通意义中的任一者,包含如下情况:(i)“推导自”(例如,“B是A的前体”),(ii)“至少基于”(例如,“A至少基于B”),以及在特定上下文中适当的情况下,(iii)“等于”(例如,“A等于B”或“A与B相同”)。类似地,术语“响应于”用以指示其普通意义中的任一者,包含“至少响应于”。
对多麦克风音频感测装置的麦克风的“位置”的参考指示所述麦克风的声学敏感面的中心的位置,除非上下文另外指示。根据特定上下文,术语“通道”有时候用以指示信号路径且在其它时候用以指示由此路径载运的信号。除非另外指示,否则术语“系列”用以指示两个或两个以上项目的序列。术语“对数”用以指示基于十的对数,但此运算向其它基数的扩展在本发明的范围内。术语“频率分量”用以指示信号的一组频率或频带当中的一者,例如所述信号的频域表示的样本(例如,由快速傅立叶变换产生)或所述信号的子带(例如,巴克(Bark)尺度或梅尔(mel)尺度子带)。
除非另外指示,否则对具有特定特征的设备的操作的任何揭示也明确预期揭示具有类似特征的方法(且反之亦然),且对根据特定配置的设备的操作的任何揭示也明确预期揭示根据类似配置的方法(且反之亦然)。术语“配置”可参考由其特定上下文指示的方法、设备和/或***来使用。术语“方法”、“过程”、“程序”和“技术”一般地且可互换地使用,除非特定上下文另外指示。术语“设备”和“装置”也一般地且可互换地使用,除非特定上下文另外指示。术语“元件”和“模块”通常用以指示较大配置的一部分。除非由其上下文明确限制,否则术语“***”在此用以指示其普通意义中的任一者,包含“相互作用以用于共同目的的元件群组”。
通过引用文档的一部分的任何并入也应当理解为并入了在所述部分内参考的术语或变量的定义,此些定义在文档中的别处出现的地方,以及在所并入部分中参考的任何图式。除非初始通过定冠词介绍,否则用以修改权利要求元素的序数术语(例如,“第一”、“第二”、“第三”等等)本身并不指示所述权利要求元素相对于另一元素的任何优先级或次序,而是仅使所述权利要求元素区别于具有相同名称(但出于序数术语的使用)的另一权利要求元素。除非通过其上下文明确限制,否则术语“多个”和“集合”中的每一者在本文用以指示大于一的整数量。
消费型音频中的当前现有技术是使用基于通道的环绕声的空间译码,所述环绕声有意通过预先指定位置处的扬声器来播放。基于通道的音频涉及用于扬声器中的每一者的扬声器馈送,所述扬声器有意定位于预定位置中(例如,用于5.1环绕声/家庭影院和22.2格式)。
空间音频译码的另一主要方法是基于对象的音频,其涉及用于单个音频对象的离散脉码调制(PCM)数据,具有含有所述对象在空间中的位置坐标(以及其它信息)的相关联元数据。音频对象将个别脉码调制(PCM)数据流连同其三维(3D)位置坐标和经编码为元数据的其它空间信息一起囊封。在内容产生阶段,对个别空间音频对象(例如,PCM数据)及其位置信息进行单独编码。图1A说明L个音频对象的实例。在解码和再现端处,将元数据与PCM数据组合以再产生3D声场。
此处提供使用基于对象的基本原理的两个实例用于参考。图1B展示第一实例基于对象的译码方案的概念概述,其中每一声音源PCM流连同其相应元数据(例如,空间数据)一起由编码器OE10个别编码且发射。在再现器端处,使用PCM对象和相关联元数据(例如,由解码器/混合器/再现器ODM10使用)以基于扬声器的位置计算扬声器馈送。举例来说,可使用平移方法(例如,向量基振幅平移或VBAP)来将PCM流个别地空间化回到环绕声混合。在再现器端,混合器通常具有多轨道编辑器的表现,其中PCM轨道布局和空间元数据作为可编辑控制信号。
虽然如图1B所示的方法允许最大灵活性,但其也具有潜在缺点。从内容产生器获得个别PCM音频对象可为困难的,且所述方案可为版权材料提供不足够水平的保护,因为解码器端可容易地获得原始音频对象。而且现代电影的声轨可容易地涉及数百个重叠的声音事件,使得对每一PCM个别地进行编码可能无法将所有数据配合到有限带宽发射信道中,即使具有适度数目的音频对象也是如此。此方案未解决此带宽挑战,且因此此方法在带宽使用方面可为受限的。
第二实例是空间音频对象译码(SAOC),其中将所有对象下混合到单声道或立体声PCM流以用于发射。基于双耳线索译码(BCC)的此方案还包含元数据位流,其可包含例如耳间声级差(ILD)、耳间时间差(ITD)和通道间相干(ICC,与源的扩散性或感知大小相关)等参数的值,且可经编码(例如,由编码器OE20)到少达音频通道的十分之一中。图2A展示SAOC实施方案的概念图,其中解码器OD20和混合器OM20是单独模块。图2B展示SAOC实施方案的概念图,其包含集成的解码器和混合器ODM20。
在实施方案中,SAOC与MPED环绕(MPS、ISO/IEC 14496-3,也称为高效高级音频译码或HeAAC)紧密结合,其中将5.1格式信号的六个通道下混合到单声道或立体声PCM流中,具有允许在再现器处的其余通道的合成的辅助信息(例如ILD、ITD、ICC)。虽然此方案可在发射期间具有很低的位速率,但对于SAOC来说空间再现的灵活性通常受限。除非音频对象的既定再现位置非常靠近原始位置,否则可预期音频质量将受损。而且,当音频对象的数目增加时,借助元数据对其中每一者进行个别处理可变得困难。
对于基于对象的音频,可能希望解决当存在许多音频对象来描述声场时将涉及的过量位速率或带宽。类似地,当存在带宽约束时基于通道的音频的译码也可变为问题。
空间音频译码(例如,环绕声译码)的又一方法是基于场景的音频,其涉及使用球谐基函数(spherical harmonic basis function)的系数表示声场。此些系数也称为“球谐系数”或SHC。基于场景的音频通常是使用例如B格式等环境立体声格式来编码。B格式信号的通道对应于声场的球谐基函数而不是扬声器馈送。一阶B格式信号具有多达四个通道(全向通道W和三个方向性通道X、Y、Z);二阶B格式信号具有多达九个通道(四个一阶通道和五个额外通道R、S、T、U、V);且三阶B格式信号具有多达十六个通道(九个二阶通道和七个额外通道K、L、M、N、O、P、Q)。
图3A描绘关于基于场景的方法的直观编码和解码过程。在此实例中,基于场景的编码器SE10产生经发射(和/或存储)且在基于场景的解码器SD10处解码的SHC的描述以接收用于再现的SHC(例如,由SH再现器SR10)。此编码可包含用于带宽压缩的一或多个有损或无损译码技术,例如量化(例如,量化为一或多个码簿索引)、错误校正译码、冗余译码等等。另外或替代地,此编码可包含将音频通道(例如,麦克风输出)编码为环境立体声格式,例如B格式、G格式或较高阶环境立体声(HOA)。大体上,编码器SE10可使用利用系数之间的冗余和/或不相关性(用于有损或无损译码)的技术对SHC进行编码。
可能希望提供空间音频信息到经标准化位流中的编码以及对扬声器几何形状和再现器的位置处的声学条件可适配且无关的后续解码。此方法可提供均匀收听体验的目标,无论最终用于再生的特定设置如何。图3B说明用于使用MPEG编解码器的此标准化的一般结构。在此实例中,对编码器MP10的输入音频源可包含以下各项中的任意一或多者,例如:基于通道的源(例如,1.0(单声道)、2.0(立体声)、5.1、7.1、11.1、22.2)、基于对象的源,以及基于场景的源(例如,高阶球谐、环境立体声)。类似地,由解码器(和再现器)MP20产生的音频输出可包含以下各项中的任意一或多者,例如:用于单声道、立体声、5.1、7.1和/或22.2扬声器阵列的馈送;用于不规则分布扬声器阵列的馈送;用于头戴受话器的馈送;交互式音频。
还可能希望遵循“产生一次,使用多次”基本原理,其中音频材料产生一次(例如,由内容产生器)且经编码为可随后经解码且再现为不同输出和扬声器设置的格式。例如好莱坞工作室(Hollywood studio)等内容产生器将通常可能产生用于电影的声轨一次且不会花费努力来针对每一可能扬声器配置对其进行再混合。
可能希望获得将采用三种类型的输入中的任一者的经标准化编码器:(i)基于通道,(ii)基于场景,以及(iii)基于对象。本发明描述可用以获得基于通道的音频和/或基于对象的音频到用于后续编码的共同格式的变换的方法、***和设备。在此方法中,基于对象的音频格式的音频对象和/或基于通道的音频格式的通道是通过将其投影到基函数集合上以获得基函数系数的阶层式集合来变换。在一个此类实例中,对象和/或通道是通过将其投影到球谐基函数集合上来获得球谐系数或SHC的阶层式集合来变换。此方法可例如实施以允许统一编码引擎以及统一位流(因为基于场景的音频的自然输入也是SHC)。如下文论述的图8展示此统一编码器的一个实例性AP150的框图。阶层式集合的其它实例包含小波变换系数的集合以及多分辨率基函数的系数的其它集合。
由此变换产生的系数具有阶层式的优点(即,具有相对于彼此的经界定次序),使得其服从于可缩放的译码。发射(和/或存储)的系数的数目可例如与可用带宽(和/或存储容量)成比例而变化。在此情况下,当较高带宽(和/或存储容量)可用时,可发射较多系数,从而允许在再现期间的较大空间分辨率。此变换还允许系数的数目独立于构成声场的对象的数目,使得表示的位速率可独立于曾用以构造声场的音频对象的数目。
此变换的潜在益处在于其允许内容提供者使其专属音频对象可用于编码,而无其由最终用户存取的可能性。此结果可以其中不存在从系数回到原始音频对象的无损逆变换的实施方案来获得。举例来说,此专属信息的保护是好莱坞工作室的主要问题。
使用SHC的集合来表示声场是使用阶层式元素集合来表示声场的一般方法的特定实例。例如SHC集合等阶层式元素集合是其中元素经排序使得较低阶元素的基本集合提供经建模声场的完整表示的集合。由于所述集合经扩展以包含较高阶元素,因此空间中的声场的表示变得更详细。
源SHC(例如,如图3A中所示)可为由混合工程师在能够基于场景的记录工作室中混合的源信号。源SHC还可从由麦克风阵列俘获的信号或从由扬声器的环绕阵列的声音表示的记录来产生。PCM流和相关联位置信息(例如,音频对象)向SHC源集合的转换也是预期的。
以下表达式展示PCM对象si(t)连同其元数据(含有位置坐标等等)可如何变换为SHC集合:
其中c为声速(大约343m/s),是声场内的参考点(或观察点),jn(·)是阶数n的球形贝塞尔函数,且是阶数n且子阶数m的球谐基函数(SHC的一些描述将n标记为度数(即,对应勒让德多项式)且将m标记为阶数)。可认识到,在方括号中的项是信号的频域表示(即,),其可通过各种时间-频率变换来近似,例如离散傅立叶变换(DFT)、离散余弦变换(DCT)或小波变换。
图4展示度数0和1的球谐基函数的量值的表面网格绘图的实例。函数的量值是球形且全向的。函数具有分别在+y和-y方向上延伸的正和负球瓣。函数具有分别在+z和-z方向上延伸的正和负球瓣。函数具有分别在+x和-x方向上延伸的正和负球瓣。
图5展示度数2的球谐基函数的量值的表面网格绘图的实例。函数具有在x-y平面中延伸的瓣。函数具有在y-z平面中延伸的瓣,且函数具有在x-z平面中延伸的瓣。函数具有在+z和-z方向上延伸的正瓣和在x-y平面中延伸的环形负瓣。
集合中SHC的总数目可取决于各种因数。对于例如基于场景的音频,SHC的总数目可受到记录阵列中的麦克风变换器的数目约束。对于基于通道和基于对象的音频,SHC的总数目可由可用带宽决定。在一个实例中,使用针对每一频率涉及25个系数的四阶表示(即,0≤n≤4,-n≤m≤+n)。可与本文描述的方法一起使用的阶层式集合的其它实例包含小波变换系数的集合以及多分辨率基函数的系数的其它集合。
声场可使用例如以下表达式在SHC方面来表示:
此表达式展示在声场的任一点处的压力pi可由SHC唯一地表示。SHC可从使用各种麦克风阵列配置中的任一者(例如四面或球形麦克风阵列)物理上获取(例如,记录)的信号导出。此形式的输入表示对建议编码器的基于场景的音频输入。在非限制性实例中,假定对SHC编码器的输入是麦克风阵列的不同输出通道,例如EigenmikeR(mh声学有限责任公司,加利福尼亚旧金山)。EigenmikeR阵列的一个实例是em32阵列,其包含布置于直径8.4厘米的球体的表面上的32个麦克风,使得输出信号pi(t)中的每一者(i=1到32)为由麦克风i在时间样本t处记录的压力。
替代地,SHC可从声场的基于通道或基于对象的描述导出。举例来说,用于对应于个别音频对象的声场的系数可表达为
其中i为为阶数n的球形汉克尔函数(第二种),为对象的位置,且g(ω)为随着频率而变的源能量。所属领域的技术人员将认识到,可使用系数(或等效地,对应时域系数)的其它表示,例如不包含径向分量的表示。
知道随着频率而变的源能量g(ω)允许我们将每一PCM对象及其位置转换为SHC此源能量可例如使用时间-频率分析技术,例如通过对PCM流执行快速傅立叶变换(例如,256、512或1024点FFT)来获得。此外,可展示(由于以上是线性且正交的分解)用于每一对象的系数是加性的。以此方式,大量PCM对象可由系数表示(例如,作为个别对象的系数向量的和)。本质上,这些系数含有关于声场的信息(随着3D坐标而变的压力),且以上表示在观测点附近从个别对象到总体声场的表示的变换。
所属领域的技术人员将认识到,球谐基函数的若干稍微不同的定义是已知的(例如,实数、复数、正规化(例如,N3D)、半正规化(例如,SN3D)、弗斯-马勒姆(FuMa或FMH)等等),且因此表达式(1)(即,声场的球谐分解)和表达式(2)(即,由点源产生的声场的球谐分解)可在字面上以稍微不同形式表现。本描述不限于球谐基函数的任何特定形式,且实际上一般也适用于其它阶层式元素集合。
图6A展示根据包含任务T100和T200的一般配置的方法M100的流程图。任务T100将音频信号(例如,如本文描述的音频对象的音频流)和音频信号的空间信息(例如,来自如本文描述的音频对象的元数据)编码为描述第一声场的第一基函数系数集合。任务T200将第一基函数系数集合与描述在时间间隔期间的第二声场的第二基函数系数集合(例如,SHC集合)组合以产生描述在所述时间间隔期间的组合声场的组合基函数系数集合。
任务T100可经实施以在计算系数之前对音频信号执行时间-频率分析。图6B展示包含子任务T110和T120的任务T100的此实施方案T102的流程图。任务T110执行对音频信号(例如,PCM流)的时间-频率分析。基于分析的结果和音频信号的空间信息(例如,位置数据,例如方向和/或距离),任务T120计算第一基函数系数集合。图6C展示包含任务T110的实施方案T115的任务T102的实施方案T104的流程图。任务T115计算在多个频率中的每一者处音频信号的能量(例如,如本文参考源能量g(ω)所述)。在此情况下,任务T120可经实施以将第一系数集合计算为例如球谐系数集合(例如,根据例如以上表达式(3)的表达式)。可能希望实施任务T115以计算在多个频率中的每一者处音频信号的相位信息且实施任务T120以同样根据此信息计算系数集合。
图7A展示包含子任务T130和T140的任务T100的替代实施方案T106的流程图。任务T130对输入信号执行初始基本分解以产生中间系数集合。在一个实例中,此分解在时域中表达为
其中表示针对时间样本t、阶数n和子阶数m的中间系数;且表示针对与输入流i相关联的标高θi和方位在阶数n和子阶数m的球形基函数(例如,对应麦克风i的声音感测表面的法线的标高和方位)。在特定但非限制性实例中,阶数n的最大值N等于四,使得针对每一时间样本t获得二十五个中间系数D的集合。明确注意,任务T130也可在频域中执行。
任务T140将波前模型应用于中间系数以产生系数集合。在一个实例中,任务T140根据球形波前模型对中间系数进行滤波以产生球谐系数集合。此运算可表达为
其中表示针对时间样本t在阶数n和子阶数m处的时域球谐系数,qs.n(t)表示用于球形波前模型的阶数n的滤波器的时域脉冲响应,且*是时域卷积算子。每一滤波器qs.n(t),1≤n≤N,可实施为有限脉冲响应滤波器。在一个实例中,每一滤波器qs.n(t)经实施为频域滤波器的逆傅立叶变换
其中
k为波数(ω/c),r为所关注球形区的半径(例如,球形麦克风阵列的半径),且表示阶数n的第二种球形汉克尔函数的导数(相对于r)。
在另一实例中,任务T140根据平面波前模型对中间系数进行滤波以产生球谐系数集合。举例来说,此运算可表达为
其中表示针对时间样本t在阶数n和子阶数m处的时域球谐系数,且qp.n(t)表示用于平面波前模型的阶数n的滤波器的时域脉冲响应。每一滤波器qp.n(t),1≤n≤N,可实施为有限脉冲响应滤波器。在一个实例中,每一滤波器qp.n(t)经实施为频域滤波器的逆傅立叶变换
其中
明确注意,任务T140的这些实例中的任一者也可在频域中执行(例如,作为乘法)。
图7B展示包含任务T200的实施方案T210的方法M100的实施方案M110的流程图。任务T210通过计算逐元素的和(例如,向量和)以产生组合集合来组合第一和第二系数集合。在另一实施方案中,任务T200经实施以改为串联第一和第二集合。
任务T200可经布置以将由任务T100产生的第一系数集合与由另一装置或过程(例如,环境立体声或其它SHC位流)产生的第二系数集合进行组合。替代地或另外,任务T200可经布置以组合由任务T100的多个实例产生的系数集合(例如,对应于两个或两个以上音频对象中的每一者)。因此,可能希望实施方法M100以包含任务T100的多个实例。图8展示包含任务T100的L个实例T100a到T100L(例如,任务T102、T104或T106)的方法M100的此实施方案M200的流程图。方法M110还包含将L个基函数系数集合(例如,作为逐元素的和)组合以产生组合集合的任务T200(例如,任务T210)的实施方案T202。方法M110可例如用以将L个音频对象的集合(例如,如图1A中说明)编码为基函数系数的组合集合(例如,SHC)。图9展示包含任务T202的实施方案T204的方法M200的实施方案M210的流程图,所述任务将由任务T100a到T100L产生的系数集合与由另一装置或过程产生的系数集合(例如,SHC)进行组合。
预期且进而揭示,由任务T200组合的系数集合不需要具有相同数目的系数。为了适应其中集合中的一者小于另一者的情况,可能希望实施任务T210以使系数集合对准于阶层中的最低阶系数处(例如,对应于球谐基函数的系数处)。
用以对音频信号进行编码的系数的数目(例如,最高阶系数的数目)可在信号之间(例如,在音频对象之间)不同。举例来说,对应于一个对象的声场可在比对应于另一对象的声场低的分辨率处编码。此变化可由可包含例如以下各项中的任意一或多者的因素引导:对象对呈现的重要性(例如,前景话音对背景效果)、对象相对于收听者头部的位置(例如,在收听者头部侧面的对象比收听者头部前方的对象较不可定位,且因此可以较低空间分辨率来编码),以及对象相对于水平平面的位置(例如,人类听觉***在此平面外比在此平面内具有较低定位能力,使得在平面外的系数编码信息可比在平面内的那些编码信息较不重要)。
在统一空间音频译码的上下文中,基于通道的信号(或扬声器馈送)仅是其中对象的位置是扬声器的预定位置的音频信号(例如,PCM馈送)。因此可将基于通道的音频视为仅基于对象的音频的子集,其中对象的数目固定到通道的数目,且空间信息在通道识别中为隐式的(例如,L、C、R、Ls、Rs、LFE)。
图7C展示包含任务T50的方法M100的实施方案M120的流程图。任务T50产生多通道音频输入的通道的空间信息。在此情况下,任务T100(例如,任务T102、T104或T106)经布置以接收通道作为将以空间信息编码的音频信号。任务T50可经实施以根据基于通道的输入的格式来产生空间信息(例如,对应扬声器相对于参考方向或点的方向或位置)。对于其中仅一个通道格式将经处理(例如,仅5.1或仅7.1)的情况,任务T130可经配置以产生通道的对应固定方向或位置。对于其中将适应多个通道格式的情况,任务T130可经实施以根据格式识别符(例如,指示5.1、7.1或22.2格式)产生通道的空间信息。可接收格式识别符作为例如元数据,或作为当前在作用中的输入PCM流的数目的指示。
图10展示包含任务T50的实施方案T52的方法M200的实施方案M220的流程图,所述任务基于对编码任务T120a到T120L的基于通道的输入的格式产生每一通道的空间信息(例如,对应扬声器的方向或位置)。对于其中仅一个通道格式将经处理(例如,仅5.1或仅7.1)的情况,任务T52可经配置以产生位置数据的对应固定集合。对于其中将适应多个通道格式的情况,任务T52可经实施以如上所述根据格式识别符产生每一通道的位置数据。方法M220还可经实施以使得任务T202为任务T204的实例。
在又一实例中,方法M220经实施以使得任务T52检测音频输入信号是否为基于通道或基于对象的(例如,由输入位流的格式指示)且相应地配置任务T120a到L中的每一者以使用来自任务T52(针对基于通道的输入)或来自音频输入(针对基于对象的输入)的空间信息。在另一进一步实例中,用于处理基于对象的输入的方法M200的第一实例和用于处理基于通道的输入的方法M200(例如,M220)的第二实例共享组合任务T202(或T204)的共同实例,使得从基于对象和基于通道的输入计算的系数集合经组合(例如,作为每一系数阶处的和)以产生组合系数集合。
图7D展示包含任务T300的方法M100的实施方案M300的流程图。任务T300对组合集合进行编码(例如,用于发射和/或存储)。此编码可包含带宽压缩。任务T300可经实施以通过应用例如量化(例如,量化为一或多个码簿索引)、错误校正译码、冗余译码等等一或多个有损或无损译码技术和/或包化对集合进行编码。另外或替代地,此编码可包含编码为环境立体声格式,例如B格式、G格式或较高阶环境立体声(HOA)。在一个实例中,任务T300经实施以将系数编码为HOA B格式且随后使用高级音频译码对B格式信号进行编码(AAC;例如,如ISO/IEC 14496-3:2009“信息技术--视听对象的译码--部分3:音频”(标准化国际组织,日内瓦,CH)中界定)。可由任务T300执行的用于对SHC集合进行编码的其它方法的描述可例如参见第2012/0155653 A1号(贾克斯(Jax)等人)和第2012/0314878 A1号(丹尼尔(Daniel)等人)美国公开专利申请案。任务T300可经实施以例如将系数集合编码为不同阶数的系数之间的差和/或同一阶数在不同时间的系数之间的差。
如本文描述的方法M200、M210和M220的实施方案中的任一者也可实施为方法M300的实施方案(例如,以包含任务T300的实例)。可能希望实施如图3B所示的MPEG编码器MP10以执行如本文描述的方法M300的实施方案(例如,以产生用于流式传输、广播、多播和/或媒体原版制作(例如,CD、DVD和/或Blu-RayR光盘的原版制作)的位流)。
在另一实例中,任务T300经实施以对组合系数集合的基本集合执行变换(例如,使用可逆矩阵)以产生多个通道信号,其各自与对应不同空间区(例如,对应不同扬声器位置)相关联。举例来说,任务T300可经实施以应用可逆矩阵以将五个低阶SHC的集合(例如,对应于在5.1再现平面中串联的基函数的系数,例如(m,n)=[(1,-1),(1,1),(2,-2),(2,2)],以及全向系数(m,n)=(0,0))转换为5.1格式的五个全带音频信号。可逆性的需要是允许在极少或无分辨率损失的情况下将五个全带音频信号转换回到SHC的基本集合。任务T300可经实施以使用向后兼容的编解码器对所得通道信号进行编码,所述编解码器例如AC3(例如,如ATSC标准:数字音频压缩(文献A/52:2012,2012年3月23日,高级电视***委员会,华盛顿,也称为ATSC A/52或杜比(Dolby)数字,其使用有损MDCT压缩)中描述)、杜比TrueHD(包含有损和无损压缩选项)、DTS-HD大师音频(其也包含有损和无损压缩选项),和/或MPEG环绕(MPS,ISO/IEC 14496-3,也称为高效高级音频译码或HeAAC)。系数集合的其余部分可编码为位流的扩展部分(例如,AC3包的“辅助数据(auxdata)”部分,或杜比数字加(DolbyDigital Plus)位流的扩展包)。
图8B展示根据一般配置的对应于方法M300且包含任务T400和T500的解码的方法M400的流程图。任务T400对位流(例如,由任务T300编码)进行解码以获得组合系数集合。基于与扬声器阵列相关的信息(例如,扬声器的数目及其位置和辐射模式的指示),任务T500再现系数以产生扬声器通道集合。根据扬声器通道集合驱动扬声器阵列以产生由组合系数集合描述的声场。
用于确定用于将SHC再现到所要扬声器阵列几何形状的矩阵的一种可能方法是称为“模式匹配”的操作。此处,通过假定每一扬声器产生球面波来计算扬声器馈送。在此情形中,由于第扬声器而在某一位置处的压力(随着频率而变)如下给出
其中表示第扬声器的位置,且gl为第扬声器的扬声器馈送(在频域中)。由于全部L个扬声器的总压力Pt因此如下给出
我们还知道在SHC方面的总压力由以下等式给出
使以上两个等式相等允许我们如下使用变换矩阵来在SHC方面表达扬声器馈送:
此表达式展示在扬声器馈送与所选SHC之间存在直接关系。变换矩阵可取决于例如使用了哪些系数以及使用了球谐基函数的哪一定义而变化。虽然为了方便,此实例展示阶数n的最大值N等于二,但明确注意,在特定实施方案需要时可使用任何其它最大阶数(例如,四或四以上)。以类似方式,可构造用以从选定基本集合转换到不同通道格式(例如,7.1,22.2)的变换矩阵。虽然以上变换矩阵是从“模式匹配”准则导出,但替代变换矩阵也可从其它准则导出,例如压力匹配、能量匹配等等。虽然表达式(12)展示复杂基函数的使用(如复共轭所证明),但也明确揭示替代的球谐基函数的实值集合的使用。
图11展示包含任务T600和任务T500的自适应实施方案T510的方法M400的实施方案M410的流程图。在此实例中,一或多个麦克风的阵列MCA布置于由扬声器阵列LSA产生的声场SF内,且任务T600响应于声场而处理由这些麦克风产生的信号以执行再现任务T510的自适应均衡(例如,基于时空间测量和/或其它估计技术的局部均衡)。
使用正交基函数集合的系数集合(例如,SHC)的此表示的潜在优点包含以下各项中的一或多者:
i.系数为阶层式的。因此,可发送或存储多达某一阶段阶数(比如n=N)以满足带宽或存储要求。如果较多带宽变得可用,那么可发送和/或存储较高阶系数。发送(较高阶的)较多系数减少截断误差,从而允许较好分辨率的再现。
ii.系数的数目独立于对象的数目,意味着可对经截断系数集合进行译码以满足带宽要求,无论声音场景中有多少对象都是如此。
iii.PCM对象向SHC的转换是不可逆的(至少不是无关紧要的)。此特征可减轻关注于允许对其有版权音频小片(特殊效果)等等的无失真存取的内容提供者的担心。
iv.房间反射、环境/漫射声音、辐射模式和其它声学特征的效果可全部以各种方式并入到基于系数的表示中。
v.基于系数的声场/环绕声表示未联系到特定扬声器几何形状,且再现可适于任何扬声器几何形状。例如在文献中可找到各种额外再现技术选项。
vi.SHC表示和框架允许自适应和非自适应量化考虑再现场景处的声学时空间特性(例如,参见方法M410)。
如本文描述的方法可用以提供用于基于通道和/或基于对象的音频的变换路径,其允许针对全部三种格式的统一编码/解码引擎:基于通道、基于场景和基于对象的音频。此方法可经实施以使得经变换系数的数目独立于对象或通道的数目。此方法即使在未采用统一方法时也可用于基于通道或基于对象的音频。所述格式可经实施为可缩放的,因为系数的数目可适于可用的位速率,从而允许非常简单的方式来在质量与可用带宽和/或存储容量之间折中。
通过发送表示水平声学信息的较多系数(例如,以考虑人听觉在水平平面中比在标高/高度平面中更敏锐的事实)可操纵SHC表示。收听者头部的位置可用作对再现器和编码器两者的反馈(如果此反馈路径可用)以优化收听者的感知(例如,以考虑人在前方平面中具有较好的空间敏锐度的事实)。SHC可经译码以考虑人感知(心理声学)、冗余等等。如例如方法M410中所示,如本文描述的方法可使用例如球谐波实施为端到端解决方案(包含收听者附近的最终均衡)。
图12A展示根据一般配置的设备MF100的框图。设备MF100包含用于将音频信号和音频信号的空间信息编码为描述第一声场的第一基函数系数集合的装置F100(例如,如本文参考任务T100的实施方案所述)。设备MF100还包含用于将第一基函数系数集合与描述在时间间隔期间的第二声场的第二基函数系数集合进行组合以产生描述在所述时间间隔期间的组合声场的组合基函数系数集合的装置F200(例如,如本文参考任务T100的实施方案所述)。
图12B展示装置F100的实施方案F102的框图。装置F102包含用于执行对音频信号的时间-频率分析的装置F110(例如,如本文参考任务T110的实施方案所述)。装置F102还包含用于计算基函数系数集合的装置F120(例如,如本文参考任务T120的实施方案所述)。图12C展示装置F102的实施方案F104的框图,其中装置F110经实施为用于计算在多个频率中的每一者处音频信号的能量的装置F115(例如,如本文参考任务T115的实施方案所述)。
图13A展示装置F100的实施方案F106的框图。装置F106包含用于计算中间系数的装置F130(例如,如本文参考任务T130的实施方案所述)。装置F106还包含用于将波前模型应用于中间系数的装置F140(例如,如本文参考任务T140的实施方案所述)。
图13B展示设备MF100的实施方案MF110的框图,其中装置F200经实施为用于计算第一和第二基函数系数集合的逐元素的和的装置F210(例如,如本文参考任务T210的实施方案所述)。
图13C展示设备MF100的实施方案MF120的框图。设备MF120包含用于产生多通道音频输入的通道的空间信息的装置F50(例如,如本文参考任务T50的实施方案所述)。
图13D展示设备MF100的实施方案MF300的框图。设备MF300包含用于对组合基函数系数集合进行编码的装置F300(例如,如本文参考任务T300的实施方案所述)。设备MF300还可经实施以包含装置F50的实例。
图14A展示设备MF100的实施方案MF200的框图。设备MF200包含装置F100的多个实例F100a到F100L以及用于组合由装置F100a到F100L产生的组合基函数系数集合的装置F200的实施方案F202(例如,如本文参考方法M200和任务T202的实施方案所述)。
图14B展示根据一般配置的设备MF400的框图。设备MF400包含用于对位流进行解码以获得组合基函数系数集合的装置F400(例如,如本文参考任务T400的实施方案所述)。设备MF400还包含用于再现组合集合的系数以产生扬声器通道集合的装置F500(例如,如本文参考任务T500的实施方案所述)。
图14C展示根据一般配置的设备A100的框图。设备A100包含经配置以将音频信号和音频信号的空间信息编码为描述第一声场的第一基函数系数集合的编码器100(例如,如本文参考任务T100的实施方案所述)。设备A100还包含经配置以将第一基函数系数集合与描述在时间间隔期间的第二声场的第二基函数系数集合进行组合以产生描述在所述时间间隔期间的组合声场的组合基函数系数集合的组合器200(例如,如本文参考任务T100的实施方案所述)。
图15A展示设备A100的实施方案A300的框图。设备A300包含经配置以对组合基函数系数集合进行编码的通道编码器300(例如,如本文参考任务T300的实施方案所述)。设备A300还可经实施以包含如下文描述的角度指示器50的实例。
图15B展示根据一般配置的设备MF400的框图。设备MF400包含用于对位流进行解码以获得组合基函数系数集合的装置F400(例如,如本文参考任务T400的实施方案所述)。设备MF400还包含用于再现组合集合的系数以产生扬声器通道集合的装置F500(例如,如本文参考任务T500的实施方案所述)。
图15C展示编码器100的实施方案102的框图。编码器102包含经配置以执行对音频信号的时间-频率分析的时间-频率分析器110(例如,如本文参考任务T110的实施方案所述)。编码器102还包含经配置以计算基函数系数集合的系数计算器120(例如,如本文参考任务T120的实施方案所述)。图15D展示编码器102的实施方案104的框图,其中分析器110经实施为经配置以计算在多个频率中的每一者处音频信号的能量的能量计算器115(例如,通过对信号执行快速傅立叶变换,如本文参考任务T115的实施方案所述)。
图15E展示编码器100的实施方案106的框图。编码器106包含经配置以计算中间系数的系数计算器130(例如,如本文参考任务T130的实施方案所述)。编码器106还包含经配置以将波前模型应用于中间系数以产生第一基函数系数集合的滤波器140(例如,如本文参考任务T140的实施方案所述)。
图16A展示设备A100的实施方案A110的框图,其中组合器200经实施为经配置以计算第一和第二基函数系数集合的逐元素的和的向量和计算器210(例如,如本文参考任务T210的实施方案所述)。
图16B展示设备A100的实施方案A120的框图。设备A120包含经配置以产生多通道音频输入的通道的空间信息的角度指示器50(例如,如本文参考任务T50的实施方案所述)。
图16C展示设备A100的实施方案A200的框图。设备A200包含编码器100的多个实例100a到100L以及经配置以组合由编码器100a到100L产生的基函数系数集合的组合器200的实施方案202(例如,如本文参考方法M200和任务T202的实施方案所述)。设备A200还可包含通道位置数据产生器,其经配置以根据可由格式识别符预定或指示的输入格式在输入为基于通道的情况下产生每一流的对应位置数据,如上文参考任务T52所述。
编码器100a到100L中的每一者可经配置以基于由元数据(针对基于对象的输入)或通道位置数据产生器(针对基于通道的输入)提供的信号的空间信息(例如,位置数据)计算对应输入音频信号(例如,PCM流)的SHC集合,如上文参考任务T100a到T100L和T120a到T120L所述。组合器202经配置以计算SHC集合的和以产生组合集合,如上文参考任务T202所述。设备A200还可包含编码器300的实例,其经配置以将从组合器202(针对基于对象和基于通道的输入)和/或从基于场景的输入接收的组合SHC集合编码为用于发射和/或存储的共同格式,如上文参考任务T300所述。
图17A展示用于统一译码架构的框图。在此实例中,统一编码器UE10经配置以产生统一经编码信号且将统一经编码信号经由发射通道发射到统一解码器UD10。统一编码器UE10可如本文所述实施以从基于通道、基于对象和/或基于场景(例如,基于SHC)的输入产生统一经编码信号。图17B展示相关架构的框图,其中统一编码器UE10经配置以将统一经编码信号存储到存储器ME10。
图17C展示统一编码器UE10的实施方案UE100和设备A100的框图,所述设备A100包含作为球谐(SH)分析器的编码器100的实施方案150以及组合器200的实施方案250。分析器150经配置以基于在输入音频译码信号中编码的音频和位置信息而产生基于SH的译码信号(例如,如本文参考任务T100所述)。输入音频译码信号可为例如基于通道或基于对象的输入。组合器250经配置以产生由分析器150产生的基于SH的译码信号与另一基于SH的译码信号(例如,基于场景的输入)的和。
图17D展示统一编码器UE100的实施方案UE300和设备A300的框图,所述设备A300可用于将基于对象、基于通道和基于场景的输入处理为用于发射和/或存储的共同格式。编码器UE300包含编码器300的实施方案350(例如,统一系数集合编码器)。统一系数集合编码器350经配置以对经求和信号进行编码(例如,如本文参考系数集合编码器300所述)以产生统一经编码信号。
由于基于场景的输入可能已以SHC形式编码,因此统一编码器将输入(例如,通过量化、错误校正译码、冗余译码等等和/或包化)处理为用于传送和/或存储的共同格式可为足够的。图17E展示统一编码器UE100的此实施方案UE305的框图,其中编码器300的实施方案360经布置以对其它基于SH的译码信号进行编码(例如,在无此信号从组合器250可用的情况下)。
图18展示统一编码器UE10的实施方案UE310的框图,其包含:格式检测器B300,其经配置以基于音频译码信号中的信息产生格式指示器FI10;以及开关B400,其经配置以根据格式指示器的状态而启用或停用音频译码信号对分析器150的输入。格式检测器B300可经实施以例如使得格式指示器FI10在音频译码信号为基于通道的输入时具有第一状态且在音频译码信号为基于对象的输入时具有第二状态。另外或替代地,格式检测器B300可经实施以指示基于通道的输入的特定格式(例如,以指示输入为5.1、7.1或22.2格式)。
图19A展示统一编码器UE100的实施方案UE250的框图,其包含经配置以将基于通道的音频译码信号编码为第一基于SH的译码信号的分析器150的第一实施方案150a。统一编码器UE250还包含分析器150的第二实施方案150b,其经配置以将基于对象的音频译码信号编码为第二基于SH的译码信号。在此实例中,组合器250的实施方案260经布置以产生第一和第二基于SH的译码信号的和。
图19B展示统一编码器UE250和UE300实施方案UE350的框图,其中编码器350经布置以通过对由组合器260产生的第一和第二基于SH的译码信号的和进行编码来产生统一经编码信号。
图20展示包含基于对象的信号剖析器OP10的分析器150a的实施方案160a的框图。剖析器OP10可经配置以将基于对象的输入剖析为作为PCM流的其各种分量对象且将相关联元数据解码为每一对象的位置数据。分析器160a的其它元件可如本文参***A200所述来实施。
图21展示包含基于通道的信号剖析器CP10的分析器150b的实施方案160b的框图。剖析器CP10可经实施以包含如本文描述的角度指示器50的实例。剖析器CP10还可经配置以将基于通道的输入剖析为作为PCM流的其各种分量通道。分析器160b的其它元件可如本文参***A200所述来实施。
图22A展示包含组合器260的实施方案270的统一编码器UE250的实施方案UE260的框图,其经配置以产生第一和第二基于SH的译码信号与输入基于SH的译码信号(例如,基于场景的输入)的和。图22B展示统一编码器UE350的类似实施方案UE360的框图。
可能希望实施如图3B所示的MPEG编码器MP10作为如本文描述的统一编码器UE10的实施方案(例如,UE100、UE250、UE260、UE300、UE310、UE350、UE360)以产生例如用于流式传输、广播、多播和/或媒体原版制作(例如,CD、DVD和/或Blu-RayR光盘的原版制作)的位流。在另一实例中,可与SHC(例如,以如上所述的方式获得)同时地对一或多个音频信号进行译码以用于发射和/或存储。
本文揭示的方法和设备可一般应用于任何收发和/或音频感测应用中,包含此些应用的移动或另外便携式实例和/或来自远场源的信号分量的感测。举例来说,本文揭示的配置的范围包含驻留在经配置以采用码分多址(CDMA)空中接口的无线电话通信***中的通信装置。然而,所属领域的技术人员将了解,具有如本文描述的特征的方法和设备可驻留在采用所属领域的技术人员已知的广泛多种技术的各种通信***中的任一者中,例如采用有线和/或无线(例如,CDMA、TDMA、FDMA和/或TD-SCDMA)发射信道上的IP话音(VoIP)的***。
明确预期且在此揭示,本文揭示的通信装置(例如,智能电话、平板计算机)可适于在包交换(例如,经布置以根据例如VoIP等协议载运音频发射的有线和/或无线网络)和/或电路交换的网络中使用。还明确预期且在此揭示,本文揭示的通信装置可适于在窄带译码***(例如,对大约四或五千赫的音频频率范围进行编码的***)中使用和/或在宽带译码***(例如,对大于五千赫的音频频率进行编码的***)中使用,包含全带宽带译码***和分带宽带译码***。
提供所描述配置的前述呈现以使得所属领域的技术人员能够制作或使用本文揭示的方法和其它结构。本文展示和描述的流程图、框图和其它结构仅为实例,且这些结构的其它变体也在本发明的范围内。对这些配置的各种修改是可能的,且在此呈现的一般原理也可应用于其它配置。因此,本发明既定不限于上文展示的配置,而是应被赋予与本文以任何方式(包含所申请的形成原始发明的一部分的所附权利要求书中)揭示的原理和新颖特征一致的最广范围。
所属领域的技术人员将了解,可使用多种不同技艺和技术中的任一者来表示信息和信号。举例来说,贯穿以上描述可参考的数据、指令、命令、信息、信号、位和符号可通过电压、电流、电磁波、磁场或磁粒子、光场或光粒子或其任一组合来表示。
用于如本文揭示的配置的实施的重要设计要求可包含最小化处理延迟和/或计算复杂性(通常以每秒百万指令或MIPS测量),尤其是针对计算密集型应用,例如经压缩音频或视听信息的重放(例如,根据例如本文识别的实例中的一者的压缩格式编码的文件或流)或用于宽带通信的应用(例如,在高于八千赫的取样率下的话音通信,例如12、16、44.1、48或192kHz)。
多麦克风处理***的目标可包含实现十到十二dB的总体噪声减少,在所要说话者的移动期间保留话音电平和颜色,获得噪声已移动到背景中的感知而非激进的噪声移除,语音的解混响,和/或实现用于较激进的噪声减少的后处理的选项。
如本文揭示的设备(例如,设备A100、A110、A120、A200、A300、A400、MF100、MF110、MF120、MF200、MF300、MF400、UE10、UD10、UE100、UE250、UE260、UE300、UE310、UE350和UE360中的任一者)可以视为适合于既定应用的硬件与软件和/或与固件的任一组合来实施。举例来说,此设备的元件可制造为例如驻留在同一芯片上或芯片组中的两个或两个以上芯片当中的电子和/或光学装置。此装置的一个实例是例如晶体管或逻辑门等逻辑元件的固定或可编程阵列,且这些元件中的任一者可实施为一或多个此类阵列。所述设备的元件中的任何两个或两个以上或甚至全部可在相同的一或多个阵列内实施。此一或多个阵列可在一或多个芯片内(例如,在包含两个或两个以上芯片的芯片组内)实施。
本文揭示的设备(例如,设备A100、A110、A120、A200、A300、A400、MF100、MF110、MF120、MF200、MF300、MF400、UE10、UD10、UE100、UE250、UE260、UE300、UE310、UE350和UE360中的任一者)的各种设施方案的一或多个元件还可整体或部分地实施为经布置以在一或多个固定或可编程逻辑元件阵列上执行的一或多个指令集,所述逻辑元件阵列例如为微处理器、嵌入式处理器、IP核心、数字信号处理器、FPGA(现场可编程门阵列)、ASSP(专用标准产品)和ASIC(专用集成电路)。如本文揭示的设备的实施方案的各种元件中的任一者也可体现为一或多个计算机(例如,包含经编程以执行一或多个指令集或指令序列的一或多个阵列的机器,也称为“处理器”),且这些元件中的任何两个或两个以上或甚至全部可在相同的此类一或多个计算机内实施。
如本文揭示的处理器或用于处理的其它装置可制造为例如驻留在同一芯片上或芯片组中的两个或两个以上芯片当中的一或多个电子和/或光学装置。此装置的一个实例是例如晶体管或逻辑门等逻辑元件的固定或可编程阵列,且这些元件中的任一者可实施为一或多个此类阵列。此一或多个阵列可在一或多个芯片内(例如,在包含两个或两个以上芯片的芯片组内)实施。此些阵列的实例包含固定或可编程逻辑元件阵列,例如微处理器、嵌入式处理器、IP核心、DSP、FPGA、ASSP和ASIC。如本文揭示的处理器或用于处理的其它装置也可体现为一或多个计算机(例如,包含经编程以执行一或多个指令集或指令序列的一或多个阵列的机器)或其它处理器。如本文描述的处理器可用以执行不直接与本文描述的音频译码程序相关的任务或其它指令集,例如与其中嵌入处理器的装置或***(例如,音频感测装置)的另一操作相关的任务。如本文揭示的方法的部分还可由音频感测装置的处理器执行,且所述方法的另一部分在一或多个其它处理器的控制下执行。
所属领域的技术人员将了解,结合本文揭示的配置描述的各种说明性模块、逻辑块、电路和测试以及其它操作可实施为电子硬件、计算机软件或两者的组合。此些模块、逻辑块、电路和操作可以通用处理器、数字信号处理器(DSP)、ASIC或ASSP、FPGA或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其经设计以产生如本文揭示的配置的任一组合来实施或执行。举例来说,此配置可至少部分地实施为硬连线电路、制造于专用集成电路中的电路配置,或者加载到非易失性存储装置中的固件程序或作为机器可读代码从数据存储媒体加载或加载到其中的软件程序,此代码是可由例如通用处理器或其它数字信号处理单元等逻辑元件阵列执行的指令。通用处理器可为微处理器,但在替代例中,处理器可为任何常规处理器、控制器、微控制器或状态机。处理器也可实施为计算装置的组合,例如DSP与微处理器的组合、多个微处理器、结合DSP核心的一或多个微处理器,或任何其它此类配置。软件模块可驻留于非暂时性存储媒体中,例如RAM(随机存取存储器)、ROM(只读存储器)、例如快闪RAM等非易失性RAM(NVRAM)、可擦除可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)、寄存器、硬盘、可装卸式磁盘、或CD-ROM,或此项技术中已知的任一其它形式的存储媒体中。说明性存储媒体耦合到处理器,使得处理器可从存储媒体读取信息和向存储媒体写入信息。在替代方案中,存储器媒体可与处理器成一体式。处理器和存储媒体可驻留在ASIC中。ASIC可驻留在用户终端中。在替代方案中,处理器和存储媒体可作为离散组件驻留在用户终端中。
应注意,本文揭示的各种方法(例如,方法M100、M110、M120、M200、M300和M400中的任一者)可由例如处理器等逻辑元件阵列执行,且如本文描述的设备的各种元件可实施为经设计以在此阵列上执行的模块。如本文使用,术语“模块”或“子模块”可指代呈软件、硬件或固件形式的任何方法、设备、装置、单元或包含计算机指令(例如,逻辑表达式)的计算机可读数据存储媒体。应了解,多个模块或***可组合为一个模块或***,且一个模块或***可分离为多个模块或***以执行相同功能。当以软件或其它计算机可执行指令实施时,过程的元素基本上是用以执行相关任务的代码段,例如例程、程序、对象、组件、数据结构和类似物。术语“软件”应理解为包含源代码、汇编语言代码、机器代码、二进制码、固件、宏码、微码、可由逻辑元件阵列执行的任何一或多个指令集或指令序列,和此些实例的任一组合。程序或代码段可存储在处理器可读存储媒体中或通过体现于载波中的计算机数据信号在传输媒体或通信链路上发射。
本文揭示的方法、方案和技术的实施方案也可有形地体现(例如,在如本文列出的一或多个计算机可读媒体中)为可由包含逻辑元件阵列(例如,处理器、微处理器、微控制器或其它有限状态机)的机器读取和/或执行的一或多个指令集。术语“计算机可读媒体”可包含可存储或传送信息的任何媒体,包含易失性、非易失性、可装卸式和不可装卸式媒体。计算机可读媒体的实例包含电子电路、半导体存储器装置、ROM、快闪存储器、可擦除ROM(EROM)、软磁盘或其它磁性存储装置、CD-ROM/DVD或其它光学存储装置、硬盘、光纤媒体、射频(RF)链路,或可用以存储所要信息且可被存取的任何其它媒体。计算机数据信号可包含可在例如电子网络信道、光纤、空气、电磁、RF链路等等传输媒体上传播的任何信号。代码段可经由例如因特网或内部网等计算机网络下载。在任一情况下,本发明的范围都不应解释为受此些实施例限制。
本文描述的方法的任务中的每一者可直接以硬件、以由处理器执行的软件模块或以两者的组合来体现。在如本文揭示的方法的实施方案的典型应用中,逻辑元件(例如,逻辑门)阵列经配置以执行所述方法的各种任务中的一者、一者以上或甚至全部。所述任务中的一或多者(可能全部)也可实施为代码(例如,一或多个指令集),体现于计算机程序产品(例如,例如磁盘、快闪或其它非易失性存储器卡、半导体存储器芯片等等一或多个数据存储媒体)中,其可由包含逻辑元件阵列(例如,处理器、微处理器、微控制器或其它有限状态机)的机器(例如,计算机)读取和/或执行。如本文揭示的方法的实施方案的任务也可由一个以上此类阵列或机器执行。在这些或其它实施方案中,所述任务可在例如蜂窝式电话等用于无线通信的装置或具有此通信能力的其它装置内执行。此装置可经配置以与电路交换和/或包交换网络通信(例如,使用例如VoIP等一或多个协议)。举例来说,此装置可包含经配置以接收和/或发射经编码帧的RF电路。
明确地揭示了本文揭示的各种方法可由例如手持机、头戴式耳机或便携式数字助理(PDA)等便携式通信装置执行,且本文描述的各种设备可包含在此装置内。典型的实时(例如,在线)应用是使用此移动装置进行的电话对话。
在一或多个示范性实施例中,本文描述的操作可以硬件、软件、固件或其任一组合实施。如果以软件实施,那么此些操作可作为一或多个指令或代码存储在计算机可读媒体上或经由计算机可读媒体传输。术语“计算机可读媒体”包含计算机可读存储媒体和通信(例如,传输)媒体两者。举例来说而非限制,计算机可读存储媒体可包括:存储元件阵列,例如半导体存储器(可包含(不限于)动态或静态RAM、ROM、EEPROM和/或快闪RAM)或铁电的、磁阻的、双向的、聚合的或相变存储器;CD-ROM或其它光盘存储装置;和/或磁盘存储装置或其它磁性存储装置。此存储媒体可以可由计算机存取的指令或数据结构的形式存储信息。通信媒体可包括可用以用指令或数据结构的形式载运所要程序代码且可由计算机存取的任何媒体,包含促进计算机程序从一处转移到另一处的任何媒体。而且,将任何连接恰当地称为计算机可读媒体。举例来说,如果使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)或例如红外线、无线电和/或微波等无线技术从网站、服务器或其它远程源发射软件,那么同轴电缆、光纤电缆、双绞线、DSL或例如红外线、无线电和/或微波等无线技术包含于媒体的定义中。如本文所使用,磁盘和光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软磁盘和蓝光光盘TM(蓝光光盘协会,加利福尼亚环球城),其中磁盘通常以磁性方式再生数据,而光盘用激光以光学方式再生数据。以上各项的组合也应包含在计算机可读媒体的范围内。
如本文描述的声信号处理设备(例如,设备A100或MF100)可并入到接受语音输入以便控制某些操作或可另外得益于所要噪声与背景噪声的分离的电子装置(例如通信装置)中。许多应用可得益于增强或分离清晰的所要声音与源自多个方向的背景声音。此些应用可包含并入有例如话音辨识和检测、语音增强和分离、话音激活的控制和类似情况的能力的电子或计算装置中的人机接口。可能希望实施此声信号处理设备以适合于仅提供有限处理能力的装置中。
本文描述的模块、元件和装置的各种实施方案的元件可制造为例如驻留在同一芯片上或芯片组中的两个或两个以上芯片当中的电子和/或光学装置。此装置的一个实例为例如晶体管或门等逻辑元件的固定或可编程阵列。本文描述的设备的各种设施方案的一或多个元件也可整体或部分地实施为经布置以在一或多个固定或可编程逻辑元件阵列上执行的一或多个指令集,所述逻辑元件阵列例如为微处理器、嵌入式处理器、IP核心、数字信号处理器、FPGA、ASSP和ASIC。
如本文描述的设备的实施方案的一或多个元件可用以执行不直接与所述设备的操作相关的任务或其它指令集,例如与其中嵌入所述设备的装置或***的另一操作相关的任务。此设备的实施方案的一或多个元件也可具有共同的结构(例如,用以在不同时间执行对应于不同元件的代码的部分的处理器,经执行以在不同时间执行对应于不同元件的任务的指令集,或在不同时间执行用于不同元件的操作的电子和/或光学装置的布置)。

Claims (37)

1.一种音频信号处理的方法,所述方法包括:
将第一音频信号和所述第一音频信号的第一空间信息变换为描述第一声场的第一基函数系数集合,其中所述第一音频信号是以下格式中的一者:基于通道或基于对象;
将所述第一基函数系数集合与第二基函数系数集合进行组合以产生描述组合声场的组合基函数系数集合,其中所述第二基函数系数集合描述与第二音频信号相关联的第二声场;以及
对所述组合基函数系数集合进行编码。
2.根据权利要求1所述的方法,其中所述第一音频信号或所述第二音频信号中的至少一者是音频样本的对应流的帧。
3.根据权利要求1所述的方法,其中所述第一音频信号或所述第二音频信号中的至少一者是脉码调制PCM流的帧。
4.根据权利要求1所述的方法,其中所述第一音频信号的所述第一空间信息和所述第二音频信号的第二空间信息指示空间中的方向。
5.根据权利要求1所述的方法,其中所述第一音频信号的所述第一空间信息和所述第二音频信号的第二空间信息指示所述第一音频信号或所述第二音频信号中的每一者各自的源在空间中的位置。
6.根据权利要求1所述的方法,其中所述第一音频信号的所述第一空间信息和所述第二音频信号的第二空间信息指示所述第一音频信号或所述第二音频信号各自的扩散性。
7.根据权利要求1所述的方法,其中所述第一音频信号包括扬声器通道。
8.根据权利要求1所述的方法,进一步包含获得包含所述音频信号和所述第一音频信号的所述第一空间信息的音频对象。
9.根据权利要求1所述的方法,其中所述第一基函数系数集合的每一基函数系数对应于正交基函数集合的唯一一者。
10.根据权利要求1所述的方法,其中所述第一基函数系数集合的每一基函数系数对应于球谐基函数集合的唯一一者。
11.根据权利要求1所述的方法,其中所述第一基函数系数集合描述沿着第一空间轴比沿着正交于所述第一空间轴的第二空间轴具有更高分辨率的空间。
12.根据权利要求1所述的方法,其中所述第一基函数系数集合或所述第二基函数系数集合中的至少一者描述沿着第一空间轴比沿着正交于所述第一空间轴的第二空间轴具有更高分辨率的对应声场。
13.根据权利要求1所述的方法,其中所述第一基函数系数集合在至少两个空间维度中描述所述第一声场,且其中所述第二基函数系数集合在至少两个空间维度中描述所述第二声场。
14.根据权利要求1所述的方法,其中所述第一基函数系数集合或所述第二基函数系数集合中的至少一者在三个空间维度中描述所述对应声场。
15.根据权利要求1所述的方法,其中所述第一基函数系数集合中所包含的基函数系数的总数目少于所述第二基函数系数集合中所包含的基函数系数的总数目。
16.根据权利要求15所述的方法,其中所述组合基函数系数集合中所包含的基函数系数的总数目至少等于所述第一基函数系数集合中所包含的基函数系数的所述总数目且至少等于所述第二基函数系数集合中所包含的基函数系数的所述总数目。
17.根据权利要求1所述的方法,其中组合所述第一基函数系数集合与所述第二基函数系数集合包括:针对所述组合基函数系数集合的至少多个所述基函数系数中的每一者,将所述第一基函数系数集合的对应基函数系数与所述第二基函数系数集合的对应基函数系数进行求和以产生所述基函数系数。
18.一种非暂时性计算机可读数据存储媒体,其经音频信号处理装置的一个或多个处理器配置以:
将第一音频信号和所述第一音频信号的第一空间信息变换为描述第一声场的第一基函数系数集合,其中所述第一音频信号是以下格式中的一者:基于通道或基于对象;
将所述第一基函数系数集合与第二基函数系数集合进行组合以产生描述组合声场的组合基函数系数集合,其中所述第二基函数系数集合描述与第二音频信号相关联的第二声场;以及
对所述组合基函数系数集合进行编码。
19.一种用于音频信号处理的设备,所述设备包括:
用于将第一音频信号和所述第一音频信号的第一空间信息变换为描述第一声场的第一基函数系数集合的装置,其中所述第一音频信号是以下格式中的一者:基于通道或基于对象;
用于将所述第一基函数系数集合与第二基函数系数集合进行组合以产生描述组合声场的组合基函数系数集合的装置,其中所述第二基函数系数集合描述与第二音频信号相关联的第二声场;以及
用于对所述组合基函数系数集合进行编码的装置。
20.根据权利要求19所述的设备,其中所述第一音频信号的所述第一空间信息和所述第二音频信号的第二空间信息指示空间中的方向。
21.根据权利要求19所述的设备,其中所述第一音频信号包含扬声器通道。
22.根据权利要求19所述的设备,其中所述设备进一步包含用于剖析包含所述第一音频信号和所述第一音频信号的所述第一空间信息的音频对象的装置。
23.根据权利要求19所述的设备,其中所述第一基函数系数集合的每一基函数系数对应于正交基函数集合的唯一一者。
24.根据权利要求19所述的设备,其中所述第一基函数系数集合的每一基函数系数对应于球谐基函数集合的唯一一者。
25.根据权利要求19所述的设备,其中所述第一基函数系数集合在至少两个空间维度中描述所述第一声场,且其中所述第二基函数系数集合在至少两个空间维度中描述所述第二声场。
26.根据权利要求19所述的设备,其中所述第一基函数系数集合和所述第二基函数系数集合中的至少一者在三个空间维度中描述对应的所述第一声场或所述第二声场。
27.根据权利要求19所述的设备,其中所述第一基函数系数集合中的基函数系数的总数目少于所述第二基函数系数集合中的基函数系数的总数目。
28.一种用于音频信号处理的装置,所述装置包括:
分析器,其经配置以将第一音频信号和所述第一音频信号的第一空间信息变换为描述第一声场的第一基函数系数集合的装置,其中所述第一音频信号是以下格式中的一者:基于通道或基于对象;
组合器,其经配置以将所述第一基函数系数集合与第二基函数系数集合进行组合以产生描述组合声场的组合基函数系数集合,其中所述第二基函数系数集合描述与第二音频信号相关联的第二声场;以及
编码器,其经配置以对所述组合基函数系数集合进行编码。
29.根据权利要求28所述的装置,其中所述第一音频信号的所述第一空间信息和所述第二音频信号的第二空间信息指示空间中的方向。
30.根据权利要求28所述的装置,其中所述第一音频信号包含扬声器通道。
31.根据权利要求28所述的装置,进一步包含剖析器,所述剖析器经配置以剖析包含所述第一音频信号和所述第一音频信号的所述第一空间信息的音频对象。
32.根据权利要求28所述的装置,其中所述第一基函数系数集合的每一基函数系数对应于正交基函数集合的唯一一者。
33.根据权利要求28所述的装置,其中所述第一基函数系数集合的每一基函数系数对应于球谐基函数集合的唯一一者。
34.根据权利要求28所述的装置,其中所述第一基函数系数集合在至少两个空间维度中描述所述第一声场,且其中所述第二基函数系数集合在至少两个空间维度中描述所述第二声场。
35.根据权利要求28所述的装置,其中所述第一基函数系数集合和所述第二基函数系数集合中的至少一者在三个空间维度中描述对应的所述第一声场或所述第二声场。
36.根据权利要求28所述的装置,其中所述第一基函数系数集合中的基函数系数的总数目少于所述第二基函数系数集合中的基函数系数的总数目。
37.根据权利要求28所述的装置,进一步包含一个或多个麦克风,所述一个或多个麦克风经配置以捕获与所述第一音频信号或所述第二音频信号中的至少一者相关联的音频数据。
CN201380037024.8A 2012-07-15 2013-07-12 用于使用基函数系数的三维音频译码的***、方法、设备和计算机可读媒体 Active CN104428834B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201261671791P 2012-07-15 2012-07-15
US61/671,791 2012-07-15
US13/844,383 2013-03-15
US13/844,383 US9190065B2 (en) 2012-07-15 2013-03-15 Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients
PCT/US2013/050222 WO2014014757A1 (en) 2012-07-15 2013-07-12 Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients

Publications (2)

Publication Number Publication Date
CN104428834A CN104428834A (zh) 2015-03-18
CN104428834B true CN104428834B (zh) 2017-09-08

Family

ID=49914002

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201380037024.8A Active CN104428834B (zh) 2012-07-15 2013-07-12 用于使用基函数系数的三维音频译码的***、方法、设备和计算机可读媒体

Country Status (5)

Country Link
US (2) US9190065B2 (zh)
EP (1) EP2873072B1 (zh)
JP (1) JP6062544B2 (zh)
CN (1) CN104428834B (zh)
WO (1) WO2014014757A1 (zh)

Families Citing this family (104)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8483853B1 (en) 2006-09-12 2013-07-09 Sonos, Inc. Controlling and manipulating groupings in a multi-zone media system
US9202509B2 (en) 2006-09-12 2015-12-01 Sonos, Inc. Controlling and grouping in a multi-zone media system
US8788080B1 (en) 2006-09-12 2014-07-22 Sonos, Inc. Multi-channel pairing in a media system
US8923997B2 (en) 2010-10-13 2014-12-30 Sonos, Inc Method and apparatus for adjusting a speaker system
US11265652B2 (en) 2011-01-25 2022-03-01 Sonos, Inc. Playback device pairing
US11429343B2 (en) 2011-01-25 2022-08-30 Sonos, Inc. Stereo playback configuration and control
US8938312B2 (en) 2011-04-18 2015-01-20 Sonos, Inc. Smart line-in processing
US9042556B2 (en) 2011-07-19 2015-05-26 Sonos, Inc Shaping sound responsive to speaker orientation
US8811630B2 (en) 2011-12-21 2014-08-19 Sonos, Inc. Systems, methods, and apparatus to filter audio
US9084058B2 (en) 2011-12-29 2015-07-14 Sonos, Inc. Sound field calibration using listener localization
US9729115B2 (en) 2012-04-27 2017-08-08 Sonos, Inc. Intelligently increasing the sound level of player
US9524098B2 (en) 2012-05-08 2016-12-20 Sonos, Inc. Methods and systems for subwoofer calibration
USD721352S1 (en) 2012-06-19 2015-01-20 Sonos, Inc. Playback device
US9668049B2 (en) 2012-06-28 2017-05-30 Sonos, Inc. Playback device calibration user interfaces
US9106192B2 (en) 2012-06-28 2015-08-11 Sonos, Inc. System and method for device playback calibration
US9690539B2 (en) 2012-06-28 2017-06-27 Sonos, Inc. Speaker calibration user interface
US9706323B2 (en) 2014-09-09 2017-07-11 Sonos, Inc. Playback device calibration
US9219460B2 (en) 2014-03-17 2015-12-22 Sonos, Inc. Audio settings based on environment
US9690271B2 (en) 2012-06-28 2017-06-27 Sonos, Inc. Speaker calibration
US9288603B2 (en) 2012-07-15 2016-03-15 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for backward-compatible audio coding
US9190065B2 (en) 2012-07-15 2015-11-17 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients
US9473870B2 (en) 2012-07-16 2016-10-18 Qualcomm Incorporated Loudspeaker position compensation with 3D-audio hierarchical coding
TWI590234B (zh) 2012-07-19 2017-07-01 杜比國際公司 編碼聲訊資料之方法和裝置,以及解碼已編碼聲訊資料之方法和裝置
US8930005B2 (en) 2012-08-07 2015-01-06 Sonos, Inc. Acoustic signatures in a playback system
US8965033B2 (en) 2012-08-31 2015-02-24 Sonos, Inc. Acoustic optimization
US9008330B2 (en) 2012-09-28 2015-04-14 Sonos, Inc. Crossover frequency adjustments for audio speakers
EP2743922A1 (en) * 2012-12-12 2014-06-18 Thomson Licensing Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field
USD721061S1 (en) 2013-02-25 2015-01-13 Sonos, Inc. Playback device
US9466305B2 (en) 2013-05-29 2016-10-11 Qualcomm Incorporated Performing positional analysis to code spherical harmonic coefficients
US9883312B2 (en) 2013-05-29 2018-01-30 Qualcomm Incorporated Transformed higher order ambisonics audio data
EP3005344A4 (en) * 2013-05-31 2017-02-22 Nokia Technologies OY An audio scene apparatus
EP2830046A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding an encoded audio signal to obtain modified output signals
US9922656B2 (en) 2014-01-30 2018-03-20 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
US9502045B2 (en) 2014-01-30 2016-11-22 Qualcomm Incorporated Coding independent frames of ambient higher-order ambisonic coefficients
US9226073B2 (en) 2014-02-06 2015-12-29 Sonos, Inc. Audio output balancing during synchronized playback
US9226087B2 (en) 2014-02-06 2015-12-29 Sonos, Inc. Audio output balancing during synchronized playback
US9264839B2 (en) 2014-03-17 2016-02-16 Sonos, Inc. Playback device configuration based on proximity detection
US10412522B2 (en) * 2014-03-21 2019-09-10 Qualcomm Incorporated Inserting audio channels into descriptions of soundfields
EP2928216A1 (en) 2014-03-26 2015-10-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for screen related audio object remapping
US10134403B2 (en) * 2014-05-16 2018-11-20 Qualcomm Incorporated Crossfading between higher order ambisonic signals
US10770087B2 (en) 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals
US9620137B2 (en) * 2014-05-16 2017-04-11 Qualcomm Incorporated Determining between scalar and vector quantization in higher order ambisonic coefficients
US9852737B2 (en) 2014-05-16 2017-12-26 Qualcomm Incorporated Coding vectors decomposed from higher-order ambisonics audio signals
US9367283B2 (en) 2014-07-22 2016-06-14 Sonos, Inc. Audio settings
US9536531B2 (en) * 2014-08-01 2017-01-03 Qualcomm Incorporated Editing of higher-order ambisonic audio data
USD883956S1 (en) 2014-08-13 2020-05-12 Sonos, Inc. Playback device
CN105657633A (zh) * 2014-09-04 2016-06-08 杜比实验室特许公司 生成针对音频对象的元数据
US9910634B2 (en) 2014-09-09 2018-03-06 Sonos, Inc. Microphone calibration
US9952825B2 (en) 2014-09-09 2018-04-24 Sonos, Inc. Audio processing algorithms
US9891881B2 (en) 2014-09-09 2018-02-13 Sonos, Inc. Audio processing algorithm database
US10127006B2 (en) 2014-09-09 2018-11-13 Sonos, Inc. Facilitating calibration of an audio playback device
US9782672B2 (en) 2014-09-12 2017-10-10 Voyetra Turtle Beach, Inc. Gaming headset with enhanced off-screen awareness
US9747910B2 (en) 2014-09-26 2017-08-29 Qualcomm Incorporated Switching between predictive and non-predictive quantization techniques in a higher order ambisonics (HOA) framework
US10140996B2 (en) * 2014-10-10 2018-11-27 Qualcomm Incorporated Signaling layers for scalable coding of higher order ambisonic audio data
US9998187B2 (en) 2014-10-13 2018-06-12 Nxgen Partners Ip, Llc System and method for combining MIMO and mode-division multiplexing
US11956035B2 (en) 2014-10-13 2024-04-09 Nxgen Partners Ip, Llc System and method for combining MIMO and mode-division multiplexing
US9560467B2 (en) * 2014-11-11 2017-01-31 Google Inc. 3D immersive spatial audio systems and methods
US9973851B2 (en) 2014-12-01 2018-05-15 Sonos, Inc. Multi-channel playback of audio content
US10664224B2 (en) 2015-04-24 2020-05-26 Sonos, Inc. Speaker calibration user interface
WO2016172593A1 (en) 2015-04-24 2016-10-27 Sonos, Inc. Playback device calibration user interfaces
USD920278S1 (en) 2017-03-13 2021-05-25 Sonos, Inc. Media playback device with lights
US20170085972A1 (en) 2015-09-17 2017-03-23 Sonos, Inc. Media Player and Media Player Design
USD768602S1 (en) 2015-04-25 2016-10-11 Sonos, Inc. Playback device
USD886765S1 (en) 2017-03-13 2020-06-09 Sonos, Inc. Media playback device
USD906278S1 (en) 2015-04-25 2020-12-29 Sonos, Inc. Media player device
US10248376B2 (en) 2015-06-11 2019-04-02 Sonos, Inc. Multiple groupings in a playback system
US9729118B2 (en) 2015-07-24 2017-08-08 Sonos, Inc. Loudness matching
US9538305B2 (en) 2015-07-28 2017-01-03 Sonos, Inc. Calibration error conditions
US9736610B2 (en) 2015-08-21 2017-08-15 Sonos, Inc. Manipulation of playback device response using signal processing
US9712912B2 (en) 2015-08-21 2017-07-18 Sonos, Inc. Manipulation of playback device response using an acoustic filter
CN108028985B (zh) 2015-09-17 2020-03-13 搜诺思公司 用于计算设备的方法
US9693165B2 (en) 2015-09-17 2017-06-27 Sonos, Inc. Validation of audio calibration using multi-dimensional motion check
US10249312B2 (en) 2015-10-08 2019-04-02 Qualcomm Incorporated Quantization of spatial vectors
US9961467B2 (en) 2015-10-08 2018-05-01 Qualcomm Incorporated Conversion from channel-based audio to HOA
US9961475B2 (en) 2015-10-08 2018-05-01 Qualcomm Incorporated Conversion from object-based audio to HOA
US9743207B1 (en) 2016-01-18 2017-08-22 Sonos, Inc. Calibration using multiple recording devices
US11106423B2 (en) 2016-01-25 2021-08-31 Sonos, Inc. Evaluating calibration of a playback device
US10003899B2 (en) 2016-01-25 2018-06-19 Sonos, Inc. Calibration with particular locations
US9886234B2 (en) 2016-01-28 2018-02-06 Sonos, Inc. Systems and methods of distributing audio to one or more playback devices
US9860662B2 (en) 2016-04-01 2018-01-02 Sonos, Inc. Updating playback device configuration information based on calibration data
US9864574B2 (en) 2016-04-01 2018-01-09 Sonos, Inc. Playback device calibration based on representation spectral characteristics
US9763018B1 (en) 2016-04-12 2017-09-12 Sonos, Inc. Calibration of audio playback devices
EP3465681A1 (en) * 2016-05-26 2019-04-10 Telefonaktiebolaget LM Ericsson (PUBL) Method and apparatus for voice or sound activity detection for spatial audio
US9860670B1 (en) 2016-07-15 2018-01-02 Sonos, Inc. Spectral correction using spatial calibration
US9794710B1 (en) 2016-07-15 2017-10-17 Sonos, Inc. Spatial audio correction
US10372406B2 (en) 2016-07-22 2019-08-06 Sonos, Inc. Calibration interface
US10459684B2 (en) 2016-08-05 2019-10-29 Sonos, Inc. Calibration of a playback device based on an estimated frequency response
US9913061B1 (en) 2016-08-29 2018-03-06 The Directv Group, Inc. Methods and systems for rendering binaural audio content
US10412473B2 (en) 2016-09-30 2019-09-10 Sonos, Inc. Speaker grill with graduated hole sizing over a transition area for a media device
USD827671S1 (en) 2016-09-30 2018-09-04 Sonos, Inc. Media playback device
USD851057S1 (en) 2016-09-30 2019-06-11 Sonos, Inc. Speaker grill with graduated hole sizing over a transition area for a media device
US10712997B2 (en) 2016-10-17 2020-07-14 Sonos, Inc. Room association based on name
PT3692523T (pt) * 2017-10-04 2022-03-02 Fraunhofer Ges Forschung Aparelho, método e programa de computador para codificação, descodificação, processamento de cena e outros procedimentos relacionados com codificação de áudio espacial com base em dirac
JP7321170B2 (ja) 2018-04-16 2023-08-04 ドルビー ラボラトリーズ ライセンシング コーポレイション 方向性音源のエンコードおよびデコードのための方法、装置およびシステム
US11240623B2 (en) * 2018-08-08 2022-02-01 Qualcomm Incorporated Rendering audio data from independently controlled audio zones
US11432071B2 (en) 2018-08-08 2022-08-30 Qualcomm Incorporated User interface for controlling audio zones
US10299061B1 (en) 2018-08-28 2019-05-21 Sonos, Inc. Playback device calibration
US11206484B2 (en) 2018-08-28 2021-12-21 Sonos, Inc. Passive speaker authentication
US10575094B1 (en) * 2018-12-13 2020-02-25 Dts, Inc. Combination of immersive and binaural sound
US10734965B1 (en) 2019-08-12 2020-08-04 Sonos, Inc. Audio calibration of a portable playback device
GB2587614A (en) * 2019-09-26 2021-04-07 Nokia Technologies Oy Audio encoding and audio decoding
EP3809709A1 (en) * 2019-10-14 2021-04-21 Koninklijke Philips N.V. Apparatus and method for audio encoding
US11152991B2 (en) 2020-01-23 2021-10-19 Nxgen Partners Ip, Llc Hybrid digital-analog mmwave repeater/relay with full duplex
US11348594B2 (en) 2020-06-11 2022-05-31 Qualcomm Incorporated Stream conformant bit error resilience

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101689368A (zh) * 2007-03-30 2010-03-31 韩国电子通信研究院 对具有多声道的多对象音频信号进行编码和解码的设备和方法
CN102547549A (zh) * 2010-12-21 2012-07-04 汤姆森特许公司 编码解码2或3维声场环绕声表示的连续帧的方法和装置

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7006636B2 (en) 2002-05-24 2006-02-28 Agere Systems Inc. Coherence-based audio coding and synthesis
JP4178319B2 (ja) * 2002-09-13 2008-11-12 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声処理におけるフェーズ・アライメント
FR2844894B1 (fr) * 2002-09-23 2004-12-17 Remy Henri Denis Bruno Procede et systeme de traitement d'une representation d'un champ acoustique
FR2862799B1 (fr) 2003-11-26 2006-02-24 Inst Nat Rech Inf Automat Dispositif et methode perfectionnes de spatialisation du son
DE102004028694B3 (de) * 2004-06-14 2005-12-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Umsetzen eines Informationssignals in eine Spektraldarstellung mit variabler Auflösung
US7756713B2 (en) 2004-07-02 2010-07-13 Panasonic Corporation Audio signal decoding device which decodes a downmix channel signal and audio signal encoding device which encodes audio channel signals together with spatial audio information
KR100663729B1 (ko) * 2004-07-09 2007-01-02 한국전자통신연구원 가상 음원 위치 정보를 이용한 멀티채널 오디오 신호부호화 및 복호화 방법 및 장치
US20080004729A1 (en) * 2006-06-30 2008-01-03 Nokia Corporation Direct encoding into a directional audio coding format
EP2054875B1 (en) 2006-10-16 2011-03-23 Dolby Sweden AB Enhanced coding and parameter representation of multichannel downmixed object coding
WO2008063035A1 (en) 2006-11-24 2008-05-29 Lg Electronics Inc. Method for encoding and decoding object-based audio signal and apparatus thereof
AU2008215231B2 (en) 2007-02-14 2010-02-18 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
KR101312470B1 (ko) 2007-04-26 2013-09-27 돌비 인터네셔널 에이비 출력 신호 합성 장치 및 방법
MX2010004138A (es) 2007-10-17 2010-04-30 Ten Forschung Ev Fraunhofer Codificacion de audio usando conversion de estereo a multicanal.
KR101566025B1 (ko) 2007-10-22 2015-11-05 한국전자통신연구원 다객체 오디오 부호화 및 복호화 방법과 그 장치
US20110002469A1 (en) 2008-03-03 2011-01-06 Nokia Corporation Apparatus for Capturing and Rendering a Plurality of Audio Channels
US8315396B2 (en) 2008-07-17 2012-11-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating audio output signals using object based metadata
EP2154911A1 (en) 2008-08-13 2010-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. An apparatus for determining a spatial output multi-channel audio signal
EP2175670A1 (en) 2008-10-07 2010-04-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Binaural rendering of a multi-channel audio signal
ES2733878T3 (es) 2008-12-15 2019-12-03 Orange Codificación mejorada de señales de audio digitales multicanales
GB2467534B (en) 2009-02-04 2014-12-24 Richard Furse Sound system
EP2249334A1 (en) 2009-05-08 2010-11-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio format transcoder
JP5793675B2 (ja) 2009-07-31 2015-10-14 パナソニックIpマネジメント株式会社 符号化装置および復号装置
KR101805212B1 (ko) 2009-08-14 2017-12-05 디티에스 엘엘씨 객체-지향 오디오 스트리밍 시스템
ES2644520T3 (es) 2009-09-29 2017-11-29 Dolby International Ab Decodificador de señal de audio MPEG-SAOC, método para proporcionar una representación de señal de mezcla ascendente usando decodificación MPEG-SAOC y programa informático usando un valor de parámetro de correlación inter-objeto común dependiente del tiempo/frecuencia
US9058803B2 (en) 2010-02-26 2015-06-16 Orange Multichannel audio stream compression
DE102010030534A1 (de) 2010-06-25 2011-12-29 Iosono Gmbh Vorrichtung zum Veränderung einer Audio-Szene und Vorrichtung zum Erzeugen einer Richtungsfunktion
US9552840B2 (en) 2010-10-25 2017-01-24 Qualcomm Incorporated Three-dimensional sound capturing and reproducing with multi-microphones
US9111526B2 (en) * 2010-10-25 2015-08-18 Qualcomm Incorporated Systems, method, apparatus, and computer-readable media for decomposition of a multichannel music signal
US8855341B2 (en) * 2010-10-25 2014-10-07 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for head tracking based on recorded sound signals
EP2666160A4 (en) 2011-01-17 2014-07-30 Nokia Corp AUDIO SCENE PROCESSING APPARATUS
US9165558B2 (en) 2011-03-09 2015-10-20 Dts Llc System for dynamically creating and rendering audio objects
US9190065B2 (en) 2012-07-15 2015-11-17 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients
US20140086416A1 (en) 2012-07-15 2014-03-27 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101689368A (zh) * 2007-03-30 2010-03-31 韩国电子通信研究院 对具有多声道的多对象音频信号进行编码和解码的设备和方法
CN102547549A (zh) * 2010-12-21 2012-07-04 汤姆森特许公司 编码解码2或3维声场环绕声表示的连续帧的方法和装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
《Efficient Spatial Sound Synthesis for Virtual Worlds》;Pulkki Ville et al.;《35th International Conference:Audio for Games》;20090201;第1-21页 *
《Evaluation of perceptual properties of phase-mode beamforming in the context of data-based binaural synthesis》;Spors Sascha et al.;《Communications Control and Signal Processing(ISCCSP),2012 5th International Symposium on》;20120504;第1-4页 *
《Spatial parameters for audio coding:MDCT domain analysis and synthesis》;Shuixian Chen et al.;《Multimedia Tools and Applications》;20100630;第48卷(第2期);第225-246页 *
《Three-Dimensional Sound Field Analysis with Directional Audio Coding Based on Signal Adaptive Parameter Estimators》;Del Galdo et al.;《40th International Conference:Spatial Audio:Sense the Sound of Space》;20101031;第1-9页 *

Also Published As

Publication number Publication date
EP2873072B1 (en) 2016-11-02
US9478225B2 (en) 2016-10-25
US20140016786A1 (en) 2014-01-16
CN104428834A (zh) 2015-03-18
EP2873072A1 (en) 2015-05-20
US9190065B2 (en) 2015-11-17
JP2015522183A (ja) 2015-08-03
JP6062544B2 (ja) 2017-01-18
US20160035358A1 (en) 2016-02-04
WO2014014757A1 (en) 2014-01-23

Similar Documents

Publication Publication Date Title
CN104428834B (zh) 用于使用基函数系数的三维音频译码的***、方法、设备和计算机可读媒体
CN104471960B (zh) 用于向后兼容音频译码的***、方法、设备和计算机可读媒体
CN105027199B (zh) 在位流中指定球谐系数和/或高阶立体混响系数
CN104471640B (zh) 基于对象的环绕声编码解码器的具有反馈的可缩放降混设计
CN107533843B (zh) 用于捕获、编码、分布和解码沉浸式音频的***和方法
CN105325015B (zh) 经旋转高阶立体混响的双耳化
CN104429102B (zh) 使用3d音频分层译码的扩音器位置补偿
US10178489B2 (en) Signaling audio rendering information in a bitstream
CN105432097B (zh) 伴有内容分析和加权的具有立体声房间脉冲响应的滤波
ES2733878T3 (es) Codificación mejorada de señales de audio digitales multicanales
CN106104680B (zh) 将音频信道***到声场的描述中
US20140086416A1 (en) Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients
CN108140389A (zh) 空间向量的量化
CN108780647B (zh) 用于音频信号译码的方法和设备
CN106663433A (zh) 减少高阶立体混响(hoa)背景信道之间的相关性
CN108141689B (zh) 从基于对象的音频转换到hoa
CN106575506A (zh) 高阶立体混响音频数据的中间压缩
CN105981411A (zh) 用于高声道计数的多声道音频的基于多元组的矩阵混合
US20150264483A1 (en) Low frequency rendering of higher-order ambisonic audio data
CN108141695A (zh) 高阶立体混响(hoa)内容的屏幕相关适应
CN106797527A (zh) Hoa内容的显示屏相关调适
CN106471576B (zh) 高阶立体混响系数的闭环量化
CN108141688B (zh) 从以信道为基础的音频到高阶立体混响的转换
EP3149972B1 (en) Obtaining symmetry information for higher order ambisonic audio renderers
CN117546236A (zh) 音频渲染***、方法和电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant