CN105325015A - 经旋转高阶立体混响的双耳化 - Google Patents
经旋转高阶立体混响的双耳化 Download PDFInfo
- Publication number
- CN105325015A CN105325015A CN201480035774.6A CN201480035774A CN105325015A CN 105325015 A CN105325015 A CN 105325015A CN 201480035774 A CN201480035774 A CN 201480035774A CN 105325015 A CN105325015 A CN 105325015A
- Authority
- CN
- China
- Prior art keywords
- information converting
- audio
- sound field
- function
- bit stream
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000009877 rendering Methods 0.000 claims abstract description 44
- 238000000034 method Methods 0.000 claims description 68
- 238000006243 chemical reaction Methods 0.000 claims description 54
- 150000001875 compounds Chemical class 0.000 claims description 33
- 238000004422 calculation algorithm Methods 0.000 claims description 27
- 238000005316 response function Methods 0.000 claims description 19
- 238000003860 storage Methods 0.000 claims description 19
- 238000004321 preservation Methods 0.000 claims description 4
- 230000009466 transformation Effects 0.000 abstract description 11
- 239000011159 matrix material Substances 0.000 description 120
- 238000005516 engineering process Methods 0.000 description 83
- 230000006870 function Effects 0.000 description 82
- 238000000605 extraction Methods 0.000 description 59
- 210000005069 ears Anatomy 0.000 description 43
- 230000008569 process Effects 0.000 description 40
- 238000009792 diffusion process Methods 0.000 description 38
- 238000004458 analytical method Methods 0.000 description 36
- 238000013519 translation Methods 0.000 description 26
- 230000001427 coherent effect Effects 0.000 description 24
- 230000000875 corresponding effect Effects 0.000 description 21
- 238000012732 spatial analysis Methods 0.000 description 19
- 230000008901 benefit Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 15
- 239000000284 extract Substances 0.000 description 15
- 230000006835 compression Effects 0.000 description 14
- 238000007906 compression Methods 0.000 description 14
- 210000003484 anatomy Anatomy 0.000 description 11
- 238000000354 decomposition reaction Methods 0.000 description 10
- 230000009467 reduction Effects 0.000 description 10
- 239000002131 composite material Substances 0.000 description 8
- 230000002441 reversible effect Effects 0.000 description 8
- 238000013461 design Methods 0.000 description 7
- 238000004146 energy storage Methods 0.000 description 7
- 230000011664 signaling Effects 0.000 description 7
- 238000010189 synthetic method Methods 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 6
- 230000008859 change Effects 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 5
- 239000000758 substrate Substances 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000013500 data storage Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 230000008707 rearrangement Effects 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 240000006409 Acacia auriculiformis Species 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013329 compounding Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 238000012880 independent component analysis Methods 0.000 description 2
- 230000033001 locomotion Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 238000011002 quantification Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000005284 basis set Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000012010 growth Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/302—Electronic adaptation of stereophonic sound system to listener position or orientation
- H04S7/303—Tracking of listener position or orientation
- H04S7/304—For headphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/01—Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/01—Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/11—Application of ambisonics in stereophonic audio systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Stereophonic System (AREA)
Abstract
一种包括一或多个处理器的装置经配置以:获得变换信息,所述变换信息描述如何变换声场以将若干多个层级元素减少到减少的多个层级元素;及基于所述变换信息,相对于所述减少的多个层级元素来执行双耳音频渲染。
Description
优先权主张
本申请案主张2013年5月29日申请的第61/828,313号美国临时申请案的权益。
技术领域
本发明涉及音频渲染,且更具体地说,涉及音频数据的双耳渲染。
发明内容
一般来说,描述用于经旋转高阶立体混响(HOA)的双耳音频渲染的技术。
作为一个实例,一种双耳音频渲染方法包括:获得变换信息,所述变换信息描述如何变换声场来将若干多个层级元素减少到减少的多个层级元素;以及基于所述变换信息,相对于所述减少的多个层级元素来执行双耳音频渲染。
在另一个实例中,一种装置包括一或多个处理器,其经配置以:获得变换信息,所述变换信息描述如何变换声场以来将若干多个层级元素减少到减少的多个层级元素;以及基于所述变换信息,相对于所述减少的多个层级元素来执行双耳音频渲染。
在另一个实例中,一种设备包括:用于获得变换信息的装置,所述变换信息描述如何变换声场来将若干多个层级元素减少到减少的多个层级元素;以及用于基于所述变换信息,相对于所述减少的多个层级元素来执行双耳音频渲染的装置。
在另一个实例中,一种上面存储有指令的非暂时性计算机可读存储媒体,所述指令在被执行时在被执行时,配置一或多个处理器以:获得变换信息,所述变换信息描述如何变换声场来讲若干多个层级元素减少到减少的多个层级元素;以及基于所述变换信息,相对于所述减少的多个层级元素执行双耳音频渲染。
在附图和以下描述中阐述所述技术的一或多个方面的细节。这些技术的其它特征、目标及优点将从所述描述及图式以及权利要求书而显而易见。
附图说明
图1和2是说明具有各种阶数和子阶数的球谐基底函数的图。
图3是说明可实施本发明中描述的技术的各个方面的***的图。
图4是说明可实施本发明中描述的技术的各个方面的***的图。
图5A和5B是说明可实施本发明中描述的技术的各种方面的音频编码裝置的框图。
图6A和6B各自是说明可执行本发明中描述的双耳音频渲染技术的各个方面的音频重放装置的实例的框图。
图7是说明由根据本发明中描述的技术的各个方面的音频编码装置执行的实例操作模式的流程图。
图8是说明由根据本发明中描述的技术的各个方面的音频重放装置执行的实例操作模式的流程图。
图9是说明可执行本发明中所描述的技术的各种方面的音频编码装置的另一实例的框图。
图10是更详细地说明图9的实例中所示的音频编码装置的实例实施方案的框图。
图11A和11B是说明执行本发明中所描述的技术的各种方面以旋转声场的实例的图。
图12是说明根据第一参考系捕获的实例声场的图,所述第一参考系接着根据本发明中所描述的技术旋转以依据第二参考系表达声场。
图13A到13E各自为说明根据本发明中所描述的技术形成的位流的图。
图14是说明图9的实例中所示的音频编码装置在实施本发明中所描述的技术的旋转方面时的实例操作的流程图。
图15是说明图9的实例中所示的音频编码装置在执行本发明中所描述的技术的变换方面时的实例操作的流程图。
贯穿各图和文本,相同参考字符表示相同元件。
具体实施方式
环绕声音的演进现今已使得许多输出格式可用于娱乐。此等消费型环绕声格式的实例大部分为“声道”式的,这是因为其以某些几何坐标隐含地指定到扩音器的馈入。这些包含流行的5.1格式(其包含以下六个声道:左前(FL)、右前(FR)、中央或前方中央、左后或环绕左边、右后或环绕右边以及低频效果(LFE)),发展的7.1格式、包含例如7.1.4格式和22.2格式(例如,用于与超高清电视标准一起使用)等高度扬声器的各种格式。非消费型格式可涵括任何数目的扬声器(成对称和非对称几何形状),其常常称为“环绕阵列”。此类阵列的一个实例包含定位在截二十面体(truncatedicosohedron)的拐角上的坐标处的32个扩音器。
到未来MPEG编码器的输入视情况为三个可能格式中的一者:(i)传统的基于声道的音频(如上文所论述),其意图由处于预先指定的位置处的扩音器播放;(ii)基于对象的音频,其涉及用于单个音频对象的具有含有其位置坐标(以及其它信息)的相关联元数据的离散脉码调制(PCM)数据;及(iii)基于场景的音频,其涉及使用球面谐波基底函数的系数(也称为“球面谐波系数”或SHC、“高阶立体混响”或HOA及“HOA系数”)来表示声场。此未来MPEG编码器更详细地描述于国际标准化组织/国际电工委员会(ISO)/(IEC)JTC1/SC29/WG11/N13411的标题为“要求对于3D音频的提议(CallforProposalsfor3DAudio)”的文献中,该文献于2013年1月在瑞士日内瓦发布,且可在http://mpeg.chiariglione.org/sites/default/files/files/standards/parts/docs/w13411.zip获得。
在市场中存在各种“环绕声”基于声道的格式。它们的范围(例如)是从5.1家庭影院***(其在使起居室享有立体声方面已获得最大成功)到NHK(日本广播协会或日本广播公司)所开发的22.2***。内容创建者(例如,好莱坞工作室)将希望产生电影的音轨一次,而不花费精力来针对每一扬声器配置对其进行重混(remix)。近来,标准开发组织(StandardsDevelopingOrganizations)一直在考虑如下方式:提供到标准化位流中的编码,以及后续解码,其可调适且不知晓重放位置(涉及渲染器)处的扬声器几何形状(和数目)以及声学条件。
为向内容创建者提供此种灵活性,可使用分层要素集合来表示声场。所述分层要素集合可指其中元素经排序以使得较低阶元素的基础集合提供模型化声场的完整表示的一组元素。在所述集合扩展以包含高阶元素时,所述表示变得更详细,从而增加分辨率。
分层要素集合的一个实例为一组球面谐波系数(SHC)。以下表达式示范使用SHC对声场的描述或表示:
此表达式显示在时间t,声场的任一点处的压力pi可由SHC,唯一地表示。此处,c为音速(~343m/s),为参考点(或观察点),jn(·)为阶数n的球面贝塞尔函数,且为阶数n和子阶数m的球面谐波基础函数。可认识到,方括号中的术语为信号的频域表示(即),其可由各种时频变换近似表示,例如离散傅里叶变换(DFT)、离散余弦变换(DCT)或小波变换。分层集合的其它实例包含小波变换系数集合及多分辨率基函数的系数的其它集合。
图1是说明从零阶(n=0)到四阶(n=4)的球面谐波基底函数的图。如可看出,对于每一阶,存在子阶m的扩展,出于易于说明的目的,在图2的实例中展示所述子阶但未明确注释。
图2是说明从零阶(n=0)到四阶(n=4)的球面谐波基底函数的另一图。在图2中,在三维坐标空间中展示了球面谐波基底函数,其中展示了阶与子阶两者。
SHC可由各种麦克风阵列配置物理获取(例如,记录),或者,其可从声场的基于声道或基于对象的描述导出。SHC表示基于场景的音频,其中SHC可输入到音频编码器以获得经编码SHC,所述经编码SHC可促成更有效的发射或存储。举例来说,可使用涉及(1+4)2个(25,且因此为第四阶)系数的四阶表示。
如上文所指出,可使用麦克风从麦克风记录导出SHC。可如何从麦克风阵列导出SHC的各种实例描述于波莱蒂·M(Poletti,M)的“基于球面谐波的三维环绕声***(Three-DimensionalSurroundSoundSystemsBasedonSphericalHarmonics)”(听觉工程学协会会刊(J.AudioEng.Soc.),第53卷,第11期,2005年11月,第1004-1025页)中。
为了说明可如何从基于对象的描述导出这些SHC,考虑以下等式。对应于个别音频对象的声场的系数可表达为:
其中i为为阶数n的球面汉克尔函数(第二种),且为对象的位置。已知对象源能量g(ω)为频率的函数(例如,使用时频分析技术,例如对PCM流执行快速傅立叶变换)允许将每一PCM对象及其位置转换成SHC另外,可显示(由于以上是线性和正交分解),每一对象的系数是加性的。以此方式,大量PCM对象可由系数表示(例如,表示为个别对象的系数向量的总和)。基本上,这些系数含有关于声场的信息(压力作为3D坐标的函数),且以上表示从个别对象到观察点附近的整个声场的表示的变换。下文在基于对象和基于SHC的音频译码的上下文中描述其余各图。
图3是说明可执行本发明中所描述的技术的各个方面的***10的图。如图3的实例中所示,***10包含内容创建者12和内容消费者14。尽管在内容创建者12和内容消费者14的上下文中描述,但可在其中声场的SHC(其也可称为HOA系数)或任何其它阶层表示经编码以形成表示音频数据的位流的任何上下文中实施所述技术。此外,内容创建者12可表示能够实施本发明中所描述的技术的任何形式的计算装置,包含手机(或蜂窝电话)、平板计算机、智能电话或台式计算机(提供几个实例)。同样,内容消费者14可表示能够实施本发明中所描述的技术的任何形式的计算装置,包含手持机(或蜂窝式电话)、平板计算机、智能电话、机顶盒,或台式计算机(提供几个实例)。
内容创建者12可表示电影演播室或可产生多信道音频内容以供由例如内容消费者14等内容消费者消费的其它实体。在一些实例中,内容创建者12可表示将希望压缩HOA系数11的个别用户。常常,此内容创建者产生音频内容连同视频内容。内容消费者14表示拥有或具有对音频重放***的存取权的个体,所述音频重放***可指能够渲染SHC以作为多声道音频内容重放的任何形式的音频重放***。在图3的实例中,内容消费者14包含音频重放***16。
内容创建者12包含音频编辑***18。内容创建者12获得各种格式(包含直接作为HOA系数)的实况记录7和音频对象9,内容创建者12可使用音频编辑***18对其进行编辑。内容创建者可在编辑过程期间渲染来自音频对象9的HOA系数11,从而收听所渲染的扬声器馈送以试图识别需要进一步编辑的声场的各个方面。内容创建者12可接着编辑HOA系数11(可能经由操纵可以上文所描述的方式从中导出源HOA系数的音频对象9中的不同者而间接地编辑)。内容创建者12可采用音频编辑***18来产生HOA系数11。音频编辑***18表示能够编辑音频数据且输出此音频数据作为一或多个源球面谐波系数的任何***。
当编辑过程完成时,内容创建者12可基于HOA系数11产生位流3。也就是说,内容创建者12包含音频编码装置2,其表示经配置以根据本发明中描述的技术的各个方面编码或以其它方式压缩HOA系数11以产生位流3的装置。音频编码装置2可产生位流3以供(作为一个实例)跨越发射信道发射,所述发射信道可为有线或无线通道、数据存储装置等。位流3可表示HOA系数11的经编码版本,且可包含主要位流和另一旁侧位流(其可称为旁侧信道信息)。
尽管下文更详细地加以描述,但音频编码装置2可经配置以基于基于向量的合成或基于方向的合成来编码HOA系数11。为了确定是执行基于向量的合成方法还是基于方向的合成方法,音频编码装置2可至少部分基于HOA系数11来确定HOA系数11经由声场的自然记录(例如,实况记录7)还是从(作为一个实例)例如PCM对象等音频对象9人工地(即,合成地)产生。当HOA系数11从音频对象9产生时,音频编码装置2可使用基于方向的合成方法来编码HOA系数11。当使用(例如)本征麦克风(eigenmike)实况地捕获HOA系数11时,音频编码装置2可基于基于向量的合成方法来编码HOA系数11。上述区别表示其中可部署基于向量或基于方向的合成方法的一个实例。可能存在其它状况:其中所述合成方法中的任一者或两者可用于自然记录、人工产生的内容或两种内容的混合(混合内容)。此外,也有可能同时使用两种方法用于对HOA系数的单一时间帧译码。
出于说明的目的,假定音频编码装置2确定实况地俘获HOA系数11或HOA系数11以其它方式表示实况记录(例如,实况记录7),音频编码装置20可经配置以使用涉及线性可逆变换(LIT)的应用的基于向量的合成方法来编码HOA系数11。线性可逆变换的一个实例被称作“奇异值分解”(或“SVD”)。在此实例中,音频编码装置2可将SVD应用于HOA系数11以确定HOA系数11的经分解版本。音频编码装置2可接着分析HOA系数11的经分解版本,以识别可促进HOA系数11的经分解版本的重新排序的各种参数。音频编码装置2可接着基于所识别的参数将HOA系数11的经分解版本重新排序,其中如下文进一步详细描述,在给定以下情形的情况下,此重新排序可改进译码效率:变换可将HOA系数跨越HOA系数的帧重新排序(其中一帧通常包含HOA系数11的M个样本,且在一些实例中,将M设定为1024)。在将HOA系数11的经分解版本重新排序之后,音频编码装置2可选择表示声场的前景(或,换句话说,相异的、占优势的或突出的)分量的HOA系数11的经分解版本。音频编码装置2可将HOA系数11的表示前景分量的经分解版本指定为音频对象和相关联方向信息。
音频编码装置2还可相对于HOA系数11执行声场分析,以便至少部分地识别HOA系数11中表示声场的一或多个背景(或,换句话说,环境)分量的那些HOA系数。假定在一些实例中,背景分量可仅包含HOA系数11的任何给定样本的子集(例如,对应于零阶和一阶球面基底函数的那些样本,而不是对应于二阶或更高阶球面基底函数的那些样本),那么音频编码装置2可相对于背景分量执行能量补偿。当执行阶还原时,换句话说,音频编码装置2可扩增HOA系数11的其余背景HOA系数(例如向/从其添加/减去能量),以补偿因执行阶还原而导致的总能量的变化。
音频编码装置2接下来可相对于表示背景分量的HOA系数11中的每一者和前景音频对象中的每一者执行一种形式的心理声学编码(例如,MPEG环绕、MPEG-AAC、MPEG-USAC或其它已知形式的心理声学编码)。音频编码装置2可相对于前景方向信息执行一种形式的内插,且接着相对于经内插的前景方向信息执行阶还原,以产生经阶还原的前景方向信息。在一些实例中,音频编码装置2可进一步关于经阶还原的前景方向信息执行量化,从而输出经译码前景方向信息。在一些情况下,此量化可包括标量/熵量化。音频编码装置2可接着形成位流3以包含经编码背景分量、经编码前景音频对象和经量化的方向信息。音频编码装置2可接着传输或以其它方式将位流3输出到内容消费者14。
虽然图3中展示为直接发射到内容消费者14,但内容创建者12可将位流3输出到位于内容创建者12与内容消费者14之间的中间装置。此中间装置可存储位流3以供稍后递送到可请求此位流的内容消费者14。所述中间装置可包括文件服务器、网络服务器、台式计算机、膝上型计算机、平板计算机、移动电话、智能电话,或能够存储位流3以供音频解码器稍后检索的任何其它装置。此中间装置可驻留在能够将位流3(且可能结合发射对应视频数据位流)流式传输到请求位流3的订户(例如内容消费者14)的内容递送网络中。
或者,内容创建者12可将位流3存储到存储媒体,例如压缩光盘、数字视频光盘、高清视频光盘或其它存储媒体,其中大多数能够由计算机读取,且因此可称为计算机可读存储媒体或非暂时性计算机可读存储媒体。在此上下文中,传输信道可指代借以发射存储到这些媒体的内容的那些信道(且可包含零售商店和其它基于商店的递送机制)。在任何情况下,本发明的技术因此就此而言不应限于图3的实例。
如图3的实例中进一步展示,内容消费者14包含音频重放***16。音频重放***16可表示能够重放多信道音频数据的任何音频重放***。音频重放***16可包含若干不同渲染器5。渲染器5可各自提供不同形式的渲染,其中所述不同形式的渲染可包含执行基于向量的振幅平移(VBAP)的各种方式中的一或多者,和/或执行声场合成的各种方式中的一或多者。如本文所使用,“A和/或B”意味着“A或B”,或“A和B”两者。
音频重放***16可进一步包含音频解码装置4。音频解码装置4可表示经配置以解码来自位流3的HOA系数11'的装置,其中HOA系数11'可类似于HOA系数11,但归因于有损操作(例如,量化)和/或经由发射信道的发射而不同。也就是说,音频解码装置4可对位流3中指定的前景方向信息进行解量化,同时还相对于位流3中指定的前景音频对象和表示背景分量的经编码HOA系数执行心理声学解码。音频解码装置4可进一步相对于经解码前景方向信息执行内插,且接着基于经解码前景音频对象和经内插前景方向信息来确定表示前景分量的HOA系数。音频解码装置4可接着基于表示前景分量的所确定的HOA系数和表示背景分量的经解码HOA系数来确定HOA系数11'。
音频重放***16可解码位流3之后获得HOA系数11',且渲染HOA系数11'以输出扩音器馈送6。扩音器馈送6可驱动一或多个扩音器(其为便于说明的目的在图3的实例中未图示)。
为了选择适当渲染器或在一些情况下产生适当渲染器,音频重放***16可获得指示扩音器的数目和/或扩音器的空间几何布置的扩音器信息13。在一些情况下,音频重放***16可使用参考麦克风获得扩音器信息13且以动态地确定扩音器信息13的方式驱动所述扩音器。在其它情况下或结合动态确定扩音器信息13,音频重放***16可提示用户与音频重放***16介接并输入扩音器信息16。
音频重放***16可随后基于扩音器信息13选择音频渲染器5中的一者。在一些情况下,音频重放***16可在无音频渲染器5在与扩音器信息13中指定的音频渲染器的某一临限值相似性量度(按扩音器几何布置)时,音频重放***16可基于扩音器信息13产生音频渲染器5中的所述一者。音频重放***16可在一些情况下基于扩音器信息13产生音频渲染器5中的所述一者,而不首先尝试选择音频渲染器5中的现有一者。
图4是说明可执行本发明中描述的技术以潜在地更高效地表示音频数据的位流中的音频信号信息的***20的图。如图3的实例中所展示,***20包含内容创建者22和内容消费者24。虽然在内容创建者22和内容消费者24的上下文中描述,所述技术可在任何环境下实施,其中编码声场的SHC或任何其它层级表示,以形成表示音频数据的位流。分量22、24、30、28、36、31、32、38、34和35可表示图3的类似命名的分量的实例例子。此外,SHC27和27'可分别表示HOA系数11和11'的实例例子。
内容创建者22可表示电影演播室或可产生多信道音频内容以供由例如内容消费者24等内容消费者消费的其它实体。常常,此内容创建者产生音频内容连同视频内容。内容消费者24表示拥有或具有对音频重放***的存取权的个体,所述音频重放***可指代能够重放多信道音频内容的任何形式的音频重放***。在图4的实例中,内容消费者24包含音频重放***32。
内容创建者22包含音频渲染器28和音频编辑***30。音频渲染器26可表示音频处理单元,其渲染或以其它方式产生扬声器馈送(其也可被称作“扩音器馈送”、“扬声器信号”或“扩音器信号”)。每一扬声器馈送可对应于再现针对多信道音频***的特定信道的声音的扬声器馈送。在图4的实例中,渲染器38可渲染针对常规5.1、7.1或22.2环绕声格式的扬声器馈送,从而产生针对5.1、7.1或22.2环绕声扬声器***中5、7或22个扬声器中的每一者的扬声器馈送。或者,渲染器28可经配置以在给定上文所论述的源球面谐波系数的性质的情况下针对具有任何数目的扬声器的任何扬声器配置渲染来自源球面谐波系数的扬声器馈送。渲染器28可以此方式产生若干扬声器馈送,其在图4中表示为扬声器馈送29。
内容创建者可在编辑过程期间渲染球面谐波系数27(“SHC27”),从而收听所渲染的扬声器馈送,以试图识别并不具有高保真度或并不提供有说服力的环绕声体验的声场的方面。内容创建者22可随后编辑源球面谐波系数(常常经由操纵可以上文所描述的方式从其导出源球面谐波系数的不同对象而间接地进行)。内容创建者22可采用音频编辑***30来编辑球面谐波系数27。音频编辑***30表示能够编辑音频数据且输出此音频数据作为一或多个源球面谐波系数的任何***。
当编辑过程完成时,内容创建者22可基于球面谐波系数27产生位流31。也就是说,内容创建者22包含位流产生装置36,其可表示能够产生位流31的任何装置。在一些情况下,位流产生装置36可表示编码器,其对球面谐波系数27进行带宽压缩(作为一个实例,经由熵编码)且其以所接受格式布置球面谐波系数27的经熵编码版本从而形成位流31。在其它情况下,位流产生装置36可表示音频编码器(可能利用例如MPEG环绕或其衍生物等已知音频译码标准编译的音频编码器),其使用(作为一个实例,)类似于常规音频环绕声编码过程的过程编码多信道音频内容29以压缩所述多信道音频内容或其衍生物。经压缩多信道音频内容29可随后以某一其它方式经熵编码或译码以对内容29进行带宽压缩,且根据协定的格式布置从而形成位流31。不论是直接压缩从而形成位流31还是渲染且随后压缩从而形成位流31,内容创建者22都可将位流31发射到内容消费者24。
虽然图4中展示为直接发射到内容消费者24,但内容创建者22可将位流31输出到定位在内容创建者22与内容消费者24之间的中间装置。此中间装置可存储位流31以供稍后递送到可请求此位流的内容消费者24。所述中间装置可包括文件服务器、网络服务器、台式计算机、膝上型计算机、平板计算机、移动电话、智能电话,或能够存储位流31以供音频解码器稍后检索的任何其它装置。此中间装置可驻留在能够将位流31(且可能结合发射对应视频数据位流)流式传输到请求位流31的订户(例如内容消费者24)的内容递送网络中。或者,内容创建者22可将位流31存储到存储媒体,例如压缩光盘、数字视频光盘、高清视频光盘或其它存储媒体,其中大多数能够由计算机读取,且因此可称为计算机可读存储媒体或非暂时性计算机可读存储媒体。在此上下文中,传输信道可指代借以发射存储到这些媒体的内容的那些信道(且可包含零售商店和其它基于商店的递送机制)。在任何情况下,本发明的技术因此就此而言不应限于图4的实例。
如图4的实例中进一步展示,内容消费者24包含音频重放***32。音频重放***32可表示能够重放多信道音频数据的任何音频重放***。音频重放***32可包含若干不同渲染器34。渲染器34可各自提供不同形式的渲染,其中所述不同形式的渲染可包含执行基于向量的振幅平移(VBAP)的各种方式中的一或多者,和/或执行声场合成的各种方式中的一或多者。
音频重放***32可进一步包含提取装置38。提取装置38可表示能够经由可大体与位流产生装置36的过程互逆的过程提取球面谐波系数27'(“SHC27'”,其可表示球面谐波系数27的经修改形式或副本)的任何装置。在任何情况下,音频重放***32可接收球面谐波系数27',且可选择渲染器34中的一者,渲染器34接着渲染球面谐波系数27',以产生若干扬声器馈送35(对应于电或可能无线耦合到音频重放***32的扩音器的数目,其可出于便于说明的目的而在图4的实例中示出)。
通常,当位流产生装置36直接编码SHC27,位流产生装置36编码所有SHC27。为声场的每一表示而发送的SHC27的数目取决于阶,且可在数学上表达为(1+n)2/样本,其中n再次表示阶。为了实现声场的第四阶表示,作为一个实例,可导出25个SHC。通常,SHC中的每一者表达为32位带正负号浮点数。因此,为了表达声场的第四阶表示,在此实例中需要总共25x32或800个位/样本。当使用48kHz的取样速率时,此表示38,400,000位/秒。在一些情况下,SHC27中的一或多者可不指定显著信息(其可指包含可听或在当在内容消费者24处再现时描述声场的过程中重要的音频信息的信息)。编码SHC27中的这些非显著SHC可导致通过传输信道的带宽的低效使用(假定传输机构的内容分发网络类型)。在涉及这些系数的存储的应用程序中,以上可表示存储空间的低效使用。
位流产生装置36可在位流31中识别SHC27中包含于位流31中的那些SHC,且在位流31中指定所述SHC27中的所识别SHC。换句话说,位流产生装置36可在位流31中指定SHC27中的所识别SHC,而不在位流31中指定SHC27中不识别为包含于位流中的那些SHC中的任一者。
在一些情况下,当识别SHC27中包含于位流31中的那些SHC时,位流产生装置36可指定具有多个位的场,其中所述多个位中的不同一者识别SHC27中的对应一者是否包含于位流31中。在一些情况下,当识别SHC27中包含于位流31中的那些SHC时,位流产生装置36可指定具有等于的多个位的场(n+1)2个位,其中n表示描述声场的分层要素集合的阶,且其中所述多个位中的每一者识别SHC27中的对应一者是否包含于位流31中。
在一些情况下,当识别SHC27中包含于位流31中的那些SHC时,位流产生装置36可指定位流31中具有多个位的场,其中所述多个位中的不同一者识别SHC27中的对应一者是否包含于位流31中。当指定SHC27中的所识别SHC时,位流产生装置36可在位流31中指定所述SHC27紧接具有所述多个位的场之后的所识别SHC。
在一些情况下,位流产生装置36可另外确定SHC27中的一或多者具有在描述声场中相关的信息。当识别SHC27中包含于位流31中的那些SHC时,位流产生装置36可识别所述SHC27中具有在描述所述声场中相关的信息的所确定的一或多个SHC包含于位流31中。
在一些情况下,位流产生装置36可另外确定SHC27中的一或多者具有在描述声场中相关的信息。当识别SHC27中包含于位流31中的那些SHC时,位流产生装置36可在位流31中识别SHC27中具有在描述声场中相关的信息的所确定的一或多个SHC包含于位流31中,且在位流31中识别SHC27中具有在描述声场中不相关的信息的其余SHC不包含于位流31中。
在一些情况下,位流产生装置36可确定SHC27的值中的一或多者低于临限值。当识别SHC27中包含于位流31中的那些SHC时,位流产生装置36可在位流31中识别SHC27中高于此临限值的所确定的一或多个SHC是在位流31中指定。当时临限值可常常为值零时,对于实际实施方案,可将临限值设定成表示噪声基底(或环境能量)的值,或与电流信号能量(其可使临限值信号视情况而定)成比例的某一值。
在一些情况下,位流产生装置36可调整或变换声场,以减少提供在描述声场中相关的信息的SHC27的数目。术语“调整”可指表示线性可逆变换的任何矩阵的应用。在这些情况下,位流产生装置36可在位流31中指定描述如何调整声场的信息(其也可被称作“变换信息”)。虽然描述为除识别SHC27中随后在位流中指定的那些SHC的信息之外指定此信息,但所述技术的此方面可作为指定识别SHC27中包含于位流中的那些SHC的信息一个替代方案而执行。所述技术因此不应在此方面受限,而是可提供产生由描述声场的多个层级元素组成的位流的方法,其中所述方法包括:调整声场以减少提供在描述声场中相关的信息的所述多个层级元素的数目;以及在位流中指定描述如何调整声场的调整信息。
在一些情况下,位流产生装置36可旋转声场,以减少提供在描述声场中相关的信息的SHC27的数目。在这些情况下,位流产生装置36可在位流31中指定描述如何旋转声场的旋转信息。旋转信息可包括方位角值(能够信令360度)和仰角值(能够信令180度)。在一些情况下,旋转信息可包括相对于x轴和y轴、x轴和z轴和/或y轴和z轴指定的一或多个角度。在一些情况下,方位角值包括一或多个位,且通常包含10个位。在一些情况下,仰角值包括一或多个位,且通常包含至少9个位。在最简单实施例中,位的此选择允许180/512度(在仰角和方位角两者中)的分辨率。在一些情况下,调整可包括旋转,且上文所述的调整信息包含旋转信息。在一些情况下,位流产生装置36可平移声场,以减少提供在描述声场中相关的信息的SHC27的数目。在这些情况下,位流产生装置36可在位流31中指定描述如何平移声场的平移信息。在一些情况下,调整可包括平移,且上述调整信息包含平移信息。
在一些情况下,位流产生装置36可调整声场,以减少具有高于临限值的非零值的SHC27的数目,且在位流31中指定描述如何调整声场的调整信息。
在一些情况下,位流产生装置36可旋转声场,以减少具有高于临限值的非零值的SHC27的数目,且在位流31中指定描述如何旋转声场的旋转信息。
在一些情况下,位流产生装置36可转变声场以减少具有高于临限值的非零值的SHC27的数目,且在位流31中指定描述如何平移声场的平移信息。
通过在位流31中识别SHC27中包含于位流31中的那些SHC,此过程可促进带宽的较高效使用,因为SHC27中不包含与声场的描述相关的信息的那些SHC(例如SCH27中的零值SCH)不在位流中指定,即不包含于位流中。此外,通过另外或替代地在产生SHC27时调整声场,以减少指定与声场的描述相关的信息的SHC27的数目,此过程可再次或另外导致潜在地更高效的带宽利用率。此过程的两个方面可减少将在位流31中指定所需的SHC27的数目,从而潜在地改进非固定速率***(其可指并不具有目标位速率或按照帧或样本来提供位预算的音频译码技术,提供几个实例)中或固定速率***中的带宽的利用率,从而潜在地导致将位分配给在描述声场中较相关的信息。
在内容消费者24内,提取装置38可接着根据上述过程的方面来处理表示音频内容的位流31,上述过程通常与上文相对于位流产生装置36而描述的过程互反。提取装置38可从位流31确定SHC中描述包含于位流31中的声场的那些SHC,且剖析位流31以确定SHC27'中的所识别的SHC。
在一些情况下,提取装置38可在确定SHC27'中包含于位流31中的那些SHC时,提取装置38可剖析位流31,以确定具有多个位的场,其中所述多个位中的每一者识别SHC27'中的对应一者是否包含于位流31中。
在一些情况下,提取装置38可在确定SHC27'中包含于位流31中的那些SHC时,指定具有等于(n+1)2个位的多个位的场,其中n再次表示描述声场的分层要素集合的阶。并且,所述多个位中的每一者识别SHC27'中的对应一者是否包含于位流31中。
在一些情况下,提取装置38可在确定SHC27'中包含于位流31中的那些SHC时,剖析位流31,以识别位流31中具有多个位的场,其中所述多个位中的不同一者识别SHC27'中的对应一者是否包含于位流31中。提取装置38可在解析位流31以确定SHC27'中的所识别SHC时,剖析位流31以确定SHC27'中来自位流31的紧接具有所述多个位的场之后的所识别SHC。
在一些情况下,作为上述过程的替代方案或结合上述过程,提取装置38可剖析位流31,以确定描述如何调整声场以减少提供在描述声场中相关的信息的SHC27'的数目的调整信息。提取装置38可将此信息提供到音频重放***32,其在基于SHC27'中提供在描述声场中相关的信息的那些SHC再现声场时,基于调整信息来调整声场,以使所执行的调整逆转,以减少所述多个层级元素的数目。
在一些情况下,作为上述过程的替代发案或结合上述过程,提取装置38可剖析位流31,以确定描述如何旋转声场以减少提供在描述声场中相关的信息的SHC27'的数目的旋转信息。提取装置38可将此信息提供到音频重放***32,其在基于SHC27'中提供在描述声场中相关的信息的那些SHC来再现声场时,基于旋转信息使声场旋转,以使所执行的旋转逆转,以减少所述多个层级元素的数目。
在一些情况下,作为上述过程的替代方案或结合上述过程,提取装置38可剖析位流31,以确定描述如何平移声场以减少提供在描述声场中相关的信息的SHC27'的数目的平移信息。提取装置38可将此信息提供到音频重放***32,其在基于SHC27'中提供在描述声场中相关的信息的那些SHC再现声场时,基于调整信息来平移声场,以使所执行的平移逆转,以减少所述多个层级元素的数目。
在一些情况下,作为上述过程的替代方案或结合上述过程,提取装置38可剖析位流31,以确定描述如何调整声场以减少具有非零值的SHC27'的数目的调整信息。提取装置38可将此信息提供给音频重放***32,其在基于SHC27'中的具有非零值的那些SHC来再现声场时,基于调整信息来调整声场,以使所执行的调整逆转,以减少所述多个层级元素的数目。
在一些情况下,作为上述过程的替代方案或结合上述过程,提取装置38可剖析位流31,以确定描述如何旋转声场以减少具有非零值的SHC27'的数目的旋转信息。提取装置38可将此信息提供给音频重放***32,其在基于SHC27'中的具有非零值的那些SHC来再现声场时,基于旋转信息来旋转声场,以使所执行的旋转逆转,以减少所述多个层级元素的数目。
在一些情况下,作为上述过程的替代方案或结合上述过程,提取装置38可剖析位流31,以确定描述如何平移声场以减少具有非零值的SHC27'的数目的平移信息。提取装置38可将此信息提供给音频重放***32,其在基于SHC27'中的具有非零值的那些SHC来再现声场时,基于平移信息来平移声场,以使所执行的平移逆转,以减少所述多个层级元素的数目。
图5A是说明可实施本发明中描述的技术的各种方面的音频编码装置120的框图。虽然说明为单个装置,即在图9的实例中的音频编码装置120,但所述技术可由一或多个裝置执行。因此,所述技术在此方面不应受限。
在图5A的实例中,音频编码装置120包含时频分析单元122、旋转单元124、空间分析单元126、音频编码单元128和位流产生单元130。时频分析单元122可表示经配置以将SHC121(其也可称为高阶立体混响(HOA),因为SHC121可包含与大于一的阶相关联的至少一个系数)从时域变换到频域的单元。时频分析单元122可应用任何形式的基于傅立叶的变换,包含快速傅里叶变换(FFT)、离散余弦变换(DCT)、经修改离散余弦变换(MDCT)以及离散正弦变换(DST)(提供几个实例),从而将SHC121从时域变换到频域。SHC121的经变换版本表示为SHC121',时频分析单元122可将其输出到旋转分析单元124和空间分析单元126。在一些情况下,SHC121可能已经在频域中指定。在这些情况下,时频分析单元122可将SHC121'传递到旋转分析单元124和空间分析单元126,而不应用变换或以其它方式变换接收到的SHC121。
旋转单元124可表示执行上文更详细描述的技术的旋转方面的单元。旋转单元124可结合空间分析单元126工作,以使声场旋转(或更一般化地变换),以便去除SHC121'中的一或多者。空间分析单元126可表示经配置以便以类似于上述“空间压紧”算法的方式来执行空间分析的单元。空间分析单元126可将变换信息127(其可包含仰角和方位角)输出到旋转单元124。旋转单元124可接着根据变换信息127(其也可被称作“旋转信息127”)来使声场旋转,且产生SHC121'的减小版本,其在图5A的实例中可表示为SHC125'。旋转单元124可将SHC125'输出到音频编码单元126,同时将变换信息127输出到位流产生单元128。
音频编码单元126可表示经配置以对SHC125'进行音频编码以输出经编码音频数据129的单元。音频编码单元126可执行任何形式的音频编码。作为一个实例,音频编码单元126可根据运动图片专家组(MPEG)-2,部分7标准(另外表示为ISO/IEC13818-7:1997)和/或MPEG-4,部分3-5来执行高级音频译码(AAC)。音频编码单元126可有效地将SHC125'的每一阶/子阶组合视为分开的声道,从而使用AAC编码器的分开的例子来编码这些分开的声道。关于HOA的编码的更多信息可在艾瑞克·赫勒吕(EricHellerud)等人的标题为“用AAC来编码高阶立体混响(EncodingHigherOrderAmbisonicswithAAC)”的音频工程师协会大会论文7366中找到,所述论文在2008年5月17到20日在荷兰的阿姆斯特丹的第124届音频工程师协会大会上呈现。音频编码单元126可将经编码的音频数据129输出到位流产生单元130。
位流产生单元130可表示经配置以产生符合某一已知格式的位流的单元,所述格式可为专有、自由可用、标准化等。位流产生单元130可使旋转信息127与经编码音频数据129多路复用,以产生位流131。位流131可符合图6A到6E的任一者中阐述的实例,除了可用经编码音频数据129来代替SHC27'。位流131、131'可各自表示位流3、31的实例。
图5B是说明可实施本发明中描述的技术的各种方面的音频编码装置200的框图。虽然说明为单个装置,即图5B的实例中的音频编码装置200,但所述技术可由一或多个裝置执行。因此,所述技术在此方面不应受限。
音频编码装置200,如同图5A的音频编码装置120,包含时频分析单元122、音频编码单元128和位流产生单元130。音频编码装置120,代替于在嵌入位流131'中的侧声道中获得和提供声场的旋转信息,而是将基于向量的分解应用于SHC121',以将SHC121'变换为经变换球面谐波系数202,其可包含旋转矩阵,音频编码装置120可从其提取用于声场旋转和后续编码的旋转信息。因此,在此实例中,旋转信息不必嵌入位流131'中,因为渲染装置可执行相似操作,以从编码到位流131'的经变换球面谐波系数获得旋转信息,且使声场去旋转,以恢复SHC的原始坐标系。在下文中进一步详细描述此操作。
如图5B的实例中所示,音频编码装置200包括基于向量的分解单元202、音频编码单元128和位流产生单元130。基于向量的分解单元202可表示压缩SHC121'的单元。在一些情况下,基于向量的分解单元202表示可无损地压缩SHC121'的单元。SHC121'可表示多个SHC,其中所述多个SHC中的至少一者具有大于一的阶(其中这种SHC被称作高阶立体混响(HOA),以便与低阶立体混响区分开,低阶立体混响的一个实例是所谓的“B格式”)。虽然基于向量的分解单元202可无损地压缩SHC121',但通常基于向量的分解单元202去除所述SHC121'中的在当再现时描述声场中不突出或不相关的那些SHC(因为一些SHC可能不能够被人听觉***听到)。在此意义上,此压缩的有损性质可能不会在从SHC121'的经压缩版本再现时过度影响声场的感知质量。
在图5B的实例中,基于向量的分解单元202可包含分解单元218和声场分量提取单元220。分解单元218可表示经配置以执行被称作奇异值分解的形式的分析的单元。虽然相对于SVD描述,但可相对于提供线性不相关数据的集合的任何类似变换或分解执行所述技术。并且,在本发明中对“集合”的参考既定指代“非零”集合(除非特定地相反陈述),且并不既定指代包含所谓的“空集合”的集合的经典数学定义。
替代变换可包括常常被称作首字母缩略词PCA的主分量分析。PCA指代使用正交变换将一组可能相关变量的观测结果变换成被称作主分量的一组线性不相关变量的数学程序。线性不相关变量表示彼此并不具有线性统计关系(或相依性)的变量。可将这些主分量描述为彼此具有小程度的统计相关性。在任何情况下,所谓的主分量的数目小于或等于原始变量的数目。通常,以如下方式定义变换:第一主分量具有最大可能方差(或,换句话说,尽可能多地解释数据中的可变性),且每一后续分量又具有可能的最高方差(在以下约束下:此连续分量正交于(可重新表述为不相关于)在前的分量)。PCA可执行一种形式的阶还原,其就SHC11A来说,可导致SHC11A的压缩。取决于上下文,PCA可由若干不同名称指代,例如离散卡亨南-洛维变换、霍特林变换、恰当正交分解(POD)和本征值分解(EVD),仅举几例。
在任何情况下,分解单元218执行奇异值分解(其再次可由其首字母缩略词“SVD”表示),以将球面谐波系数121'变换成经变换球面谐波系数的两个或两个以上集合。在图5B的实例中,分解单元218可相对于SHC121'执行SVD,以产生所谓的V矩阵、S矩阵和U矩阵。在线性代数中,SVD可按如下形式表示m乘n实数或复数矩阵X(其中X可表示多声道音频数据,例如SHC121')的因子分解:
X=USV*
U可表示m乘m实数或复数单位矩阵,其中U的m个列通常被称为多声道音频数据的左奇异向量。S可表示在对角线上具有非负实数的m乘n矩形对角线矩阵,其中S的对角线值通常被称为多声道音频数据的奇异值。V*(其可表示V的共轭转置)可表示n乘n实数或复数单位矩阵,其中V*的n列通常被称为多声道音频数据的右奇异向量。
虽然在本发明中描述为应用于包括球面谐波系数121'的多信道音频数据,可将所述技术应用于任何形式的多信道音频数据。以此方式,音频编码装置200可相对于表示声场的至少一部分的多信道音频数据执行奇异值分解,以产生表示多信道音频数据的左奇异向量的U矩阵、表示多信道音频数据的奇异值的S矩阵,以及表示多信道音频数据的右奇异向量的V矩阵,且随U矩阵、S矩阵和V矩阵中的一或多者的至少一部分而变来表示多信道音频数据。
一般来说,上文参考的SVD数学表达式中的V*矩阵表示为V矩阵的共轭转置,以反映SVD可应用于包括复数的矩阵。当应用于仅包括实数的矩阵时,V矩阵的复数共轭(或换句话说,V*矩阵)可被视为等于V矩阵。下文中为容易说明的目的,假定SHC121'包括实数,结果是经由SVD而非V*矩阵输出V矩阵。虽然假定为V矩阵,但所述技术可以类似方式应用于具有复数系数的SHC121',其中SVD的输出为V*矩阵。因此,在这方面,所述技术不应限于仅提供应用SVD以产生V矩阵,而可包含将SVD应用于具有复数分量的SHC11A以产生V*矩阵。
在任何情况下,分解单元218可相对于高阶立体混响(HOA)音频数据(其中此立体混响音频数据包含SHC121'或任何其它形式的多通道音频数据的块或样本)的每一块(其可称作帧)执行逐块形式的SVD。变量M可用以表示音频帧的长度(以样本数计)。举例来说,当音频帧包含1024个音频样本时,M等于1024。分解单元218可因此相对于具有M乘(N+1)2个SHC的SHC11A的块执行逐块SVD,其中N再次表示HOA音频数据的阶数。分解单元218可通过执行此SVD来产生V矩阵、S矩阵19B和U矩阵。分解单元218可将这些矩阵传递或输出到声场分量提取单元20。V矩阵19A的大小可为(N+1)2乘(N+1)2,S矩阵19B的大小可为(N+1)2乘(N+1)2,且U矩阵的大小可为M乘(N+1)2,其中M是指音频帧中的样本的数目。M的典型值为1024,但本发明的技术不应限于M的此典型值。
声场分量提取单元220可表示经配置以确定且接着提取声场的相异分量和声场的背景分量,从而有效地将声场的相异分量与声场的背景分量分离的单元。在给定声场的相异分量通常需要高阶(相对于声场的背景分量)基底函数(且因此需要较多SHC)来准确地表示这些分量的相异性质的情况下,将相异分量与背景分量分离可使得能够将较多位分配给相异分量,且将较少位(相对来说)分配给背景分量。因此,通过应用此变换(以SVD的形式或任何其它变换形式,包含PCA),本发明中所描述的技术可促进将位分配给各种SHC,且进而压缩SHC121'。
此外,在给定通常不需要高阶基底函数来表示声场的背景部分的情况下,给定这些分量的扩散或背景本质,所述技术也可实现声场的背景分量的阶还原。因此,所述技术可实现声场的扩散或背景方面的压缩,同时通过将SVD应用于SHC121'而保留声场的突出的相异分量或方面。
声场分量提取单元220可相对于S矩阵执行显著性分析。声场分量提取单元220可分析S矩阵的对角线值,从而选择这些分量中具有最大值的变量D数目。换句话说,声场分量提取单元220可确定值D,其通过分析借助于递减S的对角线值而创建的曲线的斜率来使两个子空间分离,其中大奇异值表示前景或相异声音,且低奇异值表示声场的背景分量。在一些实例中,声场分量提取单元220可使用奇异值曲线的一阶和二阶导数。声场分量提取单元220还可将数目D限制在一与五之间。作为另一实例,声场分量提取单元220可将数目D限制于一与(N+1)2之间。或者,声场分量提取单元220可预定义数目D,例如预定义为值四。在任何情况下,一旦估计出数目D,声场分量提取单元220就从矩阵U、V和S提取前景和背景子空间。
在一些实例中,声场分量提取单元220可每M个样本(其可重新表述为在逐帧基础上)执行此分析。在这方面中,D可在帧间不同。在其它实例中,声场分量提取单元220可每帧执行此分析一次以上,从而分析所述帧的两个或两个以上部分。因此,所述技术在这方面不应限于本发明中描述的实例。
实际上,声场分量提取单元220可分析对角线S矩阵的奇异值,识别具有大于对角线S矩阵的其它值的相对值的那些值。声场分量提取单元220可识别D值,提取这些值以产生相异分量或“前景”矩阵,以及扩散分量或“背景”矩阵。前景矩阵可表示包括具有原始S矩阵的(N+1)2的D列的对角线矩阵。在一些情况下,背景矩阵可表示具有(N+1)2个D列的矩阵,所述D列中的每一者包含原始S矩阵的(N+1)2个经变换球面谐波系数。尽管描述为表示包括原始S矩阵的D列(具有(N+1)2个值)的矩阵,但声场分量提取单元220可截断此矩阵以产生具有原始S矩阵的D列(具有D个值)的前景矩阵,假定S矩阵为对角线矩阵,且在每一列中的第D个值之后的D列的(N+1)2值常常为值零。虽然相对于全前景矩阵和全背景矩阵来描述,但所述技术可相对于相异矩阵的截短版本和背景矩阵的截短版本来实施。因此,就此而言,本发明的技术不应受到限制。
换句话说,前景矩阵可具有大小D乘(N+1)2,而背景矩阵可具有大小(N+1)2-D乘(N+1)2。前景矩阵可包含在作为声场的相异(DIST)音频分量方面被确定为突出的那些主分量或(换句话说)奇异值,而背景矩阵可包含被确定为声场的背景(BG)或(换句话说)环境、扩散或非相异音频分量的那些奇异值。
声场分量提取单元220还可分析U矩阵,以产生U矩阵的相异和背景矩阵。通常,声场分量提取单元220可分析S矩阵以识别变量D,从而基于变量D产生U矩阵的相异和背景矩阵。
声场分量提取单元220还可分析VT矩阵23,以产生VT的相异和背景矩阵。通常,声场分量提取单元220可分析S矩阵以识别变量D,从而基于变量D产生VT的相异和背景矩阵。
基于向量的分解单元202可组合和输出通过将SHC121'压缩为相异和前景矩阵的矩阵乘法(乘积)而获得的各种矩阵,这可产生包含SHC202的声场的经重构部分。同时,声场分量提取单元220可输出基于向量的分解的定向分量203,其可包含VT的相异分量。音频编码单元128可表示执行一种形式的编码以将SHC202进一步压缩到SHC204的单元。在一些例子中,此音频编码单元128可表示高级音频译码(AAC)编码单元或统一话音和音频译码(USAC)单元的一或多个例子。关于可如何使用AAC编码单元对球面谐波系数进行编码的更多信息可见于艾瑞克·赫勒吕等人的标题为“用AAC来编码高阶立体混响(EncodingHigherOrderAmbisonicswithAAC)”的大会论文中,其在第124次大会(2008年5月17日至20日)上提交,且可在下处获得:http://ro.uow.edu.au/cgi/viewcontent.cgi?article=8025&context=engpapers。
根据本文所述的技术,位流产生单元130可调整或变换声场,以减少提供与描述声场相关的信息的SHC204的数目。术语“调整”可指表示线性可逆变换的任何矩阵的应用。在这些例子中,位流产生单元130可在位流中指定描述如何调整声场的调整信息(其也可被称作“变换信息”)。明确地说,位流产生单元130可产生位流131',以包含定向分量203。虽然描述为除识别SHC204中随后在位流131'中指定的那些SHC的信息之外还指定此信息,但所述技术的此方面可作为指定识别SHC204中包含于位流131'中的那些SHC的信息的替代方案而执行。所述技术因此不应在此方面受限,而是可提供产生由描述声场的多个层级元素组成的位流的方法,其中所述方法包括:调整声场以减少提供与描述声场相关的信息的所述多个层级元素的数目;以及在位流中指定描述如何调整声场的调整信息。
在一些情况下,位流产生单元130可使声场旋转,以减少提供在描述声场中相关的信息的SHC204的数目。在这些情况下,位流产生单元130可首先从定向分量203获得声场的旋转信息。旋转信息可包括方位角值(能够信令360度)和仰角值(能够信令180度)。在一些实例中,位流产生单元130可根据准则选择定向分量203中表示的多个定向分量(例如相异音频对象)中的一者。所述准则可为指示最大声音幅度的最大向量量值;在一些实例中,位流产生单元130可从U矩阵、S矩阵、其组合,或其相异分量获得此量值。所述准则可为定向分量的组合或平均。
位流产生单元130可使用旋转信息来使SHC204的声场旋转,以减少提供在描述声场中相关的信息的SHC204的数目。位流产生单元130可将此减少数目的SHC编码到位流131'。
位流产生单元130可在位流131'中指定描述如何旋转声场的旋转信息。在一些情况下,位流产生单元130通过编码定向分量203来指定旋转信息,对应渲染器可用其来独立地获得声场的旋转信息,且使旋转的声场“去旋转”,在编码到位流131'的减少的SHC中表示,以从位流131'提取和重构声场作为SHC204。旋转所述渲染器以旋转渲染且以此方式“去旋转”声场的此过程在下文相对于图6A到6B的渲染器旋转单元150更详细地描述。
在一些情况下,位流产生单元130直接编码旋转信息,而不是经由定向分量203间接地编码旋转信息。在此类情况下,方位角值包括一或多个位,且通常包含10个位。在一些情况下,仰角值包括一或多个位,且通常包含至少9个位。在最简单实施例中,位的此选择允许180/512度(在仰角和方位角两者中)的分辨率。在一些情况下,调整可包括旋转,且上文所述的调整信息包含旋转信息。在一些情况下,位流产生单元131'可平移声场,以减少提供在描述声场中相关的信息的SHC204的数目。在这些情况下,位流产生单元130可在位流131'中指定描述如何平移声场的平移信息。在一些情况下,调整可包括平移,且上述调整信息包含平移信息。
图6A和6B各自是说明可执行本发明中描述的双耳音频渲染技术的各个方面的音频重放装置的实例的框图。虽然说明为单个装置,即图6A的实例中的音频重放装置140A和图6B的实例中的音频重放装置140B,所述技术可由一或多个裝置执行。因此,所述技术在此方面不应受限。
如图6A的实例中示出,音频重放装置140A可包含提取单元142、音频解码单元144和双耳渲染单元146。提取单元142可表示经配置以从位流131提取经编码音频数据129和变换信息127的单元。提取单元142可将所提取的经编码音频数据129转发到音频解码单元144,同时将变换信息127传递到双耳渲染单元146。
音频解码单元144可表示经配置以解码经编码音频数据129以便产生SHC125'的单元。音频解码单元144可执行与用以编码SHC125'的音频编码过程互反的音频解码过程。如图6A的实例中示出,音频解码单元144可包含时频分析单元148,其可表示经配置以将SHC125从时域变换到频域,从而产生SHC125'的单元。也就是说,当经编码音频数据129表示未从时域转换到频域的SHC125的经压缩形式时,音频解码单元144可调用时频分析单元148来将SHC125从时域转换到频域,以便产生SHC125'(在频域中指定)。在一些情况下,SHC125可能已经在频域中指定。在这些情况下时频分析单元148可将SHC125'传递到双耳渲染单元146,而不应用变换或以其它方式变换接收到的SHC121。虽然相对于频域中指定的SHC125'来描述,但可相对于时域中指定的SHC125来执行所述技术。
双耳渲染单元146表示经配置以使SHC125'双耳化的单元。换句话说,双耳化渲染单元146可表示经配置以将SHC125'渲染到左声道和右声道的单元,其可表征空间化,以对左声道和右声道将如何被记录SHC125'的房间中的收听者听到进行建模。双耳渲染单元146可渲染SHC125',以产生左声道163A和右声道163B(其可共同地被称作“信道163”),其适合于经由头戴装置(例如头戴式耳机)重放。如图6A的实例中示出,双耳渲染单元146包含渲染器旋转单元150、能量保存单元152、复合双耳房间脉冲响应(BRIR)单元154、时频分析单元156、复合相乘单元158、求和单元160和逆时频分析单元162。
渲染器旋转单元150可表示经配置以输出具有经旋转参考系的渲染器151的单元。渲染器旋转单元150可旋转或以其它方式基于变换信息127来变换具有标准参考系(常常,指定用于从SHC125'渲染22个声道的参考系)的渲染器。换句话说,渲染器旋转单元150可有效地重新定位扬声器,而不是使SHC125'所表达的声场旋转回来,以使扬声器的坐标系与麦克风的坐标系对准。渲染器旋转单元150可输出可由大小为L行x(N+1)2-U列的矩阵定义的经旋转渲染器151,其中变量L表示扩音器(真实或虚拟)的数目,变量N表示SHC125'中的一者所对应于的基底函数的最高阶,且变量U表示当在编码过程期间产生SHC125'时去除的SHC121'的数目。通常,从上述的SHC存在场50导出此数目U,SHC存在场50在本文中还可称作“位包含地图”。
渲染器旋转单元150可使渲染器旋转,以减少渲染SHC125'时的计算复杂性。为进行说明,考虑如果渲染器不旋转,那么双耳渲染单元146将旋转SHC125',以产生SHC125,其与SHC125'相比可包含较多SHC。通过在相对于SHC125操作时增加SHC的数目,与相对于减少的SHC集合(即,图6B的实例中的SHC125')的操作相比,双耳渲染单元146可执行较多数学运算。因此,通过旋转参考系且输出旋转渲染器151,渲染器旋转单元150可降低对SHC125'进行双耳渲染(在数学上)的复杂性,这可导致SHC125'的较高效渲染(在处理循环、存储消耗量等方面)。
在一些情况下,渲染器旋转单元150还可经由显示器呈现图形用户接口(GUI)或其它接口,以向用户提供控制如何旋转渲染器的方式。在一些情况下,用户可与此GUI或其它接***互,以通过指定θ控制来输入此用户控制的旋转。渲染器旋转单元150可接着通过此θ控制来调整变换信息,以按照用户特定反馈来定制渲染。以此方式,渲染器旋转单元150可促进双耳化过程的用户特定控制,以促进和/或改进(主观地)SHC125'的双耳化。
能量保存单元152表示经配置以执行能量保存过程,以潜在地在归因于临限值或其它相似操作类型的应用而丢失某一量的SHC时重新引入某一能量。关于能量保存的更多信息可在F·佐特(F.Zotter)等人的在欧洲声学学报(ACTAACUSTICAUNITEDwithACUSTICA),第98卷,2012年,第37到47页上发表的标题为“(Energy-PreservingAmbisonicDecoding)”的论文中找到。通常,能量保存单元152增加能量,以试图恢复音频数据的容量,或将其维持成原先记录的那样。能量保存单元152可对经旋转渲染器151的矩阵系数进行操作,以产生能量保存的经旋转渲染器,其表示为渲染器151'。能量保存单元152可输出渲染器151',其可由大小为L行x(N+1)2-U列的矩阵定义。
复合双耳房间脉冲响应(BRIR)单元154表示经配置以相对于渲染器151'和一或多个BRIR矩阵执行逐元素复合相乘和求和以产生两个BRIR渲染向量155A和155B的单元。数学上,这可根据以下等式(1)到(5)来表达:
D′=DRxy,xz,yz(1)
其中D'表示基于相对于x轴和y轴(xy)、x轴和z轴(xz)以及y轴和z轴(yz)指定的一个或所有角度,使用旋转矩阵R的渲染器D的经旋转渲染器。
在以上等式(2)和(3)中,和D'中的“spk”下标指示BRIR和D'两者具有相同的角位。换句话说,BRIR表示针对其设计D的虚拟扩音器。BRIR'和D'的‘H’下标表示SH元素位置,且经过SH元素位置。BRIR'表示从空间域变换到HOA域的BRIR(作为球面谐波逆(SH-1)类型的表示)。可针对具有SH维度的渲染器矩阵D中的所有(N+1)2个位置H,执行以上等式(2)和(3)。BRIR可为在时域或频域中表达,其中其保持相乘。下标“左”和“右”是指左声道或左耳的BRIR/BRIR',以及右声道或右耳的BRIR/BRIR'。
在以上等式(4)和(5)中,BRIR”是指频域中的左/右信号。H再次循环通过SH系数(其也可被称作位置),其中顺序次序在高阶立体混响(HOA)和BRIR'中相同。通常,此过程是作为频域中的相乘或时域中的卷积执行。以此方式,BRIR矩阵可包含用于对左声道163A进行双耳渲染的左BRIR矩阵以及用于对右声道163B进行双耳渲染的右BRIR矩阵。复合BRIR单元154将向量155A和155B(“向量155”)输出到时频分析单元156。
时频分析单元156可类似于上述时频分析单元148,除了时频分析单元156可对向量155进行操作,以将向量155从时域变换到频域,从而产生频域中指定的两个双耳渲染矩阵157A和157B(“双耳渲染矩阵157”)。变换可包括1024点变换,其针对向量155中的每一者有效地产生(N+1)2-U行乘1024(或任何其它数目的点),其可表示为双耳渲染矩阵157。时频分析单元156可将这些矩阵157输出到复合相乘单元158。在其中在时域中执行所述技术的例子中,时频分析单元156可将向量155传递到复合相乘单元158。在其中先前单元150、152和154在频域中操作的例子中,时频分析单元156可将矩阵157(其在这些例子中由复合BRIR单元154产生)传递到复合相乘单元158。
复合相乘单元158可表示经配置以执行SHC125'与矩阵157中的每一者的逐元素复合相乘,以产生大小为(N+1)2-U行乘1024(或任何其它数目的变换点)列的两个矩阵159A和159B(“矩阵159”)。复合相乘单元158可将这些矩阵159输出到求和单元160。
求和单元160可表示经配置以对矩阵159中的每一者的全部(N+1)2-U个行进行求和的单元。为进行说明,求和单元160对沿矩阵159A的第一行的值进行求和,接着对第二行、第三行等的值进行求和,以产生具有单个行和1024(或其它变换点数目)个列的向量161A。同样地,求和单元160对沿矩阵159B的行中的每一者的值进行求和,以产生具有单个行和1024(或某一其它变换点数目)个列的向量161B。求和单元160将这些向量161A和161B(“向量161”)输出到逆时频分析单元162。
逆时频分析单元162可表示经配置以执行转换数据从频域到时域的逆变换的单元。逆时频分析单元162可接收向量161,并通过将与用以将向量161(或其派生物)从时域变换到频域的变换逆向的变换,将向量161中的每一者从频域变换到时域。逆时频分析单元162可将向量161从频域变换到时域,以便产生经双耳化的左和右信道163。
在操作中,双耳渲染单元146可确定变换信息。变换信息可描述如何变换声场,以减少提供在描述声场中相关的信息的多个层级元素((即,图6A到6B的实例中的SHC125')的数目。双耳渲染单元146可接着基于所确定的变换信息127,相对于减少的多个层级元素来执行双耳音频渲染,如上文所描述。
在一些情况下,当执行双耳音频渲染时,双耳渲染单元146可基于所确定的变换信息127,来变换借此将SHC125'渲染到多个信道163的参考系。
在一些情况下,变换信息127包括旋转信息,其指定借此旋转声场的至少一仰角和一方位角。在这些情况下,当执行双耳音频渲染时,双耳渲染单元146可基于所确定的旋转信息来旋转渲染函数借此渲染SHC125'的参考系。
在一些情况下,当执行双耳音频渲染时,双耳渲染单元146可基于所确定的变换信息127来变换渲染函数借此渲染SHC125'的参考系,并相对于经变换渲染函数来应用能量保存函数。
在一些情况下,当执行双耳音频渲染时,双耳渲染单元146可基于所确定的变换信息127来变换渲染函数借此渲染SHC125'的参考系,并使用乘法运算来组合经变换渲染函数与复合双耳房间脉冲响应函数。
在一些情况下,当执行双耳音频渲染时,双耳渲染单元146可基于所确定的变换信息127来变换渲染函数借此渲染SHC125'的参考系,并使用乘法运算来组合经变换渲染函数与复合双耳房间脉冲响应,而不需要卷积运算。
在一些情况下,当执行双耳音频渲染时,双耳渲染单元146可基于所确定的变换信息127来变换渲染函数借此渲染SHC125'的参考系,组合经变换的渲染函数与复合双耳房间脉冲响应函数以产生经旋转双耳音频渲染函数,并将经旋转双耳音频渲染函数应用于SHC125'以产生左和右声道163。
在一些情况下,除调用双耳渲染单元146来执行上述双耳化之外,音频重放装置140A可检索包含经编码音频数据129和变换信息127的位流131,剖析来自位流的经编码音频数据129,并调用音频解码单元144来解码经剖析的经编码音频数据129,以产生SHC125'。在这些情况下,音频重放装置140A可调用提取单元142,以通过剖析来自位流131的变换信息127来确定变换信息127。
在一些情况下,除调用双耳渲染单元146来执行上述双耳化之外,音频重放装置140A可检索包含经编码音频数据129和变换信息127的位流131,剖析来自位流131的经编码音频数据129,并调用音频解码单元144来根据高级音频译码(AAC)方案来解码经剖析的经编码音频数据129,以产生SHC125'。在这些情况下,音频重放装置140A可调用提取单元142,以通过剖析来自位流131的变换信息127来确定变换信息127。
图6B是说明可执行本发明中所描述的技术的各种方面的音频重放装置140B的另一实例的框图。音频重放装置140可大体类似于音频重放装置140A,因为音频重放装置140B包含与包含在音频重放装置140A内的那些单元相同的提取单元142和音频解码单元144。此外,音频重放装置140B包含双耳渲染单元146',其大体类似于音频重放装置140A的双耳渲染单元146,只是除上文相对于双耳渲染单元146更详细描述的渲染器旋转单元150、能量保存单元152、复合BRIR单元154、时频分析单元156、复合相乘单元158、求和单元160和逆时频分析单元162之外,双耳渲染单元146'进一步包含头部追踪补偿单元164(“头部追踪comp单元164”)。
头部追踪补偿单元164可表示经配置以接收头部追踪信息165和变换信息127,基于头部追踪信息165来处理变换信息127并输出经更新的变换信息127的单元。头部追踪信息165可指定相对于感知或配置为重放参考系的参考系的方位角和仰角(或换句话说,一或多个球面坐标)。
也就是说,用户可面向显示器,例如电视机坐着,头戴式耳机可使用任何数目的定位识别机制(包含声波定位机制、无线三角测量机制等)来定位所述显示器。用户的头部可相对于此参考系旋转,头戴式耳机可检测参考系,并将其作为头部追踪信息165提供到头部追踪补偿单元164。头部追踪补偿单元164可接着基于头部追踪信息165来调整变换信息127,以考虑用户或收听着头部的移动,从而产生经更新的变换信息167。渲染器旋转单元150和能量保存单元152两者可接着相对于此经更新的变换单元信息167来操作。
以此方式,头部追踪补偿单元164可例如通过确定头部追踪信息165,来确定收听者头部相对于由SHC125'表示的声场的位置。头部追踪补偿单元164可基于所确定的变换信息127和所确定的收听者的头部的位置(例如头部追踪信息165)来确定经更新的变换信息167。当执行双耳音频渲染时,双耳渲染单元146'的其余单元以类似于上问相对于音频重放装置140A所述的方式,基于经更新的变换信息167,相对于SHC125'来执行双耳音频渲染。
图7是说明由根据本发明中描述的技术的各个方面的音频编码装置执行的实例操作模式的流程图。为了将通常经由L个扩音器再现的空间声场转换为双耳头戴式耳机表示,可在每音频帧基础上需要Lx2卷积。因此,在流式传输情境下,此常规双耳化方法可能被视为计算上昂贵的,藉此必须不间断实时地处理和输出音频帧。取决于所使用的硬件,此常规双耳化过程可需要比可用的计算成本多的计算成本。可通过执行频域相乘而不是时域卷积,以及通过使用逐块卷积来改进此常规双耳化过程,以便减少计算复杂性。一般来说,归因于与HOA系数(N+1)2相比需要较多扩音器,将此双耳化模型应用于HOA可进一步增加复杂性,以潜在正确地再现所要的声场。
相比之下,在图7的实例中,音频编码装置可应用实例操作模式300来旋转声场,以减少SHC的数目。相对于图5A的音频编码装置120来描述操作模式300。音频编码装置120获得球面谐波系数(302),并分析SHC以获得SHC的变换信息(304)。音频编码装置120根据变换信息来旋转由SHC表示的声场(306)。音频编码装置120产生表示经旋转声场的减少的球面谐波系数(“减少的SHC”)(308)。音频编码装置120可另外将减少的SHC以及变换信息编码到位流(310),并输出或存储所述位流(312)。
图8是说明根据本发明中描述的技术的各个方面的由音频重放装置(或“音频解码装置”)执行的实例操作模式的流程图。所述技术两者均可提供可最佳旋转的HOA信号,以便增加低于临限值的SHC的数目,且从而导致SHC的增加的去除。当去除时,可重放所得SHC,使得SHC的去除是无法感知的(假定这些SHC在描述声场中不显著)。将此变换信息(θ和或(θ,φ))发射到解码引擎,且接着发射到双耳再现方法(其在上文更详细描述)。本发明的技术可首先使来自从编码引擎的空间分析块发射的变换(或在此实例中旋转)信息的所要HOA渲染器旋转,使得坐标系已相等地旋转。接着,还将丢弃的HOA系数从渲染矩阵丢弃。任选地,可使用已发射的经旋转坐标处的声音源来保存经修改渲染器的能量。渲染矩阵可与左耳和右耳两者的既定扩音器位置的BRIR相乘,且接着跨L扩音器维度进行求和。此时,如果信号不在频域中,那么其可转换到频域中。在此之后,可执行复合相乘,以使HOA信号系数双耳化。通过在HOA系数维度上进行求和,可将渲染器施加到所述信号,且可获得双信道频域信号。最后壳将信号变换到时域中,以用于信号的试听。
在图8的实例中,音频重放装置可应用实例操作模式320。下文相对于图6A的音频重放装置140A来描述操作模式320。音频重放装置140A获得位流(322),并从所述位流提取减少的球面谐波系数(SHC)和变换信息(324)。音频重放装置140A根据变换信息来使渲染器进一步旋转(326),并将经旋转渲染器施加到减少的SHC,以产生立体声音频信号(328)。音频重放装置140A输出立体声音频信号(330)。
本发明中描述的技术的益处可为通过执行乘法而非卷积而节约的计算费用。可需要较低数目的乘法,首先因为HOA计数应小于扩音器的数目,且第二因为经由最佳旋转对HOA系数的还原。由于大多数音频编解码器是基于频域中,因此可假定可输出频域信号并非时域信号。并且,BRIR可在频域而非时域中保存,从而潜在地节约基于实时傅立叶的变换的计算。
图9是说明可执行本发明中所描述的技术的各种方面的音频编码装置570的另一实例的框图。在图9的实例中,假定阶还原单元包含在声场分量提取单元520内,但为了便于说明目的而未示出。然而,音频编码装置570可包含更一般变换单元572,所述变换单元在一些实例中可包括分解单元。
图10是更详细地说明图9的实例中所示的音频编码装置570的实例实施方案的框图。如图10的实例中所说明,音频编码装置570的变换单元572包含旋转单元654。音频编码装置570的声场分量提取单元520包含空间分析单元650、内容特性分析单元652、提取相干分量单元656以及提取扩散分量单元658。音频编码装置570的音频编码单元514包含AAC译码引擎660和AAC译码引擎162。音频编码装置570的位流产生单元516包含多路复用器(MUX)164。
表示呈SHC的形式的3D音频数据所需要的根据位/秒的带宽可使其在消费者使用方面是过高的。举例来说,当使用48kHz的取样速率时,且在32位/相同分辨率的情况下,四阶SHC表示是表示36兆位/秒(25×48000×32bps)的带宽。当与用于立体声信号的当前技术水平音频译码(其通常约为100千位/秒)相比较时,此为较大的数字。图10的实例中所实施的技术可减少3D音频表示的带宽。
空间分析单元650、内容特性分析单元652和旋转单元654可接收SHC511A。如本发明中其它地方所描述,SHC511A可表示声场。SHC511A可表示SHC27或HOA系数11的实例。在图10的实例中,空间分析单元650、内容特性分析单元652和旋转单元654可接收用于声场的四阶(n=4)表示的二十五个SHC。
空间分析单元650可分析由SHC511A表示的声场,以识别声场的相异分量和声场的扩散分量。声场的相异分量是经感知为来自可识别方向或以其它方式不同于声场的背景或扩散分量的声音。举例来说,由个别乐器产生的声音可感知为来自可识别的方向。相比之下,声场的扩散或背景分量未被感知为来自可识别的方向。举例来说,风穿过森林的声音可为声场的扩散分量。
空间分析单元650可识别试图识别最佳角度的一或多个相异分量,以所述最佳角度旋转声场以使具有大部分能量的相异分量的那些分量与垂直及/或水平轴(相对于记录此声场的假定麦克风)对准。空间分析单元650可识别此最佳角度以使得声场可旋转,使得这些相异分量与图1及2的实例中所示的基础球面基底函数较好地对准。
在一些实例中,空间分析单元650可表示经配置以执行某一形式的扩散分析以识别包含扩散声音的由SHC511A表示的声场的百分比(扩散声音可指代具有低层级方向或低阶SHC的声音,意味着具有小于或等于一的阶数的那些SHC511A)。作为一个实例,空间分析单元650可以类似于威利·帕吉(VillePulkki)的标题为“具有定向音频译码的空间声音再现(SpatialSoundReproductionwithDirectionalAudioCoding)”的论文(公布于听觉工程学协会会刊第55卷第6期,日期为2007年6月)中所描述的方式的方式执行扩散分析。在一些情况下,空间分析单元650在执行扩散分析以确定扩散百分比时可仅分析HOA系数的非零子集,例如SHC511A的零阶和一阶SHC。
内容特性分析单元652可至少部分基于SHC511A来确定所述SHC511A是经由声场的自然记录产生还是从(作为一个实例)例如PCM对象的音频对象人工地(即,合成地)产生。此外,内容特性分析单元652可接着至少部分地基于SHC511A是经由声场的实际记录还是从人工音频对象产生,来确定包含在位流517中的声道的总数。举例来说,内容特性分析单元652可至少部分地基于SHC511A是从实际声场的记录还是从人工音频对象产生,来确定位流517将包含十六个声道。所述通道中的每一者可为单声道。内容特性分析单元652可基于位流517的输出位速率(例如,1.2Mbps)进一步执行包含在位流517中的声道的总数的确定。
另外,内容特性分析单元652可至少部分基于SHC511A是由实际声场的记录产生还是由人工音频对象产生来确定有多少声道分配给声场的相干或(换句话说)相异分量,以及有多少声道分配给声场的扩散或(换句话说)背景分量。举例来说,当SHC511A是由使用(作为一个实例)本征麦克风(Eigenmic)记录实际音场产生的时,内容特性分析单元652可将所述声道中的三个声道分配给声场的相干分量,且可将其余通道分配给声场的扩散分量。在此实例中,当SHC511A是从人工音频对象产生时,内容特性分析单元652可将所述声道中的五个声道分配给声场的相干分量,且可将其余声道分配给声场的扩散分量。以此方式,内容分析块(即,内容特性分析单元652)可确定声场的类型(例如扩散/定向等),且又确定要提取的相干/扩散分量的数目。
目标位速率可影响个别AAC译码引擎(例如,AAC译码引擎660,662)的组件的数目和位速率。换句话说,内容特性分析单元652可进一步执行基于位流517的输出位速率(例如1.2Mbps)确定多少声道分配给相干分量以及多少声道分配给扩散分量。
在一些实例中,分配给声场的相干分量的声道的位速率可大于分配给声场的扩散分量的声道的位速率。举例来说,位流517的最大位速率可为1.2Mb/sec。在此实例中,可存在分配给相干分量的四个声道和分配给扩散分量的16个声道。此外,在此实例中,分配给相干分量的声道中的每一者可具有64kb/sec的最大位速率。在此实例中,分配给扩散分量的声道中的每一者可具有48kb/sec的最大位速率。
如上文所指示,内容特性分析单元652可确定SHC511A是从实际声场的记录还是从人工音频对象产生。内容特性分析单元652可以各种方式进行此确定。举例来说,音频编码装置570可使用第4阶SHC。在此实例中,内容特性分析单元652可译码24个声道,且预测第25个声道(其可表示为向量)。内容特性分析单元652可将标量应用于所述24个声道中的至少一些,且将所得值相加以确定第25个向量。此外,在此实例中,内容特性分析单元652可确定所预测的第25个声道的准确性。在此实例中,如果所预测的第25个声道的准确性相对较高(例如准确性超过特定临限值),那么SHC511A很可能将从合成音频对象产生。相比之下,如果所预测的第25个通道的准确性相对较低(例如,准确性低于特定临限值),那么SHC511A更可能表示所记录的声场。举例来说,在此实例中,如果第25个声道的信噪比(SNR)超过100分贝(db),那么SHC511A更可能表示从合成音频对象产生的声场。相比之下,使用本征麦克风记录的声场的SNR可为5db到20db。因而,在由从实际直接记录产生与从合成音频对象产生的SHC511表示的声场之间的SNR比率中可存在明显分界。
此外,内容特性分析单元652可至少部分基于SHC511A是从实际声场的记录还是从人工音频对象产生而选择用于量化V向量的码簿。换句话说,取决于由HOA系数表示的声场是记录的还是合成的,内容特性分析单元652可选择不同码簿来用于量化V向量。
在一些实例中,内容特性分析单元652可在再发基础上确定SHC511A是从实际声场的记录还是从人工音频对象产生。在一些此些实例中,再发基础可为每个帧。在其它实例中,内容特性分析单元652可执行此确定一次。此外,内容特性分析单元652可在再发基础上确定相干分量声道和扩散分量声道的声道总数和分配。在一些此些实例中,再发基础可为每个帧。在其它实例中,内容特性分析单元652可执行此确定一次。在一些实例中,内容特性分析单元652可在再发基础上选择供用于量化V向量的码簿。在一些此些实例中,再发基础可为每个帧。在其它实例中,内容特性分析单元652可执行此确定一次。
旋转单元654可执行HOA系数的旋转操作。如在本发明中在别处所论述(例如,相对于图图11A和11B),执行旋转操作可减少表示SHC511A所需的位数目。在一些实例中,由旋转单元652执行的旋转分析是奇异值分解(“SVD”)分析的实例。主分量分析(“PCA”)、独立分量分析(“ICA”)和卡忽南-拉维变换(Karhunen-LoeveTransform,“KLT”)是可能适用的相关技术。
在图10的实例中,提取相干分量单元656从旋转单元654接收经旋转的SHC511A。此外,提取相干分量单元656从经旋转的SHC511A提取经旋转SHC511A中与声场的相干分量相关联的那些经旋转SHC。
另外,提取相干分量单元656产生一或多个相干分量声道。所述相干分量通道中的每一者可包含与声场的相干系数相关联的经旋转SHC511A的不同子集。在图10的实例中,提取相干分量单元656可产生一个到16个相干分量声道。由提取相干分量单元656产生的相干分量声道的数目可通过由内容特性分析单元652分配给声场的相干分量的声道数目来确定。由提取相干分量单元656产生的相干分量声道的位速率可由内容特性分析单元652确定。
类似地,在图10的实例中,提取扩散分量单元658从旋转单元654接收经旋转的SHC511A。此外,提取扩散分量单元658从经旋转的SHC511A提取经旋转的SHC511A中与声场的扩散分量相关联的那些经旋转SHC。
另外,提取扩散分量单元658产生一或多个扩散分量声道。扩散分量声道中的每一者可包含与声场的扩散系数相关联的经旋转SHC511A的不同子集。在图10的实例中,提取扩散分量单元658可产生一个到9个扩散分量声道。由提取扩散分量单元658产生的扩散分量声道的数目可由通过内容特性分析单元652分配给声场的扩散分量的声道数目来确定。由提取扩散分量单元658产生的扩散分量声道的位速率可由内容特性分析单元652确定。
在图10的实例中,AAC译码单元660可使用AAC编解码器来编码由提取相干分量单元656产生的的相干分量声道。类似地,AAC译码单元662可使用AAC编解码器来编码由提取扩散分量单元658产生的扩散分量声道。多路复用器664(“MUX664”)可对经编码相干分量声道和经编码扩散分量声道连同旁侧数据(例如,由空间分析单元650确定的最佳角度)进行多路复用以产生位流517。
以此方式,所述技术可使音频编码装置570能够确定表示声场的球面谐波系数是否是从合成音频对象产生。
在一些实例中,音频编码装置570可基于球面谐波系数是否是从合成音频对象产生而确定表示声场的相异分量的球面谐波系数的子集。在这些和其它实例中,音频编码装置570可产生位流以包含球面谐波系数的所述子集。在一些情况下,音频编码装置570可对球面谐波系数的所述子集进行音频编码,且产生位流以包含球面谐波系数的经音频编码子集。
在一些实例中,音频编码装置570可基于球面谐波系数是否是从合成音频对象产生而确定表示声场的背景分量的球面谐波系数的子集。在这些和其它实例中,音频编码装置570可产生位流以包含球面谐波系数的所述子集。在这些和其它实例中,音频编码装置570可对球面谐波系数的所述子集进行音频编码,且产生位流以包含球面谐波系数的经音频编码子集。
在一些实例中,音频编码装置570可相对于球面谐波系数执行空间分析以识别借此旋转由球面谐波系数表示的声场的角度,且执行旋转操作以将声场旋转所识别角度以产生经旋转球面谐波系数。
在一些实例中,音频编码装置570可基于球面谐波系数是否是从合成音频对象产生而确定表示声场的相异分量的球面谐波系数的第一子集,且基于球面谐波系数是否是从合成音频对象产生而确定表示声场的背景分量的球面谐波系数的第二子集。在这些和其它实例中,音频编码装置570可按比用以对球面谐波系数的第二主体进行音频编码的目标位速率高的目标位速率对球面谐波系数的第一子集进行音频编码。
图11A和11B是说明执行本发明中所描述的技术的各种方面以旋转声场640的实例的图。图11A是根据本发明中所描述的技术的各个方面的说明在旋转前的声场640的图。在图11A的实例中,声场640包含两个高压力位置(表示为定位642A和642B)。这些定位642A和642B(“定位642”)沿具有非零斜率(其为参考非水平的线的另一方式,因为水平线具有斜率零)的线644而存在。假定定位642除x及y坐标之外还具有z坐标,可能需要较高阶球面基底函数来正确地表示此声场640(因为这些较高阶球面基底函数描述声场的上部和下部或非水平部分)。音频编码装置570可旋转声场640直到连接定位642的线644水平为止,而非直接将声场640缩减到SHC511A。
图11B为说明声场640在被旋转直到连接定位642的线644水平之后的图。通过以此方式旋转声场640,可导出SHC511A,使得在假定经旋转的声场640不再具有带z坐标的任何压力(或能量)定位的情况下,将SHC511A中的高阶SHC指定为零。以此方式,音频编码装置570可旋转、平移或更一般地说,调整声场640以减少具有非零值的SHC511A的数目。结合所述技术的各种其它方面,音频编码装置570可接着在位流517的字段中用信号表示未用信号表示SHC511A的这些较高阶SHC,而非用信号表示识别SHC511A的这些高阶SHC具有零值的32位带正负号数。音频编码装置570还可常通过以上文所描述的方式来表达方位角和仰角而在位流517中指定指示如何旋转声场640的旋转信息。例如音频编码装置等提取装置可接着暗示SHC511A的这些未用信号表示的SHC具有零值,且当基于SHC511A再现声场640时,执行旋转以旋转声场640,以使得声场640类似于图11A的实例中所示的声场640。以此方式,音频编码装置570可根据本发明中所描述的技术来减少需要在位流517中指定的SHC511A的数目。
可使用‘空间压缩’算法来确定声场的最佳旋转。在一个实施例中,音频编码装置570可执行所述算法迭代通过所有可能的方位角和仰角组合(即,在以上实例中为1024×512个组合),从而针对每一组合来旋转声场,且计算高于临限值的SHC511A的数目。可将产生最小数目的高于临限值的SHC511A的方位角/仰角候选者组合视为可称作“最佳旋转”的组合。在此经旋转形式中,声场可能需要最小数目的SHC511A来表示声场且可因而被视为压缩的。在一些情况下,调整可包括此最佳旋转,且上文所描述的调整信息可包含此旋转(其可称为“最佳旋转”)信息(就方位角和仰角来说)。
在一些情况下,音频编码装置570可以(作为一个实例)欧拉(Euler)角的形式来指定额外角,而非仅指定方位角和仰角。欧拉角指定围绕z轴、以前的x轴及以前的z轴的旋转角度。虽然在本发明中相对于方位角和仰角的组合加以描述,但本发明的技术不应受限于仅指定方位角和仰角,而是可包含指定任何数目的角度(包括上文提到的三个欧拉角)。在此意义上,音频编码装置570可旋转声场以减少提供与描述声场相关的信息的多个阶层元素的数目且在位流中将欧拉角指定为旋转信息。如上文所提及,欧拉角可描述如何旋转声场。当使用欧拉角时,位流提取装置可剖析位流以确定包含欧拉角的旋转信息,且当基于提供多个阶层元素中与描述声场相关的信息的那些阶层元素来再现声场时,基于欧拉角来旋转声场。
此外,在一些情况下,音频编码装置570可指定与指定旋转的一或多个角度的预定义组合相关联的索引(其可称作“旋转索引”),而非在位流517中明确指定这些角度。换句话说,在一些情况下,旋转信息可包含旋转索引。在这些情况下,旋转索引的给定值(例如,零值)可指示未执行旋转。可关于旋转表来使用此旋转索引。也就是说,音频编码装置570可包含旋转表,所述旋转表包括针对方位角和仰角的组合中的每一者的条目。
或者,旋转表可包含针对表示方位角和仰角的每一组合的每一矩阵变换的条目。也就是说,音频编码装置570可存储旋转表,所述旋转表具有针对用于将声场旋转方位角和仰角的组合中中的每一者的每一矩阵变换的条目。通常,音频编码装置570接收SHC511A,且当执行旋转时根据以下方程式来导出SHC511A':
在以上方程式中,将SHC511A'计算为以下三者的函数:用于依据第二参考系来编码声场的编码矩阵(EncMat2);用于将SHC511A恢复回到依据第一参考系的声场的逆矩阵(InvMat1);和SHC511A。EncMat2的大小是25x32,而InvMat2的大小是32x25。SHC511A'和SHC511A两者的大小是25,其中归因于并不指定显著音频信息的那些SHC的去除,可进一步减少SHC511A'。EncMat2可针对每一方位角和仰角组合而变化,而InvMat1可相对于每一方位角和仰角组合而保持静态。旋转表可包含存储将每一不同EncMat2与InvMat1相乘的结果的条目。
图12是说明根据第一参考系捕获的实例声场的图,所述第一参考系接着根据本发明中所描述的技术而旋转以依据第二参考系来表达声场。在图12的实例中,在假定第一参考系的情况下,捕获环绕本征麦克风646的声场,所述第一参考系在图12的实例中由X1、Y1和Z1轴表示。SHC511A依据此第一参考系来描述声场。在图12的实例中,InvMat1将SHC511A变换回到声场,从而使声场能够旋转到由X2、Y2和Z2轴表示的第二参考系。上述EncMat2可旋转声场,并产生依据第二参考系来描述此经旋转声场的SHC511A'。
在任何情况下,可如下导出以上方程式。假定用某一坐标系来记录声场,使得前方被视为x轴的方向,从此参考坐标系来定义本征麦克风(或其它麦克风配置)的32个麦克风位置。可接着将声场的旋转视为此参考系的旋转。对于所假定的参考系,可如下计算SHC511A:
在以上方程式中,表示在第i个麦克风(其中在此实例中,i可为1到32)的位置(Posi)处的球面基底函数。mici向量表示针对时间t的第i个麦克风的麦克风信号。位置(Posi)指代麦克风在第一参考系中的位置(即在此实例中,在旋转之前的参考系)。
可替代地依据上文所表示的数学表达式来将以上方程式表达为:
为了旋转声场(或在第二参考系中),将在第二参考系中计算位置(Posi)。只要原始麦克风信号存在,就可任意地旋转声场。然而,原始麦克风信号(mici(t))常不可获得。问题接着可为如何从SHC511A检索麦克风信号(mici(t))。如果使用T设计(如在32麦克风本征麦克风中),可通过解以下等式来实现对此问题的解决方案:
此InvMat1可指定根据麦克风的位置(如相对于第一参考系所指定)所计算的球面谐波基底函数。此等式还可表达为如上文所述。
一旦根据以上方程式检索麦克风信号(mici(t)),就可旋转描述声场的所述麦克风信号(mici(t))以计算对应于第二参考系的SHC511A',从而产生以下方程式:
EncMat2指定来自经旋转位置(Posi')的球面谐波基底函数。以此方式,EncMat2可有效地指定方位角和仰角的组合。因此,当旋转表存储针对方位角和仰角的每一组合的 的结果时,旋转表有效地指定方位角和仰角的每一组合。以上等式还可表达为:
其中θ2,表示第二方位角和第二仰角,其不同于θ1,所表示的第一方位角和仰角。θ1,对应于第一参考系,而θ2,对应于第二参考系。InvMat1可因此对应于而EncMat2可对应于
以上可表示不考虑滤波运算的计算的较简化版本,上文在表示通过jn(·)函数导出频域中的SHC511A的各个等式中表示,所述函数是指阶数n的球面贝塞尔函数。在时域中,此jn(·)函数表示特定阶数n特定的滤波运算。在进行滤波的情况下,可按阶数执行旋转。为进行说明,考虑以下方程式:
从这些方程式,分开地完成数个阶数的经旋转SHC511A',因为对于每一阶来说,bn(t)是不同的。因此,可如下更改以上方程式,以用于计算经旋转SHC511A'中的一阶经旋转SHC:
假定存在SHC511A的三个一阶SHC,SHC511A'和511A向量中的每一者的大小在以上等式中为三。同样地,对于第二阶,可应用以下等式:
再次,假定存在SHC511A中的五个二阶SHC,在以上等式中,SHC511A'和511A向量中的每一者的大小为五。对于其它阶(即,三阶和四阶)来说,其余等式可类似于上文所描述的等式,其关于矩阵的大小遵循相同模式(因为EncMat2的行数、InvMat1的列数以及三阶SHC511A和SHC511A'向量与四阶SHC511A和SHC511A'向量的大小等于三阶球面谐波基底函数和四阶球面谐波基底函数中的每一者的子阶的数目(m乘二加1)。
音频编码装置570可因此相对于方位角和仰角的每一组合来执行此旋转操作以尝试识别所谓的最佳旋转。在执行此旋转操作之后,音频编码装置570可计算高于临限值的SHC511A'的数目。在一些情况下,音频编码装置570可在一持续时间(例如,音频帧)内执行此旋转以导出表示声场的一系列SHC511A'。通过在此持续时间内执行此旋转以导出表示声场的一系列SHC511A',音频编码装置570可在小于一帧或其它长度的持续时间中减少必须执行的旋转操作的数目(与针对描述声场的SHC511A的每一集合完成此旋转操作相比)。在任何情况下,音频编码装置570可贯穿此过程节省SHC511A'中具有大于临限值的最小数目的SHC511A'的那些SHC。
然而,相对于方位角和仰角的每一组合来执行此旋转操作可为处理器集中的或耗时的。因此,音频编码装置570可不执行可被表征为旋转算法的此“蛮力”实施方案的过程。替代地,音频编码装置570可相对于提供大体良好压缩的方位角和仰角的可能已知(按统计方式)组合的子集来执行旋转,关于此子集中的组合周围的组合来执行进一步旋转,从而与子集中的其它组合相比提供较好的压缩。
作为另一替代方案,音频编码装置570可仅相对于组合的已知子集来执行此旋转。作为另一替代方案,音频编码装置570可遵循组合的轨迹(空间上),相对于组合的此轨迹来执行旋转。作为另一替代方案,音频编码装置570可指定压缩临限值,所述压缩临限值界定具有高于临限值的非零值的SHC511A'的最大数目。此压缩临限值可有效地设定搜索的停止点,使得当音频编码装置570执行旋转且确定具有高于所设定临限值的值的SHC511A'的数目小于或等于(或在一些情况下小于)压缩临限值时,音频编码装置570停止相对于其余组合来执行任何额外旋转操作。作为另一替代方案,音频编码装置570可遍历组合的阶层式布置树(或其它数据结构),从而相对于当前组合执行旋转操作,且遍历所述树到右侧或左侧(例如对于二进制树),取决于具有大于临限值的非零值的SHC511A'的数目。
在此意义上,这些替代方案中的每一者涉及执行第一和第二旋转操作,以及比较执行第一和第二旋转操作的结果,以识别第一和第二旋转操作中产生最小数目的具有大于临限值的非零值的SHC511A'的一者。因此,音频编码装置570可对声场执行第一旋转操作以根据第一方位角和第一仰角来旋转声场,且确定提供与描述声场相关的信息的所述多个阶层式元素的第一数目,所述多个阶层元素表示根据第一方位角和第一仰角而旋转的声场。音频编码装置570还可对声场执行第二旋转操作以根据第二方位角和第二仰角来旋转声场,且确定提供与描述声场相关的信息的多个阶层式元素的第二数目,所述多个阶层式元素表示根据第二方位角和第二仰角来旋转的声场。此外,音频编码装置570可基于所述多个阶层式元素的第一数目与所述多个阶层式元素的第二数目的比较来选择第一旋转操作或第二旋转操作。
在一些例子中,可相对于持续时间来执行旋转算法,其中对旋转算法的后续调用可基于对旋转算法的过去调用来执行旋转操作。换句话说,旋转算法可基于在旋转声场历时先前持续时间时所确定的过去旋转信息而为自适应的。举例来说,音频编码装置570可旋转声场历时第一持续时间(例如,音频帧),以识别针对此第一持续时间的SHC511A'。音频编码装置570可以上文所描述的方式中的任一者在位流517中指定旋转信息和SHC511A'。可将此旋转信息称作第一旋转信息,因为其描述声场在第一持续时间中的旋转。音频编码装置570可接着基于此第一旋转信息来旋转声场历时第二持续时间(例如,第二音频帧),以识别针对此第二持续时间的SHC511A'。当在第二持续时间内执行第二旋转操作时,音频编码装置570可利用此第一旋转信息来初始化对方位角和仰角的“最佳”组合的搜索(作为一个实例)。音频编码装置570可接着在位流517中指定SHC511A'和针对第二持续时间的对应旋转信息(其可称作“第二旋转信息”)。
虽然上文是相对于实施旋转算法以减少处理时间和/或消耗的若干不同方式加以描述,但所述技术可相对于可减少或以其它方式加速对可称作“最佳旋转”的旋转的识别的任何算法来执行。此外,可相对于识别非最佳旋转但可在其它方面改进性能(常依据速度或处理器或其它资源利用率来测量)的任何算法来执行所述技术。
图13A到13E各自为说明根据本发明中所描述的技术而形成的位流517A到517E的图。在图13A的实例中,位流517A可表示上文在图9中所示的位流517的一个实例。位流517A包含SHC存在字段670和存储SHC511A'的字段(其中所述字段表示为“SHC511A'”)。SHC存在字段670可包含对应于SHC511A中的每一者的位。SHC511A'可表示SHC511A的在位流中指定的那些SHC,其可在数目上少于SHC511A的数目。通常,SHC511A'中的每一者是SHC511A中具有非零值的那些SHC。如上所述,对于任何给定声场的四阶表示,需要(1+4)2或25个SHC。消除这些SHC中的一或多者且用单个位来替换这些零值SHC可节省31个位,其可经分配以更详细表达声场的其它部分,或以其它方式经去除以促进高效的带宽利用。
在图13B的实例中,位流517B可表示上文在图9中所示的位流517的一个实例。位流517B包含变换信息字段672(“变换信息672”)和存储SHC511A'的字段(其中所述字段表示为“SHC511A'”)。如上所述,变换信息672可包括平移信息、旋转信息和/或表示对声场的调整的任何其它形式的信息。在一些情况下,变换信息672还可指定在位流517B中指定为SHC511A'的SHC511A的最高阶数。也就是说,变换信息672可指示阶数三,提取装置可将其理解为指示SHC511A'包含高达且包含具有阶数三的那些SHC511A的那些SHC511A。提取装置可接着经配置以将具有阶数四或更高的SHC511A设定为零,从而潜在地在位流中去除阶数为四或更高的SHC511A的显式信令。
在图13C的实例中,位流517C可表示上文在图9中所示的位流517的一个实例。位流517C包含变换信息字段672(“变换信息672”)、SHC存在字段670以及存储SHC511A'的字段(其中所述字段表示为“SHC511A'”)。并非经配置以理解如上文相对于图13B所描述不用信号表示SHC511A的哪一阶数,SHC存在字段670可显式地用信号表示SHC511A中的哪一者在位流517C中指定为SHC511A'。
在图13D的实例中,位流517D可表示上文在图9中所示的位流517的一个实例。位流517D包含阶数字段674(“阶数60”)、SHC存在字段670、方位旗标676(“AZF676”)、仰角旗标678(“ELF678”)、方位角字段680(“方位角680”)、仰角字段682(“仰角682”)以及存储SHC511A'的字段(其中再次所述字段表示为“SHC511A'”)。阶数字段674指定SHC511A'的阶数,即,上文对于用以表示声场的球面基底函数的最高阶数由n表示的阶数。将阶数字段674显示为8位字段,但可具有其它各种位大小,例如三(其为指定四阶所需的位的数目)。SHC存在字段670显示为25位字段。然而,再次SHC存在字段670可具有其它各种位大小。SHC存在字段670显示为25个位,以指示SHC存在字段670可针对对应于声场的四阶表示的球面谐波系数中的每一者包含一个位。
方位角旗标676表示一位旗标,其指定方位角字段680是否存在于位流517D中。当方位角旗标676设定成一时,SHC511A'的方位角字段680存在于位流517D中。当方位角旗标676设定成零时,SHC511A'的方位角字段680不存在或以其它方式在位流517D中指定。同样,仰角旗标678表示一位旗标,其指定仰角字段682是否存在于位流517D中。当仰角旗标678设定成一时,SHC511A'的仰角字段682存在于位流517D中。当仰角旗标678设定成零时,SHC511A'的仰角字段682不存在或以其它方式在位流517D中指定。虽然描述为对应字段存在的一个信令和对应字段不存在的零信令,但惯例可逆转以使得零指定对应字段在位流517D中指定,且一指定对应字段未在位流517D中指定。本发明中描述的技术因此不应在此方面受限。
方位字段680表示10位字段,其当在位流517D中存在时指定方位角。虽然显示为10位字段,但方位字段680可具有其它位大小。仰角字段682表示9位字段,其当在位流517D中存在时指定仰角。分别在字段680和682中指定的方位角和仰角可结合旗标676和678来表示上述旋转信息。此旋转信息可用以旋转声场以便恢复原始参考系中的SHC511A。
将SHC511A'字段显示为大小为X的可变字段。SHC511A'字段可归因于如由SHC存在字段670表示的在位流中指定的SHC511A'的数目而变化。大小X可作为SHC存在字段670中的一的数目乘以32位(其为每一SHC511A'的大小)的函数而导出。
在图13E的实例中,位流517E可表示上文在图9中所示的位流517的另一实例。位流517E包含阶数字段674(“阶数60”)、SHC存在字段670和旋转索引字段684,以及存储SHC511A'的字段(其中再次所述字段表示为“SHC511A'”)。阶数字段674、SHC存在字段670和SHC511A'字段可大体上类似于上述的那些字段。旋转索引字段684可表示用以指定仰角和方位角的1024×512(或换句话说,524288)个组合中的一者的20位字段。在一些情况下,仅19位可用以指定此旋转索引字段684,且音频编码装置570可在位流中指定额外旗标,以指示旋转操作是否执行(并且因此,旋转索引字段684是否存在于位流中)。此旋转索引字段684指定上文提到的旋转索引,其可指代旋转表中对音频编码装置570和位流提取装置两者共用的条目。此旋转表在一些情况下可存储方位角和仰角的不同组合。替代地,旋转表可存储上述矩阵,其有效地以矩阵形式存储方位角和仰角的不同组合。
图14是说明图9的实例中所示的音频编码装置570在实施本发明中所描述的技术的旋转方面时的实例操作的流程图。最初,音频编码装置570可根据上述各种旋转算法中的一或多者选择方位角和仰角组合(800)。音频编码装置570可随后根据选定的方位角和仰角来旋转声场(802)。如上文所描述,音频编码装置570可首先使用上文提到的InvMat1从SHC511A导出声场。音频编码装置570还可确定表示经旋转声场的SHC511A'(804)。虽然描述为单独的步骤或操作,但音频编码装置570可应用表示方位角和仰角组合的选择的变换(其可表示[EncMat2][InvMat1]的结果),从SHC511A导出声场,旋转所述声场且确定表示经旋转声场的SHC511A'。
在任何情况下,音频编码装置570可接着计算大于临限值的所确定的SHC511A'的数目,将此数目与针对相对于先前方位角和仰角组合的先前迭代所计算的数目进行比较(806、808)。在相对于第一方位角和仰角组合的第一迭代中,此比较可为与预定义先前数目(其可设定成零)的比较。在任何情况下,如果SHC511A'的所确定的数目小于先前数目(“是”808),那么音频编码装置570存储SHC511A'、方位角和仰角,常常替换从旋转算法的先前迭代存储的先前SHC511A'、方位角和仰角(810)。
如果SHC511A'的所确定的数目不小于先前数目(“否”808)或在存储代替先前所存储的SHC511A'、方位角和仰角的SHC511A'、方位角和仰角之后,音频编码装置570可确定旋转算法是否已完成(812)。也就是说,音频编码装置570作为一个实例可确定是否已经评估方位角和仰角的全部可用组合。在其它实例中,音频编码装置570可确定是否满足其它准则(例如,已执行组合的限定子集的全部、是否已遍历给定轨迹、是否已遍历层级树到叶节点等),使得音频编码装置570已完成执行旋转算法。如果未完成(“否”812),那么音频编码装置570可相对于另一选定组合执行以上过程(800到812)。如果完成(“是”812),那么音频编码装置570可以上述各种方式中的一者在位流517中指定所存储的SHC511A'、方位角和仰角(814)。
图15是说明图9的实例中所示的音频编码装置570在执行本发明中所描述的技术的变换方面时的实例操作的流程图。最初,音频编码装置570可选择表示线性可逆变换的矩阵(820)。表示线性可逆变换的矩阵的一个实例可为上文显示的矩阵,即[EncMat1][IncMat1]的结果。音频编码装置570可随后将所述矩阵应用于声场以变换所述声场(822)。音频编码装置570还可确定表示经旋转声场的SHC511A'(824)。虽然描述为单独的步骤或操作,但音频编码装置570可应用变换(其可表示[EncMat2][InvMat1]的结果),从SHC511A导出声场,变换所述声场且确定表示变换声场的SHC511A'。
在任何情况下,音频编码装置570可接着计算大于临限值的所确定的SHC511A'的数目,从而将此数目与针对相对于变换矩阵的先前应用的先前迭代所计算的数目进行比较(826,828)。如果SHC511A'的所确定的数目小于先前数目(“是”828),那么音频编码装置570存储SHC511A'和矩阵(或其某一衍生物,例如与矩阵相关联的索引),常替换从旋转算法的先前迭代存储的先前SHC511A'和矩阵(或其衍生物)(830)。
如果SHC511A'的所确定的数目不小于先前数目(“否”828)或在存储SHC511A'和矩阵代替先前所存储的SHC511A'和矩阵之后,音频编码装置570可确定变换算法是否已完成(832)。也就是说,音频编码装置570作为一个实例可确定是否已经评估所有的可用变换矩阵。在其它实例中,音频编码装置570可确定是否满足其它准则(例如已经执行可用变换矩阵的所有经界定子集、是否已遍历给定轨迹、是否已遍历层级树到叶节点等),使得音频编码装置570已完成执行变换算法。如果未完成(“否”832),那么音频编码装置570可相对于另一选定变换矩阵执行以上过程(820到832)。如果完成(“是”832),那么音频编码装置570可以上述各种方式中的一者在位流517中指定所存储的SHC511A'和矩阵(834)。
在一些实例中,变换算法可执行单次迭代,从而评估单个变换矩阵。也就是说,变换矩阵可包括表示线性可逆变换的任何矩阵。在一些情况下,线性可逆变换可将声场从空间域变换到频域。此线性可逆变换的实例可包含离散傅立叶变换(DFT)。DFT的应用可仅涉及单次迭代,并且因此将不一定包含确定变换算法是否完成的步骤。因此,所述技术不应限于图15的实例。
换句话说,线性可逆变换的一个实例是离散傅立叶变换(DFT)。可通过DFT对二十五个SHC511A'操作来形成二十五个复合系数的集合。音频编码装置570还可将所述二十五个SHC511A'填零为2的整数倍数,以便潜在地增加DFT的区间大小的分辨率,且潜在地具有DFT的更有效实施方案,例如通过应用快速傅立叶变换(FFT)。在一些情况下,增加DFT的分辨率超出25点不一定是需要的。在变换域中,音频编码装置570可应用临限值来确定在特定区间中是否存在任何谱能量。音频编码装置570在此上下文中可随后丢弃或零化低于此临限值的谱系数能量,且音频编码装置570可应用逆变换来恢复已丢弃或零化的SHC511A'中的一或多者的SHC511A'。也就是说,在应用逆变换之后,低于临限值的系数不存在,且因此,可使用较少的位来对声场进行编码。
应理解,取决于实例,本文中的任何所描述的方法的某些动作或事件可以不同序列执行、可以添加、合并或全部省略(例如,实践所述方法并不需要所有的所描述动作或事件)。此外,在某些实例中,可例如经由多线程处理、中断处理或多个处理器同时而非依序执行动作或事件。此外,虽然为了清晰起见,本发明的某些方面被描述为是通过单个装置、模块或单元执行,但应理解,本发明的技术可以通过装置、单元或模块的组合执行。
在一或多个实例中,所描述功能可用硬件、软件、固件或其任何组合来实施。如果用软件实施,那么所述功能可以作为一或多个指令或代码在计算机可读媒体上存储或发射,并且由基于硬件的处理单元来执行。计算机可读媒体可包括计算机可读存储媒体,其对应于有形媒体,例如数据存储媒体,或包括任何促进将计算机程序从一处传送到另一处的媒体(例如,根据通信协议)的通信媒体。
以这种方式,计算机可读媒体一般可对应于(1)有形计算机可读存储媒体,其为非暂时性的,或(2)通信媒体,例如信号或载波。数据存储媒体可以是可由一或多个计算机或一或多个处理器存取以检索用于实施本发明中描述的技术的指令、代码和/或数据结构的任何可用媒体。计算机程序产品可包含计算机可读媒体。
借助于实例而非限制,此类计算机可读存储媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置、快闪存储器或可以用来存储指令或数据结构的形式的所要程序代码并且可以由计算机存取的任何其它媒体。而且,任何连接被恰当地称为计算机可读媒体。举例来说,如果使用同轴电缆、光纤缆线、双绞线、数字订户线(DSL)或例如红外线、无线电和微波等无线技术从网站、服务器或其它远程源传输指令,那么同轴电缆、光纤缆线、双绞线、DSL或例如红外线、无线电和微波等无线技术包括在媒体的定义中。
但是,应理解,所述计算机可读存储媒体及数据存储媒体并不包含连接、载波、信号或其它暂时媒体,而是实际上针对于非暂时性有形存储媒体。如本文所使用,磁盘及光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字影音光盘(DVD)、软性磁盘及蓝光光盘,其中磁盘通常以磁性方式复制数据,而光盘用激光以光学方式复制数据。上述各项的组合也应包含在计算机可读媒体的范围内。
指令可由一或多个处理器执行,所述一或多个处理器例如是一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)、或其它等效的集成或离散逻辑电路。因此,如本文中所使用的术语“处理器”可指上述结构或适合于实施本文中所描述的技术的任何其它结构中的任一者。此外,在一些方面中,本文所述的功能性可在经配置以用于编码和解码的专用硬件和/或软件模块内提供,或并入在组合编解码器中。并且,可将所述技术完全实施于一或多个电路或逻辑元件中。
本发明的技术可在各种各样的装置或设备中实施,包含无线手持机、集成电路(IC)或一组IC(例如,芯片组)。本发明中描述各种组件、模块或单元是为了强调经配置以执行所揭示的技术的装置的功能方面,但未必需要通过不同硬件单元实现。相反地,如上文所描述,各种单元可结合合适的软件和/或固件组合在编码解码器硬件单元中,或者由互操作硬件单元的集合来提供,所述硬件单元包含如上文所描述的一或多个处理器。
除了以上之外或作为对以上的替代,还描述以下实例。在以下实例中的任一者中描述的特征可与本文中描述的其它实例中的任一者一起利用。
一个实例是针对一种双耳音频渲染方法,其包括:获得变换信息,所述变换信息描述如何变换声场来减少多个层级元素的数目;以及基于所确定的变换信息,相对于所述减少数目的所述多个阶层元素来执行双耳音频渲染。
在一些实例中,执行双耳音频渲染包括基于所确定的变换信息来变换借此将所述减少的多个层级元素渲染到多个声道的参考系。
在一些情况下,变换信息包括旋转信息,其指定借此旋转声场的至少一仰角和一方位角。
在一些实例中,变换信息包括指定一或多个角度的旋转信息,其中的每一者是相对于借此旋转声场的x轴和y轴、x轴和z轴,或y轴和z轴来指定,且执行双耳音频渲染包括基于所确定的旋转信息来旋转渲染函数借此渲染减少的多个层级元素的参考系。
在一些情况下,执行双耳音频渲染包括:基于所确定的变换信息来变换渲染函数借此渲染减少的多个层级元素的参考系;以及相对于经变换的渲染函数应用能量保存函数。
在一些实例中,执行双耳音频渲染包括:基于所确定的变换信息来变换渲染函数借此渲染减少的多个层级元素的参考系;以及使用乘法运算来组合经变换的渲染函数与复合双耳房间脉冲响应函数。
在一些实例中,执行双耳音频渲染包括:基于所确定的变换信息来变换渲染函数借此渲染减少的多个层级元素的参考系;以及使用乘法运算来组合经变换的渲染函数与复合双耳房间脉冲响应函数,而不需要卷积运算。
在一些实例中,执行双耳音频渲染包括:基于所确定的变换信息来变换渲染函数借此渲染减少的多个层级元素的参考系;组合经变换的渲染函数与复合双耳房间脉冲响应函数,以产生经旋转的双耳音频渲染函数;以及将经旋转的双耳音频渲染函数应用于减少的多个层级元素,以产生左声道和右声道。
在一些实例中,所述多个阶层元素包括多个球面谐波系数,其中所述多个球面谐波系数中的至少一者与大于一的阶数相关联。
在一些实例中,所述方法还包括:检索包含经编码音频数据和变换信息的位流;从所述位流剖析经编码的音频数据;以及解码所述经剖析的经编码音频数据,以产生减少的多个球面谐波系数,且确定变换信息包括从位流剖析变换信息。
在一些实例中,所述方法还包括:检索包含经编码音频数据和变换信息的位流;从所述位流剖析经编码音频数据;以及根据高级音频译码(AAC)方案来解码经剖析的经编码音频数据,以产生减少的多个球面谐波系数,且确定变换信息包括从位流剖析变换信息。
在一些实例中,所述方法还包括:检索包含经编码音频数据和变换信息的位流;从所述位流剖析经编码音频数据;以及根据统一话音和音频译码(USAC)方案来解码经剖析的经编码音频数据,以产生减少的多个球面谐波系数,且确定变换信息包括从位流剖析变换信息。
在一些实例中,所述方法还包括:确定收听者的头部相对于由多个球面谐波系数表示的声场的位置;以及基于所确定的变换信息和所确定的收听者头部的位置来确定经更新的变换信息,且执行双耳音频渲染包括基于经更新的变换信息,相对于减少的多个层级元素执行双耳音频渲染。
一个实例是针对一种包括一或多个处理器的装置,所述处理器经配置以:确定变换信息,所述变换信息描述如何变换声场,以减少提供在描述声场中相关的信息的多个阶层元素的数目;且基于所确定的变换信息,相对于减少的多个层级元素来执行双耳音频渲染。
在一些实例中,所述一或多个处理器进一步经配置以在执行双耳音频渲染时,基于所确定的变换信息来变换借此将所述减少的多个层级元素渲染到多个声道的参考系。
在一些实例中,所确定的变换信息包括旋转信息,其指定借此旋转声场的至少一仰角和一方位角。
在一些实例中,所述变换信息包括指定一或多个角度的旋转信息,其中的每一者是相对于借此旋转声场的x轴和y轴、x轴和z轴或y轴和z轴来指定,且所述一或多个处理器进一步经配置以在执行双耳音频渲染时,基于所确定的旋转信息来旋转渲染函数借此渲染减少的多个层级元素的参考系。
在一些实例中,所述一或多个处理器进一步经配置以在执行双耳音频渲染时:基于所确定的变换信息来变换渲染函数借此渲染减少的多个层级元素的参考系;且相对于经变换的渲染函数来应用能量保存函数。
在一些实例中,所述一或多个处理器进一步经配置以在执行双耳音频渲染时:基于所确定的变换信息来变换渲染函数借此渲染减少的多个层级元素的参考系;且使用乘法运算来组合经变换的渲染函数与复合双耳房间脉冲响应函数。
在一些实例中,所述一或多个处理器进一步经配置以在执行双耳音频渲染时:基于所确定的变换信息来变换渲染函数借此渲染减少的多个层级元素的参考系;且使用乘法运算来组合经变换的渲染函数与复合双耳房间脉冲响应函数,而不需要卷积运算。
在一些实例中,所述一或多个处理器进一步经配置以在执行双耳音频渲染时:基于所确定的变换信息来变换渲染函数借此渲染减少的多个层级元素的参考系;组合经变换的渲染函数与复合双耳房间脉冲响应函数,以产生经旋转双耳音频渲染函数;且将经旋转的双耳音频渲染函数应用于减少的多个层级元素,以产生左声道和右声道。
在一些实例中,所述多个阶层元素包括多个球面谐波系数,其中所述多个球面谐波系数中的至少一者与大于一的阶数相关联。
在一些实例中,所述一或多个处理器进一步经配置以:检索包含经编码音频数据和变换信息的位流;从所述位流剖析经编码音频数据;且解码经剖析的经编码音频数据,以产生减少的多个球面谐波系数,且所述一或多个处理器进一步经配置以在确定变换信息时,从所述位流剖析变换信息。
在一些实例中,所述一或多个处理器进一步经配置以:检索包含经编码音频数据和变换信息的位流;从所述位流剖析所述经编码音频数据;且根据高级音频译码(AAC)方案来解码经剖析的经编码音频数据,以产生减少的多个球面谐波系数,且所述一或多个处理器进一步经配置以在确定变换信息时,从所述位流剖析变换信息。
在一些实例中,所述一或多个处理器进一步经配置以:检索包含经编码音频数据和变换信息的位流;从所述位流剖析经编码音频数据;且根据统一话音和音频译码(USAC)方案来解码经剖析的经编码音频数据,以产生减少的多个球面谐波系数,且所述一或多个处理器进一步经配置以在确定变换信息时,从所述位流剖析变换信息。
在一些实例中,所述一或多个处理器进一步经配置以:确定收听者的头部相对于由多个球面谐波系数表示的声场的位置;且基于所确定的变换信息和所确定的收听者头部的位置来确定经更新的变换信息,且所述一或多个处理器进一步经配置以在执行双耳音频渲染时,基于经更新的变换信息,相对于减少的多个层级元素来执行双耳音频渲染。
一个实例是针对一种装置,其包括:用于确定变换信息的装置,所述变换信息描述如何变换声场,以减少提供在描述声场中相关的信息的多个阶层元素的数目;以及用于基于所确定的变换信息相对于减少的多个层级元素来执行双耳音频渲染的装置。
在一些实例中,所述用于执行双耳音频渲染的装置包括用于基于所确定的变换信息来变换借此将减少的多个层级元素渲染到多个声道的参考系的装置。
在一些实例中,所述变换信息包括旋转信息,其指定借此旋转声场的至少一仰角和一方位角。
在一些实例中,所述变换信息包括指定一或多个角度的旋转信息,其中的每一者是相对于借此旋转声场的x轴和y轴、x轴和z轴或y轴和z轴来指定,且所述用于执行双耳音频渲染的装置包括用于基于所确定的旋转信息来旋转渲染函数借此渲染减少的多个层级元素的参考系的装置。
在一些实例中,所述用于执行双耳音频渲染的装置包括用于基于所确定的变换信息来变换渲染函数借此渲染减少的多个层级元素的参考系的装置;以及用于相对于经变换的渲染函数来应用能量保存函数的装置。
在一些实例中,所述用于执行双耳音频渲染的装置包括:用于基于所确定的变换信息来变换渲染函数借此渲染减少的多个层级元素的参考系的装置;以及用于使用乘法运算来组合所述经变换的渲染函数与复合双耳房间脉冲响应函数的装置。
在一些实例中,所述用于执行双耳音频渲染的装置包括:用于基于所确定的变换信息来变换渲染函数借此渲染减少的多个层级元素的装置;以及用于使用乘法运算来组合经变换的渲染函数与复合双耳房间脉冲响应函数而不需要卷积运算的装置。
在一些实例中,所述用于执行双耳音频渲染的装置包括:用于基于所确定的变换信息来变换渲染函数借此渲染减少的多个层级元素的参考系的装置;用于组合经变换的渲染函数与复合双耳房间脉冲响应函数以产生经旋转的双耳音频渲染函数的装置;以及用于将所述经旋转的双耳音频渲染函数应用于减少的多个层级元素以产生左声道和右声道的装置。
在一些实例中,所述多个阶层元素包括多个球面谐波系数,其中所述多个球面谐波系数中的至少一者与大于一的阶数相关联。
在一些实例中,所述装置进一步包括:用于检索包含经编码音频数据和变换信息的位流的装置;用于从所述位流剖析经编码音频数据的装置;以及用于解码经剖析的经编码音频数据以产生减少的多个球面谐波系数的装置,且所述用于确定变换信息的装置包括用于从位流剖析变换信息的装置。
在一些实例中,所述装置进一步包括:用于检索包含经编码音频数据和变换信息的位流的装置;用于从所述位流剖析所述经编码音频数据的装置;以及用于根据高级音频译码(AAC)方案来解码经剖析的经编码音频数据以产生减少的多个球面谐波系数的装置,且所述用于确定变换信息的装置包括用于从所述位流剖析变换信息的装置。
在一些实例中,所述装置进一步包括:用于检索包含经编码音频数据和变换信息的位流的装置;用于从所述位流剖析经编码音频数据的装置;以及用于根据统一话音和音频译码(USAC)方案来解码经剖析的经编码音频数据以产生减少的多个球面谐波系数的装置,且所述用于确定变换信息的装置包括用于从所述位流剖析变换信息的装置。
在一些实例中,所述装置进一步包括:用于确定收听者头部相对于由所述多个球面谐波系数表示的声场的位置的装置;以及用于基于所确定的变换信息和所确定的收听者头部的位置来确定经更新的变换信息的装置,且所述用于执行双耳音频渲染的装置包括用于基于经更新的变换信息,相对于减少的多个层级元素执行双耳音频渲染的装置。
一个实例是针对一种上面存储有指令的非暂时性计算机可读存储媒体,所述指令在被执行时,致使一或多个处理器:确定变换信息,所述变换信息描述如何变换声场来减少提供描述声场中相关的信息的多个阶层元素的数目;以及基于所确定的变换信息,相对于减少的多个层级元素来执行双耳音频渲染。
此外,上述实例中的任一者中所陈述的特定特征中的任一者可组合到所描述技术的有益实施例中。也就是说,所述特定特征中的任一者通常适用于所述技术的所有实例。
已描述所述技术的各种实施例。这些和其它实施例在所附权利要求书的范围内。
Claims (30)
1.一种双耳音频渲染方法,其包括:
获得变换信息,所述变换信息描述如何变换声场,以将若干多个层级元素减少到减少的多个层级元素;以及
基于所述变换信息,相对于所述减少的多个层级元素来执行所述双耳音频渲染。
2.根据权利要求1所述的方法,其中执行所述双耳音频渲染包括基于所述变换信息来变换借此将所述减少的多个层级元素渲染到多个声道的参考系。
3.根据权利要求1所述的方法,所述变换信息包括旋转信息,其指定借此变换所述声场的至少一仰角和一方位角。
4.根据权利要求1所述的方法,其中执行所述双耳音频渲染包括:
基于所述变换信息来变换渲染函数借此渲染所述减少的多个层级元素的参考系;以及
相对于所述经变换的渲染函数来应用能量保存函数。
5.根据权利要求1所述的方法,其中执行所述双耳音频渲染包括:
基于所述变换信息来变换渲染函数借此渲染所述减少的多个层级元素的参考系;以及
使用乘法运算来组合所述经变换的渲染函数与复合双耳房间脉冲响应函数。
6.根据权利要求1所述的方法,其中执行所述双耳音频渲染包括:
基于所述变换信息来变换渲染函数借此渲染所述减少的多个层级元素的参考系;以及
使用乘法运算来组合所述经变换的渲染函数与复合双耳房间脉冲响应函数,而不需要卷积运算。
7.根据权利要求1所述的方法,其中执行所述双耳音频渲染包括:
基于所述变换信息来变换渲染函数借此渲染所述减少的多个层级元素的参考系;
组合所述经变换的渲染函数与复合双耳房间脉冲响应函数,以产生经旋转的双耳音频渲染函数;以及
将所述经旋转的双耳音频渲染函数应用于所述减少的多个层级元素以产生左声道和右声道。
8.根据权利要求1所述的方法,所述多个阶层元素包括多个球面谐波系数,其中所述多个球面谐波系数中的至少一者与大于一的阶数相关联。
9.根据权利要求1所述的方法,其进一步包括:
获得包含经编码音频数据和所述变换信息的位流;
从所述位流剖析所述经编码音频数据,以获得经剖析的经编码音频数据;以及
解码所述经剖析的经编码音频数据,以获得所述减少的多个球面谐波系数,
其中获得所述变换信息包括从所述位流剖析所述变换信息。
10.根据权利要求1所述的方法,其进一步包括:
获得收听者的头部相对于由所述多个球面谐波系数表示的所述声场的位置;以及
基于所述变换信息和所述收听者的所述头部的所述位置,来确定经更新的变换信息,
其中执行所述双耳音频渲染包括基于所述经更新的变换信息,相对于所述减少的多个层级元素来执行所述双耳音频渲染。
11.一种包括一或多个处理器的装置,所述一或多个处理器经配置以:
获得变换信息,所述变换信息描述如何变换声场,以将若干多个层级元素减少到减少的多个层级元素;以及
基于所述变换信息,相对于所述减少的多个层级元素来执行双耳音频渲染。
12.根据权利要求11所述的装置,其中为了执行所述双耳音频渲染,所述一或多个处理器进一步经配置以基于所述变换信息来变换借此将所述减少的多个层级元素渲染到多个声道的参考系。
13.根据权利要求11所述的装置,所述变换信息包括旋转信息,其指定借此变换所述声场的至少一仰角和一方位角。
14.根据权利要求11所述的装置,
其中为了执行所述双耳音频渲染,所述一或多个处理器进一步经配置以基于所述变换信息来变换渲染函数借此渲染所述减少的多个层级元素的参考系,并相对于所述经变换的渲染函数来应用能量保存函数。
15.根据权利要求11所述的装置,其中为了执行所述双耳音频渲染,所述一或多个处理器进一步经配置以基于所述变换信息来变换渲染函数借此渲染所述减少的多个层级元素的参考系,且使用乘法运算来组合所述经变换的渲染函数与复合双耳房间脉冲响应函数。
16.根据权利要求11所述的装置,其中为了执行所述双耳音频渲染,所述一或多个处理器进一步经配置以基于所述变换信息来变换渲染函数借此渲染所述减少的多个层级元素的参考系,且使用乘法运算来组合所述经变换的渲染函数与复合双耳房间脉冲响应函数,而不需要卷积运算。
17.根据权利要求11所述的装置,其中为了执行所述双耳音频渲染,所述一或多个处理器进一步经配置以基于所述变换信息来变换渲染函数借此渲染所述减少的多个层级元素的参考系,组合所述经变换的渲染函数与复合双耳房间脉冲响应函数以产生经旋转的双耳音频渲染函数,且将所述经旋转的双耳音频渲染函数应用于所述减少的多个层级元素以产生左声道和右声道。
18.根据权利要求11所述的装置,所述多个阶层元素包括多个球面谐波系数,其中所述多个球面谐波系数中的至少一者与大于一的阶数相关联。
19.根据权利要求11所述的装置,所述一或多个处理器进一步经配置以:
获得包含经编码音频数据和所述变换信息的位流;
从所述位流剖析所述经编码音频数据;以及
解码所述经剖析的经编码音频数据,以产生所述减少的多个球面谐波系数,
其中为了获得所述变换信息,所述一或多个处理器进一步经配置以从所述位流剖析所述变换信息。
20.根据权利要求11所述的装置,所述一或多个处理器进一步经配置以:
获得收听者的头部相对于由所述多个球面谐波系数到减少的多个层级元素表示的所述声场的位置;以及
基于所述变换信息和所述收听者的所述头部的所述位置,来确定经更新的变换信息,
其中为了执行所述双耳音频渲染,所述一或多个处理器进一步经配置以基于所述经更新的变换信息,相对于所述减少的多个层级元素来执行所述双耳音频渲染。
21.一种设备,其包括:
用于获得变换信息的装置,所述变换信息描述如何变换声场,以将若干多个层级元素减少到减少的多个层级元素;以及
用于基于所述变换信息相对于所述减少的多个层级元素来执行所述双耳音频渲染的装置。
22.根据权利要求21所述的设备,其中所述用于执行所述双耳音频渲染的装置包括用于基于所述变换信息来变换借此将所述减少的多个层级元素渲染到多个声道的参考系的装置。
23.根据权利要求21所述的设备,所述变换信息包括旋转信息,其指定借此变换所述声场的至少一仰角和一方位角。
24.根据权利要求21所述的设备,其中所述用于执行所述双耳音频渲染的装置包括:
用于基于所述变换信息来变换渲染函数借此渲染所述减少的多个层级元素的参考系的装置;以及
用于相对于所述经变换的渲染函数来应用能量保存函数的装置。
25.根据权利要求21所述的设备,其中所述用于执行所述双耳音频渲染的装置包括:
用于基于所述变换信息来变换渲染函数借此渲染所述减少的多个层级元素的参考系的装置;以及
用于使用乘法运算来组合所述经变换的渲染函数与复合双耳房间脉冲响应函数而不需要卷积运算的装置。
26.根据权利要求21所述的设备,其中所述用于执行所述双耳音频渲染的装置包括:
用于基于所述变换信息来变换渲染函数借此渲染所述减少的多个层级元素的参考系的装置;
用于组合所述经变换的渲染函数与复合双耳房间脉冲响应函数以产生经旋转的双耳音频渲染函数的装置;以及
用于将所述经旋转的双耳音频渲染函数应用于所述减少的多个层级元素以产生左声道和右声道的装置。
27.根据权利要求21所述的设备,所述多个阶层元素包括多个球面谐波系数,其中所述多个球面谐波系数中的至少一者与大于一的阶数相关联。
28.根据权利要求21所述的设备,其进一步包括:
用于获得包含经编码音频数据和所述变换信息的位流的装置;
用于从所述位流剖析所述经编码音频数据以获得经剖析的经编码音频数据的装置;以及
用于解码所述经剖析的经编码音频数据以获得所述减少的多个球面谐波系数的装置,
其中所述用于获得所述变换信息的装置包括用于从所述位流剖析所述变换信息的装置。
29.根据权利要求21所述的设备,其进一步包括:
用于获得收听者的头部相对于由所述多个球面谐波系数表示的所述声场的位置的装置;以及
用于基于所述变换信息和所述收听者的所述头部的所述位置来确定经更新的变换信息的装置,
其中所述用于执行所述双耳音频渲染的装置包括用于基于所述经更新的变换信息相对于所述减少的多个层级元素来执行所述双耳音频渲染的装置。
30.一种包括存储于其上的指令的非暂时性计算机可读存储媒体,所述指令在被执行时,配置一或多个处理器以:
获得变换信息,所述变换信息描述如何变换声场,以将若干多个层级元素减少到减少的多个层级元素;以及
基于所述变换信息,相对于所述减少的多个层级元素来执行所述双耳音频渲染。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201361828313P | 2013-05-29 | 2013-05-29 | |
US61/828,313 | 2013-05-29 | ||
US14/289,602 US9384741B2 (en) | 2013-05-29 | 2014-05-28 | Binauralization of rotated higher order ambisonics |
US14/289,602 | 2014-05-28 | ||
PCT/US2014/040021 WO2014194088A2 (en) | 2013-05-29 | 2014-05-29 | Binauralization of rotated higher order ambisonics |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105325015A true CN105325015A (zh) | 2016-02-10 |
CN105325015B CN105325015B (zh) | 2018-04-20 |
Family
ID=51985121
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480035774.6A Active CN105325015B (zh) | 2013-05-29 | 2014-05-29 | 经旋转高阶立体混响的双耳化 |
Country Status (6)
Country | Link |
---|---|
US (1) | US9384741B2 (zh) |
EP (1) | EP3005738B1 (zh) |
JP (1) | JP6067935B2 (zh) |
KR (1) | KR101723332B1 (zh) |
CN (1) | CN105325015B (zh) |
WO (1) | WO2014194088A2 (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020083088A1 (zh) * | 2018-10-26 | 2020-04-30 | 华为技术有限公司 | 一种音频渲染方法及装置 |
CN111316353A (zh) * | 2017-11-10 | 2020-06-19 | 诺基亚技术有限公司 | 确定空间音频参数编码和相关联的解码 |
CN111542877A (zh) * | 2017-12-28 | 2020-08-14 | 诺基亚技术有限公司 | 空间音频参数编码和相关联的解码的确定 |
CN112219237A (zh) * | 2018-04-09 | 2021-01-12 | 诺基亚技术有限公司 | 空间音频参数的量化 |
US11252524B2 (en) | 2017-07-05 | 2022-02-15 | Sony Corporation | Synthesizing a headphone signal using a rotating head-related transfer function |
Families Citing this family (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9131305B2 (en) * | 2012-01-17 | 2015-09-08 | LI Creative Technologies, Inc. | Configurable three-dimensional sound system |
US9466305B2 (en) | 2013-05-29 | 2016-10-11 | Qualcomm Incorporated | Performing positional analysis to code spherical harmonic coefficients |
US11146903B2 (en) | 2013-05-29 | 2021-10-12 | Qualcomm Incorporated | Compression of decomposed representations of a sound field |
US9489955B2 (en) | 2014-01-30 | 2016-11-08 | Qualcomm Incorporated | Indicating frame parameter reusability for coding vectors |
US9922656B2 (en) | 2014-01-30 | 2018-03-20 | Qualcomm Incorporated | Transitioning of ambient higher-order ambisonic coefficients |
JP6374980B2 (ja) * | 2014-03-26 | 2018-08-15 | パナソニック株式会社 | サラウンドオーディオ信号処理のための装置及び方法 |
US10770087B2 (en) | 2014-05-16 | 2020-09-08 | Qualcomm Incorporated | Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals |
US9620137B2 (en) | 2014-05-16 | 2017-04-11 | Qualcomm Incorporated | Determining between scalar and vector quantization in higher order ambisonic coefficients |
US9852737B2 (en) | 2014-05-16 | 2017-12-26 | Qualcomm Incorporated | Coding vectors decomposed from higher-order ambisonics audio signals |
US9747910B2 (en) | 2014-09-26 | 2017-08-29 | Qualcomm Incorporated | Switching between predictive and non-predictive quantization techniques in a higher order ambisonics (HOA) framework |
US9712936B2 (en) * | 2015-02-03 | 2017-07-18 | Qualcomm Incorporated | Coding higher-order ambisonic audio data with motion stabilization |
CN106297820A (zh) | 2015-05-14 | 2017-01-04 | 杜比实验室特许公司 | 具有基于迭代加权的源方向确定的音频源分离 |
ES2956344T3 (es) | 2015-08-25 | 2023-12-19 | Dolby Laboratories Licensing Corp | Descodificador de audio y procedimiento de descodificación |
CN108476365B (zh) * | 2016-01-08 | 2021-02-05 | 索尼公司 | 音频处理装置和方法以及存储介质 |
EP3473022B1 (en) | 2016-06-21 | 2021-03-17 | Dolby Laboratories Licensing Corporation | Headtracking for pre-rendered binaural audio |
US9653095B1 (en) | 2016-08-30 | 2017-05-16 | Gopro, Inc. | Systems and methods for determining a repeatogram in a music composition using audio features |
US11032663B2 (en) | 2016-09-29 | 2021-06-08 | The Trustees Of Princeton University | System and method for virtual navigation of sound fields through interpolation of signals from an array of microphone assemblies |
EP3324406A1 (en) * | 2016-11-17 | 2018-05-23 | Fraunhofer Gesellschaft zur Förderung der Angewand | Apparatus and method for decomposing an audio signal using a variable threshold |
EP3324407A1 (en) | 2016-11-17 | 2018-05-23 | Fraunhofer Gesellschaft zur Förderung der Angewand | Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic |
BR112020000779A2 (pt) | 2017-07-14 | 2020-07-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | aparelho para gerar uma descrição de campo sonoro aprimorada, aparelho para gerar uma descrição de campo sonoro modificada a partir de uma descrição de campo sonoro e metadados com relação às informações espaciais da descrição de campo sonoro, método para gerar uma descrição de campo sonoro aprimorada, método para gerar uma descrição de campo sonoro modificada a partir de uma descrição de campo sonoro e metadados com relação às informações espaciais da descrição de campo sonoro, programa de computador e descrição de campo sonoro aprimorada. |
WO2019012133A1 (en) | 2017-07-14 | 2019-01-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | CONCEPT OF GENERATING AN ENHANCED AUDIO FIELD DESCRIPTION OR A MODIFIED AUDIO FIELD DESCRIPTION USING A MULTILAYER DESCRIPTION |
WO2019012131A1 (en) | 2017-07-14 | 2019-01-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | CONCEPT FOR GENERATING AN ENHANCED AUDIO FIELD DESCRIPTION OR A MODIFIED AUDIO FIELD DESCRIPTION USING A MULTIPOINT SOUND FIELD DESCRIPTION |
US10674301B2 (en) * | 2017-08-25 | 2020-06-02 | Google Llc | Fast and memory efficient encoding of sound objects using spherical harmonic symmetries |
CA3083891C (en) * | 2017-11-17 | 2023-05-02 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for encoding or decoding directional audio coding parameters using different time/frequency resolutions |
JP7354107B2 (ja) | 2017-12-18 | 2023-10-02 | ドルビー・インターナショナル・アーベー | 仮想現実環境における聴取位置間のグローバル遷移を扱う方法およびシステム |
GB2577698A (en) | 2018-10-02 | 2020-04-08 | Nokia Technologies Oy | Selection of quantisation schemes for spatial audio parameter encoding |
GB2586214A (en) * | 2019-07-31 | 2021-02-17 | Nokia Technologies Oy | Quantization of spatial audio direction parameters |
GB2586461A (en) * | 2019-08-16 | 2021-02-24 | Nokia Technologies Oy | Quantization of spatial audio direction parameters |
US11521623B2 (en) | 2021-01-11 | 2022-12-06 | Bank Of America Corporation | System and method for single-speaker identification in a multi-speaker environment on a low-frequency audio recording |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101884065A (zh) * | 2007-10-03 | 2010-11-10 | 创新科技有限公司 | 用于双耳再现和格式转换的空间音频分析和合成 |
WO2012059385A1 (en) * | 2010-11-05 | 2012-05-10 | Thomson Licensing | Data structure for higher order ambisonics audio data |
CN102547549A (zh) * | 2010-12-21 | 2012-07-04 | 汤姆森特许公司 | 编码解码2或3维声场环绕声表示的连续帧的方法和装置 |
US20120314878A1 (en) * | 2010-02-26 | 2012-12-13 | France Telecom | Multichannel audio stream compression |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8027479B2 (en) * | 2006-06-02 | 2011-09-27 | Coding Technologies Ab | Binaural multi-channel decoder in the context of non-energy conserving upmix rules |
US9685163B2 (en) * | 2013-03-01 | 2017-06-20 | Qualcomm Incorporated | Transforming spherical harmonic coefficients |
US9674632B2 (en) * | 2013-05-29 | 2017-06-06 | Qualcomm Incorporated | Filtering with binaural room impulse responses |
-
2014
- 2014-05-28 US US14/289,602 patent/US9384741B2/en active Active
- 2014-05-29 EP EP14734329.7A patent/EP3005738B1/en active Active
- 2014-05-29 CN CN201480035774.6A patent/CN105325015B/zh active Active
- 2014-05-29 KR KR1020157036670A patent/KR101723332B1/ko active IP Right Grant
- 2014-05-29 JP JP2016516820A patent/JP6067935B2/ja not_active Expired - Fee Related
- 2014-05-29 WO PCT/US2014/040021 patent/WO2014194088A2/en active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101884065A (zh) * | 2007-10-03 | 2010-11-10 | 创新科技有限公司 | 用于双耳再现和格式转换的空间音频分析和合成 |
US20120314878A1 (en) * | 2010-02-26 | 2012-12-13 | France Telecom | Multichannel audio stream compression |
WO2012059385A1 (en) * | 2010-11-05 | 2012-05-10 | Thomson Licensing | Data structure for higher order ambisonics audio data |
CN102547549A (zh) * | 2010-12-21 | 2012-07-04 | 汤姆森特许公司 | 编码解码2或3维声场环绕声表示的连续帧的方法和装置 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11252524B2 (en) | 2017-07-05 | 2022-02-15 | Sony Corporation | Synthesizing a headphone signal using a rotating head-related transfer function |
CN111316353A (zh) * | 2017-11-10 | 2020-06-19 | 诺基亚技术有限公司 | 确定空间音频参数编码和相关联的解码 |
CN111316353B (zh) * | 2017-11-10 | 2023-11-17 | 诺基亚技术有限公司 | 确定空间音频参数编码和相关联的解码 |
CN111542877A (zh) * | 2017-12-28 | 2020-08-14 | 诺基亚技术有限公司 | 空间音频参数编码和相关联的解码的确定 |
CN111542877B (zh) * | 2017-12-28 | 2023-11-24 | 诺基亚技术有限公司 | 空间音频参数编码和相关联的解码的确定 |
CN112219237A (zh) * | 2018-04-09 | 2021-01-12 | 诺基亚技术有限公司 | 空间音频参数的量化 |
WO2020083088A1 (zh) * | 2018-10-26 | 2020-04-30 | 华为技术有限公司 | 一种音频渲染方法及装置 |
US11445324B2 (en) | 2018-10-26 | 2022-09-13 | Huawei Technologies Co., Ltd. | Audio rendering method and apparatus |
Also Published As
Publication number | Publication date |
---|---|
KR20160015284A (ko) | 2016-02-12 |
JP6067935B2 (ja) | 2017-01-25 |
WO2014194088A3 (en) | 2015-03-19 |
EP3005738A2 (en) | 2016-04-13 |
EP3005738B1 (en) | 2020-04-29 |
US20140355766A1 (en) | 2014-12-04 |
JP2016523467A (ja) | 2016-08-08 |
US9384741B2 (en) | 2016-07-05 |
KR101723332B1 (ko) | 2017-04-04 |
CN105325015B (zh) | 2018-04-20 |
WO2014194088A2 (en) | 2014-12-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105325015B (zh) | 经旋转高阶立体混响的双耳化 | |
KR101854964B1 (ko) | 구면 조화 계수들의 변환 | |
CN106104680B (zh) | 将音频信道***到声场的描述中 | |
CN105580072B (zh) | 用于音频数据的压缩的方法、装置及计算机可读存储媒体 | |
CN106575506B (zh) | 用于执行高阶立体混响音频数据的中间压缩的装置和方法 | |
JP6612337B2 (ja) | 高次アンビソニックオーディオデータのスケーラブルコーディングのためのレイヤのシグナリング | |
JP6549225B2 (ja) | 高次アンビソニックオーディオデータのスケーラブルコーディングのためのチャネルのシグナリング | |
CN106663433A (zh) | 减少高阶立体混响(hoa)背景信道之间的相关性 | |
CN106796794A (zh) | 环境高阶立体混响音频数据的归一化 | |
KR20170066400A (ko) | Hoa 콘텐츠의 스크린 관련된 적응 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |