CN111316353B - 确定空间音频参数编码和相关联的解码 - Google Patents

确定空间音频参数编码和相关联的解码 Download PDF

Info

Publication number
CN111316353B
CN111316353B CN201780096600.4A CN201780096600A CN111316353B CN 111316353 B CN111316353 B CN 111316353B CN 201780096600 A CN201780096600 A CN 201780096600A CN 111316353 B CN111316353 B CN 111316353B
Authority
CN
China
Prior art keywords
sphere
cross
circle
spheres
smaller spheres
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201780096600.4A
Other languages
English (en)
Other versions
CN111316353A (zh
Inventor
L·J·拉克索宁
A·S·拉莫
A·瓦西拉凯
M·塔米
M·维勒尔莫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Technologies Oy
Original Assignee
Nokia Technologies Oy
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Technologies Oy filed Critical Nokia Technologies Oy
Publication of CN111316353A publication Critical patent/CN111316353A/zh
Application granted granted Critical
Publication of CN111316353B publication Critical patent/CN111316353B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • General Physics & Mathematics (AREA)
  • Algebra (AREA)
  • Stereophonic System (AREA)

Abstract

一种用于空间音频信号编码的装置,该装置包括至少一个处理器和包括计算机程序代码的至少一个存储器,该至少一个存储器和该计算机程序代码被配置为与该至少一个处理器一起使该装置至少:对于两个或更多个音频信号,确定用于提供空间音频再现的至少一个空间音频参数,该至少一个空间音频参数包括具有仰角和方位角分量的方向参数;定义通过用多个较小球体覆盖球体而生成的球体网格,其中,多个较小球体的中心定义球体网格的点;以及基于所定义的球体网格,将方向参数的仰角和方位角分量转换成索引值。

Description

确定空间音频参数编码和相关联的解码
技术领域
本申请涉及用于与声场相关的参数编码的装置和方法,但不仅仅用于针对音频编码器和解码器的与时频域方向相关的参数编码。
背景技术
参数空间音频处理是音频信号处理的一个领域,其中,使用一组参数来描述声音的空间方面。例如,在从麦克风阵列进行参数空间音频捕获时,根据麦克风阵列信号估计一组参数(诸如声音在频带中的方向、以及所捕获的声音在频带中的定向部分与非定向部分之间的比率)是典型且有效的选择。已知这些参数很好地描述了所捕获的声音在麦克风阵列的位置处的感知空间特性。因此,这些参数可于空间声音的合成,用于双耳式耳机、用于扬声器、或者其他格式,例如环绕立体声(Ambisonics)。
因此,在频带中的方向和直接与总体能量比(direct-to-total energy ratio)是对空间音频捕获特别有效的参数化。
包括频带中的方向参数和频带中的能量比参数(指示声音的方向性)的参数集也可以用作音频编解码器的空间元数据。例如,这些参数可根据麦克风阵列所捕获的音频信号来估计,并且例如立体声信号可从麦克风阵列信号生成以与空间元数据一起传送。立体声信号可以例如用AAC编码器来编码。解码器可以将音频信号解码为PCM信号,并(使用空间元数据)处理频带中的声音以获得空间输出,例如双耳输出。
前述的解决方案特别适合于编码从麦克风阵列(例如,在移动电话、VR相机、独立麦克风阵列中)捕获的空间声音。但是,可能期望这种编码器还具有除了麦克风阵列捕获的信号以外的其他输入类型,例如扬声器信号、音频对象信号或环绕立体声信号。
分析一阶环绕立体声(FOA)输入以用于空间元数据提取已在与定向音频编码(DirAC)和谐波平面波展开(Harpex)有关的科学文献中被详尽地记载。这是因为存在直接提供FOA信号(更准确地:其变体,即B格式信号)的麦克风阵列,因此分析这种输入已成为该领域的研究重点。
编码器的另一个输入也是多通道扬声器输入,例如5.1或7.1通道环绕声输入。
然而,关于元数据的方向分量(其可包括产生的方向的仰角、方位角(和扩散性)),对于每个所考虑的时间/频率子带,沿着方位角和仰角分量单独(当这两个参数被单独添加到元数据时)实现统一粒度的量化和/或编码可导致量化和编码状态的分布不均。例如,针对这两者的统一方法分别导致越接近方向球体的“极点”(换句话说,在轨迹或参考位置的正上方或正下方)密度越高的编码方案。
发明内容
提供了一种用于空间音频信号编码的装置,该装置包括至少一个处理器和包括计算机程序代码的至少一个存储器,该至少一个存储器和该计算机程序代码被配置为与该至少一个处理器一起使该装置至少:对于两个或更多个音频信号,确定至少一个用于提供空间音频再现的空间音频参数,至少一个空间音频参数包括具有仰角和方位角分量的方向参数;定义通过用多个较小球体覆盖球体而生成的球体网格,其中,多个较小球体的中心定义球体网格的点;以及基于所定义的球体网格,将方向参数的仰角和方位角分量转换成索引值。
被促使以定义通过用多个较小球体覆盖球体而生成的球体网格,其中,多个较小球体的中心定义球体网格的点的装置进一步被促使以:针对球体的第一横截面圆选择确定数量的较小球体,第一横截面圆由球体的直径定义;以及确定球体的另一数量的横截面圆,并针对球体的另一数量的横截面圆中的每一个横截面圆选择其它数量的较小球体。
由球体的直径定义的第一横截面圆可以是以下之一:球体的赤道;与球体的中心相交的平面;中心与球体相同并且位于球体表面上的任何圆;以及球体的经线。
被促使以定义通过用多个较小球体覆盖球体而生成的球体网格,其中,多个较小球体的中心定义球体网格的点的装置进一步被促使以:定义与第一横截面圆和另一数量的横截面圆相关联的圆索引顺序。
多个较小球体在球体上的间距可相对于多个较小球体是大约等距的。
用于球体的第一横截面圆的确定数量的较小球体以及其它数量的较小球体可以是基于输入量化值来确定的。
被促使以基于所定义的球体网格将方向参数的仰角和方位角分量转换成索引值的装置可以进一步被促使以:基于方向参数的仰角分量的所定义顺序确定横截面圆索引值;基于方向参数的方位角分量,确定圆内索引值;以及基于组合圆内索引值和基于横截面圆索引值的偏移值来生成索引值。
根据第二方面,提供了一种用于空间音频信号解码的装置,该装置包括至少一个处理器和包括计算机程序代码的至少一个存储器,该至少一个存储器和该计算机程序代码被配置为与该至少一个处理器一起促使该装置至少:确定用于提供空间音频再现的与两个或更多个音频信号相关联的至少一个方向索引,至少一个方向索引表示具有仰角和方位角分量的空间参数;确定通过用多个较小球体覆盖球体而生成的球体网格,其中,多个较小球体的中心定义球体网格的点;以及基于所确定的球体网格,将至少一个方向索引转换成方向参数的仰角和方位角分量对索引值的量化仰角和量化方位角表示。
被促使以确定通过用多个较小球体覆盖球体而生成的球体网格,其中,多个较小球体的中心定义球体网格的点的装置可以进一步被促使以:针对球体的第一横截面圆选择确定数量的较小球体,第一横截面圆由球体的直径定义;以及确定球体的另一数量的横截面圆,并针对球体的另一数量的横截面圆中的每一个横截面圆选择其它数量的较小球体。
由球体的直径定义的第一横截面圆可以是以下之一:球体的赤道;与球体的中心相交的平面;中心与球体相同并且位于球体表面上的任何圆;以及球体的经线。
被促使以定义通过用多个较小球体覆盖球体而生成的球体网格,其中,多个较小球体的中心定义球体网格的点的装置可以进一步被促使以:定义与第一横截面圆和另一数量的横截面圆相关联的圆索引顺序。
多个较小球体在球体上的间距可以相对于多个较小球体是大约等距的。
用于球体的第一横截面圆的确定数量的较小球体以及其它数量的较小球体可以是基于输入量化值来确定的。
被促使以基于所确定的球体网格将至少一个方向索引转换成方向参数的仰角和方位角分量对索引值的量化仰角和量化方位角表示的装置可以进一步被促使以:基于索引值确定横截面圆索引值;基于横截面圆索引值确定仰角分量的量化仰角表示;基于在从索引值中除去与横截面圆索引值相关联的偏移之后的剩余索引值来生成方位角分量的量化方位角表示。
根据第三方面,提供了一种用于空间音频信号编码的方法,该方法包括:对于两个或更多个音频信号,确定用于提供空间音频再现的至少一个空间音频参数,至少一个空间音频参数包括具有仰角和方位角分量的方向参数;定义通过用多个较小球体覆盖球体而生成的球体网格,其中,多个较小球体的中心定义球体网格的点;以及基于所定义的球体网格将方向参数的仰角和方位角分量转换成索引值。
定义通过用多个较小球体覆盖一个球体而生成的球体网格,其中,多个较小球体的中心定义球体网格的点可包括:针对球体的第一横截面圆选择确定数量的较小球体,第一横截面圆由球体的直径定义;以及确定球体的另一数量的横截面圆,并针对球体的另一数量的横截面圆中的每一个横截面圆选择其它数量的较小球体。
由球体的直径定义的第一横截面圆可以是以下之一:球体的赤道;与球体的中心相交的平面;中心与球体相同并且位于球体表面上的任何圆;以及球体的经线。
定义通过用多个较小球体覆盖球体而生成的球体网格,其中,多个较小球体的中心定义球体网格的点可包括:定义与第一横截面圆和另一数量的横截面圆相关联的圆索引顺序。
多个较小球体在球体上的间距可以相对于多个较小球体是大约等距的。
用于球体的第一横截面圆的确定数量的较小球体以及其它数量的较小球体可以是基于输入量化值来确定的。
基于所定义的球体网格将方向参数的仰角和方位角分量转换成索引值可以进一步包括:基于方向参数的仰角分量的所定义顺序,确定横截面圆索引值;基于方向参数的该方位角分量,确定圆内索引值;以及基于组合圆内索引值和基于横截面圆索引值的偏移值来生成索引值。
根据第四方面,提供了一种用于空间音频信号解码的方法,该方法包括:确定用于提供空间音频再现的与两个或更多个音频信号相关联的至少一个方向索引,至少一个方向索引表示具有仰角和方位角分量的空间参数;确定通过用多个较小球体覆盖球体而生成的球体网格,其中,多个较小球体的中心定义球体网格的点;以及基于所确定的球体网格,将至少一个方向索引转换成方向参数的仰角和方位角分量对索引值的量化仰角和量化方位角表示。
确定通过用多个较小球体覆盖球体而生成的球体网格,其中,多个较小球体的中心定义球体网格的点可以进一步包括:针对球体的第一横截面圆选择确定数量的较小球体,第一横截面圆由该球体的直径定义;以及确定球体的另一数量的横截面圆,并针对球体的另一数量的横截面圆中的每一个横截面圆选择其它数量的较小球体。
由球体的直径定义的第一横截面圆可以是以下之一:球体的赤道;与球体的中心相交的平面;中心与该体相同并且位于球体表面上的任何圆;以及球体的经线。
定义通过用多个较小球体覆盖球体而生成的球体网格,其中,多个较小球体的中心定义球体网格的点可以进一步包括:定义与第一横截面圆和另一数量的横截面圆相关联的圆索引顺序。
多个较小球体在球体上的间距可以相对于多个较小球体是大约等距的。
用于球体的第一横截面圆的确定数量的较小球体以及其它数量的较小球体可以是基于输入量化值来确定的。
基于所确定的球体网格将至少一个方向索引转换成方向参数的仰角和方位角分量对索引值的量化仰角和量化方位角表示可以进一步包括:基于索引值确定横截面圆索引值;基于横截面圆索引值确定仰角分量的量化仰角表示;基于在从索引值中除去与横截面圆索引值相关联的偏移之后的剩余索引值,生成方位角分量的量化方位角表示。
根据第五方面,提供了一种用于空间音频信号编码的装置,该装置包括:用于对于两个或更多个音频信号确定用于提供空间音频再现的至少一个空间音频参数的装置,至少一个空间音频参数包括具有仰角和方位角分量的方向参数;用于定义通过用多个较小球体覆盖球体而生成的球体网格,其中,多个较小球体的中心定义球体网格的点的装置;以及用于基于所定义的球体网格将方向参数的仰角和方位角分量转换成索引值的装置。
所述用于定义通过用多个较小球体覆盖球体而生成的球体网格,其中,多个较小球体的中心定义球体网格的点的装置可以包括:用于针对球体的第一横截面圆选择确定数量的较小球体的装置,第一横截面圆由球体的直径定义;以及用于确定球体的另一数量的横截面圆并针对球体的另一数量的横截面圆中的每一个横截面圆选择其它数量的较小球体的装置。
由球体的直径定义的第一横截面圆可以是以下之一:球体的赤道;中心与球体相同并且位于球体表面上的任何圆;以及球体的经线。
用于定义通过用多个较小球体覆盖球体而生成的球体网格,其中,所述较小球体的中心定义所述球体网格的点的装置可以包括:用于定义与第一横截面圆和另一数量的横截面圆相关联的圆索引顺序的装置。
多个较小球体在球体上的间距可以相对于多个较小球体是大约等距的。
用于球体的第一横截面圆的确定数量的较小球体以及其它数量的较小球体可以是基于输入量化值来确定的。
用于基于所定义的球体网格将方向参数的仰角和方位角分量转换成索引值的装置可以进一步包括:用于基于方向参数的仰角分量的所定义顺序确定横截面圆索引值的装置;用于基于方向参数的方位角分量确定圆内索引值的装置;以及用于基于组合圆内索引值和基于横截面圆索引值的偏移值来生成索引值的装置。
根据第六方面,提供了一种用于空间音频信号解码的装置,该装置包括:用于确定用于提供空间音频再现的与两个或更多个音频信号相关联的至少一个方向索引的装置,至少一个方向索引表示具有仰角和方位角分量的空间参数;用于确定通过用多个较小球体覆盖球体而生成的球体网格,其中,多个较小球体的中心定义球体网格的点的装置;以及用于基于所确定的球体网格,将至少一个方向索引转换成方向参数的仰角和方位角分量对索引值的量化仰角和量化方位角表示的装置。
用于确定通过用多个较小球体覆盖球体而生成的球体网格,其中,多个较小球体的中心定义球体网格的点的装置可以包括:用于针对球体的第一横截面圆选择确定数量的较小球体的装置,第一横截面圆由球体的直径定义;以及用于确定球体的另一数量的横截面圆并针对球体的另一数量的横截面圆中的每一个横截面圆选择其它数量的较小球体的装置。
由球体的直径定义的第一横截面圆可以是以下之一:球体的赤道;中心与该球体相同的并且位于球体表面上的任何圆;以及球体的经线。
用于确定通过用多个较小球体覆盖球体而生成的球体网格,其中,多个较小球体的中心定义球体网格的点的装置可以进一步包括:用于定义与第一横截面圆和另一数量的横截面圆相关联的圆索引顺序的装置。
多个较小球体在球体上的间距可以相对于多个较小球体是大约等距的。
用于球体的第一横截面圆的确定数量的较小球体以及其它数量的较小球体可以是基于输入量化值来确定的。
用于基于所确定的球体网格将至少一个方向索引转换成方向参数的仰角和方位角分量对索引值的量化仰角和量化方位角表示的装置还可以包括:用于基于索引值确定横截面圆索引值的装置;用于基于横截面圆索引值确定仰角分量的量化仰角表示的装置;用于基于在从索引值中除去与横截面圆索引值相关联的偏移之后的剩余索引值来生成方位角分量的量化方位角表示的装置。
一种装置,包括用于执行如上所述的方法的动作的装置。
一种装置,被配置为执行如上所述的方法的动作。
一种计算机程序,包括用于使计算机执行如上所述的方法的程序指令。
一种被存储在介质上的计算机程序产品可以使装置执行本文所述的方法。
一种电子设备可以包括如本文所述的装置。
一种芯片组可包括本文所述的装置。
本申请的实施例旨在解决与现有技术相关联的问题。
附图说明
为了更好地理解本申请,现在将通过示例的方式参考附图,其中:
图1示意性地示出适于实现一些实施例的装置的***;
图2示意性地示出根据一些实施例的如图1所示的分析处理器;
图3a示意性地示出根据一些实施例的如图1所示的元数据编码器/量化器;
图3b示意性地示出根据一些实施例的如图1所示的元数据提取器;
图3c至3e示意性地示出根据一些实施例的如在图3a和3b所示的元数据编码器/量化器和元数据提取器中使用的示例性球***置配置;
图4示出根据一些实施例的如图1所示的***的操作的流程图;
图5示出根据一些实施例的如图2所示的分析处理器的操作的流程图;
图6更详细地示出基于输入方向参数来生成方向索引的流程图;
图7更详细地示出从方向参数转换方向索引的示例操作的流程图;
图8更详细地示出基于输入方向索引来生成量化方向参数的流程图;
图9更详细地示出从方向索引转换量化方向参数的示例操作的流程图;以及
图10示意性地示出适于实现所示装置的示例设备。
具体实施方式
下面进一步详细描述用于针对多通道输入格式音频信号提供有效的空间分析导出的元数据参数的合适装置和可能的机制。在下面的讨论中,针对多通道麦克风实现来讨论多通道***。但是,如上所述,输入格式可以是任何合适的输入格式,诸如多通道扬声器、环绕立体声(FOA/HOA)等。应当理解,在一些实施例中,通道位置是基于麦克风的位置或者是虚拟位置或方向。此外,示例***的输出是多通道扬声器装置。然而,应当理解,输出可以经由除了扬声器以外的装置被提供给用户。此外,多通道扬声器信号可被概括为两个或更多个回放音频信号。
如前所述,空间元数据参数,例如频带中的方向参数和直接与总体能量比(或扩散比、绝对能量、或指示声音在给定时频间隔处的方向性/非方向性的任何合适的表达)参数,特别适合于表达自然声场的感知特性。诸如5.1扬声器混音之类的合成声音场景通常利用音频效果和幅度平移方法,这些音频效果和幅度平移方法提供不同于在自然声场中出现的声音的空间声音。特别地,可配置5.1或7.1混音,以使得它包含从多个方向播放的相干声音。例如,通常在正面直接感知的5.1混音的某些声音并不是由中央(通道)扬声器产生的,而是例如从左前方和右前方(通道)扬声器相干地产生的,并且也可能是从中央(通道)扬声器。空间元数据参数(例如方向和能量比)没有准确地表达这种空间相干特征。这样,可以根据音频信号的分析来确定诸如相干性参数的其他元数据参数,以表达通道之间的音频信号关系。
如上所述,在元数据中并入方向信息的示例是使用确定的方位角值和仰角值。但是,传统的均匀方位角和仰角采样会产生不均匀的方向分布。
因此,该概念尝试确定用于空间元数据的方向参数,并基于方向的基于实际球体覆盖的分布来索引该参数,以便定义更均匀的方向分布。
然后,所提出的元数据索引可与下混音信号(“通道”)一起使用,以定义可用于例如IVAS编解码器的参数沉浸式格式。可替代地并且附加地,可在编解码器中使用球体网格格式来量化方向。
该概念还讨论了对这样索引的方向参数的解码以产生量化方向参数,该量化方向参数可用在基于声场相关的参数化(频带中的方向和比率)的空间音频合成中。
关于图1,示出了用于实现本申请的实施例的示例装置和***。所示的***100具有“分析”部121和“合成”部131。“分析”部121是从接收多通道扬声器信号直到对元数据和下混音信号进行编码的部分,“合成”部131是从对元数据和下混音信号进行解码到呈现重新生成的信号(例如,以多通道扬声器形式)的部分。
对***100和“分析”部121的输入是多通道信号102。在以下示例中,描述了麦克风通道信号输入,但是在其他实施例中可以实现任何合适的输入(或合成的多通道)格式。
多通道信号被传递到下混音器103和分析处理器105。
在一些实施例中,下混音器103被配置为接收多通道信号,并且将信号下混音到确定数量的通道,并输出下混音信号104。例如,下混音器103可被配置为生成多通道信号的2音频通道下混音。确定数量的通道可以是任何合适数量的通道。在一些实施例中,下混音器103是可选的,并且多通道信号以与下混音信号在该示例中相同的方式未被处理地传递到编码器107。
在一些实施例中,分析处理器105还被配置为接收多通道信号并分析信号,以产生与多通道信号相关联并因此与下混音信号104相关联的元数据106。分析处理器105可被配置为生成元数据,对于每个时频分析间隔,该元数据可包括方向参数108、能量比参数110、相干性参数112和扩散性参数114。在一些实施例中,方向参数、能量比参数和扩散性参数可被认为是空间音频参数。换句话说,空间音频参数包括旨在表征由多通道信号(或者通常两个或更多个回放音频信号)创建的声场的参数。相干性参数可被认为是旨在表征多通道信号之间的关系的信号关系音频参数。
在一些实施例中,所生成的参数可根据频带的不同而不同。因此,例如,在频带X中,生成并发送所有的参数,而在频带Y中,仅生成并发送其中一个参数,此外,在频带Z中,没有生成或发送参数。这种的一个实际示例可以是对于某些频带,诸如最高频带,出于感知原因,并不需要某些参数。下混音信号104和元数据106可被传递到编码器107。
编码器107可包括NAS立体声核109,其被配置为接收下混音(或其他)信号104并生成这些音频信号的适当编码。在一些实施例中,编码器107可以是计算机(运行在存储器和至少一个处理器上存储的合适软件),或者可替代地是利用例如FPGA或ASIC的特定设备。编码可以使用任何合适的方案来实现。编码器107还可包括元数据编码器或量化器109,其被配置为接收元数据并输出信息的编码或压缩形式。在一些实施例中,在图1中虚线所示的传输或存储之前,编码器107可进一步将元数据交织、复用到单个数据流或者将元数据嵌入被编码的下混音信号内。复用可以使用任何合适的方案来实现。
在解码器侧,所接收的或取得的数据(流)可由解码器/解复用器133接收。解码器/解复用器133可对编码流进行解复用,并将音频编码流传递到下混音提取器135,下混音提取器135被配置为对音频信号进行解码以获得下混音信号。类似地,解码器/解复用器133可包括元数据提取器137,其被配置为接收编码元数据并生成元数据。在一些实施例中,解码器/解复用器133可以是计算机(运行在存储器和至少一个处理器上存储的合适的软件),或者可替代地是例如利用FPGA或ASIC的特定设备。
被解码的元数据和下混音音频信号可被传递到合成处理器139。
***100的“合成”部131还示出了合成处理器139,其被配置为接收下混音和元数据,并基于下混音信号和元数据采用任何合适的格式重新创建采用多通道信号110形式的合成空间音频(多通道信号可以是多通道扬声器格式,或者在一些实施例中是任何合适的输出格式,诸如双耳信号或环绕立体声信号,这取决于使用情况)。
关于图4,示出了图1所示的概述的示例流程图。
首先,***(分析部)被配置为接收多通道音频信号,如图4中步骤401所示。
然后,***(分析部)被配置为生成多通道信号的下混音,如图4中步骤403所示。
***(分析部)还被配置为分析信号以生成元数据,诸如方向参数;能量比参数;扩散性参数和相干性参数,如图4中步骤405所示。
然后,***被配置为对下混音信号和元数据进行编码以用于存储/传输,如图4中步骤407所示。
此后,***可存储/发送被编码的下混音和元数据,如图4中步骤409所示。
***可取得/接收被编码的下混音和元数据,如图4中步骤411所示。
然后,***被配置为从被编码的下混音和元数据参数中提取下混音和元数据,例如,对被编码的下混音和元数据参数进行解复用和解码,如图4中步骤413所示。
***(合成部)被配置为基于所提取的多通道音频信号的下混音和具有相干性参数的元数据来合成输出多通道音频信号,如图4中步骤415所示。
关于图2,进一步详细描述了根据一些实施例的示例分析处理器105(如图1所示)。在一些实施例中,分析处理器105包括时频域变换器201。
在一些实施例中,时频域变换器201被配置为接收多通道信号102,并将适当的时间应用于频域变换,例如短时傅立叶变换(STFT),以便将输入时域信号转换成合适的时频信号。这些时频信号可以被传递到方向分析器203和信号分析器205。
因此,例如,时频信号202可以在时频域表示中被表示为
si(b,n),
其中,b是频点(frequency bin)索引,n是帧索引,i是通道索引。在另一种表达中,n可被认为是采样率比原始时域信号的采样率低的时间索引。这些频点可被分组成多个子带,这些子带将一个或多个频点分组成频带索引k=0,…,K-1。每个子带k具有最低频点bk,low和最高频点bk,high,并且子带包含从bk,low到bk,high的所有频点。子带的宽度可近似任何合适的分布。例如,等效矩形带宽(ERB)尺度或Bark尺度。
在一些实施例中,分析处理器105包括方向分析器203。方向分析器203可被配置为接收时频信号202,并且基于这些信号来估计方向参数108。方向参数可基于任何基于音频的“方向”确定来确定。
例如,在一些实施例中,方向分析器203被配置为用两个或更多个信号输入来估计方向。这表示最简单的估计“方向”的配置,可以用甚至更多的信号来执行更复杂的处理。
因此,方向分析器203可被配置为针对每个频带和时间帧提供方位角,其被标示为方位角和仰角θ(k,n)。方向参数108也可被传递到信号分析器205。
在一些实施例中,除了方向参数之外,方向分析器203还被配置为确定能量比参数110。能量比可被认为是对可被认为是从一个方向到达的音频信号的能量的确定。直接与总体能量比r(k,n)可例如使用定向估计的稳定性度量、或使用获得比率参数的任何相关度量或任何其他合适的方法来估计。
所估计的方向参数108可以被输出(并被传递到编码器)。所估计的能量比参数110可被传递到信号分析器205。
在一些实施例中,分析处理器105包括信号分析器205。信号分析器205被配置为从方向分析器203接收参数(例如,方位角和仰角θ(k,n)108,以及直接与总体能量比r(k,n)110)。信号分析器205可进一步被配置为从时频域变换器201接收时频信号(si(b,n))202。所有这些都在时频域中,b是频点索引,k是频带索引(每个频带可能包括若干频点b),n是时间索引,i是通道。
尽管在此针对每个时间索引n表达了方向和比率,但是在一些实施例中,可以在多个时间索引上组合这些参数。这同样适用于频率轴,正如已经表达的,多个频点b的方向可由在包括多个频点b的频带k中的一个方向参数表达。这同样适用于在此讨论的所有空间参数。
信号分析器205被配置为产生多个信号参数。在以下公开中,存在两个参数:相干性和扩散性,这两者均在时频域中进行分析。另外,在一些实施例中,信号分析器205被配置为修改所估计的能量比(r(k,n))。信号分析器205被配置为基于任何合适的已知方法来生成相干性参数和扩散性参数。
关于图5,示出了总结分析处理器105的操作的流程图。
第一操作是接收时域多通道(扬声器)音频信号,如图5的步骤501所示。
接下来,应用时域到频域变换(例如STFT)以生成合适的时频域信号以用于分析,如图5的步骤503所示。
然后,应用方向分析以确定方向参数和能量比参数,如图5的步骤505所示。
然后,应用分析以确定相干性参数(诸如环绕和/或扩展相干性参数)和扩散性参数,如图5的步骤507所示。在一些实施例中,在该步骤中还可以基于所确定的相干性参数来修改能量比。
最终的操作是输出所确定的参数,如图5的步骤509所示。
关于图3a,示出了根据一些实施例的示例性元数据编码器,具体地是方向元数据编码器300。
在一些实施例中,方向元数据编码器300包括量化输入302。量化输入(也可以被称为编码输入)被配置为定义在参考位置周围布置的球体的粒度,可根据该粒度确定方向参数。在一些实施例中,量化输入是预先定义的值或固定值。
在一些实施例中,方向元数据编码器300包括球体***303。球体***被配置为基于量化输入值来配置球体的布置。所提出的球体网格使用如下想法:用多个较小球体覆盖球体,并将多个较小球体的中心视为定义几乎等距方向的网格的点。
在此所示的概念是相对于参考位置来定义球体。球体可被可视化为一系列圆(或相交),并且对于每个圆相交,在圆的圆周处有定义数量的(较小)球体。例如,关于图3c至3e示出了这一点。例如,图3c示出了示例“赤道横截面”或第一主圆370,其半径被定义为“主球体半径”。图3c中还显示了较小球体(被显示为圆横截面)371、373、375、377和379,其位置使得每个较小球体的圆周在某一点处与主球体圆周接触,并且至少一个另一点接触至少一个另一较小球体圆周。因此,如图3c所示,较小球体371接触主球体370和较小球体373,较小球体373接触主球体370和较小球体371、375,较小球体375接触主球体370和较小球体373、377,较小球体377接触主球体370和较小球体375、379,较小球体379接触主球体370和较小球体377。
图3d示出了示例性的“热带横截面”或另一主圆380以及较小球体(被显示为圆横截面)381、383、385,其位置使得每个较小球体的圆周在某一点处接触主球体(圆形)圆周,并且至少一个另一接触至少一个另一较小球体圆周。因此,如图3d所示,较小球体381接触主球体380和较小球体383,较小球体383接触主球体380和较小球体381、385,较小球体385接触主球体380和较小球体383。
图3e示出了示例性球体、横截面370、380、与横截面370相关联的较小球体(横截面)371、与横截面380相关联的较小球体381、以及其他较小球体392、393、394、395、397、398。在此示例中,仅绘制了开始方位角值为0的圆。
因此,在一些实施例中,球体***303被配置为执行以下操作以定义与覆盖球体相对应的方向:
输入:量化输入(在“赤道”上的点数量,n(0)=M)
输出:圆数量Nc,以及在每个圆上的点数量n(i),i=0,Nc-1
步骤5也可以被替换为其中,因数k控制沿仰角的点的分布。对于k=4,[VA(1)][GS2]仰角分辨率约为1度。对于较小的k,分辨率相应地也较小。
在圆i上的每个点的仰角由θ(i)中的值给出。对于在赤道上方的每个圆,在赤道下方都有对应的圆。
在一个圆上的每个方向点都可以相对于方位角按升序来索引。在每个圆上的第一点的索引由偏移给出,该偏移可从每个圆上的点数量n(i)推导出。为了获得偏移,对于所考虑的圆顺序,偏移被计算为针对给定顺序在圆上的累积点数量,从值0开始作为第一偏移。
一个可能的圆顺序可以从赤道开始,然后是在赤道上方的第一个圆,然后是在赤道下方的第一个圆,在赤道上方的第二个圆,依此类推。
另一选项是按替代顺序从赤道开始,然后是在赤道上方大约45度仰角的圆,然后是在赤道下方的对应圆,然后是其余圆。这样,对于扬声器的一些更简单的定位,仅使用第一个圆,从而减少发送信息的比特数。
在其他实施例中,其他的圆顺序也是可能的。
在一些实施例中,球体网格也可以通过考虑经线0代替赤道或者任何其他经线来生成。
已确定了圆数量Nc、在每个圆上的点数量n(i),i=0,Nc-1和索引顺序的球体***可被配置为将该信息传递给EA到DI转换器305。
在一些实施例中,方向元数据编码器300包括方向参数输入108。方向参数输入可定义仰角和方位角值D=(θ,φ)。[VA(3)][GS4]
以下各段落提供了从(仰角/方位角)(EA)到方向索引(DI)并返回的变换过程。在此考虑替代的圆顺序。
方向元数据编码器300包括仰角-方位角到方向索引(EA-DI)转换器305。在一些实施例中,仰角-方位角到方向索引转换器305被配置为接收方向参数输入108和球体***信息,并将来自方向参数输入108的仰角-方位角值转换成方向索引以输出。
在一些实施例中,仰角-方位角到方向索引(EA-DI)转换器305被配置为根据以下算法来执行该转换:
输入:
输出:Id
对于给定的Nc值,沿仰角p的粒度是已知的。这些值θ,φ来自与索引方向对应的一组离散值。在每个圆上的点数量和对应的偏移off(i)是已知的。
1.寻找圆索引
2.寻找在圆i内的方位角的索引:其中/>
3.方向索引是Id=off(i)+j
方向索引Id 306可被输出。
关于图6,示出了根据一些实施例的用于生成方向索引的示例方法。
如图6的步骤601所示,接收量化输入。
然后,该方法可以基于量化输入来确定球体定位,如图6的步骤603所示。
该方法也可以包括接收方向参数,如图6的步骤602所示。
在接收了方向参数和球体定位信息之后,该方法可以包括基于球体定位信息来将方向参数转换为方向索引,如图6的步骤605所示。
然后,该方法可以输出方向索引,如图6的步骤607所示。
关于图7,示出了根据一些实施例的用于将仰角-方位角转换为方向索引(EA-DI)的示例方法,如图6的步骤605所示。
该方法开始于从仰角值θ中寻找圆索引i,如图7的步骤701所示。
在确定了圆索引之后,基于方位角值φ寻找方位角的索引,如图7的步骤703所示。
在确定了圆索引i和方位角的索引之后,通过将方位角的索引的值加上与圆索引相关联的偏移来确定方向,如图7的步骤705所示。
关于图3b,示出了根据一些实施例的示例元数据提取器137,具体地,是方向元数据提取器350。
在一些实施例中,方向元数据提取器350包括量化输入352。在一些实施例中,这是从元数据编码器传递来的,或者是另外与编码器协商的。量化输入被配置为定义在参考位置周围布置的球体的粒度。
在一些实施例中,方向元数据提取器350包括方向索引输入351。这可以从编码器接收或通过任何合适方式来取得。
在一些实施例中,方向元数据提取器350包括球体***353。球体***353被配置为接收量化输入作为输入,并以与在编码器中生成的方式相同的方式生成球体布置。在一些实施例中,量化输入和球体***353是可选的,并且球体信息的布置从编码器传递而不是在提取器中生成。
方向元数据提取器350包括方向索引到仰角-方位角(DI-EA)转换器355。方向索引到仰角-方位角转换器355被配置为接收方向索引以及球***置信息,并生成近似的或量化的仰角-方位角输出。在一些实施例中,根据以下算法执行转换。
输入:Id
输出:(θ,φ)
1.寻找圆索引i,以使得off(i)≤Id≤off(i+1)
2.计算在半球体中的圆索引:
3./>
4.
关于图8,示出了根据一些实施例的用于提取方向参数(或生成量化方向参数)的示例方法。
接收量化输入,如图8的步骤801所示。
然后,该方法可以基于量化输入来确定球体定位,如图8的步骤803所示。
该方法也可包括接收方向索引,如图8的步骤802所示。
在接收了方向索引和球体定位信息后,该方法可以包括基于球体定位信息来将方向索引转换成采用量化方向参数形式的方向参数,如图8的步骤805所示。
然后,该方法可以输出量化方向参数,如图8的步骤807所示。
关于图9,示出了根据一些实施例的用于将方向索引转换成量化仰角-方位角(DI-EA)参数的示例方法,如图8的步骤805所示。
在一些实施例中,该方法包括寻找圆索引值i,以使得off(i)≤Id≤off(i+1),如图9的步骤901所示。
在确定了圆索引之后,下一个操作是根据球体定位信息来计算在半球体中的圆索引,如图9的步骤903所示。
然后,基于圆索引来确定量化仰角,如图9的步骤905所示。
在确定了量化仰角后,基于圆索引和仰角信息来确定量化方位角,如图9的步骤907所示。
尽管在整个文档中没有重复,但应理解,空间音频处理(通常地和在此上下文中两者)在频带中进行。这些频带可以例如是时频变换的频点或者是组合多个频点的频带。组合可以使得近似人类听力的特性,例如Bark频率分辨率。换句话说,在某些情况下,可以在组合了多个频点b和/或时间索引n的时频区域中测量和处理音频。为了简化,这些方面未被以上所有等式表达。在组合许多时频样本的情况下,通常针对该时频区域估计一组参数,例如一个方向,然后根据该组参数(例如,一个方向参数)来合成在该区域内的所有时频样本。
针对参数分析使用与所应用的滤波器组的频率分辨率不同的频率分辨率是空间音频处理***中的一种典型方法。
关于图10,示出了可用作分析或合成设备的示例电子设备。该设备可以是任何合适的电子设备或装置。例如,在一些实施例中,设备1400是移动设备、用户设备、平板计算机、计算机、音频回放装置等。
在一些实施例中,设备1400包括至少一个处理器或中央处理单元1407。处理器1407可以被配置为执行各种程序代码,诸如本文所述的方法。
在一些实施例中,设备1400包括存储器1411。在一些实施例中,至少一个处理器1407被耦合到存储器1411。存储器1411可以是任何合适的存储装置。在一些实施例中,存储器1411包括用于存储可在处理器1407上实现的程序代码的程序代码部分。此外,在一些实施例中,存储器1411可进一步包括用于存储数据(例如根据本文所述的实施例已被处理或将要被处理的数据)的存储数据部分。只要需要,处理器1407就可以通过存储器-处理器耦合来取得在程序代码部分中存储的所实现的程序代码和在存储数据部分中存储的数据。
在一些实施例中,设备1400包括用户接口1405。在一些实施例中,用户接口1405可以被耦合到处理器1407。在一些实施例中,处理器1407可以控制用户接口1405的操作并从用户接口1405接收输入。在一些实施例中,用户接口1405可以使用户能够例如经由小键盘将命令输入到设备1400。在一些实施例中,用户接口1405可以使用户能够从设备1400获得信息。例如,用户接口1405可以包括被配置为将从来自设备1400的信息显示给用户的显示器。在一些实施例中,用户接口1405可以包括触摸屏或触摸接口,其能够使信息能够被输入到设备1400中并还向设备1400的用户显示信息。在一些实施例中,用户接口1405可以是用于与如本文所述的位置确定器进行通信的接口。
在一些实施例中,设备1400包括输入/输出端口1409。在一些实施例中,输入/输出端口1409包括收发机。在这样的实施例中,收发机可以被耦合到处理器1407,并且被配置为使得能够例如经由无线通信网络来与其他装置或电子设备进行通信。在一些实施例中,收发机或任何合适的收发机或发射机和/或接收机装置可以被配置为经由有线耦合与其他电子设备或装置进行通信。
收发机可以通过任何合适的已知通信协议与另外的装置通信。例如,在一些实施例中,收发机或收发机装置可以使用适当的通用移动电信***(UMTS)协议、诸如例如IEEE802.X的无线局域网(WLAN)协议、诸如蓝牙的适当的短距射频通信协议、或红外数据通信路径(IRDA)。
收发机输入/输出端口1409可以被配置为接收信号,并且在一些实施例中,通过使用处理器1407执行合适的代码来确定如本文所述的参数。此外,设备可以生成适当的下混音信号和参数输出以发送到合成设备。
在一些实施例中,设备1400可以用作合成设备的至少一部分。这样,输入/输出端口1409可以被配置为接收下混音信号以及在一些实施例中如本文所述的在捕获设备或处理设备处确定的参数,并通过使用处理器1407执行合适的代码来生成合适的音频信号格式输出。输入/输出端口1409可以被耦合到任何合适的音频输出,例如多通道扬声器***和/或耳机或类似物。
通常,本发明的各种实施例可以采用硬件或专用电路、软件、逻辑或其任何组合来实现。例如,一些方面可以采用硬件来实现,而其他方面可以采用可由控制器、微处理器或其他计算设备执行的固件或软件来实现,但是本发明不限于此。尽管本发明的各个方面可以被图示和描述为框图、流程图或使用一些其他图形表示,但是应当理解,本文所述的这些框、装置、***、技术或方法可以采用(作为非限制性示例)硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备、或其某种组合实现。
本发明的实施例可以由计算机软件来实现,该计算机软件可由移动设备的数据处理器(例如在处理器实体中)执行、或者由硬件执行、或者由软件和硬件的组合执行。进一步地,在这一点上应当注意,如图中的逻辑流程的任何框可以表示程序步骤、或者互连的逻辑电路、框和功能、或者程序步骤和逻辑电路、框和功能的组合。该软件可以被存储在诸如存储器芯片或在处理器内实现的存储器块之类的物理介质、诸如硬盘或软盘之类的磁性介质、以及诸如DVD及其数据变体、CD之类的光学介质上。
存储器可以是适合于本地技术环境的任何类型,并且可以使用任何合适的数据存储技术来实现,例如基于半导体的存储设备、磁存储设备和***、光学存储设备和***、固定存储器和可移除存储器。数据处理器可以是适合本地技术环境的任何类型,并且可以包括通用计算机、专用计算机、微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、门级电路、以及基于多核处理器架构的处理器中的一个或多个,作为非限制性示例。
本发明的实施例可以在诸如集成电路模块的各种组件中实践。集成电路的设计总体上是高度自动化的过程。复杂而功能强大的软件工具可用于将逻辑级设计转换为易于在半导体衬底上蚀刻和形成的半导体电路设计。
程序(例如由加利福尼亚州山景城的Synopsys公司和加利福尼亚州圣何塞的Cadence Design提供的程序)将使用完善的设计规则以及预存储的设计模块库自动对导体进行布线并在半导体芯片上定位组件。一旦完成了半导体电路的设计,就可以将标准化电子格式(例如,Opus、GDSII等)的所得设计传送到半导体制造设施或“工厂(fab)”进行制造。
前面的描述已经通过示例性和非限制性示例提供了本发明示例性实施例的完整和有益的描述。然而,当结合附图和所附权利要求书阅读时,鉴于前面的描述,各种修改和变型对于相关领域的技术人员而言将变得显而易见。然而,本发明的教导的所有这些和类似的修改仍将落入所附权利要求书所定义的本发明的范围内。

Claims (28)

1.一种用于空间音频信号编码的装置,所述装置包括:
用于对于两个或更多个音频信号,确定用于提供空间音频再现的至少一个空间音频参数的装置,所述至少一个空间音频参数包括具有仰角和方位角分量的方向参数;
用于定义通过用多个较小球体覆盖球体而生成的球体网格的装置,其中,所述多个较小球体的每一个小于所述球体,并且其中,所述多个较小球体的中心定义所述球体网格的点;以及
用于基于所定义的球体网格来将所述方向参数的所述仰角和方位角分量转换成索引值的装置。
2.根据权利要求1所述的装置,其中,所述定义通过用多个较小球体覆盖球体而生成的球体网格的装置包括:
用于针对所述球体的第一横截面圆选择确定数量的较小球体的装置,其中,所述第一横截面圆由所述球体的直径定义;以及
用于确定所述球体的另一数量的横截面圆,并针对所述球体的所述另一数量的横截面圆中的每一个横截面圆选择其它数量的较小球体的装置。
3.根据权利要求2所述的装置,其中,由所述球体的直径定义的所述第一横截面圆是以下之一:
所述球体的赤道;
中心与所述球体相同并且位于所述球体表面上的任何圆;以及
所述球体的经线。
4.根据权利要求2和3中的任一项所述的装置,其中,用于定义通过用多个较小球体覆盖球体而生成的球体网格的装置包括:用于定义与所述第一横截面圆和所述另一数量的横截面圆相关联的圆索引顺序的装置。
5.根据权利要求2和3中任一项所述的装置,其中,所述多个较小球体在所述球体上的间距相对于所述多个较小球体是等距的。
6.根据权利要求2和3中任一项所述的装置,其中,用于所述球体的第一横截面圆的所述确定数量的较小球体以及其它数量的较小球体是基于输入量化值来确定的。
7.根据权利要求1至3中的任一项所述的装置,其中,用于基于所定义的球体网格来将所述方向参数的所述仰角和方位角分量转换成索引值的装置进一步包括:
用于基于所述方向参数的所述仰角分量的所定义顺序,确定横截面圆索引值的装置;
用于基于所述方向参数的所述方位角分量,确定圆内索引值的装置;以及
用于基于组合所述圆内索引值和基于所述横截面圆索引值的偏移值来生成索引值的装置。
8.一种用于空间音频信号解码的装置,所述装置包括:
用于确定用于提供空间音频再现的与两个或更多个音频信号相关联的至少一个方向索引的装置,所述至少一个方向索引表示具有仰角和方位角分量的方向参数;
用于确定通过用多个较小球体覆盖球体而生成的球体网格的装置,其中,所述多个较小球体的每一个小于所述球体,并且其中,所述多个较小球体的中心定义所述球体网格的点;
用于基于所确定的球体网格,将所述至少一个方向索引转换成所述方向参数的所述仰角和方位角分量的量化仰角和量化方位角表示的装置;以及
用于基于所确定的球体网格,将所述方向参数的所述仰角和方位角分量的所述量化仰角和量化方位角表示转换成索引值的装置。
9.根据权利要求8所述的装置,其中,用于确定通过用多个较小球体覆盖球体而生成的球体网格的装置进一步包括:
用于针对所述球体的第一横截面圆选择确定数量的较小球体的装置,其中所述第一横截面圆由所述球体的直径定义;以及
用于确定所述球体的另一数量的横截面圆,并针对所述球体的所述另一数量的横截面圆中的每一个横截面圆选择其它数量的较小球体的装置。
10.根据权利要求9所述的装置,其中,由所述球体的直径定义的所述第一横截面圆是以下之一:
所述球体的赤道;
中心与所述球体相同并且位于所述球体表面上的任何圆;以及
所述球体的经线。
11.根据权利要求9和10中的任一项所述的装置,其中,用于定义通过用多个较小球体覆盖球体而生成的球体网格的装置包括:用于定义与所述第一横截面圆和所述另一数量的横截面圆相关联的圆索引顺序。
12.根据权利要求9和10中的任一项所述的装置,其中,所述多个较小球体在所述球体上的间距相对于所述多个较小球体是等距的。
13.根据权利要求9和10中的任一项所述的装置,其中,用于所述球体的第一横截面圆的所述确定数量的较小球体以及其它数量的较小球体是基于输入量化值来确定的。
14.根据权利要求8至10中的任一项所述的装置,其中,用于基于所确定的球体网格将所述至少一个方向索引转换成所述方向参数的所述仰角和方位角分量对索引值的量化仰角和量化方位角表示的装置进一步包括:
用于基于所述索引值,确定横截面圆索引值的装置;
用于基于所述横截面圆索引值,确定所述仰角分量的所述量化仰角表示的装置;以及
用于基于在从所述索引值中除去与所述横截面圆索引值相关联的偏移之后的剩余索引值,生成所述方位角分量的所述量化方位角表示的装置。
15.一种用于空间音频信号编码的方法,所述方法包括:
对于两个或更多个音频信号,确定用于提供空间音频再现的至少一个空间音频参数,所述至少一个空间音频参数包括具有仰角和方位角分量的方向参数;
定义通过用多个较小球体覆盖球体而生成的球体网格,其中,所述多个较小球体的每一个小于所述球体,并且其中,所述多个较小球体的中心定义所述球体网格的点;以及
基于所定义的球体网格来将所述方向参数的所述仰角和方位角分量转换成索引值。
16.根据权利要求15所述的方法,其中,定义通过用多个较小球体覆盖球体而生成的球体网格包括:
针对所述球体的第一横截面圆选择确定数量的较小球体,其中,所述第一横截面圆由所述球体的直径定义;以及
确定所述球体的另一数量的横截面圆,并针对所述球体的所述另一数量的横截面圆中的每一个横截面圆选择其它数量的较小球体。
17.根据权利要求16所述的方法,其中,由所述球体的直径定义的所述第一横截面圆是以下之一:
所述球体的赤道;
中心与所述球体相同并且位于所述球体表面上的任何圆;以及
所述球体的经线。
18.根据权利要求16和17中的任一项所述的方法,其中,定义通过用多个较小球体覆盖球体而生成的球体网格包括:定义与所述第一横截面圆和所述另一数量的横截面圆相关联的圆索引顺序。
19.根据权利要求16和17中任一项所述的方法,其中,所述多个较小球体在所述球体上的间距相对于所述多个较小球体是等距的。
20.根据权利要求16和17中的任一项所述的方法,其中,用于所述球体的第一横截面圆的所述确定数量的较小球体以及其它数量的较小球体是基于输入量化值来确定的。
21.根据权利要求15至17中任一项所述的方法,其中,基于所定义的球体网格来将所述方向参数的所述仰角和方位角分量转换成索引值进一步包括:
基于所述方向参数的所述仰角分量的所定义顺序,确定横截面圆索引值;
基于所述方向参数的所述方位角分量,确定圆内索引值;以及
基于组合所述圆内索引值和基于所述横截面圆索引值的偏移值来生成索引值。
22.一种用于空间音频信号解码的方法,所述方法包括:
确定用于提供空间音频再现的与两个或更多个音频信号相关联的至少一个方向索引,所述至少一个方向索引表示具有仰角和方位角分量的方向参数;
确定通过用多个较小球体覆盖球体而生成的球体网格,其中,所述多个较小球体的每一个小于所述球体,并且其中,所述多个较小球体的中心定义所述球体网格的点;
将所述至少一个方向索引转换成所述方向参数的所述仰角和方位角分量的量化仰角和量化方位角表示;以及
基于所确定的球体网格,将所述方向参数的所述仰角和方位角分量的所述量化仰角和量化方位角表示转换成索引值。
23.根据权利要求22所述的方法,其中,确定通过用多个较小球体覆盖球体而生成的球体网格进一步包括:
针对所述球体的第一横截面圆选择确定数量的较小球体,其中,所述第一横截面圆由所述球体的直径定义;以及
确定所述球体的另一数量的横截面圆,并针对所述球体的所述另一数量的横截面圆中的每一个横截面圆选择其它数量的较小球体。
24.根据权利要求23所述的方法,其中,由所述球体的直径定义的所述第一横截面圆是以下之一:
所述球体的赤道;
有中心与所述球体相同并且位于所述球体表面上的任何圆;以及
所述球体的经线。
25.根据权利要求23和24中任一项所述的方法,其中,定义通过用多个较小球体覆盖球体而生成的球体网格进一步包括:定义与所述第一横截面圆和所述另一数量的横截面圆相关联的圆索引顺序。
26.根据权利要求23和24中任一项所述的方法,其中,所述多个较小球体在所述球体上的间距相对于所述多个较小球体是等距的。
27.根据权利要求23和24中任一项所述的方法,其中,用于所述球体的第一横截面圆的所述确定数量的较小球体以及其它数量的较小球体是基于输入量化值来确定的。
28.根据权利要求22至24中任一项所述的方法,其中,基于所确定的球体网格将所述方向参数的所述仰角和方位角分量的所述量化仰角和量化方位角表示转换成索引值进一步包括:
基于所述索引值,确定横截面圆索引值;
基于所述横截面圆索引值,确定所述仰角分量的所述量化仰角表示;以及
基于在从所述索引值中除去与所述横截面圆索引值相关联的偏移之后的剩余索引值,生成所述方位角分量的所述量化方位角表示。
CN201780096600.4A 2017-11-10 2017-11-10 确定空间音频参数编码和相关联的解码 Active CN111316353B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2017/078948 WO2019091575A1 (en) 2017-11-10 2017-11-10 Determination of spatial audio parameter encoding and associated decoding

Publications (2)

Publication Number Publication Date
CN111316353A CN111316353A (zh) 2020-06-19
CN111316353B true CN111316353B (zh) 2023-11-17

Family

ID=60388041

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780096600.4A Active CN111316353B (zh) 2017-11-10 2017-11-10 确定空间音频参数编码和相关联的解码

Country Status (5)

Country Link
US (1) US11328735B2 (zh)
EP (1) EP3707706B1 (zh)
CN (1) CN111316353B (zh)
PL (1) PL3707706T3 (zh)
WO (1) WO2019091575A1 (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3732678B1 (en) 2017-12-28 2023-11-15 Nokia Technologies Oy Determination of spatial audio parameter encoding and associated decoding
GB2572761A (en) 2018-04-09 2019-10-16 Nokia Technologies Oy Quantization of spatial audio parameters
GB2577698A (en) 2018-10-02 2020-04-08 Nokia Technologies Oy Selection of quantisation schemes for spatial audio parameter encoding
WO2020102156A1 (en) 2018-11-13 2020-05-22 Dolby Laboratories Licensing Corporation Representing spatial audio by means of an audio signal and associated metadata
GB2585187A (en) * 2019-06-25 2021-01-06 Nokia Technologies Oy Determination of spatial audio parameter encoding and associated decoding
CN113889125B (zh) * 2021-12-02 2022-03-04 腾讯科技(深圳)有限公司 音频生成方法、装置、计算机设备和存储介质
GB2615607A (en) 2022-02-15 2023-08-16 Nokia Technologies Oy Parametric spatial audio rendering
WO2023179846A1 (en) 2022-03-22 2023-09-28 Nokia Technologies Oy Parametric spatial audio encoding

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101889307A (zh) * 2007-10-04 2010-11-17 创新科技有限公司 相位-幅度3d立体声编码器和解码器
CN104364842A (zh) * 2012-04-18 2015-02-18 诺基亚公司 立体声音频信号编码器
CN104471641A (zh) * 2012-07-19 2015-03-25 汤姆逊许可公司 用于改善对多声道音频信号的呈现的方法和设备
CN105325015A (zh) * 2013-05-29 2016-02-10 高通股份有限公司 经旋转高阶立体混响的双耳化

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2323294T3 (es) * 2002-04-22 2009-07-10 Koninklijke Philips Electronics N.V. Dispositivo de decodificacion con una unidad de decorrelacion.
KR101106026B1 (ko) * 2003-10-30 2012-01-17 돌비 인터네셔널 에이비 오디오 신호 인코딩 또는 디코딩
WO2005086139A1 (en) * 2004-03-01 2005-09-15 Dolby Laboratories Licensing Corporation Multichannel audio coding
EP2249334A1 (en) * 2009-05-08 2010-11-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio format transcoder
TWI517028B (zh) * 2010-12-22 2016-01-11 傑奧笛爾公司 音訊空間定位和環境模擬
US20140086416A1 (en) * 2012-07-15 2014-03-27 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients
US9466305B2 (en) * 2013-05-29 2016-10-11 Qualcomm Incorporated Performing positional analysis to code spherical harmonic coefficients
TWI579831B (zh) * 2013-09-12 2017-04-21 杜比國際公司 用於參數量化的方法、用於量化的參數之解量化方法及其電腦可讀取的媒體、音頻編碼器、音頻解碼器及音頻系統
US20150332682A1 (en) * 2014-05-16 2015-11-19 Qualcomm Incorporated Spatial relation coding for higher order ambisonic coefficients
US9800990B1 (en) * 2016-06-10 2017-10-24 C Matter Limited Selecting a location to localize binaural sound
US11272310B2 (en) * 2018-08-29 2022-03-08 Dolby Laboratories Licensing Corporation Scalable binaural audio stream generation

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101889307A (zh) * 2007-10-04 2010-11-17 创新科技有限公司 相位-幅度3d立体声编码器和解码器
CN104364842A (zh) * 2012-04-18 2015-02-18 诺基亚公司 立体声音频信号编码器
CN104471641A (zh) * 2012-07-19 2015-03-25 汤姆逊许可公司 用于改善对多声道音频信号的呈现的方法和设备
CN105325015A (zh) * 2013-05-29 2016-02-10 高通股份有限公司 经旋转高阶立体混响的双耳化

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LI GANG ET AL.The Perceptual Lossless Quantization of Spatial Parameter for 3D Audio Signals.NETWORK AND PARALLEL COMPUTING.2016,第381-392页. *
yang cheng.3D audio coding approach based on spatial perception features.CHINA COMMUNICATIONS.2017,第14卷(第11期),第126-140页. *

Also Published As

Publication number Publication date
EP3707706B1 (en) 2021-08-04
WO2019091575A1 (en) 2019-05-16
US11328735B2 (en) 2022-05-10
CN111316353A (zh) 2020-06-19
EP3707706A1 (en) 2020-09-16
US20200273467A1 (en) 2020-08-27
PL3707706T3 (pl) 2021-11-22

Similar Documents

Publication Publication Date Title
CN111316353B (zh) 确定空间音频参数编码和相关联的解码
CN111542877B (zh) 空间音频参数编码和相关联的解码的确定
CN112639966A (zh) 空间音频参数编码和关联解码的确定
JP7405962B2 (ja) 空間オーディオパラメータ符号化および関連する復号化の決定
CN112997248A (zh) 确定空间音频参数的编码和相关联解码
WO2020016479A1 (en) Sparse quantization of spatial audio parameters
KR102593235B1 (ko) 공간 오디오 파라미터의 양자화
EP4315324A1 (en) Combining spatial audio streams
EP3991170A1 (en) Determination of spatial audio parameter encoding and associated decoding
WO2019243670A1 (en) Determination of spatial audio parameter encoding and associated decoding
US20240079014A1 (en) Transforming spatial audio parameters
CN118251722A (zh) 空间音频参数解码
KR20230135665A (ko) 공간 오디오 파라미터 인코딩 및 관련 디코딩 결정

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant