CN107293304B - 对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置 - Google Patents

对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置 Download PDF

Info

Publication number
CN107293304B
CN107293304B CN201710583301.5A CN201710583301A CN107293304B CN 107293304 B CN107293304 B CN 107293304B CN 201710583301 A CN201710583301 A CN 201710583301A CN 107293304 B CN107293304 B CN 107293304B
Authority
CN
China
Prior art keywords
frame
directional
directional signal
ambient hoa
hoa
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710583301.5A
Other languages
English (en)
Other versions
CN107293304A (zh
Inventor
A.克勒格尔
S.科登
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby International AB
Original Assignee
Dolby International AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby International AB filed Critical Dolby International AB
Publication of CN107293304A publication Critical patent/CN107293304A/zh
Application granted granted Critical
Publication of CN107293304B publication Critical patent/CN107293304B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/13Application of wave-field synthesis in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Stereophonic System (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Compression Of Band Width Or Redundancy In Fax (AREA)
  • Separation Using Semi-Permeable Membranes (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本公开涉及对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置。更高阶高保真度立体声响复制表示独立于具体扬声器设置的三维声音。然而,HOA表示的传输导致非常高的比特率。因此,使用具有固定数量的信道的压缩,其中有区别地处理定向和环境信号分量。环境HOA分量由最小数量的HOA系数序列表示。剩余的信道包含定向信号或者环境HOA分量的另外的系数序列,取决于什么将导致最佳的感知质量。该处理可以基于逐个帧地改变。

Description

对更高阶高保真度立体声响复制表示进行压缩和解压缩的方 法和装置
本申请是申请号为201480023877.0、申请日为2014年4月24日、发明名称为“对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置”的发明专利申请的分案申请。
技术领域
本发明涉及通过有区别地处理定向和环境信号分量对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置。
背景技术
更高阶高保真度立体声响复制(HOA)连同像波长合成(WFS)这样的其他技术或者像22.2这样的基于信道的方法一起提供表示三维声音的一种可能性。然而,相对于基于信道的方法,HOA表示提供独立于具体扬声器设置的优点。然而,这个灵活性以HOA表示在特殊的扬声器设置上回放所必需的解码处理为代价。与必需的扬声器的数量通常非常大的WFS方法相比,HOA还可以被呈现给包括仅几个扬声器的设置。HOA的另外的优点在于,对于到头戴耳机的双耳呈现,也可以使用相同的表示而不用做任何修改。
HOA基于按照截断的球谐(Spherical Harmonics,SH)扩展的复谐平面波(complexharmonic plane wave)幅度的空间密度的表示。每个扩展系数是角频率的函数,其可以由时域函数等同地表示。因此,在不失一般性的情况下,完整的HOA声场表示实际上可以被假设为包括O个时域函数,其中O标记扩展系数的数量。这些时域函数将等同地被称作HOA系数序列或者称作HOA信道。
HOA表示的空间分辨率随着扩展的最大阶N的增长而提高。不幸地,扩展系数的数量O随着阶N二次方地增长,具体地,O=(N+1)2。例如,使用阶N=4的典型的HOA表示需要O=25个HOA(扩展)系数。根据先前做出的考虑,给定期望的单信道采样率fS和每个样本的位数Nb,用于传输HOA表示的总比特率由O·fS·Nb确定。因此,以fS=48kHz的采样率并且使用每个样本Nb=16位来传输阶N=4的HOA表示导致19.2MBits/s的比特率,这对于许多实际的应用(例如对于流传输)非常高。
HOA声场表示的压缩在专利申请EP 12306569.0和EP 12305537.8中提出。代替单独地对HOA系数序列中的每一个进行感知编码,例如像在E.Hellerud、I.Burnett、A.Solvang和U.P.Svensson的“Encoding Higher Order Ambisonics with AAC”(第124届AES会议,阿姆斯特丹,2008年)中执行的那样,具体通过执行声场分析并且将给定的HOA表示分解成定向和残余环境分量来试图减少被感知编码的信号的数量。定向分量通常应当由可以被视为一般平面波函数的少量的支配定向信号来表示。残余环境HOA分量的阶减小,因为假设在提取支配定向信号之后,更低阶的HOA系数承载大部分相关信息。
发明内容
总之,通过这样的操作,要被感知编码的HOA系数序列的初始数量(N+1)2被减少至固定数量的D个支配定向信号以及表示具有截断的阶NRED<N的残余环境HOA分量的数量(NRED+1)2个HOA系数序列,从而要编码的信号的数量是固定的,亦即D+(NRED+1)2。特别地,该数量独立于在时帧(time frame)k中的活动的支配(dominant)定向声源的实际检测到的数量DACT(k)≤D。这意味着,在时帧k中,其中活动的支配定向声源的实际检测到的数量DACT(k)小于定向信号的最大允许数量D,要被感知编码的支配定向信号中的一些或者甚至是全部为零。最后,这意味着这些信道根本不用于捕捉声场的相关信息。
在该背景下,EP 12306569.0和EP 12305537.8会议录中的另外可能的弱点是用于在每个时帧中确定活动的支配定向信号的数量的标准,因为不试图确定关于声场的相继感知编码的活动的支配定向信号的最佳数量。例如,在EP 12305537.8中,使用简单的功率标准,也就是通过确定属于最大特征值的系数间相关矩阵的子空间的维度,来估计支配声源的量。在EP 12306569.0中,提出对支配定向声源的递增检测,其中如果来自各自方向的平面波函数的功率关于第一定向信号足够高,则定向声源被认为是支配的。使用像在EP12306569.0和EP 12305537.8中那样的基于功率的标准可能导致关于声场的感知编码是次优的定向环境分解(directional-ambient decomposition)。
本发明所要解决的问题是通过对当前的HOA音频信号内容确定如何分配到预先确定的减少数量的信道、定向信号以及环境HOA分量的系数来改进HOA压缩。该问题由在权利要求1和3中公开的方法来解决。使用这些方法的装置在权利要求2和4中公开。
本发明在两个方面改进在EP 12306569.0中提出的压缩处理。第一,更好地利用由将被感知编码的给定数量的信道提供的带宽。在没有检测到支配声源信号的时帧中,最初被保留用于支配定向信号的信道被用于以残余环境HOA分量的另外的HOA系数序列的形式来捕捉关于环境分量的另外的信息。第二,考虑到利用给定数量的信道对给定HOA声场表示进行感知编码的目标,关于该目的,适配用于确定要从HOA表示中提取的定向信号的量的标准。确定定向信号的数量,使得经解码和重构的HOA表示提供最低的感知误差。该标准比较由提取定向信号并且使用更少的HOA系数序列来描述残余环境HOA分量而引起的建模误差,或者由不提取定向信号并且代替地使用另外的HOA系数序列来描述残余环境HOA分量而引起的建模误差。该标准进一步针对两种情况考虑由定向信号和残余环境HOA分量的HOA系数序列的感知编码引入的量化噪声的空间功率分布。
为了实现上述处理,在开始HOA压缩之前,指定总数量I个信号(信道),与其相比,HOA系数序列的最初数量O减少。假设环境HOA分量由最小数量ORED个HOA系数序列来表示。在一些情况下,该最小数量可以是零。剩余的D=I-ORED个信道应当包含定向信号或者环境HOA分量的另外的系数序列,取决于定向信号提取处理决定什么在感知上更有意义。假设定向信号或者环境HOA分量系数序列到剩余的D个通道的分配可基于逐个帧(on frame-by-frame basis)地改变。为了在接收侧重构声场,将关于分配的信息作为额外的边信息(sideinformation)来传输。
原则上,本发明的压缩方法适合于使用固定数量的感知编码对被标记为HOA的声场的更高阶高保真度立体声响复制表示进行压缩,其使用HOA系数序列的输入时帧,所述方法包括基于逐个帧地执行的下面的步骤:
-对当前帧估计支配方向的集合以及检测到的定向信号的索引的对应数据集;
-将所述当前帧的HOA系数序列分解成非固定数量的定向信号,其具有包含在支配方向估计的所述集合中的各自方向并且具有所述定向信号的索引的各自数据集,其中所述非固定数量小于所述固定数量,
以及由减少的数量的HOA系数序列以及所述减少的数量的残余环境HOA系数序列的索引的对应数据集表示的残余环境HOA分量,所述减少的数量对应于所述固定数量与所述非固定数量之间的差值;
-将所述定向信号以及所述残余环境HOA分量的HOA系数序列分配给数量对应于所述固定数量的信道,其中对于所述分配,使用所述定向信号的索引的数据集以及所述减少的数量的残余环境HOA系数序列的索引的数据集;
-对相关帧的信道进行感知编码,以便提供经编码的压缩帧。
原则上,本发明的压缩装置适合于使用固定数量的感知编码对被标记为HOA的声场的更高阶高保真度立体声响复制表示进行压缩,其使用HOA系数序列的输入时帧,所述装置执行基于逐个帧的处理并且包括:
-适合于进行如下处理的部件:对当前帧估计支配方向的集合以及检测到的定向信号的索引的对应数据集;
-适合于进行如下处理的部件:将所述当前帧的HOA系数序列分解成非固定数量的定向信号,其具有包含在支配方向估计的所述集合中的各自方向并且具有所述定向信号的索引的各自数据集,其中所述非固定数量小于所述固定数量,
以及由减少的数量的HOA系数序列以及所述减少的数量的残余环境HOA系数序列的索引的对应数据集表示的残余环境HOA分量,所述减少的数量对应于所述固定数量与所述非固定数量之间的差值;
-适合于进行如下处理的部件:将所述定向信号以及所述残余环境HOA分量的HOA系数序列分配给数量对应于所述固定数量的信道,其中对于所述分配,使用所述定向信号的索引的数据集以及所述减少的数量的残余环境HOA系数序列的索引的数据集;
-适合于进行如下处理的部件:对相关帧的信道进行感知编码,以便提供经编码的压缩帧。
原则上,本发明的解压缩方法适合于对根据上面的压缩方法压缩的更高阶高保真度立体声响复制表示进行解压缩,所述解压缩包括步骤:
-对当前的经编码的压缩帧进行感知解码,以便提供信道的经感知解码的帧;
-使用检测到的定向信号的索引的数据集以及所选择的环境HOA系数序列的索引的数据集,重新分布信道的经感知解码的帧,以便重新创建定向信号的对应帧以及残余环境HOA分量的对应帧;
-使用检测到的定向信号的索引的数据集以及支配方向估计的集合,从定向信号的所述帧以及从残余环境HOA分量的所述帧,重新组成HOA表示的当前经解压缩的帧,
其中根据所述定向信号预测关于均匀分布的方向的定向信号,并且此后从定向信号的所述帧、所述预测的信号以及所述残余环境HOA分量重新组成所述当前经解压缩的帧。
原则上,本发明的解压缩装置适合于对根据上面的压缩方法压缩的更高阶高保真度立体声响复制表示进行解压缩,所述装置包括:
-适合于进行如下处理的部件:对当前的经编码的压缩帧进行感知解码,以便提供信道的经感知解码的帧;
-适合于进行如下处理的部件:使用检测到的定向信号的索引的数据集以及所选择的环境HOA系数序列的索引的数据集,重新分布信道的经感知解码的帧,以便重新创建定向信号的对应帧以及残余环境HOA分量的对应帧;
-适合于进行如下处理的部件:使用检测到的定向信号的索引的数据集以及支配方向估计的集合,从定向信号的所述帧以及从残余环境HOA分量的所述帧,重新组成HOA表示的当前经解压缩的帧,
其中根据所述定向信号预测关于均匀分布的方向的定向信号,并且此后从定向信号的所述帧、所述预测的信号以及所述残余环境HOA分量重新组成所述当前经解压缩的帧。
在相应的从属权利要求中公开本发明的有利的另外的实施例。
附图说明
参考附图描述本发明的示例性实施例,其中:
图1示出HOA压缩的框图;
图2示出支配声源方向的估计;
图3示出HOA解压缩的框图;
图4示出球面坐标系;
图5示出对于不同的高保真度立体声响复制阶N以及对于角度θ∈[0,π]的规一化分散函数vN(Θ)。
具体实施方式
A.改进的HOA压缩
在图1中例示根据本发明的基于EP 12306569.0的压缩处理,其中使用粗体框显示与EP 12306569.0相比较已经修改或者新引入的信号处理块,并且其中本申请中的
Figure BDA0001352841990000063
(如这样的方向估计)和′C′分别对应于EP 12306569.0中的′A′(方向估计的矩阵)和′D′。对于HOA压缩,使用长度L的HOA系数序列的不重叠的输入帧C(k)的逐帧(frame-wise)的处理被使用,其中k标记帧索引。关于在等式(45)中指定的HOA系数序列将帧定义为:
C(k):=[c((kL+1)TS) c((kL+2)TS) c((k+1)LTS)], (1)
其中TS指示采样周期。
图1中的第一步骤或阶段11/12是可选的,并且包括将HOA系数序列的不重叠的第k和(k-1)帧串接成长帧
Figure BDA0001352841990000064
为:
Figure BDA0001352841990000061
该长帧与相邻的长帧50%重叠,并且该长帧被相继地用于支配声源方向的估计。与
Figure BDA0001352841990000062
的标记法类似,在下面的描述中使用波浪符号来指示相应的量指代长的重叠的帧。如果步骤/阶段11/12不存在,则波浪符号没有具体含意。
原则上,如在EP 13305156.5中所提出的那样地执行支配声源的估计步骤或阶段13,但是具有重要的修改。修改涉及确定要检测的方向的量,亦即应当从HOA表示中提取多少定向引号。这通过只有在与替代地使用另外的HOA系数序列进行环境HOA分量的更好的近似相比其在感知上更相关的情况下才激发提取定向信号来实现。在部分A.2中给出对该技术的详细描述。
该估计提供已经检测到的定向信号的索引的数据集
Figure BDA0001352841990000071
以及对应的方向估计的集合
Figure BDA0001352841990000072
D标记在开始HOA压缩之前必须设置的定向信号的最大数量。
在步骤或阶段14中,将HOA系数序列的当前(长)帧
Figure BDA0001352841990000073
分解(如在EP 13305156.5中提出的那样)成属于集合
Figure BDA0001352841990000074
中包含的方向的许多定向信号XDIR(k-2)以及残余环境HOA分量CAMB(k-2)。作为重叠添加处理的结果引入两个帧的延迟,以便获得平滑信号。假设XDIR(k-2)包含总共D个信道,然而其中只有与活动的定向信号相对应的那些是非零的。指定这些信道的索引假设在数据集
Figure BDA0001352841990000075
中输出。另外,步骤/阶段14中的分解提供在解压缩侧被用于根据定向信号预测原始HOA表示的部分的一些参数ζ(k-2)(更多细节参看EP13305156.5)。
在步骤或阶段15中,智能地减少环境HOA分量CAMB(k-2)的系数的数量,以仅包含ORED+D-NDIR,ACT(k-2)个非零的HOA系数序列,其中
Figure BDA0001352841990000076
指示数据集
Figure BDA0001352841990000077
的基数,亦即帧k-2中的活动的定向信号的数量。因为假设环境HOA分量总是由最小数量ORED个HOA系数序列表示,所以这个问题实际上可以简化成从可能的O-ORED个HOA系数序列中选择剩余的D-NDIR,ACT(k-2)个HOA系数序列。为了获得平滑的减少的环境HOA表示,将该选择实现为使得与在前一帧k-3时进行的选择相比较,尽可能少的变化将发生。
具体地,将区别下面三种情况:
a)NDIR,ACT(k-2)=NDIR,ACT(k-3):在这种情况下,假设选择与在帧k-3中相同的HOA系数序列。
b)NDIR,ACT(k-2)<NDIR,ACT(k-3):在这种情况下,可以使用比在最后的帧k-3中更多的HOA系数序列来表示在当前帧中的环境HOA分量。假设在k-3中被选择的那些HOA系数序列也在当前帧中被选择。可以根据不同的标准来选择另外的HOA系数序列。例如,选择CAMB(k-2)中具有最高平均功率的那些HOA系数序列,或者关于它们的感知重要性选择HOA系数序列。
c)NDIR,ACT(k-2)>NDIR,ACT(k-3):在这种情况下,可以使用比在最后的帧k-3中更少的HOA系数序列来表示在当前帧中的环境HOA分量。这里需要回答的问题是必须使先前选择的HOA系数序列中的哪些不活动(deactivate)。合理的解决方案是使在帧k-3时在信号分配步骤或阶段16分配给信道
Figure BDA0001352841990000081
的那些序列不活动。
为了避免在使另外的HOA系数序列活动或不活动时在帧边界处的不连续性,使得各个信号平滑地淡入(fade in)或淡出(fade out)是有利的。
具有减少的数量ORED+NDIR,ACT(k-2)个非零系数序列的最终的环境HOA表示由CAMB,RED(k-2)标记。所选择的环境HOA系数序列的索引在数据集
Figure BDA0001352841990000082
中输出。
在步骤/阶段16中,XDIR(k-2)中包含的活动的定向信号和CAMB,RED(k-2)中包含的HOA系数序列被分配给I个信道的帧Y(k-2)以便进行个体的感知编码。为了更详细地描述信号分配,假设帧XDIR(k-2)、Y(k-2)和CAMB,RED(k-2)包括各个信号xDIR,d(k-2),d∈{1,...,D}、yi(k-2),i∈{1,...,I}和cAMB,RED,o(k-2),o∈{1,...,O},如下:
Figure BDA0001352841990000083
Figure BDA0001352841990000084
分配活动的定向信号,使得它们保存(keep)它们的信道索引以便获得连续的信号用于相继的感知编码。这可以表示为:
yd(k-2)=xDIR,d(k-2)对于所有
Figure BDA0001352841990000085
环境分量的HOA系数序列被分配为使得最小数量的ORED个系数序列总是包含在Y(k-2)的最后的ORED个信号中,亦即
yD+o(k-2)=cAMB,RED,o(k-2)对于1≤o≤ORED。 (5)
对于环境分量的另外D-NDIR,ACT(k-2)个HOA系数序列,它们是否也在前一个帧中被选择是有区别的:
a)如果它们也被选择在前一个帧中传输,亦即,如果各自的索引也包含在数据集
Figure BDA0001352841990000091
中,则这些系数序列到Y(k-2)中的信号的分配与对于前一帧的相同。该操作保证平滑的信号yi(k-2),这对于步骤或阶段17中的相继的感知编码是有利的。
b)否则,如果一些系数序列是新选择的,亦即,如果它们的索引包含在数据集
Figure BDA0001352841990000092
中但是不在数据集
Figure BDA0001352841990000093
中,则它们首先关于它们的索引以升序布置,并且以该次序分配给Y(k-2)中尚未被定向信号占据的信道
Figure BDA0001352841990000094
这个具体的分配提供如下优点:在HOA解压缩处理期间,可以在不知道哪个环境HOA系数序列包含在Y(k-2)的哪个信道的情况下执行信号的重新分布和组成。代替地,可以在HOA解压缩期间仅使用数据集
Figure BDA0001352841990000095
Figure BDA0001352841990000096
的知识来重构分配。
有利地,该分配操作还提供分配矢量
Figure BDA0001352841990000097
其元素γo(k)(o=1,...,D-NDIR,ACT(k-2))标记环境分量的另外D-NDIR,ACT(k-2)个HOA系数序列中的每一个的索引。换句话说,分配矢量γ(k)的元素提供关于环境HOA分量的另外的O-ORED个HOA系数序列中的哪些被分配到具有不活动的定向信号的D-NDIR,ACT(k-2)个信道中的信息。该矢量可以另外地传输,但是相比于按照帧速率不太频繁,以便允许初始化针对HOA解压缩而执行的重新分布过程(参看部分B)。感知编码步骤/阶段17对于帧Y(k-2)的I个信道进行编码,并且输出经编码的帧
Figure BDA0001352841990000098
对于没有从步骤/阶段16传输矢量γ(k)的帧,在解压缩侧,代替矢量γ(k),使用数据参数集
Figure BDA0001352841990000099
Figure BDA00013528419900000910
来执行重新分布。
A.1支配声源方向的估计
在图2中更详细地图示图1的支配声源方向的估计步骤/阶段13。其基本上根据EP13305156.5来执行,但是具有决定性的差异,即确定与要从给定的HOA表示中提取的定向信号的数量相对应的支配声源的数量的方式。这个数量是重要的,因为它用于控制给定的HOA表示是通过使用更多的定向信号还是代替地通过使用更多的HOA系数序列来更好地表示,以对环境HOA分量更好地建模。
支配声源方向的估计在步骤或阶段21中开始,使用输入的HOA系数序列的长帧
Figure BDA00013528419900000911
对支配声源方向进行初步检索。与初步的方向估计
Figure BDA00013528419900000912
(1≤d≤D)一起,如在EP13305156.5中所描述的那样地计算应当由各个声源创建的对应定向信号
Figure BDA0001352841990000101
和HOA声场分量
Figure BDA0001352841990000102
在步骤或阶段22中,使用这些量以及输入的HOA系数序列的帧
Figure BDA0001352841990000103
来确定要提取的定向信号的数量
Figure BDA0001352841990000104
因此,丢弃方向估计
Figure BDA0001352841990000105
对应的定向信号
Figure BDA0001352841990000106
以及HOA声场分量
Figure BDA0001352841990000107
代替地,然后仅将方向估计
Figure BDA0001352841990000108
分配给先前发现的声源。
在步骤或阶段23中,根据声源运动模型来平滑得到的方向轨迹,并且确定声源中的哪些应当是活动的(参看EP 13305156.5)。最后的操作提供活动的定向声源的索引的集合
Figure BDA0001352841990000109
和对应的方向估计的集合
Figure BDA00013528419900001010
A.2被提取的定向信号的数量的确定
为了在步骤/阶段22中确定定向信号的数量,假设存在将被用于捕捉在感知上最相关的声场信息的给定总量的I个信道的情况。因此,确定要提取的定向信号的数量,由如下问题激发:对于整体的HOA压缩/解压缩质量,当前的HOA表示是通过使用更多的定向信号还是更多的HOA系数序列来更好地表示以对环境HOA分量更好地建模。
为了在步骤/阶段22中导出用于确定要提取的定向声源的数量的标准(该标准与人类感知相关),考虑具体通过下面的两个运算来实现HOA压缩:
-用于表示环境HOA分量的HOA系数序列的减少(这意味着相关信道的数量的减少);
-定向信号的感知编码以及用于表示环境HOA分量的HOA系数序列的感知编码。
取决于所提取的定向信号的数量M(0≤M≤D),第一个运算近似地得到
Figure BDA00013528419900001011
其中
Figure BDA00013528419900001012
标记包括应当由M个单独考虑的声源创建的HOA声场分量
Figure BDA00013528419900001013
Figure BDA00013528419900001014
的定向分量的HOA表示,并且
Figure BDA00013528419900001015
标记具有仅I-M个非零HOA系数序列的环境分量的HOA表示。
来自第二个运算的近似可以表示为:
Figure BDA0001352841990000111
其中
Figure BDA0001352841990000112
Figure BDA0001352841990000113
分别标记在感知解码之后组成的定向和环境HOA分量。
标准的公式化
要提取的定向信号的数量
Figure BDA0001352841990000114
被选择为使得总的近似误差
Figure BDA0001352841990000115
其中
Figure BDA0001352841990000116
关于人类感知尽可能地不显著。为了保证这一点,在预先定义的数量Q个测试方向Ωq(q=1,...,Q)上考虑各个巴克标度(Bark scale)临界带的总误差的定向功率分布,其在单位球面上几乎均匀地分布。更具体地,第b个(b=1,...,B)临界带的定向功率分布由下面的矢量表示:
Figure BDA0001352841990000117
其分量
Figure BDA0001352841990000118
标记与方向Ωq、第b个巴克标度临界带和第k帧相关的总误差
Figure BDA0001352841990000119
的功率。总误差
Figure BDA00013528419900001110
的定向功率分布
Figure BDA00013528419900001111
与下面的由于原始HOA表示
Figure BDA00013528419900001112
的定向感知掩蔽功率分布进行比较:
Figure BDA00013528419900001113
接下来,对于每个测试方向Ωq和临界带b,计算总误差的感知级别
Figure BDA00013528419900001114
其在这里基本上被定义为总误差
Figure BDA00013528419900001115
的定向功率与根据下式的定向掩蔽功率的比例:
Figure BDA00013528419900001116
执行′1′与相继最大值运算的减法以确保感知级别为零,只要误差功率低于掩蔽阈值。
最后,可以将要提取的定向信号的数量
Figure BDA00013528419900001117
选择为最小化所有临界带上的误差感知级别的最大值的所有测试方向上的平均值,亦即
Figure BDA00013528419900001118
应当注意,替代地,能够在等式(15)中用平均运算替换最大值。
定向感知掩蔽功率分布的计算
为了计算由于原始HOA表示
Figure BDA0001352841990000121
的定向感知掩蔽功率分布
Figure BDA0001352841990000122
将后者变换到空间域,以便由从测试方向Ωq(q=1,...,Q)碰撞的一般平面波
Figure BDA0001352841990000123
表示。当以矩阵
Figure BDA0001352841990000124
布置一般平面波信号
Figure BDA0001352841990000125
如下时
Figure BDA0001352841990000126
到空间域的变换由下面的运算来表达
Figure BDA0001352841990000127
其中Ξ标记关于测试方向Ωq(q=1,...,Q)的模式矩阵,被定义为
Figure BDA0001352841990000128
其中
Figure BDA0001352841990000129
Figure BDA00013528419900001210
由于原始HOA表示
Figure BDA00013528419900001211
定向感知掩蔽功率分布
Figure BDA00013528419900001212
的每个元素
Figure BDA00013528419900001213
对应于各个临界带b的一般平面波函数
Figure BDA00013528419900001214
的掩蔽功率。
定向功率分布的计算
下面,给出用于计算定向功率分布
Figure BDA00013528419900001215
的两个替代:
a.一种可能性是通过计算在部分A.2的开始提及的两个运算来实际地计算期望的HOA表示
Figure BDA00013528419900001216
的近似
Figure BDA00013528419900001217
然后,根据等式(11)来计算总的近似误差
Figure BDA00013528419900001218
接下来,将总的近似误差
Figure BDA00013528419900001219
变换到空间域,以便由从测试方向Ωq(q=1,...,Q)碰撞的一般平面波
Figure BDA00013528419900001220
表示。以矩阵
Figure BDA00013528419900001221
将一般平面波信号布置为
Figure BDA00013528419900001222
到空间域的变换由下面的运算表示:
Figure BDA0001352841990000131
通过计算各个临界带b内的一般平面波函数
Figure BDA0001352841990000132
的功率来获得总的近似误差
Figure BDA0001352841990000133
的定向功率分布
Figure BDA0001352841990000134
的元素
Figure BDA0001352841990000135
b.替代的解决方案是仅计算近似值
Figure BDA0001352841990000136
而不是
Figure BDA0001352841990000137
该方法提供如下优点:不需要直接执行各个信号的复杂的感知编码。代替地,知道各个巴克标度临界带内的感知量化误差的功率就足够了。为此目的,在等式(11)中定义的总的近似误差可以被写作三个下面的近似误差的总和:
Figure BDA0001352841990000138
Figure BDA0001352841990000139
Figure BDA00013528419900001310
可以假设它们彼此独立。由于这种独立性,总误差
Figure BDA00013528419900001311
的定向功率分布可以表达为三个各个误差
Figure BDA00013528419900001312
Figure BDA00013528419900001313
的定向功率分布的总和。
下面描述如何计算各个巴克标度临界带的三个误差的定向功率分布:
a.为了计算误差
Figure BDA00013528419900001314
的定向功率分布,首先通过下式将其变换到空间域:
Figure BDA00013528419900001315
其中近似误差
Figure BDA00013528419900001316
因此由从测试方向Ωq(q=1,...,Q)碰撞的一般平面波
Figure BDA00013528419900001317
表示,其根据下式布置为矩阵
Figure BDA00013528419900001318
Figure BDA00013528419900001319
因此,通过计算各个临界带b内的一般平面波函数的功率来获得近似误差
Figure BDA00013528419900001321
的定向功率分布
Figure BDA00013528419900001322
的元素
Figure BDA00013528419900001323
b.为了计算误差
Figure BDA00013528419900001324
的定向功率分布
Figure BDA00013528419900001325
考虑到该误差通过对定向信号
Figure BDA00013528419900001326
进行感知编码而被引入到定向HOA分量
Figure BDA0001352841990000141
中。另外,考虑定向HOA分量由等式(8)给出。于是,为了简单,假设HOA分量
Figure BDA0001352841990000142
在空间域中由O个一般平面波函数
Figure BDA0001352841990000143
等同地表示,其通过仅仅缩放根据定向信号
Figure BDA0001352841990000144
来创建,亦即
Figure BDA0001352841990000145
其中
Figure BDA0001352841990000146
标记缩放参数。假设各自的平面波方向
Figure BDA0001352841990000147
Figure BDA0001352841990000148
在单位球面上均匀分布,并且被旋转使得
Figure BDA0001352841990000149
对应于方向估计
Figure BDA00013528419900001410
因此,缩放参数
Figure BDA00013528419900001411
等于′1′。
当关于旋转的方向
Figure BDA00013528419900001412
Figure BDA00013528419900001413
定义为模式矩阵并且根据下式以矢量来布置所有缩放参数
Figure BDA00013528419900001414
时:
Figure BDA00013528419900001415
HOA分量
Figure BDA00013528419900001416
可以写作:
Figure BDA00013528419900001417
因此,真实的定向HOA分量
Figure BDA00013528419900001418
与按照
Figure BDA00013528419900001419
由经感知解码的定向信号
Figure BDA00013528419900001420
组成的定向HOA分量之间的误差
Figure BDA00013528419900001421
(参见等式(23))可以按照各个定向信号中的如下感知编码误差
Figure BDA00013528419900001422
而表示为
Figure BDA00013528419900001423
空间域中关于测试方向Ωq(q=1,...,Q)的误差
Figure BDA00013528419900001424
的表示由下式给出
Figure BDA00013528419900001425
Figure BDA0001352841990000151
标记矢量β(d)(k)的元素,并且假设各个感知编码误差
Figure BDA0001352841990000152
彼此独立,根据等式(35)得出,感知编码误差
Figure BDA0001352841990000153
的定向功率分布
Figure BDA0001352841990000154
的元素
Figure BDA0001352841990000155
由下式计算
Figure BDA0001352841990000156
Figure BDA0001352841990000157
应当表示定向信号
Figure BDA0001352841990000158
中的第b个临界带内的感知量化误差的功率。可以假设该功率对应于定向信号
Figure BDA0001352841990000159
的感知掩蔽功率。
c.为了计算由环境HOA分量的HOA系数序列的感知编码造成的误差
Figure BDA00013528419900001510
的定向功率分布
Figure BDA00013528419900001511
假设每个HOA系数序列被独立地编码。因此,可以假设被引入到每个巴克标度临界带内的各个HOA系数序列中的误差是不相关的。这意味着关于每个巴克标度临界带的误差
Figure BDA00013528419900001512
的系数间相关矩阵是对角线的,亦即
Figure BDA00013528419900001513
Figure BDA00013528419900001514
元素
Figure BDA00013528419900001515
应当表示
Figure BDA00013528419900001516
中的第o个经编码的HOA系数序列中的第b个临界带内的感知量化误差的功率。可以假设它们对应于第o个HOA系数序列
Figure BDA00013528419900001517
的感知掩蔽功率。因此,感知编码误差
Figure BDA00013528419900001518
的定向功率分布通过下式计算
Figure BDA00013528419900001519
B.改进的HOA解压缩
对应的HOA解压缩处理在图3中图示并且包括下面的步骤或阶段。
在步骤或阶段31中,执行对
Figure BDA00013528419900001520
中包含的I个信号的感知解码以便获得
Figure BDA00013528419900001521
中的I个经解码的信号。
在信号重新分布步骤或阶段32中,重新分布
Figure BDA00013528419900001522
中的经感知解码的信号,以便重新创建定向信号的帧
Figure BDA00013528419900001523
和环境HOA分量的帧
Figure BDA00013528419900001524
通过使用索引数据集
Figure BDA00013528419900001525
Figure BDA00013528419900001526
再现对HOA压缩执行的分配操作,获得关于如何重新分布信号的信息。因为这是递归的过程(参看部分A),所以可以使用另外传输的分配矢量γ(k),以便允许例如在传输发生故障的情况下初始化重新分布过程。
在组成步骤或阶段33中,使用定向信号的帧
Figure BDA00013528419900001527
活动的定向信号索引的集合
Figure BDA00013528419900001528
以及对应方向的集合
Figure BDA00013528419900001529
用于根据定向信号来预测HOA表示的部分的参数ζ(k-2)以及减少的环境HOA分量的HOA系数序列的帧
Figure BDA0001352841990000161
根据结合EP12306569.0的图2b和图4描述的处理,重新组成期望的总的HOA表示的当前帧
Figure BDA0001352841990000162
对应于EP12306569.0中的分量
Figure BDA0001352841990000163
并且
Figure BDA0001352841990000164
Figure BDA0001352841990000165
对应于EP 12306569.0中的
Figure BDA0001352841990000166
其中活动的定向信号索引在
Figure BDA0001352841990000167
的矩阵元素中标明。亦即,根据定向信号
Figure BDA0001352841990000168
来预测关于均匀分布的方向的定向信号,其中使用用于这样的预测的所接收的参数(ζ(k-2)),并且此后从定向信号的帧
Figure BDA0001352841990000169
预测部分以及减少的环境HOA分量
Figure BDA00013528419900001610
重新组成当前的经解压缩的帧
Figure BDA00013528419900001611
C.更高阶高保真度立体声响复制的基础
更高阶高保真度立体声响复制(HOA)基于补充假设为没有声源的所关注的紧密区域(compact area)内的声场的描述。在该情况下,在所关注的区域内、在时间t时和位置x处的声压p(t,x)的时空行为在物理上由齐性波等式(homogeneous wave equation)充分确定。下面,假设如图4中示出的球面坐标系。在使用的坐标系中,x轴指向前面位置,y轴指向左边并且z轴指向顶部。空间x=(r,θ,φ)T中的位置由半径r>0(亦即,到坐标原点的距离)、从极轴z测量的倾角θ∈[0,π]以及在x-y平面中从x轴逆时针地测量的方位角φ∈[0,2π[来表示。另外,(·)T标记转置。
可以示出(参看E.G.Williams,“Fourier Acoustics”,AppliedMathematicalSciences的93卷,Academic Press,1999年),由
Figure BDA00013528419900001612
标记的关于时间的声压的傅里叶变换,亦即
Figure BDA00013528419900001613
(其中ω标记角频率并且i指示虚数单位)可以根据下式来扩展成球谐函数的级数:
Figure BDA00013528419900001614
在等式(40)中,cs标记声速,并且k标记角波数(angular wave number),其按照
Figure BDA00013528419900001615
与角频率ω相关。另外,jn(·)标记第一类球贝塞尔函数(spherical Besselfunctions of the first kind),并且
Figure BDA00013528419900001616
标记阶n和度数m的实值球谐函数,其在下面的部分C.1中定义。扩展系数
Figure BDA00013528419900001617
仅取决于角波数k。在上文,已经隐含地假设声压在空间上是带限的(band limited)。因此,球谐函数的级数关于在被称作HOA表示的阶的上限N处的阶索引n而被截断。
如果声场由从角度元组(θ,φ)指定的所有可能方向到达的不同角频率ω的无限数量的平面谐波的叠加来表示,则可以示出(参看B.Rafaely,“Plane-wave Decompositionof the Sound Field on a Sphere by Spherical Convolution”,Journal of theAcoustical Society of America,第4卷(116),2149-2157页,2004年),各个平面波复数幅度函数C(ω,θ,φ)可以由下面的球谐函数扩展来表示
Figure BDA0001352841990000171
其中扩展系数
Figure BDA0001352841990000172
按照
Figure BDA0001352841990000173
与扩展系数
Figure BDA0001352841990000174
相关。
假设各个系数
Figure BDA0001352841990000175
是角频率ω的函数,逆傅里叶变换(由
Figure BDA0001352841990000176
标记)的应用针对每个阶n和度数m提供时域函数
Figure BDA0001352841990000177
其可以按照c(t)=
Figure BDA0001352841990000178
(44)
收集在单个矢量c(t)中。矢量c(t)内的时域函数
Figure BDA0001352841990000179
的位置索引由n(n+1)+1+m给出。矢量c(t)中元素的总数量由O=(N+1)2给出。
最终的高保真度立体声响复制格式将使用采样频率fs的c(t)的采样版本提供为
Figure BDA00013528419900001710
其中TS=1/fS标记采样周期。c(lTS)的元素在这里被称作高保真度立体声响复制系数。时序信号
Figure BDA00013528419900001711
是实值的,并且因此高保真度立体声响复制系数是实值的。
C.1实值球谐函数的定义
实值的球谐函数
Figure BDA00013528419900001712
Figure BDA00013528419900001713
给出,其中
Figure BDA0001352841990000181
相关联的勒让德函数(Legendre functions)Pn,m(x)使用勒让德多项式Pn(x)定义为
Figure BDA0001352841990000182
并且不像上面提及的Williams的文章,没有康登-肖特莱相位项(Condon-Shortley phase term)(-1)m
C.2更高阶高保真度立体声响复制的空间分辨率
从方向Ω0=(θ0,φ0)T到达的一般平面波函数x(t)在HOA中由下式表示
Figure BDA0001352841990000183
平面波幅度
Figure BDA0001352841990000184
的对应空间密度由下式给出
Figure BDA0001352841990000185
从等式(51)中可以看出,其是一般平面波函数x(t)与空间分散函数vN(Θ)的乘积,其可以显示为仅取决于Ω与Ω0之间的角度Θ,具有如下性质
cosΘ=cosθcosθ0+cos(φ-φ0)sinθsinθ0. (52)如预期的那样,在无限阶的极限下,亦即N→∞,空间分散函数变成狄拉克德尔塔(Dirac delta)δ(·),亦即
Figure BDA0001352841990000186
然而,在有限阶N的情况下,来自方向Ω0的一般平面波的贡献被抹去到邻近方向,其中模糊的程度随着增加的阶而减小。在图5中示出N的不同值的规一化函数vN(Θ)的图表。
应当指出,对于任何方向Ω,平面波幅度的空间密度的时域行为是它在任何其他方向上的行为的倍数。特别地,一些固定的方向Ω1和Ω2的函数c(t,Ω1)和c(t,Ω2)关于时间t彼此高度相关。
C.3球谐函数变换
如果平面波幅度的空间密度在几乎均匀分布在单位球面上的数量O个空间方向Ωo(1≤o≤O)上是离散的,则获得O个定向信号c(t,Ωo)。通过使用等式(50)将这些信号收集到矢量中,作为
cSPAT(t):=[c(t,Ω1) ... c(t,ΩO)]T, (54)
,可以验证可以通过简单的矩阵乘法根据在等式(44)中定义的连续的高保真度立体声响复制表示d(t)将该矢量计算为
cSPAT(t)=ΨHc(t), (55)
其中(·)H指示联合点转置和结合(joint transposition and conjugation),并且Ψ标记由下式定义的模式矩阵
Ψ:=[S1 .... SO] (56)
其中
Figure BDA0001352841990000191
因为方向Ωo几乎均匀分布在单位球面上,所以模式矩阵一般是可逆的。因此,可以按照下式根据定向信号c(t,Ωo)来计算连续的高保真度立体声响复制表示
c(t)=Ψ-HcSPAT(t). (58)
两个等式构成高保真度立体声响复制表示与空间域之间的变换和逆变换。这些变换在这里被称作球谐函数变换和逆球谐函数变换。
应当注意,因为方向Ωo几乎均匀分布在单位球面上,近似
ΨH≈Ψ-1 (59)
是可用的,这证明在等式(55)中使用Ψ-1来替代ΨH是正当的。
有利地,所有所提及的关系对于离散的时域也是有效的。
本发明的处理可以由单个处理器或电子电路或者由并行操作和/或在本发明的处理的几个部分上操作的若干处理器或电子电路来执行。

Claims (10)

1.一种对压缩的更高阶高保真度立体声响复制表示进行解压缩的方法,所述解压缩包括:
-对当前的经编码的压缩帧进行感知解码,以便提供信道的经感知解码的帧;
-基于分配矢量重新分布信道的经感知解码的帧,所述分配矢量至少指示可能包含的环境HOA分量的系数序列的索引以及定向信号的索引的数据集,以便重新创建定向信号的对应帧和环境HOA分量的对应帧;
-基于检测到的定向信号的索引的数据集以及支配方向估计的集合,从定向信号的重新创建的帧以及从环境HOA分量的重新创建的帧,重新组成HOA表示的当前经解压缩的帧。
2.一种对压缩的更高阶高保真度立体声响复制表示进行解压缩的装置,所述装置包括:
-适于对当前的经编码的压缩帧进行感知解码以便提供信道的经感知解码的帧的部件;
-适于进行如下处理的部件:基于分配矢量重新分布信道的经感知解码的帧,所述分配矢量至少指示可能包含的环境HOA分量的系数序列的索引以及定向信号的索引的数据集,以便重新创建定向信号的对应帧和环境HOA分量的对应帧;
-适于进行如下处理的部件:基于检测到的定向信号的索引的数据集以及支配方向估计的集合,从定向信号的重新创建的帧以及从环境HOA分量的重新创建的帧,重新组成HOA表示的当前经解压缩的帧。
3.一种对压缩的更高阶高保真度立体声响复制表示进行解压缩的方法,所述解压缩包括:
-对当前的经编码的压缩帧进行感知解码,以便提供信道的经感知解码的帧;
-基于分配矢量重新分布信道的经感知解码的帧,所述分配矢量至少指示可能包含的环境HOA分量的系数序列的索引以及定向信号的索引的数据集,以便重新创建定向信号的对应帧和环境HOA分量的对应帧;
-基于检测到的定向信号的索引的数据集以及支配方向估计的集合,从定向信号的重新创建的帧以及从环境HOA分量的重新创建的帧,重新组成HOA表示的当前经解压缩的帧,
其中,根据所述定向信号预测关于均匀分布的方向的定向信号,此后,从定向信号的重新创建的帧、所述预测的信号以及所述环境HOA分量重新组成所述当前经解压缩的帧。
4.一种对更高阶高保真度立体声响复制表示进行解压缩的装置,所述装置包括:
-适于对当前的经编码的压缩帧进行感知解码以便提供信道的经感知解码的帧的部件;
-适于进行如下处理的部件:基于分配矢量重新分布信道的经感知解码的帧,所述分配矢量至少指示可能包含的环境HOA分量的系数序列的索引以及定向信号的索引的数据集,以便重新创建定向信号的对应帧和环境HOA分量的对应帧;
-适于进行如下处理的部件:基于检测到的定向信号的索引的数据集以及支配方向估计的集合,从定向信号的重新创建的帧以及从环境HOA分量的重新创建的帧,重新组成HOA表示的当前经解压缩的帧,
其中,根据所述定向信号预测关于均匀分布的方向的定向信号,此后,从定向信号的重新创建的帧、所述预测的信号以及所述环境HOA分量重新组成所述当前经解压缩的帧。
5.一种对压缩的更高阶高保真度立体声响复制表示进行解压缩的方法,所述解压缩包括:
-对当前的经编码的压缩帧进行感知解码,以便提供信道的经感知解码的帧;
-基于分配矢量重新分布信道的经感知解码的帧,所述分配矢量至少指示可能包含的环境HOA分量的系数序列的索引以及定向信号的索引的数据集,以便重新创建定向信号的对应帧和环境HOA分量的对应帧;
-基于检测到的定向信号的索引的数据集以及支配方向估计的集合,从定向信号的重新创建的帧以及从环境HOA分量的重新创建的帧,重新组成HOA表示的当前经解压缩的帧,
其中,根据所述定向信号预测关于均匀分布的方向的定向信号,此后,从定向信号的重新创建的帧、所述预测的信号以及所述环境HOA分量重新组成所述当前经解压缩的帧,
其中,关于均匀分布的方向的定向信号的所述预测使用用于所述预测的所接收到的参数根据所述定向信号来执行。
6.一种对更高阶高保真度立体声响复制表示进行解压缩的装置,所述装置包括:
-适于对当前的经编码的压缩帧进行感知解码以便提供信道的经感知解码的帧的部件;
-适于进行如下处理的部件:基于分配矢量重新分布信道的经感知解码的帧,所述分配矢量至少指示可能包含的环境HOA分量的系数序列的索引以及定向信号的索引的数据集,以便重新创建定向信号的对应帧和环境HOA分量的对应帧;
-适于进行如下处理的部件:基于检测到的定向信号的索引的数据集以及支配方向估计的集合,从定向信号的重新创建的帧以及从环境HOA分量的重新创建的帧,重新组成HOA表示的当前经解压缩的帧,
其中,根据所述定向信号预测关于均匀分布的方向的定向信号,此后,从定向信号的重新创建的帧、所述预测的信号以及所述环境HOA分量重新组成所述当前经解压缩的帧,
其中,关于均匀分布的方向的定向信号的所述预测使用用于所述预测的所接收到的参数根据所述定向信号来执行。
7.一种对压缩的更高阶高保真度立体声响复制表示进行解压缩的方法,所述解压缩包括:
-对当前的经编码的压缩帧进行感知解码,以便提供信道的经感知解码的帧;
-至少基于指示可能包含的环境HOA分量的系数序列的索引以及定向信号的索引的数据集重新分布信道的所述经感知解码的帧,以便重新创建定向信号的对应帧和环境HOA分量的对应帧;
-基于检测到的定向信号的索引的数据集以及支配方向估计的集合,从定向信号的重新创建的帧以及从环境HOA分量的重新创建的帧,重新组成HOA表示的当前经解压缩的帧。
8.一种对压缩的更高阶高保真度立体声响复制表示进行解压缩的装置,所述装置包括:
-适于对当前的经编码的压缩帧进行感知解码以便提供信道的经感知解码的帧的部件;
-适于进行如下处理的部件:至少基于指示可能包含的环境HOA分量的系数序列的索引以及定向信号的索引的数据集重新分布信道的所述经感知解码的帧,以便重新创建定向信号的对应帧和环境HOA分量的对应帧;
-适于进行如下处理的部件:基于检测到的定向信号的索引的数据集以及支配方向估计的集合,从定向信号的重新创建的帧以及从环境HOA分量的重新创建的帧,重新组成HOA表示的当前经解压缩的帧。
9.一种设备,包括:
一个或多个处理器,以及
一个或多个存储介质,存储有指令,所述指令在被所述一个或多个处理器执行时使得执行根据权利要求1、3、5和7中任一项所述的方法。
10.一种存储介质,存储有可执行指令,所述可执行指令在被处理器执行时使得执行根据权利要求1、3、5和7中任一项所述的方法。
CN201710583301.5A 2013-04-29 2014-04-24 对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置 Active CN107293304B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP13305558.2A EP2800401A1 (en) 2013-04-29 2013-04-29 Method and Apparatus for compressing and decompressing a Higher Order Ambisonics representation
EP13305558.2 2013-04-29
CN201480023877.0A CN105144752B (zh) 2013-04-29 2014-04-24 对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201480023877.0A Division CN105144752B (zh) 2013-04-29 2014-04-24 对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置

Publications (2)

Publication Number Publication Date
CN107293304A CN107293304A (zh) 2017-10-24
CN107293304B true CN107293304B (zh) 2021-01-05

Family

ID=48607176

Family Applications (5)

Application Number Title Priority Date Filing Date
CN201480023877.0A Active CN105144752B (zh) 2013-04-29 2014-04-24 对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置
CN201710583301.5A Active CN107293304B (zh) 2013-04-29 2014-04-24 对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置
CN201710583292.XA Active CN107180639B (zh) 2013-04-29 2014-04-24 对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置
CN201710583285.XA Active CN107146626B (zh) 2013-04-29 2014-04-24 对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置
CN201710583291.5A Active CN107146627B (zh) 2013-04-29 2014-04-24 对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201480023877.0A Active CN105144752B (zh) 2013-04-29 2014-04-24 对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置

Family Applications After (3)

Application Number Title Priority Date Filing Date
CN201710583292.XA Active CN107180639B (zh) 2013-04-29 2014-04-24 对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置
CN201710583285.XA Active CN107146626B (zh) 2013-04-29 2014-04-24 对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置
CN201710583291.5A Active CN107146627B (zh) 2013-04-29 2014-04-24 对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置

Country Status (10)

Country Link
US (8) US9736607B2 (zh)
EP (5) EP2800401A1 (zh)
JP (6) JP6395811B2 (zh)
KR (4) KR102377798B1 (zh)
CN (5) CN105144752B (zh)
CA (8) CA3110057C (zh)
MX (5) MX347283B (zh)
MY (2) MY176454A (zh)
RU (1) RU2668060C2 (zh)
WO (1) WO2014177455A1 (zh)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2743922A1 (en) 2012-12-12 2014-06-18 Thomson Licensing Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field
US9412385B2 (en) * 2013-05-28 2016-08-09 Qualcomm Incorporated Performing spatial masking with respect to spherical harmonic coefficients
US9466305B2 (en) 2013-05-29 2016-10-11 Qualcomm Incorporated Performing positional analysis to code spherical harmonic coefficients
US9716959B2 (en) 2013-05-29 2017-07-25 Qualcomm Incorporated Compensating for error in decomposed representations of sound fields
EP2824661A1 (en) 2013-07-11 2015-01-14 Thomson Licensing Method and Apparatus for generating from a coefficient domain representation of HOA signals a mixed spatial/coefficient domain representation of said HOA signals
US9502045B2 (en) 2014-01-30 2016-11-22 Qualcomm Incorporated Coding independent frames of ambient higher-order ambisonic coefficients
US9922656B2 (en) 2014-01-30 2018-03-20 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
CN109410962B (zh) 2014-03-21 2023-06-06 杜比国际公司 用于对压缩的hoa信号进行解码的方法、装置和存储介质
EP2922057A1 (en) 2014-03-21 2015-09-23 Thomson Licensing Method for compressing a Higher Order Ambisonics (HOA) signal, method for decompressing a compressed HOA signal, apparatus for compressing a HOA signal, and apparatus for decompressing a compressed HOA signal
KR102201726B1 (ko) 2014-03-21 2021-01-12 돌비 인터네셔널 에이비 고차 앰비소닉스(hoa) 신호를 압축하는 방법, 압축된 hoa 신호를 압축 해제하는 방법, hoa 신호를 압축하기 위한 장치, 및 압축된 hoa 신호를 압축 해제하기 위한 장치
US9852737B2 (en) 2014-05-16 2017-12-26 Qualcomm Incorporated Coding vectors decomposed from higher-order ambisonics audio signals
US10770087B2 (en) 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals
US9922657B2 (en) 2014-06-27 2018-03-20 Dolby Laboratories Licensing Corporation Method for determining for the compression of an HOA data frame representation a lowest integer number of bits required for representing non-differential gain values
EP3162087B1 (en) 2014-06-27 2021-03-17 Dolby International AB Coded hoa data frame representation that includes non-differential gain values associated with channel signals of specific ones of the data frames of an hoa data frame representation
KR20240050436A (ko) 2014-06-27 2024-04-18 돌비 인터네셔널 에이비 Hoa 데이터 프레임 표현의 압축을 위해 비차분 이득 값들을 표현하는 데 필요하게 되는 비트들의 최저 정수 개수를 결정하는 장치
EP2960903A1 (en) 2014-06-27 2015-12-30 Thomson Licensing Method and apparatus for determining for the compression of an HOA data frame representation a lowest integer number of bits required for representing non-differential gain values
EP2963949A1 (en) 2014-07-02 2016-01-06 Thomson Licensing Method and apparatus for decoding a compressed HOA representation, and method and apparatus for encoding a compressed HOA representation
EP3164868A1 (en) 2014-07-02 2017-05-10 Dolby International AB Method and apparatus for decoding a compressed hoa representation, and method and apparatus for encoding a compressed hoa representation
US9800986B2 (en) 2014-07-02 2017-10-24 Dolby Laboratories Licensing Corporation Method and apparatus for encoding/decoding of directions of dominant directional signals within subbands of a HOA signal representation
KR102460820B1 (ko) 2014-07-02 2022-10-31 돌비 인터네셔널 에이비 Hoa 신호 표현의 부대역들 내의 우세 방향 신호들의 방향들의 인코딩/디코딩을 위한 방법 및 장치
EP2963948A1 (en) 2014-07-02 2016-01-06 Thomson Licensing Method and apparatus for encoding/decoding of directions of dominant directional signals within subbands of a HOA signal representation
US9536531B2 (en) 2014-08-01 2017-01-03 Qualcomm Incorporated Editing of higher-order ambisonic audio data
US9747910B2 (en) 2014-09-26 2017-08-29 Qualcomm Incorporated Switching between predictive and non-predictive quantization techniques in a higher order ambisonics (HOA) framework
EP3007167A1 (en) 2014-10-10 2016-04-13 Thomson Licensing Method and apparatus for low bit rate compression of a Higher Order Ambisonics HOA signal representation of a sound field
EP3329486B1 (en) 2015-07-30 2020-07-29 Dolby International AB Method and apparatus for generating from an hoa signal representation a mezzanine hoa signal representation
WO2017036609A1 (en) * 2015-08-31 2017-03-09 Dolby International Ab Method for frame-wise combined decoding and rendering of a compressed hoa signal and apparatus for frame-wise combined decoding and rendering of a compressed hoa signal
US9881628B2 (en) * 2016-01-05 2018-01-30 Qualcomm Incorporated Mixed domain coding of audio
KR102063307B1 (ko) 2016-03-15 2020-01-07 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 음장 기술을 생성하기 위한 장치, 방법, 또는 컴퓨터 프로그램
US10332530B2 (en) 2017-01-27 2019-06-25 Google Llc Coding of a soundfield representation
WO2018203471A1 (ja) * 2017-05-01 2018-11-08 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 符号化装置及び符号化方法
WO2020008112A1 (en) * 2018-07-03 2020-01-09 Nokia Technologies Oy Energy-ratio signalling and synthesis
CN110113119A (zh) * 2019-04-26 2019-08-09 国家无线电监测中心 一种基于人工智能算法的无线信道建模方法
CN114582357A (zh) * 2020-11-30 2022-06-03 华为技术有限公司 一种音频编解码方法和装置
US11743670B2 (en) 2020-12-18 2023-08-29 Qualcomm Incorporated Correlation-based rendering with multiple distributed streams accounting for an occlusion for six degree of freedom applications
CN115938388A (zh) * 2021-05-31 2023-04-07 华为技术有限公司 一种三维音频信号的处理方法和装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5757927A (en) * 1992-03-02 1998-05-26 Trifield Productions Ltd. Surround sound apparatus
US6628787B1 (en) * 1998-03-31 2003-09-30 Lake Technology Ltd Wavelet conversion of 3-D audio signals
US20050080616A1 (en) * 2001-07-19 2005-04-14 Johahn Leung Recording a three dimensional auditory scene and reproducing it for the individual listener
CN101401152A (zh) * 2006-03-15 2009-04-01 法国电信公司 通过多通道音频信号的主分量分析进行编码的设备和方法
EP2094032A1 (en) * 2008-02-19 2009-08-26 Deutsche Thomson OHG Audio signal, method and apparatus for encoding or transmitting the same and method and apparatus for processing the same
CN102326417A (zh) * 2008-12-30 2012-01-18 庞培法布拉大学巴塞隆纳媒体基金会 三维声场编码及优化重建的方法及装置
WO2012059385A1 (en) * 2010-11-05 2012-05-10 Thomson Licensing Data structure for higher order ambisonics audio data
CN102547549A (zh) * 2010-12-21 2012-07-04 汤姆森特许公司 编码解码2或3维声场环绕声表示的连续帧的方法和装置
CN102823277A (zh) * 2010-03-26 2012-12-12 汤姆森特许公司 解码用于音频回放的音频声场表示的方法和装置

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
JP3700254B2 (ja) * 1996-05-31 2005-09-28 日本ビクター株式会社 映像音声再生装置
US6931370B1 (en) * 1999-11-02 2005-08-16 Digital Theater Systems, Inc. System and method for providing interactive audio in a multi-channel audio environment
WO2002084645A2 (en) * 2001-04-13 2002-10-24 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
CN100346392C (zh) * 2002-04-26 2007-10-31 松下电器产业株式会社 编码设备、解码设备、编码方法和解码方法
US7081883B2 (en) * 2002-05-14 2006-07-25 Michael Changcheng Chen Low-profile multi-channel input device
CN1677490A (zh) 2004-04-01 2005-10-05 北京宫羽数字技术有限责任公司 一种增强音频编解码装置及方法
EP1841284A1 (en) * 2006-03-29 2007-10-03 Phonak AG Hearing instrument for storing encoded audio data, method of operating and manufacturing thereof
KR101441474B1 (ko) * 2009-02-16 2014-09-17 한국전자통신연구원 적응적 정현파 펄스 코딩을 이용한 오디오 신호의 인코딩 및 디코딩 방법 및 장치
EP2665208A1 (en) 2012-05-14 2013-11-20 Thomson Licensing Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation
CN102903366A (zh) * 2012-09-18 2013-01-30 重庆大学 一种基于g729语音压缩编码算法的dsp优化方法
EP2743922A1 (en) 2012-12-12 2014-06-18 Thomson Licensing Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field
EP2765791A1 (en) 2013-02-08 2014-08-13 Thomson Licensing Method and apparatus for determining directions of uncorrelated sound sources in a higher order ambisonics representation of a sound field

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5757927A (en) * 1992-03-02 1998-05-26 Trifield Productions Ltd. Surround sound apparatus
US6628787B1 (en) * 1998-03-31 2003-09-30 Lake Technology Ltd Wavelet conversion of 3-D audio signals
US20050080616A1 (en) * 2001-07-19 2005-04-14 Johahn Leung Recording a three dimensional auditory scene and reproducing it for the individual listener
CN101401152A (zh) * 2006-03-15 2009-04-01 法国电信公司 通过多通道音频信号的主分量分析进行编码的设备和方法
EP2094032A1 (en) * 2008-02-19 2009-08-26 Deutsche Thomson OHG Audio signal, method and apparatus for encoding or transmitting the same and method and apparatus for processing the same
CN102326417A (zh) * 2008-12-30 2012-01-18 庞培法布拉大学巴塞隆纳媒体基金会 三维声场编码及优化重建的方法及装置
CN102823277A (zh) * 2010-03-26 2012-12-12 汤姆森特许公司 解码用于音频回放的音频声场表示的方法和装置
WO2012059385A1 (en) * 2010-11-05 2012-05-10 Thomson Licensing Data structure for higher order ambisonics audio data
CN102547549A (zh) * 2010-12-21 2012-07-04 汤姆森特许公司 编码解码2或3维声场环绕声表示的连续帧的方法和装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Encoding Higher Order Ambisonics with AAC;Erik Hellerud等;《Audio Engineering Society》;20080520;1-8 *
Optimal Higher Order Ambisonics Encoding with Predefined Constraints;Haohai Sun等;《IEEE Transactions on Audio, Speech, and Language Processing》;20120331;第20卷(第3期);742-754 *
Plane-wave Decomposition of the Sound Field on A Sphere by Spherical Convolution;Boaz Rafaely;《Acoustical Society of America》;20041231;2149–2157 *

Also Published As

Publication number Publication date
JP7270788B2 (ja) 2023-05-10
JP6606241B2 (ja) 2019-11-13
MX2015015016A (es) 2016-03-09
JP7023342B2 (ja) 2022-02-21
US9913063B2 (en) 2018-03-06
US20170318406A1 (en) 2017-11-02
MX347283B (es) 2017-04-21
RU2668060C2 (ru) 2018-09-25
KR20160002846A (ko) 2016-01-08
JP2019008309A (ja) 2019-01-17
US9736607B2 (en) 2017-08-15
CA3110057A1 (en) 2014-11-06
US10999688B2 (en) 2021-05-04
CN107146626A (zh) 2017-09-08
US20180146315A1 (en) 2018-05-24
EP3598779B1 (en) 2021-08-18
CA3190353A1 (en) 2014-11-06
CN107146626B (zh) 2020-09-08
US10623878B2 (en) 2020-04-14
US10264382B2 (en) 2019-04-16
CA3190346A1 (en) 2014-11-06
JP2022058929A (ja) 2022-04-12
US20200304931A1 (en) 2020-09-24
RU2015150988A (ru) 2017-06-07
US20160088415A1 (en) 2016-03-24
JP2021060614A (ja) 2021-04-15
RU2018133016A3 (zh) 2022-02-16
EP2992689A1 (en) 2016-03-09
CA2907595A1 (en) 2014-11-06
CA3168906A1 (en) 2014-11-06
KR20220124297A (ko) 2022-09-13
KR20220039846A (ko) 2022-03-29
EP3232687B1 (en) 2019-08-14
JP2020024445A (ja) 2020-02-13
KR102672762B1 (ko) 2024-06-07
CA3168916A1 (en) 2014-11-06
RU2018133016A (ru) 2018-10-02
CA2907595C (en) 2021-04-13
JP6818838B2 (ja) 2021-01-20
EP3926984A1 (en) 2021-12-22
CN107180639A (zh) 2017-09-19
CA3168901A1 (en) 2014-11-06
US20220225044A1 (en) 2022-07-14
CA3110057C (en) 2023-04-04
JP2016520864A (ja) 2016-07-14
MX2022012179A (es) 2022-10-27
US20220217489A1 (en) 2022-07-07
JP2023093681A (ja) 2023-07-04
KR20210034685A (ko) 2021-03-30
CA3168921A1 (en) 2014-11-06
CN107180639B (zh) 2021-01-05
US20210337334A1 (en) 2021-10-28
MX2020002786A (es) 2020-07-22
US11895477B2 (en) 2024-02-06
EP2992689B1 (en) 2017-05-10
KR102377798B1 (ko) 2022-03-23
EP3232687A1 (en) 2017-10-18
WO2014177455A1 (en) 2014-11-06
CN105144752B (zh) 2017-08-08
JP6395811B2 (ja) 2018-09-26
MX2022012180A (es) 2022-10-27
EP3598779A1 (en) 2020-01-22
CN105144752A (zh) 2015-12-09
MX2022012186A (es) 2022-10-27
EP2800401A1 (en) 2014-11-05
CN107293304A (zh) 2017-10-24
US20190297443A1 (en) 2019-09-26
CN107146627A (zh) 2017-09-08
US11284210B2 (en) 2022-03-22
MY195690A (en) 2023-02-03
KR102232486B1 (ko) 2021-03-29
US11758344B2 (en) 2023-09-12
CN107146627B (zh) 2020-10-30
KR102440104B1 (ko) 2022-09-05
MY176454A (en) 2020-08-10

Similar Documents

Publication Publication Date Title
CN107293304B (zh) 对更高阶高保真度立体声响复制表示进行压缩和解压缩的方法和装置
US11546712B2 (en) Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field
RU2776307C2 (ru) Способ и устройство для сжатия и распаковки представления на основе амбиофонии высшего порядка
KR20240096662A (ko) 고차 앰비소닉스 표현을 압축 및 압축해제하기 위한 방법 및 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1238791

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant