CN111656442B - 使用量化和熵编码来编码或解码定向音频编码参数的装置和方法 - Google Patents

使用量化和熵编码来编码或解码定向音频编码参数的装置和方法 Download PDF

Info

Publication number
CN111656442B
CN111656442B CN201880086690.3A CN201880086690A CN111656442B CN 111656442 B CN111656442 B CN 111656442B CN 201880086690 A CN201880086690 A CN 201880086690A CN 111656442 B CN111656442 B CN 111656442B
Authority
CN
China
Prior art keywords
parameter
encoded
elevation
quantized
diffuseness
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201880086690.3A
Other languages
English (en)
Other versions
CN111656442A (zh
Inventor
纪尧姆·福克斯
于尔根·赫勒
法比恩·屈希
斯蒂芬·朵拉
马库斯·马特拉斯
奥利弗·迪尔加特
奥利弗·维博尔特
弗罗林·吉多
斯特凡·拜尔
乌尔夫冈·雅吉斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority claimed from PCT/EP2018/081623 external-priority patent/WO2019097018A1/en
Publication of CN111656442A publication Critical patent/CN111656442A/zh
Application granted granted Critical
Publication of CN111656442B publication Critical patent/CN111656442B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

一种用于编码包括扩散度参数和方向参数在内的定向音频编码参数的装置,该装置包括:参数量化器(210),用于量化扩散度参数和方向参数;参数编码器(220),用于编码经量化的扩散度参数和经量化的方向参数;以及输出接口(230),用于产生包括与经编码的扩散度参数和经编码的方向参数有关的信息的经编码的参数表示。

Description

使用量化和熵编码来编码或解码定向音频编码参数的装置和 方法
技术领域
本发明涉及音频信号处理,并且具体涉及诸如DirAC元数据之类的定向音频编码参数的有效编码方案。
背景技术
本发明旨在提出用于来自由定向音频编码(DirAC)(一种用于空间音频处理的感知激励技术)进行的3D音频场景分析的编码空间元数据的低比特率编码解决方案。
发送三维的音频场景需要处理多个声道,这通常引起发送大量数据。定向音频编码(Directional Audio Coding;DirAC)技术[1]是用于分析音频场景并以参数方式对其进行表示的有效方法。DirAC基于针对每个频带测量的到达方向(DOA)和扩散度来使用声场的感知激励表示。其是依据如下假设来建立的:在一个时刻并且对于一个临界频带,听觉***的空间分辨率限于针对方向解码一个提示并且针对耳间相干性解码另一提示。然后通过使两个流(即非定向扩散流和定向不扩散串流)交叉衰落来在频域中再现空间声音。
本发明公开了基于DirAC声音表示和再现的3D音频编码方法来实现低比特率下的沉浸式音频内容的传输。
DirAC是感知激励空间声音再现。假设在一个时刻并且对于一个临界频带,听觉***的空间分辨率限于针对方向解码一个提示并且针对耳间相干性解码另一提示。
基于这些假设,DirAC通过使两个流(即非定向扩散流和定向不扩散串流)交叉衰落来在一个频带中表示空间声音。DirAC处理在如下两个阶段中执行:如图10a和图10b中所描绘的分析阶段和合成阶段。
在DirAC分析阶段中,具有B格式的一阶重合麦克风被视为输入并且在频域中分析声音的扩散度和到达方向。
在DirAC合成阶段中,声音被分成两个流,即不扩散流和扩散流。使用幅度平移将不扩散流再现为点源,可以通过使用向量基幅度平移(VBAP)[2]来进行幅度平移。扩散流负责环绕感的感觉并且通过将彼此去相关的信号输送给扬声器而产生。
DirAC参数(在下文中也称为空间元数据或DirAC元数据)由扩散度和方向的元组组成。方向可以通过两个角度(方位角和仰角)以球形坐标来表示,而扩散度是位于0与1之间的标量因子。
图10a示出了接收B格式输入信号的滤波器组130。执行能量分析132和强度分析134。执行在136处指示的能量结果的时间平均和在138处指示的强度结果的时间平均,并且根据平均数据,如110处所指示地计算各个时间段/频段的扩散度值。通过框120来计算由滤波器组130的时间或频率分辨率给定的时间段/频段的方向值。
在图10b中所示的DirAC合成中,再次使用分析滤波器组431。例如,应用虚拟麦克风处理框421,其中虚拟麦克风与例如5.1扬声器装置的扬声器位置相对应。扩散度元数据由用于扩散度的对应的处理框422和由框423处指示的向量基幅度平移(VBAP)增益表来处理。扬声器平均框424被配置为执行增益平均,并且对应的归一化框425被应用以便在各个最终扬声器信号中具有对应的定义的响度等级。在框426中执行麦克风补偿。
所得信号一方面用于产生包括去相关阶段的扩散流427,并且另外也产生不扩散流428。针对对应的子带在加法器429中使两个流相加,并且在框431中,执行与其他子带的相加(即,频率到时间转换)。因此,框431也可以被视为合成滤波器组。对于来自特定扬声器装置的其他声道进行类似的处理操作,其中对于不同声道,框421中的虚拟麦克风的设定将是不同的。
在DirAC分析阶段中,具有B格式的一阶重合麦克风被视为输入并且在频域中分析声音的扩散度和到达方向。
在DirAC合成阶段中,声音被分成两个流,即不扩散流和扩散流。使用幅度平移将不扩散流再现为点源,可以通过使用向量基幅度平移(VBAP)[2]来进行幅度平移。扩散流负责环绕感的感觉并且通过将彼此去相关的信号输送给扬声器而产生。
DirAC参数(在下文中也称为空间元数据或DirAC元数据)由扩散度和方向的元组组成。方向可以通过两个角度(方位角和仰角)以球形坐标来表示,而扩散度是位于0与1之间的标量因子。
如果STFT被视为具有20毫秒的时间分辨率(这通常在若干论文中建议)并且在相邻分析窗之间具有50%的重叠的时间-频率变换,则针对以48kHz采样的输入,DirAC分析将产生每秒288000个值,如果在8个比特上量化角度,则这对应于约2.3Mbit/s的总比特率。该数据量并不适合于实现低比特率空间音频编码,并且因此需要DirAC元数据的有效编码方案。
关于元数据的减小的先前工作主要集中于电话会议情形,其中DirAC的性能被极大地减小以便允许其参数的最小数据速率[4]。实际上,提出将定向分析限制于水平面中的方位角以便仅再现2D音频场景。此外,仅发送至多7kHz的扩散度和方位角,从而将通信限制于宽带语音。最终,基于一个或两个比特粗略量化扩散度,从而在合成阶段中仅有时接通或断开扩散流,这在考虑多个音频源和背景噪声上的大于单个语音时是不够通用的。在[4]中,在3比特上量化方位角并且假设源(在该情况下为扬声器)具有非常静态的位置。因此,仅通过50毫秒的更新频率来发送参数。基于这些许多有力的假设,对比特的需求可以减小至约3kbit/s。
发明内容
本发明的目的是提供改进的空间音频编码概念。
此目的是通过根据本申请实施例的用于编码定向音频编码参数的装置、根据本申请实施例的用于编码定向音频编码参数的方法、根据本申请实施例的用于解码经编码的音频信号的解码器、根据本申请实施例的用于解码的方法或根据本申请实施例的计算机程序来实现的。
根据一个方面,本发明基于以下发现:当一方面扩散度参数和另一方面方向参数被提供有不同分辨率并且具有不同分辨率的不同参数被量化和编码以获得经编码的定向音频编码参数时,一方面获得增强的质量,同时另一方面获得用于编码空间音频编码参数的减小的比特率。
在实施例中,扩散度参数的时间或频率分辨率低于定向参数的时间或频率分辨率。在另一实施例中,不仅在频率上而且还在时间上执行分组。例如,计算具有高分辨率(即针对高分辨率时间段/频段来计算)最初的扩散度/定向音频编码参数,并且执行分组并且优选地通过平均来执行分组,以便计算具有低时间或频率分辨率的所得扩散度参数以及计算具有中等时间或频率分辨率(即,位于扩散度参数的时间或频率分辨率与最初的高分辨率之间的时间或频率分辨率)的所得定向参数,已经计算了最初原始参数的最初的高分辨率。
在实施例中,第一和第二时间分辨率是不同的而第一和第二频率分辨率是相同的,或反之亦然,也就是说,第一和第二频率分辨率是不同的而第一和第二时间分辨率是相同的。在另一实施例中,第一和第二时间分辨率二者是不同的并且第一和第二频率分辨率也是不同的。因此,第一时间或频率分辨率也可以被认为是第一时间-频率分辨率并且第二时间或频率分辨率也可以被认为是第二时间-频率分辨率。
在另一实施例中,扩散度参数的分组是利用加权加法进行的,其中用于加权加法的加权因子基于音频信号的功率来确定,以使得具有较高功率的时间段/频段(或一般而言,音频信号的较高幅度相关测量)与其中待分析的信号具有较低功率或较低能量相关测量的时间段/频段的扩散度参数相比,对结果具有较高影响。
另外优选的是执行双重加权平均,以用于计算经分组的定向参数。该双重加权平均以如下方式进行:所述方式使得当最初信号的功率在时间段/频段中非常高时,来自该时间段/频段的定向参数对最终结果具有较高影响。同时还考虑对应段的扩散度值,以使得最终当功率在两个时间段/频段中相同时,与具有低扩散度的定向参数相比较,来自与高扩散度相关联的时间段/频段的定向参数对最终结果具有较低影响。
优选的是执行帧中的参数的处理,其中每一帧被组织在某一数量的频带中,其中每一频带包括至少两个最初频段,已经计算所述最初频段中的参数。频带的带宽(即最初频段的数量)随增加的频带编号而增加,以使得较高频带比较低频带更宽。已发现在优选实施例中,例如,每频带和每帧的扩散度参数的数量等于1,而每帧和每频带的定向参数的数量为2或甚至大于2,例如4。已发现对于扩散度和定向参数,相同的频率分辨率但不同的时间分辨率是适用的,即,帧中的扩散度参数和定向参数的频带的数量彼此相等。这些经分组的参数接着通过量化器和编码器处理器来量化和编码。
根据本发明的第二方面,提供空间音频编码参数的改进的处理概念的目的是通过用于量化扩散度参数和方向参数的参数量化器、随后连接的用于编码经量化的扩散度参数和经量化的方向参数的参数编码器、以及用于产生包括与经编码的扩散度参数和经编码的方向参数有关的信息的经编码的参数表示的对应输出接口来实现的。因此,通过量化和后续的熵编码,获得显著的数据速率减小。
输入至编码器中的扩散度参数和方向参数可以是高分辨率扩散度/方向参数或经分组或未经分组的低分辨率定向音频编码参数。优选的参数量化器的一个特征是用于量化方向参数的量化精确度是从与相同时间/频率区域相关联的扩散度参数的扩散度值导出的。因此,在第二方面的一个特征中,相比于与具有指示低扩散度的扩散度参数的时间/频率区域相关联的方向参数相比较,与具有高扩散度的扩散度参数相关联的方向参数的量化精确度较低。
扩散度参数自身可以以原始编码模式来熵编码,或当帧的频带的扩散度参数在整个帧中具有相同的值时可以以单值编码模式来编码。在其他实施例中,扩散度值可以在仅两个连续值过程中编码。
第二方面的另一特征是方向参被转换成方位角/仰角表示。在该特征中,仰角值用于确定用于方位角值的量化和编码的字母表。优选地,当仰角指示零角度或总体上指示单位球体上的赤道角度时,方位角字母表具有最大数量的不同值。方位角字母表中的值的最少数量是在仰角指示单位球体的北极或南极时。因此,字母表值随着从赤道计数的仰角的绝对值的增加而减小。
该仰角值通过从对应扩散度值确定的量化精确度来量化,并且一方面量化字母表以及另一方面量化精确度确定对应方位角值的量化并且通常确定熵编码。
因此,执行有效的且参数适配的处理,这种处理尽可能移除许多不相关性,并且同时将高分辨率或高精度应用于值得这样做的区域,而在诸如单位球体的北极或南极之类的其他区域中,与单位球体的赤道相比,精确度不会那样高。
根据第一方面的解码器侧操作执行任何种类的解码并通过经编码或经解码的扩散度参数和经编码或经解码的方向参数来执行对应的去分组(de-grouping)。因此,执行参数分辨率转换以将来自经编码或经解码的定向音频编码参数的分辨率增强到最终由音频渲染器使用以执行音频场景的渲染的分辨率。在该分辨率转换过程中,一方面针对扩散度参数并且另一方面针对方向参数来执行不同的分辨率转换。
扩散度参数通常通过低分辨率来编码,并且因此一个扩散度参数必须被重复或复制若干次以获得高分辨率表示。另一方面,与扩散度参数相比,对应的定向参数必须不那么频繁地被复制或不那么频繁地被重复,这是由于定向参数的分辨率已经高于经编码的音频信号中的扩散度参数的分辨率。
在实施例中,经复制或经重复的定向音频编码参数按原样被应用或被处理(例如被平滑或低通滤波),以便避免由参数所引起的伪影随频率和/或时间强烈变化。然而,由于在优选实施例中,分辨率转换的参数化数据的应用是在谱域中执行的,所以经渲染的音频信号从频域至时域的对应的频率-时间转换由于优选应用的重叠和相加过程(这是通常包括在合成滤波器组中的特征)而执行相干平均。
在根据第二方面的解码器侧,解开在编码器侧在一方面针对熵编码并且在另一方面针对量化而执行的特定过程。优选的是根据与对应的方向参数相关联的通常经量化或经解量化的扩散度参数来确定解码器侧的解量化精确度。
优选的是根据对应的扩散度值及其相关解量化精确度来确定仰角参数的字母表。对于第二方面还优选的是,基于经量化或优选地经解量化的仰角参数的值来执行方位角参数的解量化字母表的确定。
根据第二方面,一方面原始编码模式或另一方面熵编码模式在编码器侧执行,并且在编码器选择产生较少数量的比特的模式,并经由一些辅助信息(side information)将其发信号通知给解码器。通常,针对具有与其相关联的高扩散度值的定向参数,始终执行原始编码模式,而对于具有与其相关联的较低扩散度值的定向参数,尝试熵编码模式。在具有原始编码的熵编码模式中,方位角和仰角值被合并成球体索引,并且球体索引接着使用二进制代码或删余代码(punctured code)来编码,并且因此在解码器侧解开该熵编码。
在具有模型化的熵编码模式中,针对帧计算平均仰角和方位角值,并且实际上计算关于这些平均值的残差值。因此,执行一种预测并且对预测残差值(即仰角和方位角的距离)进行熵编码。为此目的,除了优选带符号的距离和平均值之外,优选地还执行依赖于在编码器侧确定并编码的哥伦布-莱斯(Golomb-Rice)参数的扩展哥伦布-莱斯过程。在解码器侧,一旦具有模型化的熵编码(即该解码模式)被发信号通知并通过解码器中的辅助信息评估被确定,就使用经编码的平均值、经编码的优选带符号距离以及仰角和方位角的对应的哥伦布-莱斯参数,来进行带有扩展哥伦布-莱斯过程的解码。
附图说明
接下来针对附图来论述本发明的优选实施例,在附图中:
图1a示出了第一方面或第二方面的编码器侧的优选实施例;
图1b示出了第一方面或第二方面的解码器侧的优选实施例;
图2a示出了根据第一方面的用于编码的装置的优选实施例;
图2b示出了图2a的参数计算器的优选实施方式;
图2c示出了用于扩散度参数的计算的另一实施方式;
图2d示出了图2a的参数计算器100的另一优选实施方式;
图3a示出了如通过图1a的分析滤波器组130或图1b的430获得的具有高时间或频率分辨率的时间/频率表示;
图3b示出了具有低时间或频率分辨率(具体地具有每帧单个扩散度参数的特定低时间分辨率)的扩散度分组的实施方式;
图3c示出了一方面具有五个频带并且另一方面具有产生20个时间/频率区域的四个时间区域的方向参数的中等分辨率的优选图示;
图3d示出了具有经编码的扩散度参数和经编码的方向参数的输出比特流;
图4a示出了根据第二方面的用于编码定向音频编码参数的装置;
图4b示出了用于计算经编码的扩散度参数的参数量化器和参数编码器的优选实施方式;
图4c针对不同元件的协作示出了图4a的编码器的优选实施方式;
图4d示出了在优选实施例中出于量化的目的而应用的单位球体的准均匀覆盖;
图5a示出了对以不同编码模式操作的图4a的参数编码器的操作的概述;
图5b示出了针对图5a的两个模式的方向索引的预处理;
图5c示出了优选实施例中的第一编码模式;
图5d示出了第二编码模式的优选实施例;
图5e示出了使用GR编码过程的带符号距离和对应的平均值的熵编码的优选实施方式;
图5f示出了用于确定最佳哥伦布-莱斯参数的优选实施例;
图5g示出了用于如图5e的框279所指示的经重新排序的带符号距离的编码的扩展哥伦布-莱斯过程的实施方式;
图6a示出了图4a的参数量化器的实施方式;
图6b示出了还在某些方面用于编码器侧实施方式的参数解量化器的功能的优选实施方式;
图6c示出了对原始方向编码过程的实施方式的概述;
图6d示出了用于方位角和仰角的平均方向的计算和量化以及解量化的实施方式;
图6e示出了平均仰角和方位角数据的投影;
图6f示出了仰角和方位角的距离的计算;
图6g示出了对具有模型化的熵编码模式中的平均方向的编码的概述;
图7a示出了根据第一方面的用于解码经编码的音频信号的解码器;
图7b示出了图7a的参数分辨率转换器和后续的音频渲染的优选实施方式;
图8a示出了根据第二方面的用于解码经编码的音频信号的解码器;
图8b示出了在实施例中用于经编码的扩散度参数的示意比特流表示;
图8c示出了当已选择原始编码模式时的比特流的实施方式;
图8d示出了当已选择另一编码模式(即具有模型化的熵编码模式)时的示意性比特流;
图8e示出了参数解码器和参数解量化器的优选实施方式,其中解量化精确度基于时间/频率区域的扩散度来确定;
图8f示出了参数解码器和参数解量化器的优选实施方式,其中仰角字母表根据解量化精确度来确定,并且方位角字母表基于解量化精确度和时间/频率区域的仰角数据来确定;
图8g示出了对示出两个不同解码模式的图8a的参数解码器的概述;
图9a示出了当原始编码模式有效时的解码操作;
图9b示出了当具有模型化的熵解码模式有效时的平均方向的解码;
图9c示出了当具有模型化的解码模式有效时的仰角和方位角的重构,以及后续的解量化;
图10a示出了众所周知的DirAC分析器;以及
图10b示出了众所周知的DirAC合成器。
具体实施方式
本发明将DirAC元数据至任一种情形之压缩通用化。本发明应用于图1a和图1b中所示的空间编码***中,在图1a和图1b中描绘基于DirAC的空间音频编码器和解码器。
编码器通常分析B格式的空间音频场景。替代地,DirAC分析可以被调整以分析不同的音频格式,如音频对象或多声道信号或任何空间音频格式的组合。DirAC分析从输入音频场景提取参数化表示。每个时间-频率单位所测量的到达方向(DOA)和扩散度形成所述参数。所述DirAC分析之后是空间元数据编码器,所述空间元数据编码器对DirAC参数进行量化和编码以获得低比特率参数化表示。后一模块是本发明的主题。
连同参数一起,对从不同的源或音频输入信号导出的下混频信号进行编码以通过常规的音频核心编码器来传输。在优选实施例中,EVS音频编码器优选地用于编码下混频信号,但本发明不限于该核心编码器,并且可以应用于任何音频核心编码器。下混频信号由被称作输送声道的不同声道组成:信号可以是例如组成B格式信号的四个系数信号、立体声对或单音下混频,这取决于目标比特率。经编码的空间参数和经编码的音频比特流在通过声道传输之前被复用。
在解码器中,输送声道由核心解码器解码,而DirAC元数据在通过经解码的输送声道被输送至DirAC合成之前首先被解码。DirAC合成使用经解码的元数据来控制直接声音流的再现及其与扩散声音流的混合。再现的声场可以在任意扬声器布局上再现,或可以以任意顺序以立体混响格式(HOA/FOA)来产生。
在图1a中示出了用于编码诸如B格式输入信号之类的音频信号的音频编码器。音频编码器包括DirAC分析器100。DirAC分析器100可以包括分析滤波器组130、扩散度估计器110和方向估计器120。扩散度数据和方向数据被输出至空间元数据编码器200,该空间元数据编码器最终在线250上输出经编码的元数据。B格式信号也可以被转发至波束形成器/信号选择器140,其根据输入信号产生单声道或立体声输送音频信号,该单声道或立体声输送音频信号接着在音频编码器150(即,优选地,EVS(增强的语音服务)编码器)中被编码。在170处输出经编码的音频信号。在250处指示的经编码的编码参数被输入至空间元数据解码器300中。经编码的音频信号170被输入至音频解码器340中,所述音频解码器在优选实施例中根据编码器侧实施方式而被实现为EVS解码器。
经解码的输送信号与经解码的定向音频编码参数一起被输入至DirAC合成器400中。在图1b中所示的实施例中,DirAC合成器包括输出合成器420、分析滤波器组430和合成滤波器组440。在合成滤波器组400的输出处,获得经解码的多声道信号450,该多声道信号可以被转发至扬声器,或可以替代地是具有任何其他格式(例如一阶立体混响(FOA)或高阶立体混响(HOA)格式)的音频信号。自然地,任何其他参数化数据(例如MPS(MPEG环绕)数据或SAOC(空间音频对象编码)数据)可以与作为单声道或立体声道的输送声道一起产生。
一般而言,针对如通过分析滤波器组430确定的每一时间-频段,输出合成器通过在一方面计算直接音频信号并且在另一方面计算扩散音频信号来操作。直接音频信号是基于方向参数和直接音频信号与该时间段/频段的最终音频信号中的扩散音频信号之间的关系来计算的,扩散音频信号是基于扩散度参数而确定的,以使得具有高扩散度参数的时间段/频段产生具有大量扩散信号和少量直接信号的输出信号,而具有低扩散度的时间段/频段产生具有大量直接信号和少量扩散信号的输出信号。
图2a示出了根据第一方面的用于编码包括扩散度参数和方向参数在内的定向音频编码参数的装置。所述装置包括参数计算器100,其用于计算具有第一时间或频率分辨率的扩散度参数并用于计算具有第二时间或频率分辨率的方向参数。所述装置包括量化器和编码器处理器200,其用于产生在250处示出的扩散度参数和方向参数的经量化且经编码的表示。参数计算器100可以包括图1a的组件110、120、130,其中已经在第一或第二时间或频率分辨率中计算不同参数。
替代地,图2b中示出了优选实施方式。这里,如图2b的项130所示地配置参数计算器,并且具体地配置图1a中的框110、120,即它们计算具有通常为高的第三或第四时间或频率分辨率的参数。执行分组操作。为了计算扩散度参数,如框141所示地进行分组及平均以便获得具有第一时间或频率分辨率的扩散度参数表示,并且为了计算方向参数,在框142中进行分组(及平均)以便获得第二时间或频率分辨率的方向参数表示。
扩散度参数和方向参数被计算以使得第二时间或频率分辨率不同于第一时间或频率分辨率,并且第一时间分辨率低于第二时间分辨率,或第二频率分辨率高于第一频率分辨率,或另外替代地,第一时间分辨率低于第二时间分辨率并且第一频率分辨率等于第二频率分辨率。
通常,扩散度参数和方向参数是针对一组频带来计算的,其中具有较低中心频率的频带比具有较高中心频率的频带窄。如已经关于图2b所论述的,参数计算器100被配置为获得具有第三时间或频率分辨率的初始扩散度参数,并且参数计算器100也被配置为获得具有第四时间或频率分辨率的初始方向参数,其中第三和第四时间或频率分辨率通常彼此相等。
参数计算器接着被配置为对初始扩散度参数进行分组和平均,以使得第三时间或频率分辨率高于第一时间或频率分辨率,即,执行分辨率减小。参数计算器还被配置为对初始方向参数进行分组和平均,以使得第四时间或频率分辨率高于第二时间或频率分辨率,即,执行分辨率减小。优选地,第三时间或频率分辨率是恒定的时间分辨率,以使得每一初始扩散度参数与具有相同大小的时隙或频段相关联。第四时间或频率分辨率也是恒定的频率分辨率,以使得每一初始方向参数与具有相同大小的时隙或频段相关联。
参数计算器被配置为对于与第一多个时隙相关联的第一多个扩散度参数进行平均。参数计算器100也被配置为对于与第二多个频段相关联的第二多个扩散度参数进行平均,并且参数计算器也被配置为对于与第三多个时隙相关联的第三多个方向参数进行平均,或参数计算器也被配置为对于与第四多个频段相关联的第四多个方向参数进行平均。
如将关于图2c和图2d论述的,参数计算器100被配置为执行加权平均计算,其中与根据具有较低幅度相关测量的输入信号部分导出的扩散度参数或方向参数相比,使用更高的加权因子来加权根据具有较高幅度相关测量的输入信号部分导出的扩散度参数或方向参数。参数计算器100被配置为如图2c的项143中所示地计算143在第三或第四时间或频率分辨率中的每一段的幅度相关测量。在框144中,计算每一段的加权因子,并且在框145中,在各个段的扩散度参数被输入至框145中的情况下,使用加权组合(诸如加权加法)来执行分组和平均。在框145的输出处,获得具有第一时间或频率分辨率的扩散度参数,其随后可以在框146中被归一化,但该过程仅是可选的。
图2d示出了具有第二分辨率的方向参数的计算。在框146中,类似于图2c的项143,计算在第三或第四分辨率中的每一段的幅度相关测量。在框147中,针对每一段计算加权因子,但这不仅取决于从框147获得的幅度相关测量,而且还使用如图2d中所示的每一段的对应的扩散度参数。因此,对于相同的幅度相关测量,针对较低扩散度通常计算较高因子。在框148中,使用加权组合(诸如加法)来执行分组和平均,并且结果可以如可选框146中所示地被归一化。因此,在框146的输出处,获得方向参数以作为与二维或三维区域相对应的单位向量,例如可以容易地转换为具有方位角值和仰角值的极坐标形式的笛卡尔向量。
图3a示出了如由图1a和图1b的滤波器组分析430获得或由图1b的滤波器组合成440应用的时间/频率栅格。在实施例中,整个频率范围被分成60个频带并且帧附加地具有16个时隙。该高时间或频率分辨率优选地是第三或第四高时间或频率分辨率。因此,从60个频带和16个时隙开始,获得每帧的960个时间/频率块或段。
图3b示出了由参数计算器并且具体地由图2b的框141执行以便获得扩散度值的第一时间或频率分辨率表示的分辨率减小。在该实施例中,整个频率带宽被分成五个分组频带和仅单个时隙。因此,对于一个帧,每一个帧最后获得仅五个扩散度参数,所述参数接着被量化和编码。
图3c示出了由图2b的框142执行的对应的过程。来自图3a的高分辨率方向参数(其中针对每一段计算一个方向参数)被分组和平均成图3c中的中等分辨率表示,其中对于每一帧,具有五个频带但与图3a相比现在具有四个时隙。因此,最后,一个帧容纳20个方向参数,即,针对方向参数,每帧20个分组段,并且针对图3b的扩散度参数,每帧仅五个分组段。在优选实施例中,频带边缘在其上边缘中被排除,以使得
当比较图3b与图3c时,应注意第一频带的扩散度参数(即扩散度参数1)对应于第一频带的四个方向参数或与其相关联。如随后将概述的,第一频带中的所有方向参数的量化精确度通过第一频带的扩散度参数来确定,或示例性地,第五频带的方向参数(即,覆盖第五频带和第五频带中的四个时隙的对应的四个方向参数)的量化精确度通过第五频带的单个扩散度参数来确定。
因此,在此实施例中,在每频带仅由单个扩散度参数组成的情况下,一个频带中的所有方向参数具有相同的量化/解量化精确度。如随后将概述的,用于量化和编码方位角参数的字母表取决于最初/经量化/经解量化的仰角参数的值。因此,尽管每一频带的每一方向参数具有相同的量化/解量化参数,但图3c的每一分组段或时间区域/频率区域的每一方位角参数可以具有用于量化和编码的不同字母表。
在图3d中更详细示出了在图2a中的250处示出的由量化器和编码器处理器200产生的所得比特流。比特流可以包括指示第一分辨率和第二分辨率的分辨率指示260。然而,当第一分辨和第二分辨率通过编码器和解码器固定地设定时,则不需要该分辨率指示。项261、262示出对应的频带的经编码的扩散度参数。由于图3d仅示出了五个频带,所以仅五个扩散度参数被包括在经编码的数据流中。项363、364示出了经编码的方向参数。对于第一频带,存在四个经编码的方向参数,其中方向参数的第一索引指示频带并且第二参数指示时隙。第五频带和第四时隙(即图3c中的右上方频段)的方向参数被指示为DIR54。
随后,详细地论述更优选的实施方式。
时间-频率分解
在DirAC中,分析和合成均在频域中执行。时间-频率分析和合成可以使用各种块变换(如短期傅里叶变换(STFT))或滤波器组(如复调制正交镜像滤波器组(QMF))来执行。在我们的优选实施例中,我们旨在在DirAC处理与核心编码器之间共享帧化(framing)。由于核心编码器优选地基于3GPP EVS编码解码器,所以期望20毫秒的帧化。此外,诸如时间和频率分辨率以及频叠(aliasing)的稳健性之类的重要准则对于DirAC中的非常有效的时间-频率处理有意义。由于***被设计用于通信,所以算法延迟是另一重要方面。
出于所有这些原因,复调制低延迟滤波器组(CLDFB)是优选的选择。CLDFB具有1.25毫秒的时间分辨率并将20毫秒帧分成16个时隙。频率分辨率为400Hz,这意味着输入信号被分解成(fs/2)/400个频带。滤波器组操作以一般形式通过以下公式来描述:
其中XCR和XCI分别是实部和虚部子频带值,t为子频带时间索引,其中0≤t≤15,并且k为子频带索引,其中0≤k≤LC-1。分析原型wc是具有取决于sHP的适应性长度的不对称低通滤波器。wc的长度通过给出,这意味着滤波器横跨10个连续块来进行变换。
例如,CLDFB将会将以48kHz采样的信号分解成每帧60x16=960个时间-频率块。在分析和合成之后的延迟可以通过选择不同的原型滤波器来调整。发现5毫秒的延迟(分析及合成)是递送的质量与产生的延迟之间的良好折衷。对于每一时间-频率块,计算扩散度及方向。
DirAC参数估计
在每一频带中,估计声音的到达方向以及声音的扩散度。根据输入B格式分量wi(n),xi(n),yi(n),zi(n)的时间-频率分析,压力和速度向量可以被确定为:
Pi(n,k)=Wi(n,k)
Ui(n,k)=Xi(n,k)ex+Yi(n,k)ey+Zi(n,k)ez
其中i是输入的索引,n和k是时间-频率块的时间和频率索引,并且ex,ey,ez表示笛卡尔单位向量。P(n,k)和U(n,k)是通过强度向量的计算来计算DirAC参数(即DOA和扩散度)所必需的:
其中表示复共轭。组合声场的扩散度由下式给出:
其中E{.}表示时间平均运算符,c是声音的速度,并且声场能量E(k,n)通过下式给出:
声场的扩散度被定义为声音强度与能量密度之间的比率,具有0与1之间的值。
到达方向(DOA)借助于单位向量direction(n,k)来表达,direction(n,k)被定义为
到达方向是由对B格式输入的能量分析而确定的,并且可以被定义为强度向量的相对方向。方向被定义在笛卡尔坐标中但可以容易地变换到由单位半径、方位角和仰角定义的球形坐标中。
总之,如果对于每一时间-频率块,参数值直接转换为比特,则3个值必须被编码:方位角、仰角和扩散度。元数据接着在CLDFB的示例中由每帧2880个值(即每秒144000个值)组成。该巨大量的数据需要被显著减少以实现低比特率编码。
DirAC元数据的分组和平均
为了减少参数的量,在每一时间-频率块中计算的参数首先沿着频率参数频带并在若干时隙上分组和平均。分组在扩散度与方向之间去耦,这是本发明的重要方面。实际上,去耦利用扩散度与方向相比保持声场的更长期特性(这是更具反应性的空间提示)的事实。
参数频带按照大致整数倍的等效矩形带宽(ERB)比例来构成频带的非均匀和不重叠的分解。按照缺省,9倍ERB比例被用于16kHz的音频带宽的总共5个参数频带。
扩散度被计算为:
其中power(n,k)α是在索引(t、k)的时间-频率块中测量并升高至α的幂的输入信号的能量,并且diffusess(n,k)是在索引(n、k)的时间-频率块中测量的输入信号的扩散度,并且其中banddiff[]限定关于频带索引的参数频带的限制,且slotdiff[]限定时隙索引中在时间上分组的限制。例如,可以针对5个参数频带和1个时间分组将表定义为:
slotdiff=[0,16]
banddiff=[0,1,3,7,15,60]
笛卡尔坐标中的方向向量被计算为:
其中power(n,k)α是在索引(t、k)的时间-频率块中测量并升高至α的幂的输入信号的能量,diffuseness(n,k)是在索引(n、k)的时间-频率块中测量的输入信号的扩散度,并且direction(n,k)是在三维笛卡尔坐标中在索引(n、k)的时间-频率块中测量的方向,并且其中banddv[]限定关于频带索引的参数频带的限制,并且slotdv[]限定时隙索引中在时间上分组的限制。例如,可以针对5个参数频带和4个时间分组将表定义为:
slotav=[0,4,8,12,16]
banddv=[0,1,3,7,15,60]
参数α允许在被执行用于平均参数的加权总和中压缩或扩大基于幂的权重。在优选模式中,α=1。
一般而言,该值可以为非负实数,这是由于小于1的指数也可以适用。例如0.5(平方根)将仍对于较高的幅度相关信号给予更多权重,但当与1或大于1的指数相比较时更适度。
在分组和平均之后,所得定向向量dv[g,b]一般不再是单位向量。因此需要归一化:
随后,论述本发明的第二方面的优选实施例。图4a示出了根据其他第二方面的用于编码包括扩散度参数和方向参数在内的定向音频编码参数的装置。所述装置包括参数量化器210,其在其输入处接收如关于第一方面所论述的分组参数或尚未分组或已经以不同方式分组的参数。
因此,参数量化器210和随后连接的用于编码经量化的扩散度参数和经量化的方向参数的参数编码器220以及用于产生包括与经编码的扩散度参数及经编码的方向参数有关的信息的经编码的参数表示的输出接口一起被包括在例如图1a的框200内。图2a的量化器和编码器处理器200可以如例如随后关于参数量化器210和参数编码器220所论述的那样来实现,但量化器和编码器处理器200也可以以针对第一方面的任何不同方式来实现。
优选地,图4a的参数量化器210被配置为使用非均匀量化器来量化如图4b中的231处所示的扩散度参数,以产生扩散度索引。图4a的参数编码器220如项232中所示地那样配置,即,以使用优选的三个不同模式来熵编码针对帧所获得的扩散度值,但单个模式也可以使用或仅两个不同模式也可以使用。一种模式是以如下方式进行的原始模式:所述方式使得使用例如二进制代码或删余二进制代码来编码每一个单独的扩散度值。替代地,可以执行差分编码以使得使用原始模式来编码每一差值和最初绝对值。然而,所述情形可以使相同的帧在全部频带上具有相同的扩散度并且可以使用仅一个值代码。此外,替代地,情形可以是存在用于扩散度的连续值,即在一个帧中的连续扩散度索引,并且接着可以如框232中所示地应用第三编码模式。
图4c示出了图4a的参数量化器210的实施方式。图4a的参数量化器210被配置为如233处所示地将方向参数转换成极坐标形式。在框234中,确定段的量化精确度。该段可以是最初高分辨率段或替代地并且优选地是低分辨率分组段。
如之前关于图3b和图3c所论述的,每一频带具有相同的扩散度值但具有四个不同的方向值。相同的量化精确度被确定用于整个频带,即用于频带内的全部方向参数。在框235中,如由框233输出的仰角参数使用量化精确度来量化。用于量化仰角参数的量化字母表优选地也如在框234中所确定的那样根据段的量化精确度来获得。
出于处理方位角值的目的,根据对应的(经分组的)时间段/频段的仰角信息来确定236方位角字母表。仰角信息可以是经量化的仰角值、最初仰角值或经量化并且再经解量化的仰角值,其中后一值(即经量化并且再经解量化的仰角值)是优选的,以便在编码器侧和在解码器侧处具有相同的情形。在框237中,通过该时间段/频段的字母表来量化方位角参数。虽然我们可以具有如之前关于图3b所论述的频带的相同的量化精确度,但我们仍然可以具有用于与方向参数相关联的每一单独的分组时间段/频段的不同方位角字母表。
DirAC元数据编码
对于每一帧,在由跨越频率的nbands个频带组成的网格上计算DirAC空间参数,并且对于每一频带b,num_slots个时隙被分组成多个同样大小nblock(b)的时间分组。针对每一频带,发送扩散度参数,并且针对每一频带的每一时间分组,发送方向参数。
例如,若nbands=5并且nblocks(b)=4,在num_slots=16情况下,这将产生每帧5个扩散度参数和20个方向参数,这些参数将被进一步量化和熵编码。
扩散度参数的量化
使用非均匀量化器将每一扩散度参数diff(b)量化成diff_alph个离散等级中的一个,以产生扩散度索引diffidx(b)。例如,量化器可以根据MPS标准中使用的ICC量化表来导出,针对该标准,由generate_diffuseness_quantizer功能计算阈值和重构等级。
优选地,仅使用来自ICC量化表的非负值,如icc=[1.0、0.937、0.84118、0.60092、0.36764、0.0],其包含最初8个中的仅6个等级。因为0.0的ICC对应于扩散度1.0,并且1.0的ICC对应于扩散度0.0,所以一组y坐标被建立为y=1.0-icc,其中x坐标的对应集合为x=[0.0、0.2、0.4、0.6、0.8、1.0]。保形(shape-preserving)分段三次内插方法(被称为分段三次厄米特内插多项式(Piecewise Cubic Hermite Interpolating Polynomial;PCHIP))用来导出通过由x和y限定的点的集合的曲线。扩散度量化器的步长的数量为diff_alph,其在所提议的实施方式中为8,但其与ICC量化表的等级的总数量(其也为8)无关。
产生来自0.0至1.0(或当由于声音渲染考虑因素而避免1.0的纯扩散度时,靠近但小于1.0)的diff_alph个等间隔坐标x_interpolated的新集合,并且曲线上的对应y值用作重构值,这些重构值非线性地间隔开。还产生连续的x_interpolated值之间的一半处的点,并且曲线的对应y值用作阈值,以决定哪些值映射至特定扩散度索引并且因此映射至重构值。对于所提议的实施方式,由generate_diffuseness_quantizer功能计算的所产生的重构和阈值(舍入至5位数)为:
重构reconstructions=[0.0、0.03955、0.08960、0.15894、0.30835、0.47388、0.63232、0.85010]
阈值thresholds=[0.0、0.01904、0.06299、0.11938、0.22119、0.39917、0.54761、0.73461、2.0]
占位器超范围大阈值(2.)在阈值末端添加以使对其进行搜寻更简单。例如,如果对于特定频带b,diff(b)=0.33,则thresholds[4]<=diff(b)<thresholds[5],因此diff_idx(b)=4,并且对应的重构值为reconstructions[4]=0.30835。
以上过程仅是用于扩散度值的非线性量化器的一个可能的选择。
扩散度参数的熵编码
EncodeQuasiUniform(value、alphabet_sz)功能用来使用删余代码通过准均匀概率来编码value。对于value∈{0,...,alphabet_sz-1},使用个比特来编码多个最小者,并且剩余的值使用个比特来编码。如果alphabet_sz为二的幂,则产生二进制编码。
取决于其值,经量化的扩散度索引可以使用三个可用方法中的一者来熵编码:原始编码、仅一个值、以及仅两个连续值。第一比特(diff_use_raw_coding)指示是否使用原始编码方法。对于原始编码,每一扩散度索引值使用EncodeQuasiUniform功能来编码。
如果全部索引值相等,则使用仅一个值方法。第二比特(diff_have_unique_value)用于指示该方法,接着使用EncodeQuasiUniform功能来编码唯一的值。若全部索引值仅由两个连续值组成,则使用仅两个连续值方法,这通过上述第二比特指示。考虑其字母表大小减小至diff_alph-1,两个连续值中的较小者使用EncodeQuasiUniform功能来编码。接着,对于每一值,使用一个比特来编码其与最小值之间的差。
优选的EncodeQuasiUniform(value,alphabet_sz)功能实施所谓的删余代码。可以在伪代码中将其定义为:
如果alphabet_sz为2的幂,则alphabet_sz=2^bits,并且thresh=2^bits,因此从未使用else(其他)分枝,并且产生二进制编码。另外,使用具有bits个比特的二进制代码来编码第一thresh最小值,并且使用具有bits+1个比特的二进制代码来编码剩余的(开始于value=thresh)。使用bits+1个比特编码的第一二进制代码具有值value+thresh=thresh+thresh=thresh*2,因此解码器可以通过仅读取前bits个比特以及比较其value与thresh来弄清楚是否还需要读取一个附加的比特。解码功能DecodeQuasiUniform(alphabet_sz)可以在伪代码中被定义为:
方向参数至极坐标的转换
使用功能DirectionVector2AzimuthElevation将每一3维方向向量dv(其被归一化,使得dv[0]2+dv[1]2+dv[2]2=1)转换成由仰角el∈[一90,90]和方位角az∈[0,360]组成的极坐标表示。使用功能AzimuthElevation2DirectionVector来实现反方向转换(从极坐标到经归一化的方向向量)。
方向参数的量化
表示为仰角和方位角对的方向被进一步量化。对于每一经量化的扩散度索引等级,所需要的角度精确度从angle_spacing配置向量中选择作为deg_req=angle_spacing(diff_idx(b)),并且用于产生在单位球体上的一组准均匀分布的量化点。
角度间隔值deg_req优选地不根据扩散度diff(b)来计算,而是根据扩散度索引引diff_idx(b)计算。因此,存在diff_alph个可能的deg_req值,一个deg_req值对应于每一可能的扩散度索引。在解码器侧处,最初扩散度diff(b)并不可用,仅扩散度索引diff_idx(b)可用,扩散度索引diff_idx(b)可以像在编码器中那样用于选择相同的角度间隔值。在所提议的实施方式中,角度间隔表为:
angle_spacing_table=[5.0,5.0,7.5,10.0,18.0,30.0,45.0,90.0]
单位球体上的准均匀分布点是以满足若干个重要期望特性的方式来产生的。所述点应关于X、Y及Z轴对称地分布。到最近点并且映射至整数索引的给定方向的量化应为恒定的时间操作。最终,根据到方向的整数索引以及解量化来计算球体上的对应点应是关于球体上的点的总数量的恒定或对数时间操作。
针对水平面上的点存在关于轴的二种类型的对称:在正交轴与当前平面上的单位球体相交的情况下呈现两个点,以及不呈现任何点。作为示例,对于任意水平面,存在三种可能的情况。如果点的数量为4的倍数(如8),则存在关于X(左-右)轴的对称以及在Y轴上在90度和270度上呈现的两个点,并且存在关于Y(前-后)轴的对称以及在X轴上在0度和180度上呈现的两个点。如果点的数量仅为2的倍数(如6),则存在关于X轴的对称但在Y轴上在90度及270度上没有点,并且存在关于Y轴的对称以及在X轴上在0度和180度上呈现的两个点。最终,当点的数量为任意整数(如5)时,存在关于X轴的对称但在Y轴上在90度及270度上没有点,并且不存在关于Y轴的对称。
在优选实施例中,在所有水平面(对应于全部经量化的仰角)上在0度、90度、180度及270度上具有点从音质视角来看被认为是有用的,这意味着每一水平面上的点的数量始终为4的倍数。然而,取决于特定应用,关于每一水平面上的点的数量的条件可以放宽为仅2的倍数,或任意整数。
另外,在优选实施例中,对于每一仰角,“原点”方位角点始终存在于0度特许方向(朝向前面)上。该特性可以通过独立地选择每一仰角的预计算的量化偏移角度而放宽,其中方位角点相对于所述偏移角度而非0度方向分布。这可以通过在量化之前加上偏移以及在解量化之后减去偏移来容易地实现。
所需要的角度精确度为deg_req并且应为90度的约数。另外,其在实际使用之前被重新计算为deg_req=90÷「90÷deg_req]。例如,可能值的列表为{90,45,30,22.5,18,15,12.86,11.25,10,...,5,...}。使用步长deg_req来均匀地量化仰角el,从而产生el_idx=round(el÷deg_req)+n_points,el_alph=2·n_points+1个量化索引中的一者,其中n_points=「90÷deg_req]。该索引对应于q_el=(el_idx-n_points)·deg_req的经解量化的仰角。等效地,仅基于字母表大小,el_idx=round(((el+90)÷900)·(el_alph-1))用于量化并且q_el=(el_idx÷(el_alph-1))·180-90用于解量化。
在赤道处,使用步长deg_req来均匀地量化方位角az,从而产生az_idx,4·n_points个量化索引中的一者。对于其他仰角,如从单位球体的中心所见的水平角度间隔(其对应于两个连续点之间的弦长度)可以通过位于q_el仰角处的水平圆上的弧长度来近似。因此,相对于赤道圆,该水平圆上对应于90度的点的数量随着其半径按比例减小,以使得两个连续点之间的弧长度在各处保持大约相同。在极点处,点的总数量变为1。
存在与q_el仰角相对应的az_alph=max(4·round(radius_len·n_points),1)个量化索引,其中radius_len=cos(q_el)。对应的量化索引为az_idx=round((az÷360)·az_alph),其中az_alph的所得值用0替换。该索引与q_az=az_idx·(360÷az_alph)的经解量化的方位角相对应。注意,不包括在az_alph=1情况下的极点,靠近极点的最小值对于deg_req=90和deg_req=45为az_alph=4,并且对于全部剩余者为az_alph=8。
如果与每一水平面上的点的数量有关的条件被放宽为仅2的倍数,则方位角字母表变为az_alph=max(2·round(radius_len·(2·n_points)),1),这是因为存在与赤道平面上的180度相对应的2·n_points个点。如果与点的数量有关的条件被放宽为任意整数,则方位角字母表变为az_alph=max(round(radius_len·(4·n_points)),1),这是因为存在与赤道平面上的360度相对应的4·n_points个点。在两种情况下,在赤道平面上点的数量始终为4的倍数,这是因为radius_len=1并且n_points为整数。
上文所描述的量化和解量化过程分别使用QuantizeAzimuthElevation功能和DequantizeAzimuthElevation功能来实现。
优选地,round(x)功能将x舍入至最接近的整数,通常在固定点中实施为round(x)=floor(x+0.5)。对于平局值(ties)(其是恰好在整数之间的一半处的值,如1.5)的舍入可以若干方式进行。上述定义将平局值朝向+无穷方向舍入(1.5舍入至2,2.5舍入至3)。浮点实施方式通常具有自然舍入至整数功能,从而将平局值舍入至偶数整数(1.5舍入至2,2.5舍入至2)。
指示为“单位球体的准均匀覆盖”的图4d示出了使用15度角度精确度的单位球体的准均匀覆盖的示例,示出了经量化的方向。从上方看为3D视图,为了更佳的可视化仅绘制上部半球,并且连接的虚螺旋线仅为了较容易地在视觉上识别来自同一水平圆或平面的点。
随后,示出了用于编码经量化的方向参数(即,经量化的仰角索引和经量化的方位角索引)的目的的图4a的参数编码器220的优选实施方式。如图5a中所示的,编码器被配置为针对帧中的扩散度值来分类240每一帧。框240接收扩散度值,其在图3b实施例中仅为帧的五个扩散度值。如果帧仅由低扩散度值组成,则应用低扩散度编码模式241。当帧中的五个扩散度值仅为高扩散度值时,则应用高扩散度编码模式242。当确定帧中的扩散度值低于以及高于扩散度阈值ec_max两者时,则应用混合扩散度编码模式243。在低扩散度编码模式241和高扩散度编码模式242两者中,并且还针对混合扩散度帧的低扩散度频带,(如244a、244b及244c处所指示地执行)一方面尝试原始编码以及另一方面尝试熵编码。然而,对于混合扩散度帧中的高扩散度频带,如244d处所指示地始终使用原始编码模式。
在使用不同编码模式(即原始编码模式和熵编码模式(具有模型化))的情况下,通过编码器控制器来选择结果,所述编码器控制器选择产生较少量的比特的模式来编码经量化的索引。这在245a、245b及245c处指示。
另一方面,我们可以针对全部帧或频带仅使用原始编码模式,以及针对全部频带仅使用具有模型化的熵编码模式,或者使用任何其他编码模式(诸如霍夫曼编码模式或具有或不具有上下文适配的算术编码模式),来对索引进行编码。
取决于框245a、245b及245c中的所选过程的结果,如框246a、246b所示的,辅助信息被设定用于整个帧,或被设定仅用于对应的频带(即框246c中的低扩散度频带)。替代地,在项246c的情况下,辅助信息也可以被设定用于整个帧。在该情况下,可以在解码器中单独进行高扩散度频带的确定,以使得即使辅助信息被设定用于整个帧,解码器仍然确定存在混合扩散度帧,并且该混合扩散度帧中具有高扩散度值的频带的方向参数是通过原始编码模式来编码的,虽然帧的辅助信息指示具有模型化的熵编码模式。
在优选实施例中,diff_alph=8。接着,借助于最小化大测试体的平均压缩大小,ec_max阈值被选择为5。取决于当前帧的扩散度索引的值范围,该阈值ec_max用于以下模式:
-针对低至中等扩散度帧,其中diff_idx(b)<=ec_max,针对全部频带b,全部方向使用原始和熵编码两者来编码,并且最佳者被选择并通过一个比特指示为辅助信息(上文被标识为dir_use_raw_coding);
-针对混合扩散度帧,其中diff_idx(b)<=ec_max,针对一些频带b,与这些频带相对应的方向恰好如第一种情况中那样被编码;然而,针对其他高扩散度频带b,其中diff_idx(b)>ec_max,与这些其他频带相对应的方向始终被编码为原始(以避免将具有低至中等扩散度的方向的熵编码统计与具有高扩散度的方向混合,也非常粗略地量化与这些其他频带相对应的方向);
-针对高扩散度帧,其中diff_idx(b)>ec_max,针对全部频带b,ec_max阈值被预先设定为用于当前帧的ec_max=diff_alph(因为扩散度索引在方向之前被编码,所以该设定可以预先在解码器侧处相同地进行),因此该情况还原为第一种情况。
图5b示出了用于两个模式的方向索引的优选但可选的预处理。对于两个模式,经量化的方向索引(即经量化的方位角索引和经量化的仰角索引)在框247中被处理成产生带符号值的仰角/方位角索引的转换,其中零索引对应于零仰角或方位角。执行到无符号值的后续转换248(包含正/负值的交错),以便具有经重排序的无符号方位角/仰角索引的更紧凑表示。
图5c示出了第一编码模式260(即不具有模型化的原始编码模式)的优选实施方式。将经预处理的方位角/仰角索引输入至框261中以便将两个索引合并成单个球体索引。基于根据相关联的扩散度索引导出的量化精确度(即deg_req),通过编码功能(如EncodeQuasiUniform或(删余)二进制代码)执行262编码。因此,获得用于频带或用于整个帧的经编码的球体索引。在已经选择原始编码的仅低扩散度帧的情况下或在原始编码再次被选择的仅高扩散度帧中,获得用于整个帧的经编码的球体索引,或在图5a中的243处所指示的混合扩散度帧(其中对于具有低或中等扩散度的其他频带,已经选择诸如具有模型化的熵编码的第二编码模式)的情况下,获得仅用于帧的高扩散度频带的经编码的球体索引。
图5d示出了可以例如作为具有模型化的熵编码模式的该第二编码模式。经预处理的索引(其例如被分类用于混合扩散度帧,如图5a中在240处所示)输入至框266中,所述框266收集诸如仰角索引、仰角字母表、方位角索引、方位角字母表之类的对应的量化数据,并且该数据被收集在帧的单独向量中。在框267中,基于从如随后论述的解量化和对应的向量变换导出的信息,来清楚地计算仰角和方位角的平均值。通过在框268处指示的在帧中使用的最高角度精确度来量化这些平均值。如框269中所示,经预测的仰角和方位角索引根据平均值来产生,并且来自最初索引并与经预测的仰角及方位角索引相关的仰角和方位角的带符号距离被计算并可选地减小至值的另一更小的区间。
如图5e中所示,对由使用用于导出图5d中所示的预测值的投影操作的模型化操作产生的数据进行熵编码。图5e中所示的该编码操作最终根据对应的数据产生编码比特。在框271中,方位角和仰角的平均值被转换成带符号值,并且特定重排序272被执行以便具有更紧凑的表示,并且这些平均值通过二进制代码或删余二进制代码来编码273以便产生仰角平均比特274和方位角平均比特。在框275中,诸如图5f中所示地确定哥伦布-莱斯参数,并且如在框276处所示,该参数接着也通过(删余)二进制代码来编码,以便具有在277处示出的仰角的哥伦布-莱斯参数和方位角的另一哥伦布-莱斯参数。在框278中,由框270计算的(减小的)带符号距离被重排序,并且接着如279处所示通过扩展哥伦布-莱斯方法来编码,以便具有在280处指示的经编码的仰角距离和方位角距离。
图5f示出了用于框275中的哥伦布-莱斯参数的确定的优选实施方式,框275被执行用于仰角哥伦布-莱斯参数或方位角哥伦布-莱斯参数二者的确定。在框281中,针对对应的哥伦布-莱斯参数来确定区间。在框282中,针对每一候选者值,计算用于全部减小的带符号距离的比特的总数量,并且在框283中,选择产生最少数量的比特的候选者值作为哥伦布-莱斯参数,以用于方位角或仰角处理。
随后,论述图5g以便进一步示出图5e的框279中的过程,即扩展哥伦布-莱斯方法。基于所选择的哥伦布-莱斯参数p,用于仰角或用于方位角的距离索引如框284右侧所示地被分隔在最高有效部分MSP和最低有效部分LSP中。在框285中,在MSP为最大可能值的情况下,MSP部分的终止零比特被消除,并且在框286中,通过(删余)二进制代码来编码结果。
在287处所示,LSP部分也通过(删余)二进制代码来编码。因此,在线288及289上,获得最高有效部分MSP的经编码比特和最低有效部分LSP的经编码比特,其共同表示用于仰角或用于方位角的对应的经编码的减小的带符号距离。
图8d示出了用于经编码的方向的示例。模式比特806指示例如具有模型化的熵编码模式。如之前关于图5e的项274所论述的,项808a示出了方位角平均比特并且项808b示出了仰角平均比特。哥伦布-莱斯方位角参数808c和哥伦布-莱斯仰角参数808d也以经编码的形式被包括在与之前已经关于项277论述的内容相对应的图8d的比特流中。经编码的仰角距离808e和经编码的方位角距离808f被包括在如在288和289处获得的或如之前关于图5e和图5g中的项280所论述的比特流中。项808g示出了用于其他仰角/方位角距离的其他有效载荷比特。仰角和方位角的平均值以及仰角和方位角的哥伦布-莱斯参数对于每一帧仅需要单次,但必要时对于帧也可以计算两次,或如果帧非常长或信号统计在帧内强烈变化,则也计算两次。
图8c示出了当模式比特指示如图5c的框260定义的原始编码时的比特流。模式比特806指示原始编码模式并且项808指示用于球体索引(即图5c的框262的结果)的有效载荷比特。
方向参数的熵编码
当编码经量化的方向时,仰角索引el_idx始终首先在方位角索引az_idx之前编码。如果当前配置仅考虑水平赤道平面,则不针对仰角来编码任何信息并且其在各处被视为零。
在编码之前,带符号值通过使用通用重排序变换而映射至无符号值,所述通用重排序变换将正数和负数交错成无符号数(如u_val=2·|s_val|-(s_val<0)),其通过ReorderGeneric功能来实现。若条件为真,则表述(条件)评估为1,且若条件为假,则评估为0。
因为多个较小无符号值使用EncodeQuasiUniform功能通过少一个比特来更有效地编码,所以仰角索引和方位角索引两者(其已经是无符号的)被转换成带符号的,以使得为零的带符号索引值对应于为零的仰角或方位角,并且仅在之后应用ReorderGeneric功能。通过首先转换成带符号的,零值位于可能值的带符号区间的中间,并且在应用ReorderGeneric功能之后所得的无符号的经重排序的仰角索引值为并且所得的无符号的经重排序的方位角索引值为az_idx_r=ReorderGeneric(az_idx-az_alph·(az_idx≥az_alph÷2))。
对于不具有模型化的原始编码,两个无符号的经重排序的索引被合并成单个无符号球体索引sphere_idx=sphere_offsets(deg_req,el_idx_r)+az_idx_r,其中sphere_offse功能计算与小于el_idx_r的无符号的经重排序的仰角索引相对应的所有方位角字母表az_alph的总和。例如,当deg_req=90时,其中el_idx_r=0(仰角0度)具有az_alph=4,el_idx_r=1(仰角-90度)具有az_alph=1,并且el_idx_r=2(仰角90度)具有az_alph=1,sphere_offsets(90,2)将取得值4+1。如果当前配置仅考虑水平赤道平面,则el_idx_r始终为0并且无符号球体索引简化至sphere_idx=az_idx_r。一般而言,球体上点的总数量,或球体点的计数为sphere_alph=sphere_offsets(deg_req,el_alph+1)。
无符号球体索引shpere_idx使用EncodeQuasiUniform功能来编码。对于具有模型化的熵编码,经量化方向被分组成两个类别。第一类别包含针对经熵编码的扩散度索引diff_idx(b)≤ec_max的经量化的方向,并且第二类别包含针对经原始编码的扩散度索引diff_idx(b)>ec_max的经量化的方向,其中ec_max是取决于diff_alph最佳选择的阈值。当具有低至中等扩散度的频带也存在于帧中时,该方法隐含地不包括对具有高扩散度的频带进行熵编码,以避免混合残余的统计。对于混合的扩散度帧,原始编码始终用于具有高扩散度的频带。然而,如果所有的频带具有高扩散度diff_idx(b)>ec_max,则阈值被预先设定为ec_max=diff_alph以便对于所有频带启用熵编码。
对于经熵编码的经量化的方向的第一类别,对应的仰角索引el_idx、仰角字母表el_alph、方位角索引az_idx以及方位角字母表az_alph被收集到单独的向量中以供进一步处理。
通过将经熵编码的每一经量化的方向转换回方向向量,计算方向向量的平均值、中间值或模式(包括重新归一化),以及将平均方向向量转换成平均仰角el_avg和方位角az_avg,来导出平均方向向量。这两个值使用由被表示为deg_req_avg的经熵编码的经量化的方向使用的最佳角度精确度deg_req来量化,对于b∈{0,...,nbands-1}且diff_idx(b)≤ec_max,所述最佳角度精确度通常是与最小扩散度索引min(diff_idx(b))相对应的所需要的角度精确度。
使用根据deg_req_avg导出的对应的n_points_avg值,el_avg被正常量化,从而产生el_avg_idx和el_avg_alph,然而,az_avg使用在赤道处的精确度来量化,从而产生az_avg_idx和az_avg_alph=4·n_points_avg。
对于待熵编码的每一方向,使用该方向的精确度来投影经解量化的平均仰角q_el_avg和方位角q_az_avg,以获得预测的仰角和方位角索引。对于仰角索引el_idx,其精确度(其可以根据el_alph导出)用于计算经投影的平均仰角索引el_avg_idx_p。对于对应的方位角索引az_idx,其位于q_el仰角处的水平圆上的精确度(其可以根据az_alph导出)用于计算经投影的平均方位角索引az_avg_idx_p。
获得预测的仰角和方位角索引的投影可以以若干等效方式来计算。对于仰角,其可以被容易地简化为 为促进比特精确操作,先前的公式可以使用仅整数数学(包括除法)重写为el_avg_idx_p=(2·el_avg_idx·(el_alph-1)+(el_avg_alph-1))div(2·(el_avg_alph-1))。对于方位角,其可以被容易地简化为 为促进比特精确操作,先前的公式可以使用仅整数数学(包括除法)重写为az_avg_idx_p=((2·az_avg_idx·az_alph+az_avg_alph)div(2·az_avg_alph))modaz_alph。在极点处,其中az_alph=1,我们始终具有az_idx=0并且直接设定az_avg_idx_p=0。
带符号距离el_idx_dist被计算为每一仰角索引el_idx与其对应的el_avg_idx_p之间的差值。另外,因为差值产生位于区间{-el_alph+1,...,el_alph-1}中的值,所以如在模数运算中那样,其通过针对太小值加上el_alph以及针对太大值减去el_alph来减小到区间 如果这种相对于el_avg_idx_p的减小的距离使用环绕(wrap-around)来解释,则其可以产生来自含有el_alph值的无符号字母表的所有值。
类似地,带符号距离az_idx_dist被计算为每一方位角索引az_idx与其对应的az_avg_idx_p之间的差值。差值操作产生在区间{-az_alph+1,...,az_alph-1}中的值,其通过针对太小值加上az_alph以及针对太大值减去az_alph来减小到区间{-az_alph÷2,...,az_alph÷2-1}。当az_alph=1时,方位角索引始终为az_idx=0并且没有内容需要被编码。
取决于它们的值,经量化的仰角和方位角索引可以使用两个可用方法中的一者来编码:原始编码或熵编码。第一比特(dir_use_raw_coding)指示是否使用原始编码方法。对于原始编码,经合并的sphere_index单个无符号球体索引使用EncodeQuasiUniform功能来直接编码。
熵编码由若干个部分组成。类似于原始编码来编码与扩散度索引diff_idx(b)>ec_max相对应的所有经量化的仰角和方位角索引。接着,对于其他,仰角部分首先被熵编码,然后是方位角部分。
仰角部分由三个分量组成:平均仰角索引、哥伦布-莱斯参数以及减小的带符号仰角距离。平均仰角索引el_avg_idx被转换成带符号的,以使得零值在可能值的带符号区间的中间,应用ReorderGeneric功能,并且使用EncodeQuasiUniform功能来对结果进行编码。使用EncodeQuasiUniform功能来编码哥伦布-莱斯参数,其具有取决于仰角索引的字母表大小的最大值的字母表大小。最终,对于每一减小的带符号仰角距离el_idx_dist,应用ReorderGeneric功能以产生el_idx_dist_r,并且使用具有上文所指示的参数的扩展哥伦布-莱斯方法来对结果进行编码。
例如,如果所使用的最佳角度精确度de,g_req_min为5度,则仰角字母表大小el_alph的最大值将为el_alph_max=2·「90÷de,g_req_min]+1=37。在这种情况下,哥伦布-莱斯参数值(在以下哥伦布-莱斯方法的描述中被表示为p)被限制于区间{0,1,2,3,4}。一般而言,哥伦布-莱斯参数的最大潜在适用值为「log2el_alph_max]-1,其使用EncodeQuasiUniform功能来产生长度等于或稍长于通过原始编码产生的二进制码字的二进制码字。通过在不编码的情况下针对以上区间中的每一值有效地计算待使用扩展哥伦布-莱斯方法编码的所有el_idx_dist_r值的比特的总大小以及选择提供最小比特大小的值,来选择哥伦布-莱斯参数el_gr_param的优化值。
方位角部分也由三个分量组成:平均方位角索引、哥伦布-莱斯参数以及减小的带符号方位角距离。平均方位角索引az_avg_idx被转换成带符号的,以使得零值在可能值的带符号区间的中间,应用ReorderGeneric功能,并使用EncodeQuasiUniform功能来对结果进行编码。使用EncodeQuasiUniform功能来编码哥伦布-莱斯参数,其具有取决于方位角索引的字母表大小的最大值的字母表大小。最终,对于每一减小的带符号方位角距离az_idx_dist,ReorderGeneric功能被应用以产生az_idx_dist_r,并且使用具有上文所指示的参数的扩展哥伦布-莱斯方法来对结果进行编码。
例如,如果所使用的最佳角度精确度deg_req_min为5度,则方位角字母表大小az_alph的最大值将为 在这种情况下,哥伦布-莱斯参数值(在以下哥伦布-莱斯方法的描述中被表示为p)限制于区间{0,1,2,3,4,5}。通过针对以上区间中的每一值有效地计算待使用扩展哥伦布-莱斯方法编码的所有az_idx_dist_r值的比特的总大小以及选择提供最小比特大小的值,来选择哥伦布-莱斯参数的优化值。
考虑有效的熵编码的重要特性在于每一经重排序的减小的仰角距离el_idx_dist_r可以具有不同的字母表大小,其确切地为最初仰角索引值el_idx的el_alph,并且取决于对应的扩散度索引diff_idx(b)。另外,每一经重排序的减小的方位角距离az_idx_dist_r可以具有不同的字母表大小,其确切地为最初方位角索引值az_idx的az_alph,并且均取决于其水平圆的对应的q_el以及扩散度索引diff_idx(b)。
现有的哥伦布-莱斯熵编码方法在整数参数p≥0的情况下用于编码无符号整数u。首先,u被拆分成具有p个比特的最低有效部分u_lsp=u mod 2p和最高有效部分使用u_msp个1比特和终止零比特以一元方式来编码最高有效部分,并且以二进制方式来编码最低有效部分。
因为可以编码任意大的整数,所以当待编码的实际值具有已知且相对较小的字母表大小时可能损失一定的编码效率。另一缺点是在传输错误或特意建立的无效比特流的情况下可能解码超出范围或无效值,或可能读取极大数量的1比特。
扩展哥伦布-莱斯方法组合优于现有的哥伦布-莱斯方法的三个改进以编码值的向量,其各自具有已知且潜在不同的字母表大小u_alph。首先,最高有效部分的字母表大小可以被计算为u_msp_alph=「u_alph÷2p]。如果最高有效部分的最大可能值被编码为(u_msp_alph-1),则终止零比特可以被消除,这是因为该条件可以在解码器侧处被隐式地检测到,修改是现有的有限哥伦布-莱斯方法。另外,对于当u_msp=u_msp_alph-1时的相同情况,最低有效部分的字母表大小u_lsp(其可以被计算为u_alph-(u_msb_alph-1)·2p)可能小于2p,从而允许使用EncodeQuasiUniform功能而非具有P个比特的二进制编码。当特定值u具有小于2p的字母表u_alph时,这也是适用的。最终,当u_msp_alph≤3时,有限哥伦布-莱斯方法产生p或p+1个比特的仅一个长度的代码,或p+1和p+2个比特的仅两个长度的代码。EncodeQuasiUniform功能对于至多两个长度是最佳的,因此其被替代地使用。
阈值3为特定的优选值,这是因为当u_msp_alph=3时,用于最高有效部分的有限哥伦布-莱斯的码字为0、10、11;因此,代码的总长度为1+p、2+p和2+p,其中p是用于最低有效部分的比特的数量;因为删余代码对于至多两个长度始终是最佳的,所以其被替代地使用,从而替换最高和最低有效部分。
此外,将概述的是功能EncodeQuasiUniform确切地为删余代码,当字母表大小为二的幂时其隐式地成为二进制代码。一般而言,删余代码是最佳的且在给定字母表大小的情况下被唯一地确定;其产生仅一个或两个长度的代码;对于3个或3个以上的连续代码长度,可能的代码不再是非准均匀的,并且对于每一长度的可能代码的数量存在不同的选择。
本发明不限于以上确切描述。替代地,本发明可以以帧间预测性编码方案形式来容易地扩展,其中对于每一参数频带,使用先前的方向向量根据当前帧并且还可选地根据先前帧在时间上计算平均方向向量,而不是计算针对全部当前帧的单个平均方向向量并且将其量化并编码为辅助信息。该解决方案将具有在编码上更有效的优点,但是针对可能的分组丢失较不稳健。
图6a至图6g示出了在如之前所论述的编码器中执行的其他过程。图6a示出了对由量化仰角功能210a、量化方位角功能210b以及解量化仰角功能210c组成的参数量化器210的一般概述。图6a的优选实施例示出了具有依赖于经量化以及再经解量化的仰角值q_el的方位角功能210c的参数量化器。
图6c示出了用于解量化如之前已经关于图6a针对编码器论述的仰角的对应的解量化器。然而,图6b的实施例也适用于图8a的项840中所示的解量化器。基于解量化精确度deg_req,一方面仰角索引并且另一方面方位角索引被解量化以便最终获得经解量化的仰角值q_el和经解量化的方位角值q_az。图6c示出了第一编码模式,即如关于图5c中的项260至262所论述的原始编码模式。图6c另外示出了图5b中论述的预处理,其在247a处示出了仰角数据到带符号值的转换,并在247b处示出了方位角数据到带符号值的对应转换。如248a处所指示的针对仰角进行重排序以及如248b处所指示的针对方位角进行重排序。在框248c中执行球体点计数过程,以便基于量化或解量化精确度来计算球体字母表。在框261中,执行两个索引到单个球体索引的合并,并且通过二进制或删余二进制代码来执行框262中的编码,其中除了该球体索引之外,还如图5c中所示地导出用于对应的解量化精确度的球体字母表。
图6d示出了针对具有模型化的熵编码模式执行的过程。在项267a中,基于对应的索引和解量化精确度来执行方位角和仰角数据的解量化。将经解量化的值输入框267b中,以便根据经解量化的值来计算方向向量。在框267c中,针对具有低于对应阈值的相关联的扩散度索引的向量来执行平均以便获得平均向量。在框267d中,方向平均方向向量再次被转换回成仰角平均值和方位角平均值,并且接着使用如通过框268e所确定的最高精确度来量化这些值。该量化在268a、268b处示出,并且量化产生对应的经量化的索引和量化字母表,其中所述字母表借助于平均值的量化精确度来确定。在框268c和268d中,解量化被再次执行以获得仰角和方位角的经解量化的平均值。
在图6e中,在框269a中计算经投影的仰角平均值并且在框269b中计算经投影的方位角平均值,即图6e示出了图5d的框269的优选实施方式。如图6e中所示,框269a、269b优选地接收仰角和方位角的经量化和再经解量化的平均值。替代地,也可以直接对框267d的输出执行投影,尽管具有量化和再解量化的过程对于较高精确度和与在编码器侧和解码器侧的状态的较高兼容性是优选的。
在图6f中,示出了与在优选实施例中的图5d的框270相对应的过程。在框278a、278b中,在最初索引与经投影的索引之间计算对应的差值或“距离”(如在图5d的框270中被称作的距离)。在用于仰角的框270c以及用于方位角数据的框270d中执行对应的区间减小。在框270e、270f中的重排序之后,获得要经过如之前关于图5e至图5g所论述的扩展哥伦布-莱斯编码的数据。
图6g示出了关于被执行用于产生用于仰角平均和方位角平均的经编码的比特的过程的其他细节。框271a和271b示出了仰角和方位角平均数据到带符号数据的转换,并且随后关于框272a及272b中的两种数据示出了ReorderGeneric功能。项273a和273b示出了使用(删余)二进制代码(诸如上述编码准均匀功能)来编码该数据。
图7a示出了根据第一方面的用于解码包括经编码的定向音频编码参数的经编码的音频信号的解码器,所述经编码的定向音频编码参数包括经编码的扩散度参数和经编码的方向参数。所述装置包括参数处理器300,其用于解码经编码的定向音频编码参数,以获得具有第一时间或频率分辨率的经解码的扩散度参数和具有第二时间或频率分辨率的经解码的方向参数。参数处理器300连接至参数分辨率转换器710,所述参数分辨率转换器用于将经解码的扩散度参数或经解码的方向参数转换成经转换的扩散度参数或经转换的方向参数。替代地,如通过包围线(hedged line)所示,参数分辨率转换器710可以已经对经编码的参数数据执行了参数分辨率处理,并且经转换的经编码的参数从参数分辨率转换器710发送至参数处理器300。在该后一情况中,参数处理器300接着直接将经处理(即经解码)的参数馈入至音频渲染器420。然而,优选的是对经解码的扩散度参数和经解码的方向参数执行参数分辨率转换。
经解码的方向和扩散度参数在其被提供至音频渲染器420时通常具有第三或第四时间或频率分辨率,其中第三或第四分辨率高于在这些参数通过参数处理器300输出时这些参数所固有的分辨率。
参数分辨率转换器710被配置为对经解码的扩散度参数和经解码的方向参数执行不同的参数分辨率转换,这是由于经解码的扩散度参数和经解码的方向参数所固有的时间或频率分辨率彼此不同,并且与经解码的方向参数相比较,经解码的扩散度参数通常具有较低的时间或频率分辨率。如之前关于图3a至图3c所论述的,由音频渲染器420使用的最高分辨率是图3b中所示的分辨率,并且如图3c中所示的中等分辨率是经解码的方向参数所固有的分辨率,并且经解码的扩散度参数所固有的低分辨率是图3b中所示的分辨率。
图3a至图3c仅是示出了三个非常特定的时间或频率分辨率的示例。也可以通过本发明来应用与高时间或频率分辨率、中等分辨率及低分辨率具有相同趋势的任何其他时间或频率分辨率。当时间或频率分辨率和另一时间或频率分辨率均具有相同的频率分辨率但具有不同的时间分辨率时,该时间或频率分辨率低于另一时间或频率分辨率,或反之亦然,如已经在图3b和图3c的示例中所示的。在该示例中,频率分辨率在图3b和图3c中是相同的,但时间分辨率在图3c中较高以使得图3c示出中等分辨率而图3b示出了低分辨率。
在第三或第四高时间或频率分辨率上操作的音频渲染器420的结果接着被转发至频谱/时间转换器440,所述频谱/时间转换器接着产生如之前已经关于图1b论述的时域多声道音频信号450。频谱/时间转换器440在线450上将数据从如由音频渲染器420产生的谱域转换成时域。针对帧,音频渲染器420在其上操作的谱域包括第一数量的时隙和第二数量的频带。帧包括等于第一数量与第二数量的相乘结果的多个时间段/频段,其中第一数量和第二数量限定第三时间或频率分辨率,即高时间或频率分辨率。
分辨率转换器710被配置为根据与第一时间或频率分辨率相关联的扩散度参数产生多个(至少四个)扩散度参数,其中这些扩散度参数中的两个用于时间上相邻的时间段/频段,并且该至少四个扩散度参数中的其他两个用于频率上彼此邻近的时间段/频段。
由于扩散度参数的时间或频率分辨率低于方向参数的时间或频率分辨率,所以参数分辨率转换器被配置为针对经解码的扩散度参数产生第一数量的经转换的扩散度参数并针对经解码的方向参数产生第二数量的经转换的方向参数,其中第二数量高于第一数量。
图7b示出了通过参数分辨率转换器执行的优选过程。在框721中,参数分辨率转换器710获得针对帧的扩散度/方向参数。在框722中,执行至至少四个高分辨率时间段/频段的扩散度参数重复或复制操作。在框723中,对在高分辨率表示中的经重复的参数执行诸如平滑或低通滤波之类的可选处理。在框724中,将高分辨率参数应用于对应的高分辨率时间段/频段中的对应的音频数据。
图8a示出了根据第一方面的用于解码经编码的音频信号的解码器的优选实施方式,该经编码的音频信号包括经编码的定向音频编码参数,该经编码的定向音频编码参数包括经编码的扩散度参数和经编码的方向参数。将经编码的音频信号输入至输入接口中。输入接口800接收经编码的音频信号并且通常以逐帧方式从经编码的音频信号分离出经编码的扩散度参数和经编码的方向参数。将该数据输入至参数解码器820中,所述参数解码器根据经编码的参数产生经量化的扩散度参数和经量化的方向参数,其中经量化的方向参数例如是方位角索引和仰角索引。将该数据输入至参数解量化器840中,其用于根据经量化的扩散度参数和经量化的方向参数来确定经解量化的扩散度参数和经解量化的方向参数。接着该数据可以用于将一种音频格式转换成另一种音频格式,或可以用于将音频信号渲染至多声道信号中或以任何其他表示(例如,立体混响表示、MPS表示或SAOC表示)来渲染音频信号。
通过框840输出的经解量化的参数可以比被输入至如之前关于图7a在框710处所论述的可选的参数分辨率转换器中。经转换或未经转换的参数可以被输入至图8a中所示的音频渲染器420、440中。当经编码的音频信号另外包括经编码的输送信号时,输入接口800被配置为从经编码的音频信号分离出经编码的输送信号并将该数据馈入至之前已经关于图8b论述的音频输送信号解码器340中。结果被输入至时间-频谱转换器430中,从而被馈入音频渲染器420。当音频渲染器420如图1b中所示地实现时,使用图1b的合成滤波器组440来执行到时域的转换。
图8b示出了通常被组织在指代经编码的扩散度参数的比特流中的经编码的音频信号的一部分。扩散度参数已经优选地与用于指示图8b中所示以及之前所论述的三个不同模式的两个模式比特802相关联。用于扩散度参数的经编码的数据包括有效载荷数据804。
如之前所论述的,在图8c和图8d中示出了用于方向参数的比特流部分,其中图8c示出了当已经选择原始编码模式时的情形并且图8d示出了其中已经通过模式比特或模式标志806选择/指示了具有模型化的熵解码模式的情形。
图8a的参数解码器820被配置为如框850中所指示地解码时间/频率区域的扩散度有效载荷数据,并且在优选实施例中时间/频率区域是具有低分辨率的时间/频率区域。在框851中,确定时间/频率区域的解量化精确度。基于该解量化精确度,图8e的框852示出了使用所述解量化精确度来解码和/或解量化方向参数,所述解量化精确度针对与扩散度参数相关联的时间/频率区域是相同的。图8e的输出是时间/频率区域(例如,图3c的一个频带)的经解码的方向参数的集合,即在示出的示例中,针对帧中的一个频带的四个方向参数。
图8f示出了解码器(并且具体地为图8a的参数解码器820和参数解量化器840)的另外的特征。不管解量化精确度是基于扩散度参数确定的还是以其他方式在某处被显式地发信号通知或确定的,框852a指示根据时间/频率区域的发信号通知的解量化精确度来确定仰角字母表。在框852b中,使用时间/频率区域的仰角字母表来解码仰角数据,并可选地对其进行解量化,以便在框852b的输出处获得经解量化的仰角参数。在框852c中,时间/频率区域的方位角字母表不仅根据来自框851的解量化精确度而且还根据经量化或经解量化的仰角数据来确定,以便反映之前已经关于图4d中的单位球体的准均匀覆盖而论述的情形。在框852d中,针对时间/频率区域来执行通过方位角字母表来解码并且可选地解量化方位角数据。
根据第二方面的本发明优选地组合这两个特征,但所述两个特征(即图8a中的一个或图8f中的另一个)也可以彼此独立地应用。
图8g示出了取决于选择原始解码模式还是具有模型化的解码模式(如由图8c和图8d中论述的模式比特806所指示的)的参数解码概述。当将应用原始解码时,则如862处所指示地解码频带的球体索引,并且如框864处所指示地根据经解码的球体索引来计算频带的经量化的方位角/仰角参数。
当通过模式比特806指示具有模型化的解码时,则如由框866所指示地解码频带/帧中的方位角/仰角数据的平均值。在框868中,解码频带中的方位角/仰角信息的距离,并且在框870中,通常使用加法运算来计算对应的经量化的仰角和方位角参数。
不管是应用原始解码模还是具有模型化的解码模式,经解码的方位角/仰角索引同样如图8a中的840处所示地被解量化872,并且在框874中,结果可以被转换成频带的笛卡尔坐标。替代地,当方位角和仰角数据可以直接用于音频渲染器时,则不需要框874中的任何这种转换。不论如何,如果进行到笛卡尔坐标的转换,则任何潜在使用的参数分辨率转换都可以在所述转换之前或之后应用。
随后,也针对解码器的附加优选实施方式来参考图9a至图9c。图9a示出了框862中所示的解码操作。取决于如由图8e或图8f中的框851所确定的解量化精确度,执行框248c的功能球体点计数以便确定也已经在编码期间应用的实际球体字母表。在框862中解码用于球体索引的比特,并且如在864a处所示并且在图9a中更详细地给出的,该比特被分解成两个索引。执行重排序功能864b、864c以及框864d和864e中的对应转换功能以便最终获得仰角索引、方位角索引和对应的字母表,以进行图8g的框872中的后续解量化。
图9b示出了用于另一解码模式(即具有模型化的解码模式)的对应过程。在框866a中,用于平均的解量化精确度按照之前已经关于编码器侧论述的内容来计算。在框866b和框866c以及866d中计算字母表,解码图8d的对应比特808a、808b。在后续转换操作866g、866h中执行重排序功能866e、866f以便撤销或仿真在编码器侧执行的对应操作。
图9c另外示出了在优选实施例中的完整的解量化操作840。框852a确定如已经关于图8f论述的仰角字母表,并且方位角字母表的对应计算也在框852c中执行。还针对仰角和方位角来执行投影计算操作820a、820e。也执行用于仰角820b和方位角820f的重排序过程并且也执行对应的加法运算820c、820g。也针对仰角在框820d执行并且针对方位角在框820h中执行对应的区间减小,并且在框840a和框840b中执行仰角的解量化。图9c示出了该过程意味着特定顺序,即,在本发明的一个优选实施例中首先并基于经解量化的仰角数据来处理仰角数据,执行方位角数据的解码和解量化。
接下来,将优选实施例的益处和优点概述如下:
·在不损害模型的一般性情况下有效地编码由DirAC产生的空间元数据。其是用于将DirAC整合至低比特率编码方案中的关键促成点。
·不同的时间(或可选地不同的频率)分辨率的情况下,方向和扩散度参数的分组和平均:与方向相比,扩散度在更长时间内被平均,这是由于与方向相比,扩散度保持声场的更长期特性,这是更具反应性的空间提示。
·3D球体的准均匀动态覆盖、关于X、Y和Z坐标轴完全对称,以及任何期望的角度分辨率是可能的。
·量化和解量化操作的复杂性恒定(不需要搜寻最近的代码向量)。
·一个经量化的点索引的编码和解码相对于球体上的经量化的点的总数量具有恒定的或至多对数的复杂性。
·一个帧的全部DirAC空间元数据的最坏情况熵编码大小始终限制于比原始编码的大小仅多2个比特。
·扩展哥伦布-莱斯编码方法,其最佳用于编码具有潜在不同的字母表大小的符号的向量。
·使用平均方向来进行方向的有效熵编码,将经量化的平均方向自从最高分辨率映射至每一方位角和仰角的分辨率。
·对于混合的扩散度帧,始终针对具有高于预定义阈值的高扩散度方向使用原始编码。
·根据其对应的扩散度来针对每一方向使用角度分辨率。
本发明的第一方面涉及处理具有第一和第二时间或频率分辨率的扩散度参数和方向参数以及这些值的后续量化和编码。该第一方面另外涉及具有不同时间/频率分辨率的参数的分组。另外的方面涉及执行分组内的幅度测量相关加权,并且另外的进一步方面涉及使用对应的扩散度参数作为对应的权重的基础,来针对方向参数的平均和分组进行加权。也在权利要求集合中描述和详述以上方面。
随后在示例的所附集合中更加详述的本发明的第二方面涉及执行量化和编码。该方面可以在没有第一方面中概述的特征的情况下执行或可以连同在第一方面中所详述的对应特征一起使用。
因此,如权利要求和示例的集合中所详述以及如权利要求的不同从属权利要求及示例中所详述的所有不同方面可以独立于彼此使用或可以在一起使用,并且对于最优选实施例,特别优选的是一起使用权利要求的集合和示例的集合的所有方面。
示例的集合包括以下示例:
1.一种用于编码包括扩散度参数和方向参数在内的定向音频编码参数的装置,包括:
参数计算器(100),用于计算具有第一时间或频率分辨率的所述扩散度参数并用于计算具有第二时间或频率分辨率的所述方向参数;以及
量化器和编码器处理器(200),用于产生所述扩散度参数和所述方向参数的经量化和经编码的表示。
2.根据示例1所述的装置,其中所述参数计算器(100)被配置用于计算所述扩散度参数和所述方向参数,以使得所述第二时间或频率分辨率不同于所述第一时间或频率分辨率。
3.根据示例1或2所述的装置,其中所述参数计算器(100)被配置为计算所述扩散度参数和所述方向参数,以使得所述第一时间分辨率低于所述第二时间分辨率,或所述第二频率分辨率高于所述第一频率分辨率,或所述第一时间分辨率低于所述第二时间分辨率并且所述第一频率分辨率等于所述第二频率分辨率。
4.根据前述示例中的一项所述的装置,
其中所述参数计算器(100)被配置为计算一组频带的所述扩散度参数和所述方向参数,其中具有较低中心频率的频带比具有较高中心频率的频带窄。
5.根据前述示例中的一项所述的装置,
其中所述参数计算器(100)被配置为获得具有第三时间或频率分辨率的初始扩散度参数并获得具有第四时间或频率分辨率的初始方向参数,并且
其中所述参数计算器(100)被配置为分组并平均所述初始扩散度参数,以使得所述第三时间或频率分辨率高于所述第一时间或频率分辨率,或
其中所述参数计算器(100)被配置为分组并平均所述初始方向参数,以使得所述第四时间或频率分辨率高于所述第二时间或频率分辨率。
6.根据示例5所述的装置,
其中所述第三时间或频率分辨率和所述第四时间或频率分辨率彼此相等。
7.根据示例5或6所述的装置,
其中所述第三时间分辨率或频率分辨率是恒定的时间或频率分辨率,以使得每一初始扩散度参数与具有相同大小的时隙或频段相关联,或
其中所述第四时间或频率分辨率是恒定的时间或频率分辨率,以使得每一初始方向参数与具有相同大小的时隙或频段相关联,并且
其中所述参数计算器(100)被配置为对与第一多个时隙相关联的第一多个扩散度参数进行平均,或
其中所述参数计算器(100)被配置为对与第二多个频段相关联的第二多个扩散度参数进行平均,或
其中所述参数计算器(100)被配置为对与第三多个时隙相关联的第三多个方向参数进行平均,或
其中所述参数计算器(100)被配置为对与第四多个频段相关联的第四多个方向参数进行平均。
8.根据示例5至7中的任一项所述的装置,
其中所述参数计算器(100)被配置为使用加权平均来进行平均,其中与根据具有较低幅度相关测量的输入信号部分导出的扩散度参数或方向参数相比,使用更高的加权因子来加权根据具有较高幅度相关测量的输入信号部分导出的扩散度参数或方向参数。
9.根据示例8所述的装置,
其中所述幅度相关测量是时间部分或频率部分中的功率或能量,或是所述时间部分或所述频率部分中的以等于或不同于1的非负实数为指数的功率或能量。
10.根据示例5至9中的任一项所述的装置,
其中所述参数计算器(100)被配置为执行所述平均,以使得所述扩散度参数或所述方向参数针对幅度相关测量被归一化,所述幅度相关测量是根据输入信号中的与所述第一时间或频率分辨率或所述第二时间或频率分辨率相对应的时间部分导出的。
11.根据示例5至9中的任一项所述的装置,
其中所述参数计算器(100)被配置为使用加权平均来分组和平均所述初始方向参数,其中相比于与具有指示较高扩散度的第二扩散度参数的第二时间部分相关联的第二方向参数,与具有指示较低扩散度的第一扩散度参数的第一时间部分相关联的所述第一方向参数被更强地加权。
12.根据前述示例中的一项所述的装置,
其中所述参数计算器(100)被配置为计算所述初始方向参数,以使得所述初始方向参数各自包括具有针对两个或三个方向中的每一个的分量的笛卡尔向量,并且其中所述参数计算器(100)被配置为单独地对所述笛卡尔向量的每一单独的分量执行所述平均,或其中所述分量被归一化,以使得针对一方向参数的所述笛卡尔向量的平方分量的总和等于单位元素。
13.根据前述示例中的一项所述的装置,还包括:
时间-频率分解器,用于将具有多个输入声道的输入信号分解成针对每一输入声道的时间-频率表示,或
其中所述时间-频率分解器被配置用于将具有多个输入声道的所述输入信号分解成针对具有所述第三时间或频率分辨率或所述第四时间或频率分辨率的每一输入声道的时间-频率表示。
14.根据示例6至13中的一项所述的装置,
其中所述时间-频率分解器包括产生每一子带信号的复值的调制滤波器组,其中每一子带信号在每帧和每频带具有多个时隙。
15.根据前述示例中的一项所述的装置,
其中所述装置被配置为将所述第一时间或频率分辨率或所述第二时间或频率分辨率的指示关联到所述经量化和经编码的表示,以用于传输至解码器或用于储存。
16.根据前述示例中的一项所述的装置,其中用于产生所述扩散度参数和所述方向参数的经量化和经编码的表示的所述量化器和编码器处理器(200)包括用于量化所述扩散度参数和所述方向参数的参数量化器和用于编码经量化的扩散度参数和经量化的方向参数的参数编码器。
17.一种用于编码包括扩散度参数和方向参数的定向音频编码参数的方法,包括:
计算具有第一时间或频率分辨率的所述扩散度参数并计算具有第二时间或频率分辨率的所述方向参数;以及
产生所述扩散度参数和所述方向参数的经量化和经编码的表示。
18.一种用于解码包括定向音频编码参数的经编码的音频信号的解码器,所述定向音频编码参数包括经编码的扩散度参数和经编码的方向参数,所述解码器包括:
参数处理器(300),用于解码所述经编码的定向音频编码参数,以获得具有一第一时间或频率分辨率的经解码的扩散度参数和具有第二时间或频率分辨率的经解码的方向参数;以及
参数分辨率转换器(710),用于将经编码或经解码的扩散度参数或经编码或经解码的方向参数转换成具有第三时间或频率分辨率的经转换的扩散度参数或经转换的方向参数,所述第三时间或频率分辨率不同于所述第一时间或频率分辨率或所述第二时间或频率分辨率,或不同于所述第一时间或频率分辨率和所述第二时间或频率分辨率。
19.根据示例18所述的解码器,还包括在谱域中操作的音频渲染器(420),针对帧,所述谱域包括第一数量的时隙和第二数量的频带,以使得帧包括等于所述第一数量和所述第二数量的相乘结果的多个时间段/频段,其中所述第一数量和所述第二数量限定所述第三时间或频率分辨率。
20.根据示例18或19所述的解码器,还包括在谱域中操作的音频渲染器(420),针对帧,所述谱域包括第一数量的时隙和第二数量的频带,以使得帧包括等于所述第一数量和所述第二数量的相乘结果的多个时间段/频段,其中所述第一数量及所述第二数量限定第四时间-频率分辨率,其中所述第四时间或频率分辨率等于或高于所述第三时间或频率分辨率。
21.根据示例18至20中的一项所述的解码器,
其中所述第一时间或频率分辨率低于所述第二时间或频率分辨率,并且
其中所述参数分辨率转换器(710)被配置为根据经解码的扩散度参数来产生第一数量的经转换的扩散度参数,并且根据经解码的方向参数来产生第二数量的经转换的方向参数,其中所述第二数量大于所述第一数量。
22.根据示例18至21中的一项所述的解码器,
其中所述经编码的音频信号包括一系列帧,其中每一帧被组织在频带中,其中每一帧在每频带仅包括一个经编码的扩散度参数并且在每频带包括至少两个时间-序列方向参数,并且
其中所述参数分辨率转换器(710)被配置为将所述经解码的扩散度参数与所述频带中的全部时间段或被包括在所述帧中的所述频带中的每一时间段/频段相关联,并且
将所述频带的至少两个方向参数之一与时间段的第一群组以及被包括在所述频带中的每一时间段/频段相关联,并且将所述至少两个方向参数的第二经解码的方向参数与所述时间段的第二群组以及被包括在所述频带中的每一时间段/频段相关联,其中所述第二群组不包括所述第一群组中的任何时间段。
23.根据示例18至22中的一项所述的解码器,其中所述经编码的音频信号包括经编码的音频输送信号,其中所述解码器包括:
音频解码器(340),用于解码所述经编码的音频输送信号,以获得经解码的音频信号,以及
时间/频率转换器(430),用于将所述经解码的音频信号转换成具有所述第三时间或频率分辨率的频率表示。
24.根据示例18至23中的一项所述的解码器,包括:
音频渲染器(420),用于在所述第三时间或频率分辨率中将所述经转换的扩散度参数和所述经转换的方向参数应用于音频信号的频谱表示,以获得合成频谱表示;以及
频谱/时间转换器(440),用于转换在所述第三时间或频率分辨率或第四时间或频率分辨率中的所述合成频谱表示,以获得时间分辨率高于所述第三时间或频率分辨率的分辨率的合成时域空间音频信号。
25.根据示例18至24中的一项所述的解码器,
其中所述参数分辨率转换器(710)被配置为使用复制操作来重复经解码的方向参数或使用复制操作来重复经解码的扩散度参数,或平滑或低通滤波一组经重复的方向参数或一组经重复的扩散度参数。
26.根据示例18至25中的一项所述的解码器,
其中所述第二时间或频率分辨率不同于所述第一时间或频率分辨率。
27.根据示例18至26中的一项所述的解码器,
其中第一时间分辨率低于第二时间分辨率,或第二频率分辨率高于第一频率分辨率,或第一时间分辨率低于第二时间分辨率并且第一频率分辨率等于第二频率分辨率。
28.根据示例18至27中的一项所述的解码器,
其中所述参数分辨率转换器(710)被配置为将经解码的扩散度参数和经解码的方向参数重复成一组频带的对应数量的频率相邻的经转换的参数,其中与具有较高中心频率的频带相比,具有较低中心频率的频带接收被较少重复的参数。
29.根据示例18至28中的一项所述的解码器,
其中所述参数处理器(300)被配置为针对所述经编码的音频信号的帧来解码经编码的扩散度参数,以获得所述帧的经量化的扩散度参数,并且其中所述参数处理器(300)被配置为使用经量化或经解量化的扩散度参数来确定用于所述帧的至少一个方向参数的解量化的解量化精确度,并且
其中所述参数处理器被配置为使用所述解量化精确度来解量化经量化的方向参数。
30.根据示例18至29中的一项所述的解码器,
其中所述参数处理器(300)被配置为根据将由所述参数处理器(300)用来解量化的解量化精确度来确定用于解码所述帧的经编码的方向参数的解码字母表,并且
其中所述参数处理器(300)被配置为使用所确定的解码字母表来解码所述经编码的方向参数并确定经解量化的方向参数。
31.根据示例18至30中的一项所述的解码器,
其中所述参数处理器(300)被配置为根据将由所述参数处理器(300)用来解量化方向参数的解量化精确度来确定用于处理经编码的仰角参数的仰角字母表,并根据使用所述仰角字母表获得的仰角索引来确定方位角字母表,并且
其中所述参数处理器(300)被配置为使用所述方位角字母表来解量化经编码的方位角参数。
32.一种用于解码包括定向音频编码参数的经编码的音频信号的方法,所述定向音频编码参数包括经编码的扩散度参数和经编码的方向参数,所述方法包括:
解码(300)所述经编码的定向音频编码参数,以获得具有第一时间或频率分辨率的经解码的扩散度参数和具有第二时间或频率分辨率的经解码的方向参数;以及
将经编码或经解码的扩散度参数或经编码或经解码的方向参数转换(710)成具有第三时间或频率分辨率的经转换的扩散度参数或经转换的方向参数,所述第三时间或频率分辨率不同于所述第一时间或频率分辨率或所述第二时间或频率分辨率,或不同于所述第一时间或频率分辨率和所述第二时间或频率分辨率。
33.一种计算机程序,所述计算机程序当计算机或处理器上运行时,用于执行根据示例17或32所述的方法。
包括参数表示的经新颖编码的音频信号可以存储在数字存储介质或非暂时性存储介质上,或者可以在诸如无线传输介质或有线传输介质(例如,互联网)等的传输介质上传输。
尽管已经在装置的上下文中描述了一些方面,但是将清楚的是,这些方面还表示对应方法的描述,其中,框或设备对应于方法步骤或方法步骤的特征。类似地,在方法步骤上下文中描述的方面也表示对相应框或项或者相应装置的特征的描述。
取决于某些实现要求,可以在硬件中或在软件中实现本发明的实施例。实施方式可以使用其上存储有电子可读控制信号的数字存储介质(例如,软盘、DVD、CD、ROM、PROM、EPROM、EEPROM或FLASH存储器)来执行,与可编程计算机***协作(或能够协作),使得执行相应方法。
根据本发明的一些实施例包括具有电子可读控制信号的数据载体,其能够与可编程计算机***协作以便执行本文所述的方法之一。
通常,本发明的实施例可以实现为具有程序代码的计算机程序产品,程序代码可操作以在计算机程序产品在计算机上运行时执行方法之一。程序代码可以例如存储在机器可读载体上。
其他实施例包括用于执行本文所述的方法之一的计算机程序,其中将所述计算机程序存储在机器可读的载体或非暂时性存储介质上。
换言之,本发明的方法的实施例因此是具有程序代码的计算机程序,该程序代码用于在计算机程序在计算机上运行时执行本文所述的方法之一。
因此,本发明方法的另一实施例是包括、其上记录有计算机程序的数据载体(或者数字存储介质或计算机可读介质),该计算机程序用于执行本文所述的方法之一。
因此,本发明方法的另一实施例是表示计算机程序的数据流或信号序列,所述计算机程序用于执行本文所述的方法之一。数据流或信号序列可以例如被配置为经由数据通信连接(例如,经由互联网)传送。
另外的实施例包括处理装置,例如,计算机或可编程逻辑器件,所述处理装置被配置为或适于执行本文所述的方法之一。
另一实施例包括其上安装有计算机程序的计算机,该计算机程序用于执行本文所述的方法之一。
在一些实施例中,可编程逻辑器件(例如,现场可编程门阵列)可以用于执行本文所述的方法的功能中的一些或全部。在一些实施例中,现场可编程门阵列可以与微处理器协作以执行本文所述的方法之一。通常,方法优选地由任意硬件装置来执行。
上述实施例对于本发明的原理仅是说明性的。应当理解的是,本文所述的布置和细节的修改和变形对于本领域其他技术人员将是显而易见的。因此,旨在仅由所附专利权利要求的范围来限制而不是由借助对本文的实施例的描述和解释所给出的具体细节来限制。
参考文献
[1]V.Pulkki,M-V.Laitinen,J.Vilkamo,J.Ahonen,T.Lokki,and T.“Directional audio coding-perception-based reproduction ofspatial sound”,International Workshop on the Principles and Application onSpatial Hearing,Nov.2009,Zao;Miyagi,Japan.
[2]V.Pulkki,“Virtual source positioning using vector base amplitudepanning”,J.Audio Eng.Soc.,45(6):456-466,June 1997.
[3]J.Ahonen and V.Pulkki,“Diffuseness estimation using temporalvariation of intensity vectors”,in Workshop on Applications of SignalProcessing to Audio and Acoustics WASPAA,Mohonk Mountain House,New Paltz,2009.
[4]T.Hirvonen,J.Ahonen,and V.Pulkki,“Perceptual compressionmethodsfor metadata in Directional Audio Coding applied to audiovisualteleconference”,AES 126th Convention,2009,May 7-10,Munich,Germany。

Claims (47)

1.一种用于编码包含扩散度参数和方向参数在内的定向音频编码参数的装置,所述装置包括:
参数量化器(210),用于量化所述扩散度参数和所述方向参数;
参数编码器(220),用于编码经量化的扩散度参数和经量化的方向参数;以及
输出接口(230),用于产生包含与经编码的扩散度参数和经编码的方向参数有关的信息的经编码的参数表示,
其中所述参数编码器(220)被配置为:
在编码字母表的大小为二的幂的情况下,使用二进制代码在原始编码模式中编码所述经量化的扩散度参数,或
在所述编码字母表的大小不同于二的幂的情况下,使用删余代码在所述原始编码模式中编码所述经量化的扩散度参数,或
使用第一特定指示和来自所述原始编码模式的一个值的码字,来在仅一个值模式中编码所述经量化的扩散度参数,或
使用第二特定指示、用于两个连续值中的较小者的代码和用于一实际值或每一实际值与所述两个连续值中的所述较小者之间的差的比特,来在仅两个连续值模式中编码所述经量化的扩散度参数。
2.根据权利要求1所述的装置,
其中所述参数量化器(210)被配置为使用非均匀量化器来量化所述扩散度参数以产生扩散度索引。
3.根据权利要求2所述的装置,
其中所述参数量化器(210)被配置为使用声道间相干性量化表来导出所述非均匀量化器,以获得所述非均匀量化器的阈值和重构等级。
4.根据权利要求1所述的装置,
其中所述参数编码器(220)被配置为针对与时间部分或频率部分相关联的全部扩散度值,确定所述编码模式是所述原始编码模式、所述仅一个值模式或所述仅两个连续值模式,
其中使用两个比特中的一个比特发信号通知所述原始编码模式,其中使用所述两个比特中的具有第一值的另一比特发信号通知所述仅一个值模式,并且其中使用所述两个比特中的具有第二值的另一比特发信号通知所述仅两个连续值模式。
5.根据权利要求1所述的装置,其中所述参数量化器(210)被配置为:
针对每一方向参数,接收具有两个分量的笛卡尔向量,以及
将所述笛卡尔向量转换成具有方位角值和仰角值的表示。
6.根据权利要求1所述的装置,其中所述参数量化器(210)被配置为:
针对每一方向参数,接收具有三个分量的笛卡尔向量,以及
将所述笛卡尔向量转换成具有方位角值和仰角值的表示。
7.根据权利要求1所述的装置,
其中所述参数量化器(210)被配置为针对所述方向参数的所述量化,确定量化精确度,所述量化精确度取决于与所述方向参数相关联的扩散度参数,使得相比于与较高扩散度参数相关联的方向参数,更精确地量化与较低扩散度参数相关联的方向参数。
8.根据权利要求7所述的装置,
其中所述参数量化器(210)被配置为确定所述量化精确度,
使得经量化点半均匀地分布于单位球体上,或
使得经量化点相对于x轴、y轴或z轴对称地分布,或
通过映射至整数索引而将给定方向量化至最接近量化点或若干最接近量化点之一是恒定时间操作,或
使得根据针对方向的所述整数索引和解量化计算球体上的对应点是关于球体上的点的总数量的恒定或对数时间操作。
9.根据权利要求6所述的装置,
其中所述参数量化器(210)被配置为将具有负值和正值的所述仰角量化成一组无符号量化索引,其中第一群组量化索引指示负仰角,并且第二群组量化索引指示正仰角。
10.根据权利要求1所述的装置,
其中所述参数量化器(210)被配置为使用多个可能量化索引来量化方位角,其中所述量化索引的数量从较低仰角至较高仰角减小,使得具有第一量值的第一仰角的可能量化索引的第一数量高于具有第二量值的第二仰角的可能量化索引的第二数量,所述第二量值的绝对值比所述第一量值的绝对值大。
11.根据权利要求10所述的装置,其中所述参数量化器(210)被配置为:
根据与所述方位角相关联的扩散度值来确定所需精确度,
使用所述所需精确度来量化与所述方位角相关联的仰角,以及
使用所述经量化的仰角来量化所述方位角。
12.根据权利要求1所述的装置,
其中所述经量化的方向参数具有经量化的仰角和经量化的方位角,并且其中所述参数编码器(220)被配置为首先编码所述经量化的仰角并且随后编码所述经量化的方位角。
13.根据权利要求1所述的装置,
其中所述经量化的方向参数包含用于方位角和仰角的对的无符号索引,
其中所述参数编码器(220)被配置为将所述无符号索引转换成带符号索引,使得指示零角度的索引位于可能值的带符号区间的中间,并且
其中所述参数编码器(220)被配置为执行对所述带符号索引的重排序变换,以将正数和负数交错成无符号数。
14.根据权利要求1所述的装置,
其中所述经量化的方向参数包含经重排序或未经重排序的无符号方位角和仰角索引的对,并且
其中所述参数编码器(220)被配置为将所述对的索引合并成球体索引,以及
执行所述球体索引的原始编码。
15.根据权利要求10所述的装置,
其中所述参数编码器(220)被配置为根据球体偏移和当前经重排序或未经重排序的方位角索引,来导出所述球体索引,并且
其中所述球体偏移是根据与小于当前经重排序或未经重排序的仰角索引的经重排序或未经重排序的仰角索引相对应的方位角字母表的总和导出的。
16.根据权利要求1所述的装置,其中所述参数编码器(220)被配置为:针对与低于或等于阈值的扩散度值相关联的经量化的方向参数执行熵编码,并针对与大于所述阈值的扩散度值相关联的经量化的方向参数执行原始编码。
17.根据权利要求16所述的装置,
其中所述参数编码器(220)被配置为使用所述扩散度参数的量化字母表和量化,来动态地确定所述阈值,或其中所述参数编码器被配置为基于所述扩散度参数的所述量化字母表来确定所述阈值。
18.根据权利要求1所述的装置,
其中所述参数量化器(210)被配置为将仰角索引、与所述仰角索引相关联的仰角字母表、方位角索引以及与所述方位角索引相关联的方位角字母表确定为经量化的方向参数,
其中所述参数编码器(220)被配置为
根据输入信号的时间部分或频率部分的经量化的方向向量来导出平均方向向量,
使用所述时间部分或所述频率部分的向量的最佳角度精确度来量化所述平均方向向量,以及
编码经量化的平均方向向量,或
其中所述输出接口(230)被配置为将经编码的平均方向向量作为额外辅助信息输入到所述经编码的参数表示中。
19.根据权利要求18所述的装置,
其中所述参数编码器(220)被配置为:
使用所述平均方向向量来计算预测的仰角索引和预测的方位角索引,以及
计算所述仰角索引与所述预测的仰角索引之间以及所述方位角索引与所述预测的方位角索引之间的带符号距离。
20.根据权利要求19所述的装置,
其中所述参数编码器(220)被配置为通过针对小值加上一值以及针对大值减去一值来将所述带符号距离变换成减小的区间。
21.根据权利要求1所述的装置,
其中所述参数编码器(220)被配置为决定所述经量化的方向参数是通过原始编码模式还是熵编码模式来编码,并且其中所述输出接口(230)被配置为将对应指示引入到所述经编码的参数表示中。
22.根据权利要求1所述的装置,
其中所述参数编码器(220)被配置为使用哥伦布-莱斯方法或哥伦布-莱斯方法的修改来执行熵编码。
23.根据权利要求18所述的装置,其中所述参数编码器(220)被配置为:
将所述平均方向向量的分量转换成带符号表示,使得对应零值在可能值的带符号区间的中间,
执行所述带符号值的重排序变换,以将正数及负数交错成无符号数,
使用编码功能来编码结果,以获得所述平均方向向量的经编码的分量;以及
根据所述方向向量的对应分量的字母表大小的最大值,使用字母表大小来编码哥伦布-莱斯参数。
24.根据权利要求19所述的装置,
其中所述参数编码器(220)被配置为执行所述带符号距离或减小的带符号距离的重排序变换,以将正数及负数交错成无符号数,
其中所述参数编码器(220)被配置为使用哥伦布-莱斯方法或所述哥伦布-莱斯方法的修改来编码经重排序的带符号距离或经重排序的减小的带符号距离。
25.根据权利要求24所述的装置,其中所述参数编码器(220)被配置为使用以下操作来应用哥伦布-莱斯方法或哥伦布-莱斯方法的修改:
确定待编码的值的最高有效部分和最低有效部分;
计算所述最高有效部分的字母表;
计算所述最低有效部分的字母表;以及
使用所述最高有效部分的所述字母表以一元方式编码所述最高有效部分,并且使用所述最低有效部分的所述字母表以二进制方式编码所述最低有效部分。
26.根据权利要求1所述的装置,
其中所述参数编码器(220)被配置为使用确定待编码的值的最高有效部分和最低有效部分以及计算所述最高有效部分的字母表的操作,来应用哥伦布-莱斯方法或哥伦布-莱斯方法的修改,
其中当所述最高有效部分的字母表小于或等于预定义值时,将EncodeQuasiUniform方法用于编码全部值,其中EncodeQuasiUniform方法产生仅一个长度的代码或具有仅两个长度的代码,或
如果所述字母表的大小为二的幂,则使用二进制代码以原始编码模式来编码所述最低有效部分,或如果所述字母表的大小不同于二的幂,则使用删余代码以所述原始编码模式来编码所述最低有效部分。
27.根据权利要求1所述的装置,进一步包括参数计算器,所述参数计算器用于计算具有第一时间或频率分辨率的所述扩散度参数和具有第二时间或频率分辨率的所述方向参数。
28.一种编码包含扩散度参数和方向参数在内的定向音频编码参数的方法,所述方法包括:
量化所述扩散度参数和所述方向参数;
编码经量化的扩散度参数和经量化的方向参数;以及
产生包含与经编码的扩散度参数和经编码的方向参数有关的信息的经编码的参数表示,
其中所述编码包括:
在编码字母表的大小为二的幂的情况下,使用二进制代码在原始编码模式中编码所述经量化的扩散度参数,或
在所述编码字母表的大小不同于二的幂的情况下,使用删余代码在所述原始编码模式中编码所述经量化的扩散度参数,或
使用第一特定指示和来自所述原始编码模式的一个值的码字,来在仅一个值模式中编码所述经量化的扩散度参数,或
使用第二特定指示、用于两个连续值中的较小者的代码和用于一实际值或每一实际值与所述两个连续值中的所述较小者之间的差的比特,来在仅两个连续值模式中编码所述经量化的扩散度参数。
29.一种用于对经编码的音频信号进行解码的解码器,所述经编码的音频信号包括经编码的定向音频编码参数,所述经编码的定向音频编码参数包括经编码的扩散度参数和经编码的方向参数,所述解码器包括:
输入接口(800),用于接收所述经编码的音频信号并且用于从所述经编码的音频信号分离出所述经编码的扩散度参数和所述经编码的方向参数;
参数解码器(820),用于解码所述经编码的扩散度参数和所述经编码的方向参数,以获得经量化的扩散度参数和经量化的方向参数;以及
参数解量化器(840),用于根据所述经量化的扩散度参数和所述经量化的方向参数来确定经解量化的扩散度参数和经解量化的方向参数。
30.根据权利要求29所述的解码器,
其中所述输入接口(800)被配置为根据包括在所述经编码的音频信号中的编码模式指示(806),来确定所述参数解码器(820)将使用第一解码模式还是第二解码模式来解码所述经编码的方向参数,其中所述第一解码模式为原始解码模式,所述第二解码模式是具有模型化并且不同于所述第一解码模式的解码模式。
31.根据权利要求29所述的解码器,
其中所述参数解码器(820)被配置为针对所述经编码的音频信号的帧,解码经编码的扩散度参数,以获得所述帧的经量化的扩散度参数,
其中所述解量化器(840)被配置为使用所述经量化或经解量化的扩散度参数来确定用于所述帧的至少一个方向参数的解量化的解量化精确度,并且
其中所述参数解量化器(840)被配置为使用所述解量化精确度来解量化经量化的方向参数。
32.根据权利要求31所述的解码器,
其中所述参数解码器(820)被配置为根据解量化精确度来确定用于解码所述帧的所述经编码的方向参数的解码字母表,并且
其中所述参数解码器(820)被配置为使用所述解码字母表来解码所述经编码的方向参数,以获得所述经量化的方向参数。
33.根据权利要求29所述的解码器,
其中所述参数解码器(820)被配置为根据所述经编码的方向参数来导出经量化的球体索引,并将所述经量化的球体索引分解成经量化的仰角索引和经量化的方位角索引。
34.根据权利要求29所述的解码器,其中所述参数解码器(820)被配置为:
根据解量化精确度来确定仰角字母表,或
根据经量化的仰角参数或经解量化的仰角参数来确定方位角字母表。
35.根据权利要求29所述的解码器,其中所述参数解码器(820)被配置为:
根据所述经编码的方向参数来解码经量化的仰角参数,并根据所述经编码的方向参数来解码经量化的方位角参数,
其中所述参数解量化器(840)被配置为根据所述经量化的仰角参数或经解量化的仰角参数来确定方位角字母表,其中与指示第二绝对值仰角的仰角的仰角数据相比较,所述方位角字母表的大小对于指示第一绝对值仰角的仰角的仰角数据更大,所述第二绝对值仰角大于所述第一绝对值仰角,并且
其中所述参数解码器(820)被配置为使用所述方位角字母表来产生经量化的方位角参数,或其中所述参数解量化器被配置为使用所述方位角字母表来解量化所述经量化的方位角参数。
36.根据权利要求29所述的解码器,
其中所述输入接口(800)被配置为根据所述经编码的音频信号中的解码模式指示(806)来确定具有模型化的解码模式,
其中所述参数解码器(820)被配置为获得平均仰角索引或平均方位角索引。
37.根据权利要求36所述的解码器,其中所述参数解码器(820)被配置为根据帧的经量化的扩散度索引来确定所述帧的解量化精确度,
根据所述帧的所述解量化精确度来确定仰角平均字母表或方位角平均字母表,以及
使用所述经编码的音频信号中的比特和所述仰角平均字母表来计算所述平均仰角索引,或使用所述经编码的音频信号中的比特和所述方位角平均字母表来计算所述平均方位角索引。
38.根据权利要求36所述的解码器,
其中所述参数解码器(820)被配置为解码所述经编码的音频信号中的某些比特以获得经解码的仰角哥伦布-莱斯参数,并解码所述经编码的音频信号中的其他比特以获得经解码的仰角距离,或
其中所述参数解码器(820)被配置为解码所述经编码的音频信号中的某些比特以获得经解码的方位角哥伦布-莱斯参数,并解码所述经编码的音频信号中的其他比特以获得经解码的方位角距离,
其中所述参数解码器(820)被配置为根据所述仰角哥伦布-莱斯参数和所述经解码的仰角距离以及所述平均仰角索引来计算经量化的仰角参数,或根据所述方位角哥伦布-莱斯参数和所述经解码的方位角距离以及所述平均方位角索引来计算经量化的方位角参数。
39.根据权利要求31所述的解码器,
其中所述参数解码器(820)被配置为针对来自所述经编码的音频信号的时间和频率部分来解码扩散度参数,以获得经量化的扩散度参数,
其中所述参数解量化器(840)被配置为根据经量化或经解量化的扩散度参数来确定解量化精确度,
其中所述参数解码器(820)被配置为根据所述解量化精确度来导出仰角字母表,并使用所述仰角字母表来获得所述帧的所述时间和频率部分的经量化的仰角参数,并且
其中所述解量化器被配置为使用所述仰角字母表来解量化所述经量化的仰角参数,以获得所述帧的时间和频率部分的经解量化的仰角参数。
40.根据权利要求29所述的解码器,
其中所述参数解码器(820)被配置为解码经编码的方向参数,以获得经量化的仰角参数,
其中所述参数解量化器(840)被配置为根据所述经量化的仰角参数或经解量化的仰角参数来确定方位角字母表,并且
其中所述参数解码器(820)被配置为使用所述方位角字母表来计算经量化的方位角参数,或其中所述参数解量化器(840)被配置为使用所述方位角字母表来解量化所述经量化的方位角参数。
41.根据权利要求29所述的解码器,其中所述参数解量化器(840)被配置为:
使用解量化精确度来确定仰角字母表,以及
使用所述解量化精确度和使用所述仰角字母表产生的经量化或经解量化的仰角参数来确定方位角字母表,并且
其中所述参数解码器(820)被配置为使用所述仰角字母表来解码所述经编码的方向参数,以获得经量化的仰角参数,并使用所述方位角字母表来解码所述经编码的方向参数,以获得经量化的方位角参数,或其中所述参数解量化器(840)被配置为使用所述仰角字母表来解量化所述经量化的仰角参数并使用所述方位角字母表来解量化所述经量化的方位角参数。
42.根据权利要求36所述的解码器,其中所述参数解码器(820)被配置为:
使用所述平均仰角索引或平均方位角索引来计算预测的仰角索引或预测的方位角索引,以及
执行哥伦布-莱斯解码操作或哥伦布-莱斯解码操作的修改,以获得方位角或仰角参数的距离,以及
将所述方位角或仰角参数的距离与所述平均仰角索引或所述平均方位角索引相加,以获得所述经量化的仰角索引或所述经量化的方位角索引。
43.根据权利要求29所述的解码器,进一步包括:
参数分辨率转换器(710),用于将所述经解量化的扩散度参数的时间/频率分辨率或所述经解量化的方位角或仰角参数的时间或频率分辨率或根据所述经解量化的方位角参数或经解量化的仰角参数导出的参数表示转换成目标时间或频率分辨率,以及
音频渲染器(420),用于将所述目标时间或频率分辨率中的所述扩散度参数和所述方向参数应用于音频信号,以获得经解码的多声道音频信号。
44.根据权利要求43所述的解码器,包括:
频谱/时间转换器(440),用于将所述多声道音频信号从谱域表示转换成具有高于所述目标时间或频率分辨率的时间分辨率的时间分辨率的时域表示。
45.根据权利要求29所述的解码器,
其中所述经编码的音频信号包括经编码的输送信号,其中所述输入接口(800)被配置为提取所述经编码的输送信号,
其中所述解码器包括用于解码所述经编码的输送信号的输送信号音频解码器(340),
其中所述解码器进一步包括用于将所述经解码的输送信号转换成频谱表示的时间/频谱转换器(430),并且
其中所述解码器包括用于使用所述经解量化的扩散度参数和所述经解量化的方向参数来渲染多声道音频信号的音频渲染器(420),并且
其中所述解码器进一步包括用于将经渲染的音频信号转换成时域表示的频谱/时间转换器(440)。
46.一种用于对经编码的音频信号进行解码的方法,所述经编码的音频信号包括经编码的定向音频编码参数,所述经编码的定向音频编码参数包括经编码的扩散度参数和经编码的方向参数,所述方法包括:
接收所述经编码的音频信号并且从所述经编码的音频信号分离出所述经编码的扩散度参数和所述经编码的方向参数;
解码所述经编码的扩散度参数和所述经编码的方向参数,以获得经量化的扩散度参数和经量化的方向参数;以及
根据所述经量化的扩散度参数和所述经量化的方向参数来确定经解量化的扩散度参数和经解量化的方向参数。
47.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序当在计算机或处理器上运行时,用于执行根据权利要求28或46所述的方法。
CN201880086690.3A 2017-11-17 2018-11-16 使用量化和熵编码来编码或解码定向音频编码参数的装置和方法 Active CN111656442B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP17202393 2017-11-17
EP17202393.9 2017-11-17
PCT/EP2018/081623 WO2019097018A1 (en) 2017-11-17 2018-11-16 Apparatus and method for encoding or decoding directional audio coding parameters using quantization and entropy coding

Publications (2)

Publication Number Publication Date
CN111656442A CN111656442A (zh) 2020-09-11
CN111656442B true CN111656442B (zh) 2024-06-28

Family

ID=

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2249334A1 (en) * 2009-05-08 2010-11-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio format transcoder

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2249334A1 (en) * 2009-05-08 2010-11-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio format transcoder

Similar Documents

Publication Publication Date Title
CN111656441B (zh) 编码或解码定向音频编码参数的装置和方法
US11790922B2 (en) Apparatus for encoding or decoding an encoded multichannel signal using a filling signal generated by a broad band filter
CN111656442B (zh) 使用量化和熵编码来编码或解码定向音频编码参数的装置和方法

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant