CN114424586A - 空间音频参数编码和相关联的解码 - Google Patents
空间音频参数编码和相关联的解码 Download PDFInfo
- Publication number
- CN114424586A CN114424586A CN202080064933.0A CN202080064933A CN114424586A CN 114424586 A CN114424586 A CN 114424586A CN 202080064933 A CN202080064933 A CN 202080064933A CN 114424586 A CN114424586 A CN 114424586A
- Authority
- CN
- China
- Prior art keywords
- audio
- parameter value
- direction parameter
- sub
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000005236 sound signal Effects 0.000 claims abstract description 49
- 238000000034 method Methods 0.000 claims abstract description 21
- 230000000873 masking effect Effects 0.000 claims description 14
- 230000004044 response Effects 0.000 claims description 12
- 230000011664 signaling Effects 0.000 claims description 7
- 239000013598 vector Substances 0.000 description 32
- 238000013139 quantization Methods 0.000 description 19
- 238000004458 analytical method Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 11
- 238000013461 design Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 239000000203 mixture Substances 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 230000015572 biosynthetic process Effects 0.000 description 7
- 238000003786 synthesis reaction Methods 0.000 description 7
- 238000004590 computer program Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000006835 compression Effects 0.000 description 5
- 238000007906 compression Methods 0.000 description 5
- 239000004065 semiconductor Substances 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012732 spatial analysis Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 239000004020 conductor Substances 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000004091 panning Methods 0.000 description 1
- 230000002688 persistence Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/002—Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
- H04S3/004—For headphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/01—Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/11—Positioning of individual sound objects, e.g. moving airplane, within a sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/03—Application of parametric coding in stereophonic audio systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/07—Synergistic effects of band splitting and sub-band processing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/11—Application of ambisonics in stereophonic audio systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Mathematical Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Stereophonic System (AREA)
Abstract
一种方法,包括:获得针对音频信号的帧的子帧的每个子带的第一音频方向参数值;针对与所述音频信号相关联的一个或多个音频对象,获得针对该音频信号的该帧的该子帧的第二音频方向参数值;以及基于针对每个子带的第一音频方向参数值与针对该一个或多个音频对象的第二音频方向参数值之间的相似度,确定用于该子帧的每个第一音频方向参数值的比特高效编码。
Description
技术领域
本发明涉及声场相关参数编码,但非排他地涉及用于音频编码器和解码器的时频域方向相关参数编码。
背景技术
参数空间音频处理是使用一组参数来描述声音的空间方面的音频信号处理领域。例如,在从麦克风阵列进行参数化空间音频捕获时,从麦克风阵列信号估计一组参数是一种典型且有效的选择,该组参数诸如是频带中声音的方向、以及频带中被捕获声音的定向与非定向部分的比率。众所周知,这些参数很好地描述了在麦克风阵列的位置处的被捕获声音的感知空间特性。这些参数可以相应地在空间声音的合成中使用,以用于双耳式耳机、扬声器、或诸如全景环绕声(Ambisonics)之类的其他格式。
因此,频带中的方向和直接与总能量比(direct-to-total energy ratio) 是对空间音频捕获特别有效的参数化。
包括频带中的方向参数和频带中的能量比率参数(指示声音的方向性) 的参数集也可以被用作用于音频编解码器的空间元数据(其还可以包括其他参数,诸如相干性(coherence)、扩展相干性(spread coherence)、方向数量、距离等)。例如,这些参数可以从麦克风阵列捕获的音频信号来估计,并且例如可以从麦克风阵列信号生成立体声信号以与空间元数据一起传送。立体声信号例如可以用AAC编码器来编码。解码器可以将音频信号解码成PCM信号,并(使用空间元数据)处理频带中的声音以获得空间输出,例如,双耳输出。
前述解决方案尤其适合于对来自(例如,移动电话、VR相机、独立麦克风阵列中的)麦克风阵列的捕获空间声音进行编码。然而,可期望这种编码器除了麦克风阵列捕获的信号之外还具有其他输入类型,例如,扬声器信号、音频对象信号、或Ambisonics信号。
分析一阶Ambisonics(FOA)输入用于空间元数据提取已经在与定向音频编码(DirAC)和谐波平面波展开(Harpex)有关的科学文献中进行了详尽的记录。这是因为存在直接提供FOA信号(更准确地:其变体,B 格式信号)的麦克风阵列,并因此分析这种输入已经成为该领域的研究重点。
用于编码器的另一输入也是多通道扬声器输入,诸如5.1或7.1通道环绕声输入。
上述过程可以涉及通过时频域中的多通道分析获得诸如方位角和仰角之类的定向参数以及能量比率作为空间元数据。另一方面,可以在单独的处理链中处理各个音频对象的定向元数据。然而,如果元数据是被单独处理的,那么在处理这两种类型的元数据时可能的协同作用没有得到有效利用。
发明内容
现在已发明了一种改进的方法和实现该方法的技术设备,由此缓解了上述问题。各个方面包括一种方法、装置以及包括存储在其中的计算机程序或信号的非暂时性计算机可读介质,其特征在于独立权利要求中所述的内容。在从属权利要求以及对应的附图和描述中公开了实施例的各种细节。
本发明的各种实施例所寻求的保护范围由独立权利要求阐述。在本说明书中所描述的没有落入独立权利要求的范围下的实施例和特征(如果有的话)将被解释为对理解本发明的各种实施例有用的示例。
根据第一方面,提供了一种装置,其包括用于执行以下操作的部件:获得针对音频信号的帧的子帧的每个子带的第一音频方向参数值;针对与所述音频信号相关联的一个或多个音频对象,获得针对该音频信号的该帧的该子帧的第二音频方向参数值;以及基于针对每个子带的第一音频方向参数值与针对该一个或多个音频对象的第二音频方向参数值之间的相似度,确定用于该子帧的每个第一音频方向参数值的比特高效编码。
根据实施例,所述第一音频方向参数和第二音频方向参数被定义为在球体的表面上的点。
根据实施例,第一音频方向参数值包括针对子帧的每个子带的至少一个方位角值和至少一个仰角值,第二音频方向参数值包括针对每个音频对象的至少一个方位角值和至少一个仰角值。
根据实施例,一个或多个音频对象与音频信号的帧的子帧相关联,或者与音频信号的帧相关联。
根据实施例,用于第一音频方向参数值的所述比特高效编码包括:响应于音频对象的所述第二音频方向参数值与所述第一音频方向参数值的相似度低于预定阈值,将所述音频对象的索引编码为第一音频方向参数值;或者响应于所述音频对象的所述第二音频方向参数值与所述第一音频方向参数值的相似度高于所述预定阈值,将第一音频方向参数值编码为经量化的第一音频方向参数值。
根据实施例,用于确定用于第一音频方向参数值的比特高效编码的所述部件进一步包括用于执行以下操作的部件:针对每个子带和子帧,确定原始第一音频方向参数值与经量化的第一音频方向参数值之间的方向性差异;针对每个子带和子帧,确定原始第一音频方向参数值与所述音频对象的第二音频方向参数值之间的方向性差异;确定原始第一音频方向参数值与所述音频对象的第二音频方向参数值之间的方向性差异的最小值;以及在第一音频方向参数值与第二音频方向参数值之间的相似度比较中使用该最小值。
根据实施例,该装置进一步包括用于执行以下操作的部件:在比特流中或随同比特流对指示进行编码,该指示用于指示是否允许音频对象的索引被编码为第一音频方向参数值。
根据实施例,所述指示是音频帧特定的。
根据实施例,所述第一音频方向参数值进一步包括针对每个子带和子帧的信号能量值,所述第二音频方向参数值进一步包括每个音频对象的针对每个子帧的信号能量值;该装置进一步包括用于执行以下操作的部件:基于针对子帧和子带的信号能量值以及音频对象的针对所述子帧的信号能量值,确定掩蔽(masking)参数,所述掩蔽参数定义该音频对象的方向是否充分对应于该帧的所述子帧和所述子带的方向。
根据实施例,该装置进一步包括用于执行以下操作的部件:响应于掩蔽参数指示音频对象的方向充分对应于该帧的所述子帧和所述子带的方向,跳过将第一音频方向参数值编码为经量化的第一音频方向参数值。
根据实施例,该装置进一步包括用于执行以下操作的部件:通过加权函数来调整掩蔽参数,所述加权函数调整音频对象的方向与该帧的所述子帧和所述子带的方向充分对应所需的角度。
根据实施例,该装置进一步包括用于执行以下操作的部件:在比特流中或随同比特流对指示进行编码,该指示用于指示是否允许跳过将第一参数值编码为经量化的第一参数值。
根据实施例,所述指示是音频帧特定的。
根据实施例,用于确定用于第一音频方向参数值的比特高效编码的所述部件包括用于执行以下操作的部件:当将第一音频方向参数值编码为经量化的第一音频方向参数值时,使用至少一个音频对象的第二音频方向参数值作为参考。
根据实施例,该装置进一步包括用于执行以下操作的部件:估计将第一音频方向参数值编码为经量化的第一音频方向参数值所需的比特数量;针对每个对象,计算针对所有时频图块(tile)的第一音频方向参数值与该对象的经量化的方向之间的角度差;估计对所述角度差编码所需的比特数量;响应于对所述角度差编码所需的比特数量小于将第一音频方向参数值编码为经量化的第一音频方向参数值所需的比特数量,将所述对象索引为参考对象;以及在被索引为参考对象的对象中,选择对所述角度差编码所需的比特数量最少的对象,作为将要被使用的参考对象。
根据实施例,该装置进一步包括用于执行以下操作的部件:如果参考对象被用于编码,则进行信令传送;以及如果同意,则将关于参考对象的索引的指示包括在将要被编码的比特流中或随同将要被编码的比特流。
根据实施例,该装置进一步包括用于执行以下操作的部件:将参考对象的使用和参考对象的索引信令传送为特定于时频图块的。
根据第二方面,一种方法,包括:获得针对音频信号的帧的子帧的每个子带的第一音频方向参数值;针对与所述音频信号相关联的一个或多个音频对象,获得针对该音频信号的该帧的该子帧的第二音频方向参数值;以及基于针对每个子带的第一音频方向参数值与针对该一个或多个音频对象的第二音频方向参数值之间的相似度,确定用于该子帧的每个第一音频方向参数值的比特高效编码。
根据第三方面,一种装置,包括至少一个处理器和至少一个存储器,所述至少一个存储器在其上存储有计算机程序代码,该至少一个存储器和计算机程序代码被配置为与至少一个处理器一起使该装置至少执行:获得针对音频信号的帧的子帧的每个子带的第一音频方向参数值;针对与所述音频信号相关联的一个或多个音频对象,获得针对该音频信号的该帧的该子帧的第二音频方向参数值;以及基于针对每个子带的第一音频方向参数值与针对该一个或多个音频对象的第二音频方向参数值之间的相似度,确定用于该子帧的每个第一音频方向参数值的比特高效编码。
根据其他方面的计算机可读存储介质包括由装置使用的代码,该代码在由处理器执行时使该装置执行上述方法。
附图说明
为了更全面地理解示例实施例,现在结合附图对以下描述进行参考,其中:
图1示意性地示出适用于实现一些实施例的装置的***;
图2示意性地示出根据一些实施例的元数据编码器;
图3示出根据实施例的用于对音频帧的时频图块进行编码的流程图;
图4示出根据另一个实施例的用于对音频帧的时频图块进行编码的流程图;
图5示出根据实施例的在正常编码与音频对象索引之间选择时频图块的编码的示例;
图6示出根据实施例的在正常编码与音频对象索引之间指示时频图块的编码的示例;
图7示出根据又一个实施例的用于对音频帧的时频图块进行编码的流程图;
图8a、图8b示出根据实施例的用于定义时频图块和音频对象的候选对的加权函数的示例;
图9示出根据实施例的在正常编码与跳过编码之间指示时频图块的编码的示例;
图10示出根据实施例的在正常编码、音频对象索引与跳过编码之间指示时频图块的编码的示例;
图11示出根据又一个实施例的用于对音频帧的时频图块进行编码的流程图;
图12示出可以用于实现实施例的示例电子设备。
具体实施方式
下面更详细地描述用于提供有效空间分析导出的元数据参数的合适装置和可能机制。在下面的讨论中,将关于多通道麦克风实现来讨论多通道***。然而,如上所述,输入格式可以是任何合适的输入格式,诸如多通道扬声器、Ambisonics(FOA/HOA)等。应当理解,在一些实施例中,通道位置是基于麦克风的位置的,或者是基于虚拟位置或方向的。此外,示例***的输出是多通道扬声器布置。然而,应当理解,该输出可经由除了扬声器以外的手段渲染给用户。此外,多通道扬声器信号可译以被概括为两个或更多个播放音频信号。
如前面所讨论的,诸如方向和直接与总能量比(或者扩散比 (diffuseness-ratio)、绝对能量(absolute energies)、或指示在给定时频间隔的声音的定向性/非定向性的任何合适表示)参数之类的频带中的空间元数据参数特别适合于表示自然声场的感知特性。诸如5.1扬声器混音之类的合成声音场景通常利用音频效果和幅度平移方法,其提供与自然声场中发生的声音不同的空间声音。特别地,5.1或7.1混音可以被配置以使得它包含从多个方向播放的相干声音。例如,通常在正面直接感知的5.1混音的一些声音不是由中央(通道)扬声器产生的,而是例如从左前和右前 (通道)扬声器,并且还可能从中央(通道)扬声器相干地产生的。诸如方向和能量比率之类的空间元数据参数没有准确地表示这种空间相干特征。因此,可以从音频信号的分析中确定诸如相干性参数之类的其他元数据参数,以表示通道之间的音频信号关系。
除了多通道输入格式音频信号之外,还可能需要编码***对表示物理空间内的各种声源的音频对象进行编码。无论它是采用元数据的形式还是某些其他机制,每个音频对象都可以伴随有采用方位角和仰角值形式的定向数据,其指示音频对象在物理空间内的位置。
如上所述,将音频对象的方向信息合并为元数据的示例是使用所确定的方位角和仰角值。
可以确定音频对象的方向参数并基于实际的基于球体覆盖的方向分布来对该参数进行索引,以便定义更均匀的方向分布。
进而,所提出的用于音频对象的方向索引可以与下混合信号(‘通道’) 一起使用,以定义例如可用于沉浸式语音和音频服务(IVAS)编解码器的参数化沉浸式格式。可替代地以及附加地,可以在编解码器中使用球形网格格式以量化方向。
关于图1,示出了用于实现本申请的实施例的示例装置和***。*** 100被示出为具有‘分析’部分121和‘合成’部分131。‘分析’部分 121是从接收多通道扬声器信号到元数据和下混合信号的编码的部分,而‘合成’部分131是从编码的元数据和下混合信号的解码到重新生成信号的呈现(例如,采用多通道扬声器的形式)的部分。
***100和‘分析’部分121的输入是多通道信号102。在以下示例中描述了麦克风通道信号输入,然而,在其他实施例中,可以实现任何合适的输入(或合成多通道)格式。例如,在一些实施例中,空间分析器和空间分析可以在编码器外部被实现。例如,在一些实施例中,与音频信号相关联的空间元数据可以作为单独的比特流被提供给编码器。在一些实施例中,空间元数据可以被提供为一组空间(方向)索引值。
多通道信号被传递给下混合器103(又称为“传输信号生成器”)和分析处理器105。
在一些实施例中,下混合器103被配置为接收多通道信号,将这些信号下混合到确定数量的通道,并输出下混合信号104(又称为“传输信号”)。例如,下混合器103可以被配置为生成多通道信号的2-音频通道下混合。确定数量的通道可以是任何合适数量的通道。在一些实施例中,下混合器 103是可选的,并且多通道信号以与此示例中的下混合信号相同的方式未经处理地被传递给编码器107。
在一些实施例中,分析处理器105还被配置为接收多通道信号,并分析这些信号以产生与多通道信号相关联并因此与下混合信号104相关联的元数据106。分析处理器105可以被配置为生成元数据,针对每个时频分析间隔,该元数据可以包括方向参数108、能量比率参数110(在一些实施例中,还包括相干性参数112和扩散度参数。在一些实施例中,方向、能量比率和扩散度参数可以被认为是空间音频参数。换句话说,空间音频参数包括旨在表征由多通道信号(或者通常是两个或更多个播放音频信号) 创建的声场的参数。
在一些实施例中,所生成的参数可在频带与频带之间不同。因此,例如,在频带X中,所有参数被生成和发送,而在频带Y中,仅其中一个参数被生成和发送,此外,在频带Z中,没有参数被生成或发送。这方面的实际示例可以是对于诸如最高频带之类的一些频带,出于感知方面原因而不需要某些参数。下混合信号104和元数据106可以被传递给编码器107。
编码器107可以包括音频编码器核心109,其被配置为接收下混合(或其他)信号104并生成这些音频信号的合适的编码。在一些实施例中,编码器107可以是计算机(运行存储在存储器上和至少一个处理器上的合适的软件),或者可替代地可以是例如使用FPGA或ASIC的特定设备。编码可以使用任何合适的方案来实现。
此外,编码器107可以包括被配置为接收元数据并输出编码或压缩形式的信息的元数据编码器/量化器111。元数据编码器/量化器111可以包括能量比率分析器(或量化分辨率确定器)。能量比率分析器可以被配置为接收能量比率,并根据分析生成用于针对该帧中的所有时频图块的方向参数的量化分辨率(换句话说,用于仰角和方位角值的量化分辨率)。此比特分配例如可以由bits_dir0[0:N-1][0:M-1]定义。
元数据编码器/量化器111可以包括方向索引生成器,其被配置为接收方向参数108(诸如方位角和仰角θ(k,n))以及量化比特分配,并从中生成经量化的输出。量化可以基于球体的布置(在‘表面’球体上形成以环形布置的球面网格),其由所确定的量化分辨率所定义的查找表来定义。换句话说,球面网格使用以下构思:用更小球体来覆盖一球体,并将更小球体的中心视为定义几乎等距离的方向的网格的点。因此,更小球体定义关于中心点的圆锥体或立体角,其可以根据任何合适的索引算法来索引。虽然在本文中描述了球面量化,但是也可以使用其他任何合适的量化(线性的或非线性的)。
例如,该查找表可以基于例如能量比索引来分配1-11个比特以用于方向参数(方位角和仰角)。根据所分配的比特数量,定义了方向球体的‘北半球’(包括赤道)中的一定数量的仰角值,以及针对每个量化器在每个仰角处的方位角值数量。
例如,对于5比特,可存在对应于[0,30,60,90]的4个仰角值和4-1=3 个负仰角值[-30,-60,-90]。对于第一个仰角值0,可存在12个等距方位角值,对于仰角值30和-30,可存在7个等距方位角值等。
在一些实施例中,在图1中由虚线所示的发送或存储之前,编码器107 可以进一步交织、复用到单个数据流或将元数据嵌入编码的下混合信号内。复用可以使用任何合适的方案来实现。
在解码器侧,所接收或获取的数据(流)可以由解码器/解复用器133 来接收。解码器/解复用器133可以解复用编码流,并将音频编码流传递给被配置为对音频信号进行解码以获得下混合信号的下混合提取器135。类似地,解码器/解复用器133可以包括被配置为接收编码的元数据并生成元数据的元数据提取器137。在一些实施例中,解码器/解复用器133可以是计算机(运行存储在存储器上和在至少一个处理器上的合适的软件),或者可替代地可以是例如使用FPGA或ASIC的特定设备。
解码的元数据和下混合音频信号可以被传递给合成处理器139。*** 100的‘合成’部分131进一步示出了合成处理器139,其被配置为接收下混合和元数据,并基于下混合信号和元数据以任何合适的格式重新创建采用多通道信号110形式的合成空间音频(根据使用实例,其可以是多通道扬声器格式,或者在一些实施例中可以是诸如双耳或Ambisonics信号之类的任何合适的输出格式)。
附加输入120可以具体包括与多个音频对象相关联的定向数据。这种用例的一个特定示例是电话会议场景,其中,参与者围绕桌子被定位。每个音频对象可以表示与每个参与者相关联的音频数据。特别地,音频对象可以具有与每个参与者相关联的位置数据。
因此,***100可以被配置为接受沿着输入120的多个音频对象,并且每个音频对象可以具有相关联的定向数据。进而,包括相关联的定向数据的音频对象可以被传递给音频对象编码器121以进行编码和量化。就此而言,与每个音频对象相关联的定向数据也可以依据方位角φ和仰角θ来表示,其中,每个音频对象的方位角值和仰角值指示在任意时间点对象在空间中的位置。方位角和仰角值可以在逐个时间帧的基础上被更新,这并非必须与多通道音频信号所关联的定向元数据参数的时间帧分辨率一致。
通常,到音频对象编码器121的N个活动输入音频对象的定向信息可以采用Pq=(θq,φq),q=0:N-1的形式来表示,其中,Pq是具有索引q 的音频对象的定向信息,其具有包括仰角θ值和方位角φ值的二维向量。
为了更详细地解释如何找到音频对象的定向信息与针对音频对象而导出的“模板”音频方向参数之间的向量差异,进而使用球形量化方案来对该向量差异进行量化,参考图2更详细地描绘了音频对象编码器121的一些功能。
音频对象编码器121可以包括音频对象方向导出器201,其被设置为导出针对每个音频对象的合适的“模板”音频方向参数。在实施例中,这可以被导出为N维向量,其具有与N个音频对象对应的N个导出音频方向参数作为元素。这些导出音频方向参数可以从考虑音频对象围绕圆的圆周分布的角度被导出。特别地,可以从音频对象方向均匀地分布为围绕单位圆的N个等距点的角度来考虑导出音频方向参数。
在以下描述中,N个导出音频方向参数被公开为形成向量结构(被称为向量SP),其中每个元素对应于针对N音频对象之一的导出音频方向参数。然而,应当理解,可以通过将导出音频方向参数视为不需要以向量的形式构造的索引参数的集合来应用以下公开。
音频对象方向导出器201可以被配置为导出具有N个二维元素的“模板”导出音频方向向量SP,由此,每个元素表示与音频对象相关联的方位角和仰角。进而,可以通过设置每个元素的方位角和仰角值来初始化向量 SP,以使得N个音频对象围绕单位圆均匀地分布。这可以通过初始化向量内的每个音频对象方向元素以具有仰角值“零”和方位角值来实现,其中,q是相关联的音频对象的索引。因此,对于N个音频对象,向量SP 可以被写为:
换句话说,SP向量可以被初始化,以使得每个音频对象的定向信息(导出音频方向参数)被假定为沿着单位圆从方位角值00开始均匀地分布。
进而,具有包括与音频对象对应的导出音频方向参数的元素的导出音频方向SP向量可以被传递给音频对象编码器121中的音频方向旋转器203。音频方向旋转器203也被描绘为接收音频对象120。特别地,通过将SP向量内的每个导出方向从第一接收音频对象P0旋转第一分量φ0的方位角值,音频方向旋转器203进而可以在后续处理中使用第一音频对象的音频方向参数。也就是说,通过添加第一接收音频对象的第一方位角分量φ0的值,可以旋转导出向量SP内的每个导出音频方向参数的每个方位角分量。就 SP向量而言,此操作导致每个元素具有以下形式:
对于被部署为导出音频方向向量SP具有仰角“零”的实施例,向量 SP可以仅依据方位角来表示,其中,φi是由给出的经旋转的方位角分量,SP是经旋转的导出音频方向向量。作为此步骤的结果,经旋转的导出音频方向向量现在与单位圆上的第一音频对象的方向对齐。
进而,音频对象编码器121可以被设置为量化并编码上述经旋转的导出音频方向向量在实施例中,这可以简单地包括由量化器211将旋转角φ0量化到特定分辨率。例如,具有2.5度分辨率的线性量化器(也就是说,线性标度上连续的点之间的5度)导致72个线性量化级别。注意,(未经旋转的)导出音频方向向量SP取决于活动音频对象的数量N,并且该因子可以被传递给解码器或以其他方式与编码器商定。
音频对象编码器121还可以包括音频方向重***&索引器205,其被配置为对所接收的音频对象的位置进行重新排序,以便更接近地对齐经旋转的导出音频方向向量的元素的经旋转的导出音频方向。这可以通过对音频对象的位置进行重新排序以使得每个重新排序后的音频对象的方位角值与向量中具有最接近方位角值的元素的位置对齐来实现。进而,每个音频对象的重新排序后的位置可以被编码为排列索引(permutationindex)。
用于标量量化第一对象的方位角φ0的K个比特(其可以被称为Iφ0) 和表示音频对象1至N-1的音频方向参数的索引顺序的索引Iro可以形成诸如来自编码器100的编码比特流的一部分。
如上所述,经旋转的导出音频方向向量可以是“模板”,从该模板可以针对每个音频对象的音频方向参数导出音频方向差异向量。这可以例如由图2中的差异确定器207来执行。在实施例中,音频方向差异向量可以是具有仰角差异值和方位差异值的二维向量。例如,针对具有定向分量 (θq,,φq)的音频对象Pq的音频方向差异向量(Δθq,,Δφq)可以被发现为(Δθq,,
进而,可以由球形量化器&索引器209对与每个音频对象相关联的定向差异向量(Δθq,Δφq)进行量化。
上述音频编码方案也可以被认为适用于3GPP IVAS编码器,可以被称为元数据辅助空间音频(MASA)。其中,可以考虑通过时频域中的多通道分析而获得的诸如方位角和仰角之类的定向参数以及能量比率来表示空间元数据。另一方面,各个音频对象的方向元数据在单独的处理链中进行处理,如图1和图2中所示。
显然,在一方面描述了各个音频对象的方向/位置的元数据,在另一方面描述了同一音频场景内的空间音频的元数据,它们包含一定的相似度和相关性。需要一定数量的比特来表示与空间音频相关联的经压缩/经量化的空间元数据。类似地,需要一定数量的比特以用于与将要与空间音频一起被编码的任何音频对象相关的元数据。然而,如果这两种类型的元数据的压缩/量化是单独进行的,则没有利用这两种元数据的元数据量化的协同作用。
在下文中,将根据各种实施例更详细地描述一种增强的用于对音频帧的时频图块进行编码的方法。
在图3中公开的方法包括:获得(300)针对音频信号的帧的子帧的每个子带的第一音频方向参数值;针对与所述音频信号相关联的一个或多个音频对象,获得(302)针对该音频信号的该帧的该子帧的第二音频方向参数值;以及基于针对每个子带的第一音频方向参数值与针对该一个或多个音频对象的第二音频方向参数值之间的相似度,确定(304)用于该子帧的每个第一音频方向参数值的比特高效编码。
因此,该方法提供了针对MASA时频图块的方向信息的编码,其中,还获得了音频对象方向元数据,以及执行了至少MASA的方向元数据与音频对象信号的方向元数据的按帧(frame-wise)比较。作为比较的结果,针对帧或帧的一部分(诸如子帧或时频图块)确定编码方向元数据的最比特有效的方式。
根据实施例,所述第一和第二音频方向参数被定义为在球体的表面上的点。因此,音频方向参数可以例如被定义为其值在三维中定义的方向向量,或者被定义为定义从球体的中心到球体表面位置的方向的索引值。
根据实施例,第一音频方向参数值包括针对每个子带和子帧的至少一个方位角值和至少一个仰角值,第二音频方向参数值包括针对每个音频对象针对每个子帧的至少一个方位角值和至少一个仰角值。
因此,如上所解释的,在MASA音频编码方案中,定向参数通常被定义为方位角和仰角值,并且这也适用于音频对象方向参数。注意,对于第一音频方向参数值(诸如在MASA中使用的参数化空间音频相关到达方向参数),方位角和仰角值可以在时域和频域两者中被定义,而对于第二音频方向参数值(诸如音频对象定向参数),仅在时间域中定义它们(诸如与音频信号的帧或帧的子帧相关联)就足够了。
在下文中,“第一音频方向参数值”和“第二音频方向参数值”被简称为“第一参数值”和“第二参数值”。
根据实施例,用于第一参数值的所述比特高效编码包括:响应于音频对象的所述第二参数值与所述第一参数值的相似度低于预定阈值,将所述音频对象的索引编码为第一参数值;或者响应于所述音频对象的所述第二参数值与所述第一参数值的相似度高于所述预定阈值,将第一参数值编码为经量化的第一参数值。
因此,根据方向元数据,时频图块方向可以被编码为指向音频对象的指针/索引(因此使用该音频对象本身的方向),或者被单独编码为经量化的时频图块方向参数。
根据实施例,基于用于候选时频图块/音频对象对的时频图块和音频对象的音频信号能量,确定音频对象对时频图块的可能的掩蔽。
根据实施例,当音频对象掩蔽时频图块时,可以从编码中完全省略时频图块方向。在又一个实施例中,如果音频对象元数据被MASA音频掩蔽,则可以跳过对该音频对象元数据的编码。
根据可以与其他实施例一起使用或者独立于其他实施例地使用的实施例,用于第一参数值的所述比特高效编码包括:当将第一参数编码为经量化的第一参数值时,使用至少一个音频对象的第二参数值作为参考。
在以下示例中更详细地描述了这些实施例。
图4示出了根据实施例的流程图,其中,在音频对象的索引或编码时频图块的原始方向参数与经量化的方向参数之间的定向差异之间选择编码时频图块方向元数据的最比特有效的方式。其中,前两个步骤与图3中的那些步骤类似:首先,获得针对时频图块的方向元数据(即,方位角、仰角)(400),以及其次,针对所有音频对象获得方向元数据(402)。
该实施例进一步包括:针对每个子带和子帧,确定原始第一参数值与经量化的第一参数值之间的方向性差异(404);针对每个子带和子帧,确定原始第一参数值与所述音频对象的第二参数值之间的方向性差异(406);确定原始第一参数值与所述音频对象的第二参数值之间的方向性差异的最小值(408);以及在第一参数值与第二参数值之间的相似度比较中使用该最小值(410)。
时频图块的原始方向参数与经量化的方向参数之间的定向差异可以被确定如下:
在下文中,如根据图1和图2而描述的MASA定向数据编码被称为“正常编码(normalencoding)”。还计算了时频图块与所有音频对象的方向差异(doai,i=0...N个音频对象)。进而,比较这些方向差异,以便找到时频图块与这些音频对象之一的最小方向差异。
根据实施例,如果最小方向差异小于预定阈值T,则将时频图块方向编码为音频对象索引,否则使用“正常编码”。换句话说,如果时频图块方向足够接近音频对象的方向,则可以认为它们一致,并且可以将时频图块方向简单地编码为音频对象索引。
根据实施例,如果最小方向差异对应于音频对象,则将时频图块方向编码为音频对象索引,否则使用“正常编码”。因此,与前一实施例相比,预定阈值T=0,其中,更严格的规则要求时频图块方向应与音频对象的方向完全一致,以便将时频图块方向简单地编码为音频对象索引。
通过图5的示例说明了上述实施例,其中,示出了球体的方位角平面被划分成16个方向量化步长。注意,在实际情况中还考虑了仰角值,但在本文中仅考虑方位角以用于说明性的目的。
图5示出了沿着方位角平面的圆周的七个时频图块501-507。还存在沿着该方位角平面的圆周的位于表示方向量化步长的线处的五个经量化的方向511-515。图5还示出了两个音频对象i、j在方位角平面中的位置。时频图块501、504、505和507被相应地量化到最接近的经量化的方向511、 512、513、515。然而,时频图块502、503以及506相应地位于足够接近音频对象i和j的方向的方向上。换句话说,时频图块502、503以及506 被认为相应地被音频对象i和j掩蔽。因此,代替对时频图块502、503的经量化的方向元数据进行编码,可以对音频对象i的索引进行编码。类似地,对于时频图块506,可以对音频对象j的索引进行编码。
如上所提及的,针对时间-频率的方向是使用可变比特率来编码的,其中,在编码中使用每个时频图块1-11个比特,具体取决于能量比率。当使用音频对象的索引时,编码方向所需的比特数量取决于音频对象的数量。因此,对于单个时频图块,任何一种方式在比特率方面都可以更好。
根据实施例,在比特流中编码用于指示是否可以将时频图块方向编码为音频对象的索引的指示。由于可以将方向编码为音频对象的索引或者将其正常地量化,因此,可以将附加比特添加到每个时频块的比特流中以指示在使用其中的哪一个。由于变化的环境,在一些情况下,使用编码为音频对象的索引可以是有益的,而在一些情况下,使用正常编码可以是有益的。因此,例如,可以在帧级使用指示是否使用了正常编码或者是否可以将时频图块方向编码为音频对象的索引的附加比特。
通过图6的示例来说明这一点,其中,示出了音频帧序列n,n+1,n+2,…。具有时间长度20ms的每个音频帧被划分成具有时间长度5ms的四个子帧。在频域中,每个音频帧被进一步划分成多个频率子带。因此,每个帧由多个时频图块表示。在此示例中,存在两个音频对象0和1,它们都具有针对每个音频帧n,n+1,n+2而定义的音频对象方向元数据。
每个音频帧n,n+1,n+2被提供有指示音频对象参考是否可能的另一比特;即,它指示是否可以将所讨论的帧内的时频图块方向编码为音频对象索引。在帧n和n+2中,该比特被设置为0,而在帧n+1中,该比特被设置为1。因此,在帧n+1中,这些时频图块中的任何一个都可以被编码为音频对象索引(更亮的图块)或者被正常地编码(更暗的图块)。在本文中,确定是否允许使用音频对象索引(通过将该比特设置为1)是从提高压缩效率的角度来执行的,即,在降低编码比特流的比特率方面,将时频图块方向编码为音频对象的索引还是根据正常编码方案进行编码中的哪一个更好。
图7示出了根据实施例的流程图,其中,基于用于候选时频图块和时频图块-音频对象对的时频图块和音频对象的音频信号能量,确定音频对象对时频图块的可能掩蔽。同样地,前两个步骤与图3中的那些步骤类似:首先,获得针对时频图块的方向元数据(即,方位角、仰角)(700),其次,针对所有音频对象获得方向元数据(702)。
该实施例进一步包括:基于针对子帧和子带的信号能量值以及音频对象的针对所述子帧的信号能量值,确定掩蔽参数,所述掩蔽参数定义该音频对象的方向是否充分对应于该帧的所述子帧和所述子带的方向(704)。
进而,除了方向元数据之外,通过计算用于候选时频图块/音频对象对的时频图块和音频对象的音频信号能量来考虑对应于时频图块和音频对象的信号能量。在此,例如可以使用以下方程式2:
其中,M是用于候选时频图块/音频对象对的掩蔽参数,E(sa)是对应于时频图块的信号能量,ra是时频图块的能量比率,E(sb)是与音频对象相关联的音频信号的能量(其可被在频带上限制于时频图块的子带),dab是时频图块方向与音频对象方向之间的大圆距离(在上述方程式1中定义), W是用于定义时频图块和音频对象的候选对的加权函数,如下所解释的。
进而,根据掩蔽参数即基于时频图块和音频对象对的信号能量和方向元数据,控制时频图块的方向编码。
根据实施例,响应于掩蔽参数指示音频对象的方向充分对应于该帧的所述子帧和所述子带的方向,控制编码以跳过将第一参数值编码为经量化的第一参数值(706)。
基于掩蔽参数M,可以控制编码如下:
-如果M>1,则认为时频图块被音频对象掩蔽,并因此跳过时频图块的方向编码;
-如果M=<1,则使用正常方向编码。
跳过方向编码可以用1个比特来指示。
仅当音频对象和时频图块具有足够相似的方向时,才使用加权函数W 以允许掩蔽发生。根据具体情况,可以使用各种类型的加权函数。图8a 和图8b示出了基于音频对象与时频图块之间的大圆距离(d)的两个示例加权函数。
图8a示出了具有突变阈值0.0349的加权函数,该突变阈值在仰角为0 时相当于方位角中的2度间隔。因此,对于在方位角中间隔大于2度的一对时频图块和音频对象,方程式2获得值“零”,并且对该时频图块应用正常方向编码。
图8b示出了一个加权函数,其从1线性地减少到0(在值d=0.1处),这在仰角为0时相当于方位角中的大约6度的间隔。因此,对于在方位角中间隔大于6度的一对时频图块和音频对象,方程式2获得值“零”,并且对该时频图块应用正常方向编码。另一方面,如果间隔例如是方位角中的4度,则根据时频图块的信号能量和能量比率,可以跳过时频图块的方向编码。
根据实施例,在比特流中编码用于指示是否可以跳过时频图块的方向编码的指示。由于变化的环境,在一些情况下,跳过时频图块的方向编码可以是有益的,而在一些情况下,使用正常编码可以是有益的。因此,例如,可以在帧级使用指示是否使用了正常编码或者是否允许跳过时频图块的方向编码的附加比特。
通过图9的示例来说明这一点,其中,与图6类似地,示出了音频帧序列n,n+1,n+2,…。具有时间长度20ms的每个音频帧被划分成具有时间长度5ms的四个子帧。在频域中,每个音频帧被进一步划分成多个频率子带。从而导致针对每个帧的多个时频图块。同样地,存在两个音频对象0 和1,它们都具有针对每个音频帧n,n+1,n+2而定义的音频对象方向元数据。
每个音频帧n,n+1,n+2被提供有指示是否允许跳过在该帧中的时频图块的方向编码的另一比特。在帧n和n+2中,该比特被设置为0,而在帧n+1中,该比特被设置为1。因此,在帧n+1中,这些时频图块中的任何一个的方向编码都可以被跳过(更亮的图块)或者可以正常地执行方向编码(更暗的图块)。在本文中,确定是否允许跳过时频图块中的任何一个的方向编码(通过将该比特设置为1)是从提高压缩效率的角度来执行的,即,在降低编码比特流的比特率方面,跳过在帧中的时频图块中的任何一个的方向编码还是应用正常编码方案中的哪一个更好。
根据实施例,比特流可以包括用于指示是否可以将时频图块方向编码为音频对象的索引以及指示是否可以跳过时频图块的方向编码两者的指示。因此,上述两个实施例可以被组合以应用于音频帧序列的不同的帧。
图10示出与图6和图9中的示例类似的示例,其中,在比特流中包括帧级指示,以用于指示方向编码是否是以正常方式完成的,是否可以使用音频对象索引,或者是否可以跳过方向元数据。同样地,在编码期间,基于哪种模式是最比特有效的而选择该模式。
在本文中,模式的指示可以由在比特流中包括的在帧级的两个比特来执行。可替代地,可以仅使用一个比特,以使得该比特的缺失指示一种模式(例如,将以正常方式执行方向编码),而其他两个选项由在比特流中包括的比特的值来指示。
在上述实施例中,阈值T或加权函数W的使用确保时频图块方向足够接近音频对象的方向。然而,在控制编码中仅使用定向差异可能并不总是在比特率方面产生压缩效率的最佳结果。
图11示出了用于实施例的流程图,其中,当将第一参数值编码为经量化的第一参数值时,使用至少一个音频对象的第二参数值作为参考。该实施例的开始点是图3、图4、图7中的流程图中的任何一个的前两个步骤已经完成,即,已经获得了针对时频图块的方向元数据以及针对所有音频对象获得了方向元数据。
该实施例包括:估计(1100)将第一参数值编码为经量化的第一参数值所需的比特数量;针对每个对象,计算(1102)针对所有时频图块的第一参数值与该对象的经量化的方向之间的角度差;估计(1104)对所述角度差编码所需的比特数量;响应于对所述角度差编码所需的比特数量小于将第一参数值编码为经量化的第一参数值所需的比特数量,将所述对象索引(1106)为参考对象;以及在被索引为参考对象的对象中,选择(1108) 对所述角度差编码所需的比特数量最少的对象,作为将要被使用的参考对象。
因此,代替将时频图块方向与音频对象的方向之间的定向差异应用为用于控制编码的参数,该实施例而是使用所确定的编码比特率中的节省作为用于控制编码的标准。因此,使得能够选择在时频图块方向与音频对象的方向之间具有更大范围的定向差异(例如,与由阈值T或加权函数W所设置的限制相比)的音频对象,作为针对更好的压缩效率的权衡。
注意,在估计编码针对所有时频图块的第一参数值与对象的经量化的方向之间的角度差所需的比特数量时,该编码是指如上所述的“正常编码”,即,将第一参数值编码为经量化的第一参数值。
根据实施例,该方法进一步包括:如果参考对象被用于编码,则进行信令传送;以及如果同意,则将关于参考对象的索引的指示包括在将要被编码的比特流中或随同将要被编码的比特流。
因此,与上述实施例类似地,可以例如在帧级使用指示参考对象是否被用于编码的附加比特。为了指示参考对象的索引,可以在帧级包括进一步的比特的所需数量。
根据实施例,使用参考对象的信令和指示参考对象的索引是针对每个时频图块而被执行的。因此,可以针对每个时频图块单独地考虑参考对象。如果被应用,则可以针对每个时频图块发送参考对象信令,随后是该时频图块的参考对象的索引。
因此,如本文中所描述的实施例使能降低编码音频比特流的比特率。这些实施例还使能选择性地决定编码时频图块的最比特有效的方式。
图12示出了可以用作分析(编码)或合成(解码)设备的示例电子设备。该设备可以是任何合适的电子设备或装置。例如,在一些实施例中,设备1400是移动设备、用户设备、平板计算机、计算机、音频播放装置等。
在一些实施例中,设备1400包括至少一个处理器或中央处理单元1407。处理器1407可以被配置为执行诸如本文所描述的方法的各种程序代码。
在一些实施例中,设备1400包括存储器1411。在一些实施例中,至少一个处理器1407被耦合到存储器1411。存储器1411可以是任何合适的存储部件。在一些实施例中,存储器1411包括用于存储可在处理器1407 上实现的程序代码的程序代码部分。此外,在一些实施例中,存储器1411 还可以包括用于存储数据(例如,根据本文所描述的实施例的已被处理或将要处理的数据)的存储数据部分。无论何时只要需要,处理器1407就可以经由存储器-处理器耦合来获取存储在程序代码部分中的实现程序代码和存储在存储数据部分中的数据。
在一些实施例中,设备1400包括用户接口1405。在一些实施例中,用户接口1405可以被耦合到处理器1407。在一些实施例中,处理器1407 可以控制用户接口1405的操作并从用户接口1405接收输入。在一些实施例中,用户接口1405可以使得用户能够例如经由键盘将命令输入到设备 1400。在一些实施例中,用户接口1405可以使得用户能够从设备1400获得信息。例如,用户接口1405可以包括被配置为将信息从设备1400显示给用户的显示器。在一些实施例中,用户接口1405可以包括触摸屏或触摸界面,其能够使得信息被输入到设备1400并且还向设备1400的用户显示信息。在一些实施例中,用户接口1405可以是用于与如本文所描述的位置确定器通信的用户接口。
在一些实施例中,设备1400包括输入/输出端口1409。在一些实施例中,输入/输出端口1409包括收发机。在这种实施例中,收发机可以被耦合到处理器1407并且被配置为使得能够例如经由无线通信网络与其他装置或电子设备进行通信。在一些实施例中,收发机或任何合适的收发机或发射机和/或接收机装置可以被配置为经由有线或有线耦合与其他电子设备或装置通信。
收发机可以通过任何合适的已知通信协议与其他装置通信。例如,在一些实施例中,收发机或收发机装置可以使用合适的通用移动电信*** (UMTS)协议、诸如例如IEEE802.X的无线局域网(WLAN)协议、诸如蓝牙的合适的短距离射频通信协议、或者红外数据通信路径(IRDA)。
收发机输入/输出端口1409可以被配置为接收信号,并且在一些实施例中通过使用执行合适的代码的处理器1407来确定如本文所描述的参数。此外,该设备可以生成合适的下混合信号和参数输出以发送到合成设备。
在一些实施例中,设备1400可以被使用为合成设备的至少一部分。由此,输入/输出端口1409可以被配置为接收下混合信号,并且在一些实施例中接收在如本文所描述的捕获设备或处理设备处确定的参数,以及通过使用执行合适的代码的处理器1407来生成合适的音频信号格式输出。输入 /输出端口1409可以被耦合到任何合适的音频输出,例如被耦合到多通道扬声器***和/或耳机等。
根据本发明的一方面的一种装置被设置为实现如上所述的方法,以及可能的与其有关的一个或多个实施例。因此,该装置(诸如在图11中描绘的装置)包括:用于获得针对音频信号的帧的子帧的每个子带的第一音频方向参数值的部件;用于针对与所述音频信号相关联的一个或多个音频对象,获得针对该音频信号的该帧的该子帧的第二音频方向参数值的部件;以及用于基于针对每个子带的第一音频方向参数值与针对该一个或多个音频对象的第二音频方向参数值之间的相似度来确定用于该子帧的每个第一音频方向参数值的比特高效编码的部件。
根据另一方面的装置包括至少一个处理器和至少一个存储器,所述至少一个存储器在其上存储有计算机程序代码,该至少一个存储器和计算机程序代码被配置为与至少一个处理器一起使该装置至少执行:获得针对音频信号的帧的子帧的每个子带的第一音频方向参数值;针对与所述音频信号相关联的一个或多个音频对象,获得针对该音频信号的该帧的该子帧的第二音频方向参数值;以及基于针对每个子带的第一音频方向参数值与针对该一个或多个音频对象的第二音频方向参数值之间的相似度,确定用于该子帧的每个第一音频方向参数值的比特高效编码。
在上文中,已经参考编码器或编码方法描述了一些实施例,需要理解,所得到的比特流和解码器或解码方法中可以具有对应的元素。同样地,如果已经参考解码器描述了示例实施例,那么需要理解,编码器可以具有用于生成将要由解码器解码的比特流的结构和/或计算机程序。
通常,本发明的各种实施例可以采用硬件或专用电路、或其任何组合来实现。尽管本发明的各个方面可以被图示和描述为框图或使用一些其他图形表示,但是众所周知地,本文所描述的这些框、装置、***、技术或方法可以作为非限制示例采用硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备或其某种组合来实现。
可以在诸如集成电路模块之类的各种组件中实践本发明的实施例。集成电路的设计总体上是高度自动化的过程。复杂而功能强大的软件工具可用于将逻辑级设计转换为准备在半导体衬底上蚀刻和形成的半导体电路设计。
程序,诸如由加利福尼亚州山景城的Synopsys公司和加利福尼亚州圣何塞的Cadence Design所提供的程序,可以使用完善的设计规则以及预先存储的设计模块库来自动对导体进行布线并将组件定位在半导体芯片上。一旦完成了半导体电路的设计,就可以将标准化电子格式(例如,Opus、 GDSII等)的所得设计传送到半导体制造设施或“fab”进行制造。
前面的描述已经通过示例性和非限制性示例提供了本发明的示例性实施例的完整和有益的描述。然而,当结合附图和所附示例阅读时,鉴于以上描述,各种修改和改编对于相关领域的技术人员而言将变得显而易见。然而,本发明的教导的所有这些和类似的修改仍将落入本发明的范围内。
Claims (16)
1.一种装置,包括用于执行以下操作的部件:
获得针对音频信号的帧的子帧的每个子带的第一音频方向参数值;
针对与所述音频信号相关联的一个或多个音频对象,获得针对所述音频信号的所述帧的所述子帧的第二音频方向参数值;以及
基于针对每个子带的所述第一音频方向参数值与针对所述一个或多个音频对象的所述第二音频方向参数值之间的相似度,确定用于所述子帧的每个第一音频方向参数值的比特高效编码。
2.根据权利要求1所述的装置,其中,所述第一音频方向参数和所述第二音频方向参数被定义为在球体的表面上的点。
3.根据权利要求1或2所述的装置,其中,所述第一音频方向参数值包括针对所述子帧的每个子带的至少一个方位角值和至少一个仰角值,所述第二音频方向参数值包括针对每个音频对象的至少一个方位角值和至少一个仰角值。
4.根据权利要求1-3中任一项所述的装置,其中,所述一个或多个音频对象与所述音频信号的所述帧的所述子帧相关联,或者与所述音频信号的所述帧相关联。
5.根据权利要求1-4中任一项所述的装置,其中,用于所述第一音频方向参数值的所述比特高效编码包括:
响应于音频对象的所述第二音频方向参数值与所述第一音频方向参数值的相似度低于预定阈值,将所述音频对象的索引编码为第一音频方向参数值;或者
响应于所述音频对象的所述第二音频方向参数值与所述第一音频方向参数值的所述相似度高于所述预定阈值,将所述第一音频方向参数值编码为经量化的第一音频方向参数值。
6.根据权利要求5所述的装置,其中,用于确定用于所述第一音频方向参数值的比特高效编码的所述部件进一步包括用于执行以下操作的部件:
针对每个子带和子帧,确定原始第一音频方向参数值与所述经量化的第一音频方向参数值之间的方向性差异;
针对每个子带和子帧,确定所述原始第一音频方向参数值与所述音频对象的所述第二音频方向参数值之间的方向性差异;
确定所述原始第一音频方向参数值与所述音频对象的所述第二音频方向参数值之间的所述方向性差异的最小值;以及
在所述第一音频方向参数值与所述第二音频方向参数值之间的相似度比较中使用所述最小值。
7.根据前述权利要求中任一项所述的装置,进一步包括用于执行以下操作的部件:
在比特流中或随同比特流对指示进行编码,所述指示用于指示是否允许音频对象的索引被编码为所述第一音频方向参数值。
8.根据前述权利要求中任一项所述的装置,其中,所述第一音频方向参数值进一步包括针对每个子带和子帧的信号能量值,所述第二音频方向参数值进一步包括每个音频对象的针对每个子帧的信号能量值;所述装置进一步包括用于执行以下操作的部件:基于针对子帧和子带的信号能量值以及音频对象的针对所述子帧的信号能量值,确定掩蔽参数,所述掩蔽参数定义所述音频对象的方向是否充分对应于所述帧的所述子帧和所述子带的方向。
9.根据权利要求8所述的装置,进一步包括用于执行以下操作的部件:
响应于所述掩蔽参数指示所述音频对象的所述方向充分对应于所述帧的所述子帧和所述子带的所述方向,跳过将所述第一音频方向参数值编码为经量化的第一音频方向参数值。
10.根据权利要求8或9所述的装置,进一步包括用于执行以下操作的部件:
通过加权函数来调整所述掩蔽参数,所述加权函数调整所述音频对象的所述方向与所述帧的所述子帧和所述子带的所述方向充分对应所需的角度。
11.根据权利要求8-10中任一项所述的装置,进一步包括用于执行以下操作的部件:
在比特流中或随同比特流对指示进行编码,所述指示用于指示是否允许跳过将所述第一参数值编码为经量化的第一参数值。
12.根据权利要求1所述的装置,其中,用于确定用于所述第一音频方向参数值的所述比特高效编码的所述部件包括用于执行以下操作的部件:当将所述第一音频方向参数值编码为经量化的第一音频方向参数值时,使用至少一个音频对象的第二音频方向参数值作为参考。
13.根据权利要求12所述的装置,进一步包括用于执行以下操作的部件:
估计将所述第一音频方向参数值编码为经量化的第一音频方向参数值所需的比特数量;
针对每个对象,计算针对所有时频图块的所述第一音频方向参数值与所述对象的经量化的方向之间的角度差;
估计对所述角度差编码所需的比特数量;
响应于对所述角度差编码所需的比特数量小于将所述第一音频方向参数值编码为经量化的第一音频方向参数值所需的比特数量,将所述对象索引为参考对象;以及
在被索引为参考对象的对象中,选择对所述角度差编码所需的比特数量最少的对象,作为将要被使用的所述参考对象。
14.根据权利要求13所述的装置,进一步包括用于执行以下操作的部件:
如果参考对象被用于编码,则进行信令传送;以及
如果同意,则将关于所述参考对象的索引的指示包括在将要被编码的所述比特流中或随同将要被编码的所述比特流。
15.根据权利要求14所述的装置,进一步包括用于执行以下操作的部件:
将所述参考对象的使用和所述参考对象的索引信令传送为特定于时频图块的。
16.一种方法,包括:
获得针对音频信号的帧的子帧的每个子带的第一音频方向参数值;
针对与所述音频信号相关联的一个或多个音频对象,获得针对所述音频信号的所述帧的所述子帧的第二音频方向参数值;以及
基于针对每个子带的所述第一音频方向参数值与针对所述一个或多个音频对象的所述第二音频方向参数值之间的相似度,确定用于所述子帧的每个第一音频方向参数值的比特高效编码。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FI20195777 | 2019-09-17 | ||
FI20195777 | 2019-09-17 | ||
PCT/FI2020/050577 WO2021053266A2 (en) | 2019-09-17 | 2020-09-09 | Spatial audio parameter encoding and associated decoding |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114424586A true CN114424586A (zh) | 2022-04-29 |
Family
ID=74884141
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080064933.0A Pending CN114424586A (zh) | 2019-09-17 | 2020-09-09 | 空间音频参数编码和相关联的解码 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20220366918A1 (zh) |
EP (1) | EP4032086A4 (zh) |
KR (1) | KR20220062621A (zh) |
CN (1) | CN114424586A (zh) |
WO (1) | WO2021053266A2 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11323757B2 (en) * | 2018-03-29 | 2022-05-03 | Sony Group Corporation | Information processing apparatus, information processing method, and program |
GB2611356A (en) * | 2021-10-04 | 2023-04-05 | Nokia Technologies Oy | Spatial audio capture |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2830047A1 (en) * | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for low delay object metadata coding |
US20160064006A1 (en) * | 2013-05-13 | 2016-03-03 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio object separation from mixture signal using object-specific time/frequency resolutions |
GB201718583D0 (en) * | 2017-11-10 | 2017-12-27 | Nokia Technologies Oy | Audio stream dependency information |
US20180096692A1 (en) * | 2013-05-24 | 2018-04-05 | Dolby International Ab | Efficient coding of audio scenes comprising audio objects |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4862545B2 (ja) * | 2006-03-23 | 2012-01-25 | ヤマハ株式会社 | 音響機器のパラメータ管理装置およびパラメータ管理プログラム |
JP5267362B2 (ja) * | 2009-07-03 | 2013-08-21 | 富士通株式会社 | オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラムならびに映像伝送装置 |
CN102804809B (zh) * | 2010-02-23 | 2015-08-19 | 皇家飞利浦电子股份有限公司 | 音频源定位 |
US9031259B2 (en) * | 2011-09-15 | 2015-05-12 | JVC Kenwood Corporation | Noise reduction apparatus, audio input apparatus, wireless communication apparatus, and noise reduction method |
CA2843263A1 (en) * | 2012-07-02 | 2014-01-09 | Sony Corporation | Decoding device, decoding method, encoding device, encoding method, and program |
CN104541524B (zh) * | 2012-07-31 | 2017-03-08 | 英迪股份有限公司 | 一种用于处理音频信号的方法和设备 |
WO2014125736A1 (ja) * | 2013-02-14 | 2014-08-21 | ソニー株式会社 | 音声認識装置、および音声認識方法、並びにプログラム |
US9286897B2 (en) * | 2013-09-27 | 2016-03-15 | Amazon Technologies, Inc. | Speech recognizer with multi-directional decoding |
CN104699445A (zh) * | 2013-12-06 | 2015-06-10 | 华为技术有限公司 | 一种音频信息处理方法及装置 |
US10134425B1 (en) * | 2015-06-29 | 2018-11-20 | Amazon Technologies, Inc. | Direction-based speech endpointing |
EP3410744B1 (en) * | 2015-07-08 | 2020-09-23 | Oticon A/s | Method for selecting transmission direction in a binaural hearing aid |
WO2019105575A1 (en) * | 2017-12-01 | 2019-06-06 | Nokia Technologies Oy | Determination of spatial audio parameter encoding and associated decoding |
WO2020102156A1 (en) * | 2018-11-13 | 2020-05-22 | Dolby Laboratories Licensing Corporation | Representing spatial audio by means of an audio signal and associated metadata |
WO2020249480A1 (en) * | 2019-06-12 | 2020-12-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Packet loss concealment for dirac based spatial audio coding |
-
2020
- 2020-09-09 US US17/642,500 patent/US20220366918A1/en active Pending
- 2020-09-09 CN CN202080064933.0A patent/CN114424586A/zh active Pending
- 2020-09-09 EP EP20865454.1A patent/EP4032086A4/en active Pending
- 2020-09-09 KR KR1020227012458A patent/KR20220062621A/ko unknown
- 2020-09-09 WO PCT/FI2020/050577 patent/WO2021053266A2/en unknown
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160064006A1 (en) * | 2013-05-13 | 2016-03-03 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio object separation from mixture signal using object-specific time/frequency resolutions |
US20180096692A1 (en) * | 2013-05-24 | 2018-04-05 | Dolby International Ab | Efficient coding of audio scenes comprising audio objects |
EP2830047A1 (en) * | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for low delay object metadata coding |
GB201718583D0 (en) * | 2017-11-10 | 2017-12-27 | Nokia Technologies Oy | Audio stream dependency information |
Also Published As
Publication number | Publication date |
---|---|
EP4032086A2 (en) | 2022-07-27 |
US20220366918A1 (en) | 2022-11-17 |
WO2021053266A2 (en) | 2021-03-25 |
WO2021053266A3 (en) | 2021-04-22 |
KR20220062621A (ko) | 2022-05-17 |
EP4032086A4 (en) | 2023-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3707706B1 (en) | Determination of spatial audio parameter encoding and associated decoding | |
CN112639966A (zh) | 空间音频参数编码和关联解码的确定 | |
WO2021130404A1 (en) | The merging of spatial audio parameters | |
CN114365218A (zh) | 空间音频参数编码和相关联的解码的确定 | |
EP4091166A1 (en) | Spatial audio parameter encoding and associated decoding | |
EP4082010A1 (en) | Combining of spatial audio parameters | |
CN114207713A (zh) | 空间音频方向参数的量化 | |
CN114424586A (zh) | 空间音频参数编码和相关联的解码 | |
EP3776545A1 (en) | Quantization of spatial audio parameters | |
US12020713B2 (en) | Quantization of spatial audio direction parameters | |
CN114586096A (zh) | 空间音频方向参数的量化 | |
EP3991170A1 (en) | Determination of spatial audio parameter encoding and associated decoding | |
WO2022223133A1 (en) | Spatial audio parameter encoding and associated decoding | |
EP4162486A1 (en) | The reduction of spatial audio parameters | |
US20230410823A1 (en) | Spatial audio parameter encoding and associated decoding | |
US20230197087A1 (en) | Spatial audio parameter encoding and associated decoding | |
US20240079014A1 (en) | Transforming spatial audio parameters | |
CA3237983A1 (en) | Spatial audio parameter decoding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |