CN108885876B - 用于对多声道音频信号的参数编码和解码的空间化信息进行的优化编码和解码 - Google Patents

用于对多声道音频信号的参数编码和解码的空间化信息进行的优化编码和解码 Download PDF

Info

Publication number
CN108885876B
CN108885876B CN201780015676.XA CN201780015676A CN108885876B CN 108885876 B CN108885876 B CN 108885876B CN 201780015676 A CN201780015676 A CN 201780015676A CN 108885876 B CN108885876 B CN 108885876B
Authority
CN
China
Prior art keywords
spatialization
encoding
cues
decoding
cue
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201780015676.XA
Other languages
English (en)
Other versions
CN108885876A (zh
Inventor
B.法图斯
S.拉戈特
M.埃梅里特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ao Lanzhi
Original Assignee
Ao Lanzhi
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ao Lanzhi filed Critical Ao Lanzhi
Publication of CN108885876A publication Critical patent/CN108885876A/zh
Application granted granted Critical
Publication of CN108885876B publication Critical patent/CN108885876B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)

Abstract

本发明涉及一种对数字音频多声道信号进行参数编码的方法,所述方法包括步骤(312):对由施加至所述多声道信号的声道缩减处理(307)所产生的信号(M)进行编码、以及对所述多声道信号的空间化信息进行编码。所述方法为使得其包括以下步骤:‑提取(314,320)所述多声道信号的多个空间化信息项;‑获得(315,317)所提取的空间化信息的至少一个表示模型;‑确定(315,411)所获得模型的至少一个角度参数;‑对所确定的所述至少一个角度参数进行编码(316,318),以便在空间化信息编码期间对所提取的所述空间化信息进行编码。本发明还涉及一种用于对这种已编码信号进行解码的方法以及相应的编码装置和解码装置。

Description

用于对多声道音频信号的参数编码和解码的空间化信息进行 的优化编码和解码
技术领域
本发明涉及数字信号编码/解码领域。
根据本发明的编码和解码尤其适于传送和/或存储数字信号,诸如音频信号(语音、音乐或其他信号)。
更具体地,本发明涉及对多声道音频信号的参数多声道编码和解码。
背景技术
因此,本发明涉及多声道信号,并且特别地涉及双耳信号,所述双耳信号是利用放置在(人或人体模型的)每只耳朵的耳道的入口处麦克风记录的声音信号或者是通过滤波器而人工合成的声音信号,所述滤波器取决于声源方向和距离以及对象形态而被称为时域中的HRIR(头部相关脉冲响应)滤波器或频域中的HRTF(头部相关传递函数)滤波器。双耳信号与通常利用头戴式耳机或听筒进行监听相关联,并且呈现出表示给出了自然地处于声音场景之中的幻觉的空间图像的优点;因此,它需要使用仅2个声道来再现3D中的声音场景。应当注意,可以通过用于反转HRIR/HRTF滤波器和用于重构双耳信号的复杂处理来在扬声器上监听双耳声音。
这里,我们将双耳信号与立体声信号区分开来。立体声信号也包括两个声道,但其通常不允许完美再现3D中的声音场景。例如,可以通过在左声道上取给定信号并在右声道上取零信号来构建立体声信号,监听这样的信号将给出左侧的声源位置,但在自然环境中这种策略是不可能的,因为到右耳的信号是对到左耳的信号的根据人的形态的经滤波版本(包括时移和衰减)。
参数多声道编码基于对空间信息参数的提取和编码,从而使得在解码时这些空间特征可以用于重新创建与初始信号中一样的空间图像。基于这种原理的编解码器的示例在3GPP e-AAC+或MPEG环绕标准中找到。
这里以示例的方式考虑具有N=2个声道的参数立体声编码的情况,只要其说明比N>2个声道的情况下更简单。
参数立体声编码/解码技术例如在J.Breebaart、S.van de Par、A.Kohlrausch、E.Schuijers的名称为“Parametric Coding of Stereo Audio”(立体声音频的参数编码)的文档中进行了描述(《EURASIP Journal on Applied Signal Processing(EURASIP应用信号处理杂志)》2005:9,第1305-1322页)。还参考图1和图2来使用本示例,这两个图分别描述了参数立体声编码器和解码器。
因此,图1描述了接收两个音频声道——左声道(英文中的左表示为L)以及右声道(英文中的右表示为R)——的立体声编码器。
时间信号L(n)和R(n)(其中,n是样本的整数索引)由执行短时傅立叶分析的框101、102、103和104处理。由此得到经变换的信号L[k]和R[k],其中,k为频率系数的整数索引。
框105执行声道缩减处理或英文中的“缩混(downmix)”,以在频域中基于左信号和右信号来获得单声道信号(monophonic signal),下文称为单声道信号(mono signal)。已经开发了用于立体声到单声道缩减或“缩混”处理的若干种技术。这种“缩混”可以在时域或频域中执行。人们普遍认为:
-被动“缩混”,其对应于立体声声道的直接矩阵化,以将这些立体声声道组合为单一信号——缩混矩阵的系数通常为实数并且具有预先确定(固定)的值;
-主动(自适应)“缩混”,其除了对这两个立体声声道的组合之外还包括对能量和/或相位的控制。
在框105中还执行了对空间信息参数的提取。所提取出的参数如下。
参数ICLD或ILD或CLD(英文为声道间电平差(InterChannel/Channel LevelDifference)”),也称为声道间强度差,表征左右声道之间每个频率子带的能量比。这些参数使得可以通过“平移(panning)”来在立体声水平面中定位声源。它们通过下式以dB为单位来定义:
Figure GDA0004045455760000021
其中,L[k]和R[k]对应于声道L和R的(复数)频谱系数,索引b=0,...,B-1的每个频带包括区间[kb,kb+1-1]中的频谱线,符号*指示复共轭并且B是子带的数量。
参数ICPD或IPD(英文为“声道间相应差(InterChannel Phase Difference)”),也称为相位差,是根据以下关系定义的:
Figure GDA0004045455760000031
其中,∠指示复操作数的实参(相位)。
还可以以与ICPD等效的方式来定义被称为ICTD或ITD(英文为“声道间时间差(InterChannel Time Difference)”)的声道间时移。例如,可以将ITD作为最大化L与R之间相互关系的延迟来测量:
Figure GDA0004045455760000032
其中,d定义最大搜索区间。应当注意,可以对方程(3)中的相关性进行归一化。
与作为位置参数的参数ICLD、ICPD和ICTD相比,参数ICC(英文为“声道间一致性(InterChannel Coherence)”)表示声道间相关性(或一致性)的水平,并且与声源的空间宽度相关联;ICC可以被定义为:
Figure GDA0004045455760000033
其中,相关性可以归一化,就像针对方程(3)一样。
在Breebart等人的文章中指出,ICC参数在缩减为单一频率系数的子带中不是必需的——实际上,振幅差和相位差全面地描述了这种“退化”情况下的空间化。
可以由框105通过对立体声信号进行分析来提取ICLD参数和ICPD参数。还可以基于频谱L[k]和R[k]对每个子带提取ICTD参数或ICC参数;然而,这些参数的提取一般是通过假设每个子带的完全相同的声道间时移来简化的,并且在这种情况下可以基于时间声道L(n)和R(n)来提取参数。
在短时傅立叶合成(逆FFT、开窗和英文中的重叠相加(OverLap-Add)或OLA)之后,单声道信号M[k]被变换为时域(框106至框108),并且然后执行单声道编码(框109)。并行地,在框110中对立体声参数进行量化和编码。
一般而言,信号的频谱(L[k],R[k])根据ERB(等效矩形带宽)的非线性频率标度或Bark类型来划分。参数(ICLD,ICPD,ICC,ITD)通过标量量化而被编码,可选地后接熵编码和/或差分编码。例如,在上述文章中,ICLD使用差分熵编码通过非均匀量化器(范围从-50dB到+50dB)进行编码。非均匀量化步骤利用了一个事实,即ICLD的值越大,对于此参数的变化的听觉灵敏度越低。
对于单声道信号的编码(框109),可使用具有或不具有记忆的若干种量化技术,例如“脉冲编码调制”(PCM)编码、其具有称为“自适应差分脉冲编码调制”(ADPCM)的自适应预测的版本、或更先进的技术,诸如基于变换的感知编码或“代码激励线性预测”(CELP)编码或多模式编码。
这里更特别地关注使用多模式编码的3GPPEVS(“增强语音服务”)标准。在规范3GPP TS 26.441至26.451中提供了EVS编解码器的算法详情,并且因此这里不再复述。在下文中,这些规范将通过名称EVS引用。
以频率8kHz、16kHz、32kHz或48kHz对(单声道)EVS编解码器的输入信号进行采样,并且编解码器可以表示电话音频带(窄带,NB)、宽(宽带,WB)、超宽(超宽带,SWB)或全带(全带,FB)。EVS编解码器的比特率分为两种模式:
o“EVS主模式”:
o固定比特率:7.2、8、9.6、13.2、16.4、24.4、32、48、64、96、128
o可变比特率(VBR)模式,有效语音的平均比特率接近5.9kbit/s
o“声道感知”模式,仅在WB和SWB中的13.2处
o“EVS AMR-WB IO”,其比特率与AMR-WB 3GPP编解码器(9种模式)完全相同
为此添加了非连续发射模式(DTX),其中被检测为非活动的帧将由以间歇方式发射(大约每隔8帧发射一次)的SID帧(SID主模式或SID AMR-WB IO)替代。
在解码器200处,参考图2,对单声道信号进行解码(框201),使用解联器(框202)来生成已解码单声道信号的两个版本
Figure GDA0004045455760000041
和/>
Figure GDA0004045455760000042
这种仅在使用了参数ICC时有必要的解联使得能够增大单声道源/>
Figure GDA0004045455760000043
的空间宽度。这两个信号/>
Figure GDA0004045455760000044
和/>
Figure GDA0004045455760000045
传入到频域(框203至框206)中,并且已解码立体声参数(框207)由立体声合成(或成形)(框208)用来在频域中重构左声道和右声道。这些声道最终在时域(框209至214)中进行重构。
寻求表示双耳信号的示例性参数立体声编码(不考虑HRTF滤波器的性质)在PasiOjala、Mikko Tammi、Miikka Vilermo的名称为“Parametric binaural audio coding(参数双耳音频编码)”的文章中进行了描述(Proc.ICASSP,2010,第393-396页)。对两个参数进行编码以恢复具有接近双耳图像的位置的空间图像:ICLD和ITD。此外,还对类似于ICC的参数ALC(英文为“环境水平控制(Ambience Level Control)”)进行编码,使得可以控制与解联声道的使用相关联的“环境”水平。针对具有20ms帧和20kbit/s或32kbit/s比特率的超宽带中的信号来描述这种编解码器,以便对添加了5kbit/s比特率的单声道信号进行编码从而对空间参数进行编码。
利用对双耳信号进行编码的特定模式所开发的另一示例性参数立体声编解码器由标准G.722附件D给出,特别是在至56+8kbit/s的加宽带中在立体声编码模式R1ws下。这种编解码器根据以下2种模式利用5ms的“短”帧进行操作:在38比特上对ICLD进行编码的“瞬态”模式以及在24比特上对ICLD进行编码且在5比特上对全带ITD/IPD进行编码的“正常”模式。此处不再重复对ITD进行估算、对ICLD参数和ITD参数进行编码的细节。应当注意,通过在若干个连续帧上分配ICLD的编码通过“抽选”来对ICLD进行编码,仅对给定帧的参数的子集进行编码。
在这两个示例中,重要的是要注意,人们不是处理双耳编解码器,而是处理寻求与双耳信号类似再现空间图像的立体编解码器。
应注意,N>2的参数多声道编码的情况遵循与N=2的情况相同的原理,然而通常,缩混可能不是单声道而是立体声,并且声道间参数必须覆盖多于2个声道。在MPEG环绕标准中给出了示例性实施例,其中,对ICLD参数、ICTD参数和ICC参数进行编码。还应注意,MPEG环绕解码器包括由HRTF滤波器参数化的双耳恢复。
我们现在考虑如图1和图2中所描述的对ICLD类型参数进行立体声编码和解码的情况,并且让我们采用在加宽带中、以16kHz采样并利用20ms的帧和覆盖40ms(包括20毫秒的“前瞻”)的正弦开窗进行分析的信号为例。对于ICLD参数的提取(框105),频谱L[k]和R[k]例如可以根据ERB标度被切分成B个频率子带。对于每个帧,根据以下方程计算子带b=0,...,34的ICLD:
Figure GDA0004045455760000051
其中,
Figure GDA0004045455760000052
和/>
Figure GDA0004045455760000053
分别表示左声道(L[k])的能量和右声道(R[k])的能量:
Figure GDA0004045455760000061
根据现有技术,对给定帧的35个ICLD的块的编码可以例如通过以下方式执行:
·5比特用于第一个ICLD参数(以绝对值编码),
·4比特用于接下来的32个ICLD参数(以差分编码),
·3比特用于最后2个ICLD参数(以差分编码)。
因此,给出了总共5+32×4+2×3=139比特/帧,即,在20ms帧的情况下接近7kbit/s的比特率。此比特率不包括其他参数。
通过使用可变比特率熵编码,例如霍夫曼编码,可以平均降低大约7kbit/s的比特率;然而,在大多数情况下,显著的比特率降低将是不可能的。
为了使ICLD参数的编码比特率减半,可以使用先前在立体声G.722编码的情况下所描述的替代编码方式。然而,相关联的比特率对于利用35个子带和20ms帧进行的编码来说仍然是重要的;此外,编码的时间分辨率将降低,并且这在非平稳信号的情况下可能是有问题的。另一种方式在于将子带的数量从35减少到例如20个子带。这将降低与ICLD参数相关联的比特率,但通常会降低所合成空间图像的保真度。
如果假定图1的编码器是例如以16.4kbit/s、24.4kbit/s、32kbit/s、48kbit/s、64kbit/s、96kbit/s、128kbit/s的比特率进行操作的立体声编码器并且其依赖于由单声道EVS编解码器编码的缩混,则对于最低比特率,例如立体声中为16.4kbit/s,如果缩混是利用单声道EVS编解码器以13.2kbit/s编码的,则仅剩下3.2kbit/s用于对所有空间参数进行编码,以便如实地表示空间图像。如果不仅需要对ICLD参数进行编码,还需要对其他空间参数进行编码,则应当理解,先前所描述的对ICLD参数的编码需要太多比特率。
因此,需要以尽可能低的比特率和可接受的质量、以高效方式表示多声道信号的空间参数。
发明内容
本发明改进了现有技术的情况。
为此目的,本发明提出了一种对数字音频多声道信号进行参数编码的方法,所述方法包括以下步骤:对由施加至多声道信号的声道缩减处理所产生的信号进行编码、以及对关于多声道信号的空间化提示进行编码。所述方法为使得其包括以下步骤:
-提取关于多声道信号的多个空间化提示;
-获得所提取的空间化提示的至少一个表示模型;
-确定所获得的模型的至少一个角度参数;
-对所确定的所述至少一个角度参数进行编码,以便在空间化提示编码期间对所提取的空间化提示进行编码。
所述用于对空间化提示进行编码的方案依赖于一种使得可以对空间提示进行近似的基于模型的方式。因此,对多个空间提示的编码被缩减为对角度参数的编码,从而相对于对空间提示的直接编码显著地降低了编码比特率。因此降低了对此参数进行编码所需的比特率。
在基于子带的特定实施例中,空间化提示由多声道音频信号的频率子带来定义,并且确定每个子带至少一个角度参数并对其进行编码。
在特定实施例中,所述方法进一步包括计算参考空间化提示的步骤以及对此参考空间化提示进行编码的步骤。
因此,对参考提示进行编码可以提高解码质量。用于对此参考提示进行编码的比特率并不需要太高的比特率。
这种方案特别好地适合于对声道间时移(ITD)类型的空间提示和/或声道间强度差(ILD)类型的空间提示进行编码。
为了进一步提高对ILD类型的提示进行解码的质量,所述方法进一步包括以下步骤:
-基于所获得的所述模型和所确定的所述角度参数来估算声道间强度差提示;
-对所提取和所估算的所述声道间强度差提示之间的差进行编码。
对此残差进行编码需要附加编码比特率,但是相对于对ILD空间化提示进行直接编码,这种方案仍然提供了比特率方面的益处。
在特定实施例中,获得基于空间化提示的表示模型。所述表示模型可以是固定的并且被存储在存储器中。
这种固定且记录的模型例如是正弦形式的模型。这种类型的模型适于根据源的位置来适应ITD或ILD提示的形式。
在变体实施例中,通过从针对空间化提示的各个值定义的模型表中进行选择来执行获得空间化提示的表示模型。
可以根据多声道信号的特性来选择若干种模型。这使得可以使空间化提示模型最佳地适配所述信号。
然后,在一个实施例中,可以对所选模型的索引进行编码和传送。
在变体实施例中,获得对若干空间化提示共同的表示模型。
这使得可以将模型的选择汇集到若干空间化提示,从而减少有待执行的处理操作。
本发明还涉及一种对数字音频多声道信号进行参数解码的方法,所述方法包括对由施加至多声道信号的声道缩减处理所产生的已编码的信号进行解码的步骤、以及对关于多声道信号的空间化提示进行解码的步骤。所述方法为使得其包括用于对至少一个空间化提示进行解码的以下步骤:
-接收并解码至少一个已编码的角度参数;
-获得空间化提示的至少一个表示模型;
-基于所获得的所述至少一个模型并且基于所述至少一个已解码角度参数来确定关于多声道信号的多个空间化提示。
采用与编码相同的方式,这种基于使用空间化提示的表示模型的方案使得可以以良好的质量来检索提示而不必具有太大的比特率。在降低的比特率下,通过对简单的角度参数进行解码来检索多个空间化提示。
在特定实施例中,所述方法包括接收并解码模型表的索引的步骤、以及获得有待基于已解码的索引进行解码的空间化提示的所述至少一个表示模型的步骤。
因此,可以根据多声道信号的特性来适配有待使用的模型。
本发明涉及一种数字音频多声道信号的参数编码器,所述参数编码器包括:用于对由用于施加至多声道信号的声道缩减处理的模块所产生的信号进行编码的模块、以及用于对关于多声道信号的空间化提示进行编码的模块。所述编码器为使得其包括:
-用于提取关于多声道信号的多个空间化提示的模块;
-用于获得所提取的空间化提示的至少一个表示模型的模块;
-用于确定所获得的模型的至少一个角度参数的模块;
-用于对所确定的所述至少一个角度参数进行编码以便在空间化提示编码期间对所提取的空间化提示进行编码的模块。
所述编码器呈现了与其所实施的方法相同的优点。
本发明涉及一种数字音频多声道信号的参数解码器,所述解码器包括:用于对由施加至多声道信号的声道缩减处理所产生的已编码的信号进行解码的模块、以及用于对关于多声道信号的空间化提示进行解码的模块。所述解码器为使得其包括:
-用于接收并解码至少一个已编码角度参数的模块;
-用于获得空间化提示的至少一个表示模型的模块;
-用于基于所获得的所述至少一个模型并且基于所述至少一个已解码角度参数来确定关于多声道信号的多个空间化提示的模块。
所述解码器呈现了与其所实施的方法相同的优点。
最后,本发明涉及:一种包括代码指令的计算机程序,当这些代码指令由处理器执行时,这些指令用于实施根据本发明的编码方法的步骤;一种包括代码指令的计算机程序,当这些代码指令由处理器执行时,这些指令用于实施根据本发明的解码方法的步骤。
最后,本发明涉及一种处理器可读的存储介质,其上记录有包括代码指令的计算机程序,所述代码指令用于执行诸如所描述的编码方法的步骤和/或诸如所描述的解码方法的步骤。
附图说明
通过阅读以下仅通过非限制性示例并参照这些附图所给出的说明,本发明的其他特征和优点将变得更加清晰明显,在附图中:
-图1展示了编码器,所述编码器实施从现有技术中已知且先前所描述的参数编码;
-图2展示了解码器,所述解码器实施从现有技术中已知且先前所描述的参数解码;
-图3展示了根据本发明的一个实施例的参数编码器;
-图4a、图4b和图4c通过用于对空间提示进行编码的框的详细说明展示了根据本发明的各个实施例的编码方法的步骤;
-图5a、5b展示了3D和2D中的声音感知的概念,并且图5c展示了在双耳情况下在水平面中音频源相对于收听者的极坐标(距离,方位角)的示意性表示;
-图6a展示了适用于表示ILD类型的空间提示的HRTF的总能量模型的表示;
-图6b展示了根据本发明的编码方法的一个实施例的具有ORTF类型立体声麦克风的配置,所述配置拾取具有有待编码的两个声道的示例性信号;
-图6c至图6g展示了作为方位角的函数、按照以1/3倍频程切片的子带对ILD类型的空间化提示模型MILD(m,t)(m=0和t对应于方位从0到360°)的表示;
-图7展示了根据本发明一个实施例的参数解码器以及解码方法;
-图8展示了根据本发明的参数编码器的变体实施例;
-图9展示了根据本发明的参数解码器的变体实施例;并且
-图10展示了的装备项的硬件示例,所述设备项结合有能够实施根据本发明一个实施例的编码方法的编码器或能够实施根据本发明一个实施例的解码方法的解码器。
具体实施方式
参考图3,现在描述根据本发明一个实施例的具有两个声道的信号的参数编码器,所述参数编码器递送关于输入信号的单声道二进制序列和空间信息参数两者。本图在同一时间呈现了由编码装置的处理器驱动的实体、硬件模块或软件模块,并且呈现了通过根据本发明的一个实施例的编码方法实施的步骤。
这里描述了具有两个声道的信号的情况。本发明还适用于具有多于2个的多个声道的多声道信号的情况。
为了避免使文本过载,即使图3中所描述的编码器允许对双耳信号进行编码,所述编码器也将被称为“立体声编码器”。同样地,即使信号不是双耳的,参数ICLD、ICTD、ICPD也将分别表示为ILD、ITD、IPD。
如所展示的这种参数立体声编码器根据规范3GPP TS 26.442(定点源代码)或TS26.443(浮点源代码)使用EVS单声道编码,其利用以8kHz、16kHz、32kHz和48kHz的采样频率Fs采样的、具有20ms帧的立体声或多声道信号进行操作。在下文中,在不失一般性的情况下,主要针对Fs=16kHz的情况以及针对N=2个声道的情况给出说明。
应当注意,在本发明中20ms帧长度的选择绝非限制性的,本发明同样适用于实施例的各种变体,在这些变体中帧长度是不同的,例如5ms或10ms,采用除EVS之外的编解码器。
此外,本发明同样适用于以完全相同的或不同的采样频率工作的其他类型的单声道编码(例如:IETF OPUS、UIT-T G.722)。
以16kHz采样的每个时间声道(L(n)和R(n))首先通过高通滤波器(HPF表示英文中的高通滤波哭(High Pass Filter))进行预滤波,通常消除低于50Hz的分量(框301和302)。这种预滤波是可选的,但是其可用于避免由于在对如ICTD或ICC等参数进行估算时连续分量(DC)所造成的偏置。
通过离散傅里叶变换以具有40ms长度的50%重叠的正弦开窗(即,640个样本)对由预滤波框所产生的声道L′(n)和R′(n)进行频率分析(框303至框306)。对于每一帧,信号(L′(n),R′(n))因此由覆盖2个20ms帧(即,40毫秒)(或Fs=16kHz的640个样本)的对称分析窗口进行加权。40ms分析窗口覆盖当前帧和未来帧。未来帧对应于通常称为20ms的“前瞻”的“未来”信号段。在本发明的各种变体中,将能够使用其他窗口,例如EVS编解码器中被称为“ALDO”的低延迟非对称窗口。此外,在各种变体中,将可以根据当前帧来对分析开窗进行自适应渲染,以便对平稳段使用具有长窗口的分析,并且对瞬态/非平稳段使用具有短窗口的分析,可选地在长窗口与短窗口之间具有过渡窗口。
对于320个样本的当前帧(在Fs=16kHz时为20ms),获得的频谱L[k]和R[k](k=0...320)包括321个复系数,对于每个频率系数具有25Hz的分辨率。索引k=0的系数对应于连续分量(0Hz),其为实数。索引k=320的系数对应于Nyquist频率(对于Fs=16kHz,为8000Hz),其也为实数。索引0<k<160的系数为复数并且对应于在k的频率上居中的宽度为25Hz的子带。
在框307中对频谱L[k]和R[k]进行组合,以获得频域中的单声道信号(缩混)M[k]。通过逆FFT以及具有前一帧的“前瞻”部分的开窗重叠将此信号转换为时间(框308至310)。
在Samsudin、E.Kurniawati、N.Boon Poh、F.Sattar、S.George的名称为“A stereoto mono downmixing scheme for MPEG-4 parametric stereo encoder”(用于MPEG-4参数立体声编码器的立体声到单声道缩混方案)的文档(Proc.ICASSP,2006)中描述了频率缩混技术的示例。在此文档中,在执行声道缩减处理之前,对L声道和R声道进行相位对齐。
更确切地,选择了每个频率子带的L声道的相位作为参考相位,通过下式针对每个子带根据L声道的相位来对R声道进行对齐:
R′[k]=ej.ICPD[b]R[k] (7)
其中,R′[k]是对齐的R声道,k是第b个频率子带中系数的索引,ICPD[b]是由方程(2)给出的第b个频率子带中的声道间相位差。
注意,当索引b的子带被缩减至频率系数时,我们发现:
R′[k]=|R[k]|.ej∠L[k] (8)
最终,通过根据以下方程对L声道以及对齐的R′声道求平均来计算通过先前引用的Samsudin等人的文档中的缩混所获得的单声道信号:
Figure GDA0004045455760000121
因此,通过消除相位的影响,相位对齐使得能够保存能量并且避免衰减的问题。这种“缩混”对应于Breebart等人文档中所描述的“缩混”,其中:
M[k]=w1L[k]+w2R[k] (10)
其中,在索引b的子带仅包括索引k的一个频率值的情况下,w1=0.5并且
Figure GDA0004045455760000122
当然可以在不修改本发明的保护范围的情况下选择其他“缩混”方案。
在Fs=8kHz时,EVS编解码器的算法延迟为30.9375ms,并且对于其他频率Fs=16kHz、32kHz或48kHz为32ms。此延迟包括当前20ms帧,因此相对于所述帧长度的附加延迟在Fs=8kHz时为10.9375ms,并且对于其他频率为12ms(即,Fs=16kHz时的192个样本),单声道信号被延迟T=320-192=128个样本(框311),使得通过EVS解码的单声道信号与初始立体声声道之间累积的延迟成为帧长度(320个样本)的倍数。因此,为了使对立体声参数的提取(框314)与在解码器处执行的基于单声道信号的空间合成同步,单声道信号计算的前瞻(20ms)以及添加了延迟T以对齐单声道合成(20ms)的单声道编码/解码延迟,对应于相对于当前帧的2帧(40ms)的附加延迟。此2帧的延迟特定于此处详述的实施方式,特别是其与20ms正弦对称窗口相关。此延迟可以不同。在变体实施例中,可以利用优化窗口来获得一帧的延迟,所述优化窗口在相邻窗口之间的重叠更小,其中,框311不引入任何延迟(T=0)。
然后通过单声道EVS编码器对移位的单声道信号进行编码(框312),例如以13.2kbit/s、16.4kbit/s或24.4kbit/s的比特率。在各种变体中,可以直接在未移位信号上执行编码;在这种情况下,可以在解码之后执行移位。
在此处图3中所展示的本发明的特定实施例中,考虑框313在频谱L[k]、R[k]和M[k]上引入了两帧的延迟以便获得频谱L缓冲[k]、R缓冲[k]和M缓冲[k]。
以在有待存储的数据量方面更有利的方式,能够使参数提取框314的输出或者是量化框318、316和319的输出移位。还可以在接收立体声编码器的二进制序列时在解码器处引入这种移位。
与单声道编码并行地,根据本发明的编码方法,在框315至319中实施对空间提示的编码。此外,所述编码包括在框321中对输入信号进行分类的可选步骤。
根据要编码的多声道信号,此分类框可以使得能够从一种编码模式转换到另一种编码模式。编码模式之一是实施本发明以用于对空间化提示进行编码。这里未对其他编码模式加以详述,但是将可以使用用于立体声编码或多声道编码的常规技术,包括用于利用ILD参数、ITD参数、IPD参数、ICC参数进行参数编码的技术。这里用L时间信号和R时间信号作为输入来指示分类,可选地,频域中的信号和立体声参数或多声道参数也将能够用于分类。还将可以使用分类将本发明应用于给定的空间参数(例如,用于对ITD或ILD进行编码),换言之,可以通过在根据如本发明中的模型的编码方案或现有技术的替代编码方案之间进行可能的选择来切换空间参数的编码类型。
空间参数是基于频谱L[k]、R[k]和M[k]移位两个帧:L缓冲[k]、R缓冲[k]和M缓冲[k]来提取的(框314),并且是根据参考图4a至图4c以及框315和317的细节所描述的编码方法来编码的(框315至319)。
为了提取参数ILD(框314),频谱L缓冲[k]和R缓冲[k]例如被切分成频率子带。
在一个实施例中,将采用下文数组1中定义的1/3倍频程子带切片:
Figure GDA0004045455760000141
Figure GDA0004045455760000142
数组1
此数组覆盖了采样频率的所有情况,例如,对于具有16kHz采样频率的编码器,将仅保留前B=20个子带。因此,将可以如下定义数组:
kb=0..20=[0 4 6 7 9 11 14 1822 28 36 45 57 71 90 113 143 180 226 285320]
对于Fs=16kHz的情况,上述数组界定(作为傅里叶频谱线的索引)索引b=0到B-1的频率子带。索引b的每个子带包括系数kb=0到kb+1-1。在此不考虑具有与Nyquist频率相对应的索引k=320的频谱线。
在各种变体中,将可以使用例如根据ERB标度的另一种子带切片;在这种情况下,将可以使用B=35个子带,后者在输入信号以16kHz采样的情况下由以下边界来定义:
kb=0..35=[0 1 2 3 5 6 8 10 12 14 17 20 23 27 31 35 40 46 52 58 66 7483 93 104 117 130 145 162 181 201 224 249 277 307 320]
上述数组界定(作为傅里叶频谱线的索引)索引b=0到B-1的频率子带。例如第一子带(b=0)从系数kb=0开始到kb+1-1=0;因此,其被缩减为表示25Hz的单个系数。同样地,最后一个子带(k=34)从系数kb=307开始到kb+1-1=319,其包括12个系数(300Hz)。在此不考虑具有与Nyquist频率相对应的索引k=320的频谱线。
对于每个帧,根据在此重复的方程(5)和(6)来计算子带b=0,...,B-1的ILD:
Figure GDA0004045455760000151
/>
其中,
Figure GDA0004045455760000152
和/>
Figure GDA0004045455760000153
分别表示左声道的能量(L缓冲[k])和右声道(Rb缓冲uf[k])的能量:
Figure GDA0004045455760000154
根据特定实施例,在时域中提取参数ITD和ICC(框320)。在本发明的各种变体中,可以在频域中提取这些参数(框314),这并未在图3中进行表示,以避免使图过载。在频域中估算ITD的示例性实施例在标准UIT-T G.722附件D中基于平滑乘积L[k].R*[k]给出。
在一个实施例中,采用以下方式来估算参数ITD和ICC。根据此处重复的方程(3),通过相互关系来寻找ITD:
Figure GDA0004045455760000155
其中,例如,d=630μs×Fs,即,16kHz上的10个样本。根据下文定义的Woodworth定律,此630μs的值是针对双耳情况利用对头部的球形近似(具有平均半径a=8.5cm)和方位角θ=π/2来获得的。
此后,对根据方程(3)所获得的ITD进行平滑以减弱其时间变化。平滑的好处是减弱瞬时ITD的波动,这些波动可能会降低解码器处的空间合成的质量。所采用的平滑方案不在本发明的保护范围之内,并且在此不加以详述。
在计算ITD期间,还根据上文定义的方程(4)来计算ICC。
根据形成本发明主题的方案来对空间参数或空间提示ILD和ITD进行编码并且参考图4a至图4c对其进行描述,这些附图根据本发明的各个实施例详细描述了图3的框315和317。
这些框315和317基于提示ITD和ILD的对应表示模型来实施方案。
然后,例如根据标量量化方案,在316和318处对在来自框315和317的输出上获得的对应模型的某些参数进行编码。
如此编码的所有空间化提示在被传送之前均由多路复用器322进行多路复用。
在图5a和图5b中回顾了关于声音感知的某些重要概念。在图5a中展示了关于收听者头部的正中面M、冠状面F和水平面H。声音感知允许声源的3D定位,此位置通常根据图5b由球坐标
Figure GDA0004045455760000161
来标识;在立体声信号的情况下,感知发生在水平面上,并且在这种情况下极坐标(r,θ)足以在2D中定位源。还回顾了立体声信号仅允许在水平面上的2个扬声器之间的线上进行再现,而双耳信号通常允许3D感知。
在一个实施例中,认为信号包括位于水平面中的声源。
在双耳信号的情况下,定义与有待编码的多声道信号相关联的虚拟源的位置可能是有用的。如图5c中所展示的,如果仅考虑位于水平面(2D)中在由540处的球体近似的头部所表示的人周围的声源510的情况,则源的位置由极坐标(r,θ)指定。
角度θ在收听者的冠状轴线530与源520的轴线之间定义。听者的两只耳朵表示为右耳550R和左耳550L。关于双耳信号的这两个声道之间的时移的提示与耳间时间差——也就是说,声音到达两只耳朵所花费的时间差——相关联。如果源直接位于收听者的前方,则波在同一时刻到达两只耳朵并且ITD提示为零。
通过使用采用以下正弦定律形式的几何近似,可以简化耳间时间差(ITD):
ITD(θ)=asin(θ)/c (14)
其中,θ是水平面中的方位角,a是头部的球形近似的半径,并且c是声速(以m.s-1为单位),声速可以被定义为c=343m.s-1。此定律与频率无关,并且已知在空间位置方面给出了良好的结果。
因此,虚拟声源可以利用角度θ来定位,并且ITD提示可以通过下式推导出:
ITD(θ)=ITD最大sin(θ) (15)
其中,
ITD最大=a/c (16)
赋予ITD最大的值例如可以对应于630μs,这是两个脉冲之间的感知分离的极限。对于较大的ITD值,受试者将听到两种不同的声音,并且将无法将这些声音解释为单个声源。
在本发明的各种变体中,正弦定律可以通过以下方程用RS Woodworth的著作《实验心理学》(纽约霍尔特,1938,第520-523页)中定义的Woodworth的ITD模型来替代:
ITD(θ)=a(sin(θ)+θ)/c (17)
这对于远场(通常是位于至少10.a距离处的源)是有效的。采用如在方程(15)中通过最大值ITD最大进行的归一化的原理,根据Woodworth定律的ITD模型可以写成以下形式:
Figure GDA0004045455760000171
其中,
ITD最大=a(1+π/2)/c (19)
在各种变体中,可以定义乘法因子,其不表示ITD的最大值,而是比例值,例如因子a/c。本发明也适用于这种情况。例如,为了简化Woodworth定律的表达式,可以写成:
ITD(θ)=ITD最大(sin(θ)+θ) (20)
其中,
ITD最大=a/c (21)
在这种情况下,ITD最大的值不表示ITD的最大值。在下文中,将使用此“符号差异”。
因此,参考图4a,通过提取模块320接收声道间时移(ITD)提示的框315包括用于获得声道间时移提示的表示模型的模块410。
此模型例如是如上文在方程(15)中定义的模型,其中,在所述模型或方程(20)的模型中预定义值ITD最大=630μs。
在各种变体中,可以通过直接对此值进行编码或通过对此值与预定值之间的差进行编码来使值ITD最大变得灵活。事实上,这种方式可以将ITD模型的应用扩展到更一般的情况,但其缺点是需要附加比特率。为了指示对值ITD最大的显式编码是可选的,框412在图4a中显示为虚线。
用于确定如上文中所定义的角度θ的模块411被实施以获得由声源定义的角度。更确切地,此模块搜索方位角参数θ,这使得可以尽可能地接近所提取的ITD。当定律如在方程(15)中已知时,可以采用分析方式来获得此角度:
θ=asin(ITD/ITD最大) (22)
在各种变体中,可以近似asin函数。
可以在框411中实施用于确定方位角的等效方式。根据这种方式,确定正弦定律的角度θ需要借助于ITD模型进行搜索,以获得作为方位角的可能值的函数的最接近的值:
θ=argminθ∈T(ITD-ITD最大sin(θ))2 (23)
可以通过针对搜索区间将由ITD模型产生的ITD最大.sin(θ)的各个候选值预先存储在表MITD中来执行此搜索,假设当源位于受试者前面或后面时ITD是对称的,则搜索区间可以是T=[-π/2,π/2]。在这种情况下,例如在搜索区间上以1°的步长对θ的值进行离散化。
在Woodworth定律的情况下,也可以采用与上文相同的方式来实现正弦定律。sin(θ)+θ的反函数的分析表达式不是微不足道的,其将可能更偏好搜索:
θ=argminθ∈T(ITD-ITD最大(sin(θ)+θ))2 (24)
此后,根据常规编码方案对框411中确定的角度参数θ进行编码,例如通过框316对4个比特进行标量量化。此框执行对量化索引的搜索
i=argminj=0,...,15(θ-Qθ[j])2 (25)
其中,所述表是针对于对4个比特进行均匀标量量化的情况给出的
Figure GDA0004045455760000181
在各种变体中,分配给方位角编码的比特数量可以是不同的,并且量化等级可以是不均匀的,以便考虑根据方位角对声源位置的感知限制。
如果必须调整由ITD模型预先确定的值,则正是此参数的编码使得可以对时移提示ITD进行编码,可选地使用ITD最大的编码(框412)作为附加提示。因此,通过对角度参数进行解码、可选地通过对ITD最大进行解码,并且通过应用ITD的相同表示模型,将在解码时检索空间化提示。当未对模型中预定义的值ITD最大的校正进行编码时,对此角度参数进行编码所需的比特率较低(例如,每帧4比特)。因此,对此空间化提示(ITD)的编码消耗很少的比特率。
在非常低的比特率下,可以实施对单个角度θ的编码以关于双耳信号对空间化提示进行编码。
在变体实施例中,将可以例如通过采用切片成先前定义的B个子带来估算每个频带的ITD。在这种情况下,每个频带的角度θ被编码并传送给解码器,这针对B个子带的示例给出了有待传送的B个角度。
在另一变体中,将可以忽略对相位差不可察觉的某些高频带的ITD的估算。同样地,将可以省略对非常低频率的ITD的估算。例如,对于1kHz以上的频带将无法估算ITD,并且对于如前所定义的子带切片,在使用1/3倍频程的实施例中将可以保留频带b=0至11并且在使用ERB标度的变体中保留1到16(在后者情况下,第一频带b=0被省略,因为其需要低于25Hz的频率)。在本发明的各种变体中,可以使用具有不同于25Hz的分辨率的子带切片;从而,由于1/3倍频程切片或ERB标度对于ITD的编码来说可能太精细,因此将可以将某些子带组合在一起。这避免了每帧编码太多的角度。对于每个频带,此后,如在上文所述的单个角度的情况下采用可以是固定的或是根据子带重要性可变的比特分配将ITD转换成角度。在确定和编码若干角度的所有这些变体中,可以在框316中实施矢量量化。
图4b表示本发明的变体实施例,其可以代替图4a中所描述的模式。此变体的原理是将特别地框411和316组合到框432中。
在此变体实施例中,人们考虑定义用于对ITD进行编码的若干“竞争”模型,已知当定义单个ITD模型时本发明也适用。
因此,诸如针对声道间时移(ITD)提示所定义的模型可能不是固定的并且可能是可参数化的。每个模型根据角度参数定义一组ITD值:正弦定律和Woodworth定律构成了两个模型示例。在此变体中,为了进行编码,根据以下方程基于在430处获得的ITD模型表来在框432中确定有待编码的模型索引和角度索引(也称为角度参数):
Figure GDA0004045455760000191
其中,NM是ITD模型表中的模型数量,Nθ(m)是针对第m个模型所考虑的方位角数量,并且MITD(m,t)对应于提示ITD的精确值。
下文中根据Woodworth定律在索引m=0的模型的情况下给出示例性模型MITD(m,t),如在ITD最大=0.2551ms的方程20中:
MITD(m=1,t=0...7)=[-0.5362 -0.3807 -0.1978 0 0.1978 0.3807 0.53620.6558]
其中,每个值都以ms为单位。角度索引t实际上与覆盖具有步长
Figure GDA0004045455760000201
的区间/>
Figure GDA0004045455760000202
的角度θ相对应。
此表也可以例如在以16kHz采样的情况下被称为样本,以相同的方式获得:
MITD(m=1,t=0...7)=[-8.5795 -6.0919 -3.1648 0 3.1648 6.0919 8.579510.4930]
在这种情况下,Nθ(m)=8并且NM=1。因此,可以使用这种单个模型在3比特上对提示ITD进行编码。
应当注意,对于给定的模型索引m,所述模型MITD(m,t)隐式地取决于方位角,只要索引t实际上表示角度θ的量化索引。因此,模型MITD(m,t)是将ITD和θ之间的关系与θ在Nθ(m)级别上的量化相组合的有效手段,并且是可能使用若干(至少一个)模型、在使用多余一个模型时通过mopt来索引的有效手段。
在一个实施例中,例如考虑两种不同模型的情况:
-m=0:先前利用Woodworth定律定义的双耳模型,其中,ITD(θ)=ITD最大(sin(θ)+θ)并且ITD最大=10(16kHz的样本)
m=1:如方程(15)中但针对麦克风A-B(分开一定距离a的2个全向麦克风)的根据正弦定律的模型。正弦定律也适用于此,仅参数a取决于麦克风之间的距离:ITD(θ)=ITD最大sin(θ)和ITD最大=30(16kHz的样本)
应当注意,大小Nθ(m)对于所有模型可以是完全相同的,但是在一般情况下,可以使用不同的大小。例如,将可以定义Nθ(m)=16和NM=2。因此,可以在4+1=5比特上对提示ITD进行编码。
然后,除了在
Figure GDA0004045455760000203
比特上编码的方位角topt之外,所选定律的索引mopt
Figure GDA0004045455760000204
比特上进行编码并传送到解码器。在上文采用的示例中,将可以在1比特上编码mopt并且在4比特上编码topt。/>
在一种变体中,将可以根据由对HRTF的实际测量所产生的方位角来用ITD表替代模型m=0,不使用参数定律,但使用在实际数据上估算的ITD值;在这种情况下,大小Nθ(m)将能够取决于用于测量HRTF的角分辨率(假设尚未应用角插值)。
如图4a中,关于值ITD最大的校正的提示编码是可选的,因此框312用虚线表示。当分配给ITD最大的编码的比特预算为零时,将因此采用在ITD的表示模型中预定义的ITD最大的值。
在本发明的变体中,ITD的表示模型可以被一般化以便仅减少到水平面而且还包括仰角。在这种情况下,确定两个角度,方位角θ和仰角
Figure GDA0004045455760000211
可以根据以下方程来进行对这两个角度的搜索:
Figure GDA0004045455760000212
其中,
Figure GDA0004045455760000213
为针对第m个模型考虑的仰角数量,并且popt表示有待编码的仰角。
在本发明中,人们还寻求降低除ITD之外的空间化提示、比如空间化声道间强度差(ILD)提示的编码比特率。应当注意,图4b的框316将能够利用对提示mopt,topt,popt、因此ITD最大(当后者必须被传送时)的固定或可变比特率编码以各种方式进行编码和复用。
因此,采用与ITD相同的方式,可以求助于ILD的参数化。在双耳情况下,根据
Figure GDA0004045455760000214
的名称为“Représentation de champs acoustiques,application à latransmission et à la reproduction de scènes sonores complexes dans uncontexte multimédia”[声场表示,应用于在多媒体环境中传送和再现复杂声音场景],巴黎大学,2011年7月6日的论文,ILD也可以根据以下定律近似:
Figure GDA0004045455760000215
其中,f是频率,r是距声源的距离,并且c是声速。
通过定义相对ILD,ILD最大,在某些条件下可以将这种近似缩减为:
ILD全局(θ)=ILD最大sin(θ) (30)
上述定律只是与给定方位角的HRTF的全局水平相对应的近似;其不能完全表征由HRTF给出的频谱着色,但是其只能表征它们的全局水平。在稍后的时间,在通过取归一化信号的基础或HRTF滤波器的基础来定义ILD模型时,可以通过取双耳信号的总ILD的最大值来定义参考ILD。在本发明中,认为这种正弦定律不仅适用于总(或全局)ILD,而且还适用于基于子带的ILD;在这种情况下,参数ILD最大取决于子带的索引,并且模型变为:
ILD[b](θ)=ILD最大[b]sin(θ) (31)
在实验上,可以证实,如果计算了HRTF滤波器的能量(参考图6a针对若干仰角值
Figure GDA0004045455760000221
所展示的),则对于表示为/>
Figure GDA0004045455760000222
15°和30°的仰角,显然对全局ILD的作为方位角θ函数的近似(在声道之间的全局水平差异的意义上)遵循正弦定律。
应当注意,即使冠状半面(方位角位于[0,180]度中)与头部后方的半面(方位角位于[180,360]度中)的对称性通常不完全有效,在本发明中这种正弦定律也用来对ILD进行编码和解码。
就像已经定义值ITD最大的ITD的情况一样,因此可以传送参数ILD最大,或使用预定和存储的值ILD最大,以便根据方程(30)从中推导出值ILD全局(θ),并因此应用在信号的整个频谱上有效的全局ILD以获得基本(全局)位置。
另一示例性模型依赖于ORTF立体声麦克风的配置,这在图6b中进行了展示。
在本示例中,可以关于ORTF麦克风的配置来定义基于子带的ILD模型,如下所示:
ILD(θ)=L(θ)-R(θ)=a(cos(θ-θ0)-cos(θ+θ0)) (32)
其中,
L(θ)=a(1+cos(θ-θ0)) (33)
R(θ)=a(1+cos(θ+θ0)) (34)
其中,θ0(以弧度为单位)对应于55°。
此模型还可以写成以下形式:
ILD(θ)=L(θ)-R(θ)=a(cos(θ)cos(θ0)+sin(θ)sin(θ0)) (35)
在此同样地,可以定义与下式相对应的值ILD最大
ILD最大=a (36)
在此同样地,假设方程35中定义的模型不仅适用于总(或全局)ILD的情况,而且适用于基于子带的ILD;在这种情况下,参数ILD最大(或比例版本)将取决于采用形式ILD[b]最大的子带。
因此,参考图4a,采用与提示ITD相同的方式,通过提取模块314接收声道间强度差(ILD)提示的框317包括用于获得声道间强度差(ILD)提示的表示模型的模块420。
此模型例如是如上文在方程(30)中定义的模型或者本文档中描述的其他模型。
可以在解码器处重新使用已经在411处定义的角度参数θ以检索诸如由方程(30)、(31)或(35)定义的全局ILD或基于子带的ILD;事实上,这可以“汇集”对ITD和ILD的编码。在值ILD最大不固定的情况下,后者在423处被确定并编码。
在特定实施例中,用于估算声道间强度差提示的模块421一方面基于由框411获得的角度参数来实施以便对时移提示(ITD)进行编码,并且另一方面基于方程(30)、(31)或(35)的表示模型来实施。采用可选的方式,模块422计算提示ILD的残差,也就是说,关于在314处提取的实际声道间强度差(ILD)的提示与在421处基于ILD模型估算的声道间强度差(ILD)提示之间的差。
可以在318处例如通过常规标量量化方案对此残差进行编码。然而,与对直接ILD的编码不同,量化表可以例如限于步长为3dB的+/-12dB动态范围。
此ILD残差使得可以在ILD模型太具体并且仅适用于有待在当前帧中编码的信号的情况下提高提示ILD的解码质量;回顾一下,可以可选地在编码器处使用分类来避免这种情况,然而在一般情况下,对ILD残差进行编码可能是有用的。
因此,对这些参数的编码以及对ITD的角度的编码使得可以在解码器处检索具有良好质量的双耳音频信号的声道间强度差(ILD)提示。
因此,采用与ITD相同的方式,将在解码时通过应用相同的表示模型并通过对残差参数和参考ILD参数进行解码(如果相关的话)来检索空间化提示(全局或基于子带)。对这些参数进行编码所需的比特率低于对提示ILD本身进行编码情况下的比特率,特别是当不必传送ILD残差时以及当使用在一个或多个ILD模型中预定义一个或多个参数ILD最大时。因此,对此空间化提示(ILD)的编码消耗很少的比特率。
然而,仅使用全局ILD值的这种ILD模型非常简单,因为通常ILD是在若干子带上定义的。
在先前描述的编码器中,定义了根据1/3倍频程切片或根据ERB标度的B个子带。因此,为了能够表示总(或全局)ILD的多于一个参数,ILD的表示模型扩展到若干子带。此扩展适用于图4a中描述的本发明,然而在下文中在图4b的上下文中给出了相关联的说明以避免过多冗余。该模型取决于角度θ并且可选地取决于仰角;此模型在所有子带中可以是相同的,或者根据子带而变化。
对于ILD的编码,我们考虑图4b中所描述的变体实施例。正如ITD一样,在这种变体中,我们定义了ILD的表示模型。因此,诸如针对声道间强度差(ILD)提示所定义的模型不是固定的而是可参数化的。所述模型由值ILD最大和角度参数来定义。在一般情况下,基于在440处获得的ILD模型表,在442处根据以下方程确定有待编码的模型索引mopt和角度索引:
Figure GDA0004045455760000241
其中,NM是ILD模型表中的模型数量,Nθ(m)是针对第m个模型所考虑的方位角数量,MILD(m,t)对应于提示ILD的精确值,并且dist(.,.)是ILD向量之间的距离标准。
然而,在变体实施例中,可以通过使用已经在框432中针对ITD模型获得的角度提示来简化此搜索。值得注意的是,ILD模型的这些值t=0,...,Nθ(m)-1不一定对应于与ITD模型相同的一组值,然而协调这些集合以便使ILD和ITD的表示模型之间具有一致性是有利的。
例如,以下方式可以作为可能的距离标准:
Figure GDA0004045455760000242
针对若干频带,图6c至图6g示出了示例性ILD模型。为了不使文本过载,我们在此并不给出数组形式的相应值(以dB为单位),可以从图6c至6g的图中推导出近似值。此图考虑了先前已经定义的1/3倍频程切片的情况。因此,每个图表示由上文数组1中定义的三分之一倍频程数定义的频带的ILD,具有频带相关的中心频率fc。每个子图中用圆圈标记的每个点对应于值MILD(m,t);除了定义与模型相关联的ILD表之外,还示出了通过依赖于子带的预定义参数ILD最大缩放的正弦定律。
在本发明的变体中,ILD的表示模型可以被一般化以便不仅仅减少到水平面而且还包括仰角。在这种情况下,对两个角度的搜索变为:
Figure GDA0004045455760000251
其中,
Figure GDA0004045455760000252
为针对第m个模型考虑的仰角数量,并且popt表示有待编码的仰角。
在一种变体中,示例性模型MILD(m,t,p)可以采用以下方式基于一组HRTF而获得。给定用于θ和
Figure GDA0004045455760000253
的HRTF滤波器,有可能:
-计算每个子带的左右声道之间每个子带的ILD
-可选地归一化ILD
-存储ILD并确定每个子带中的ILD最大的值,以便调整ILD的扩展因子多维表MILD(m,t,p)可以看作是指向ILD领域的方向性模型。
所选定律的索引mopt然后在318处被编码并传送到解码器。
采用与图4a相同的方式,可以对ILD残差进行计算(框421和422)和编码。
迄今为止,已经针对ITD和ILD考虑了不同的模型,即使注意到角度的确定可能被“汇集”。例如,可以通过使用ITD模型来确定方位角,并且此同一角度直接用于ILD模型。现在考虑要求(共同)“集成模型”的另一变体实施例。图4c中描述了这种变体。
在这种变体中,代替具有用于ITD和ILD的不同模型(MITD(m,t,p)和MILD(m,t,p)),将可以在框450中定义共同模型:MITD,ILD(m,t,p),其输入包括ITD和ILD的候选值;因此,对于表示θ和
Figure GDA0004045455760000254
的各种离散值,定义了“矢量”(ITD,ILD)。在这种情况下,用于搜索的距离测量必须结合ITD上的距离和ILD上的距离,然而仍然可以执行单独的搜索。
因此,在453确定的所选定律的索引mopt、方位角索引topt和仰角索引popt在331处被编码并传送到解码器。正如图4a和4b一样,可以确定并编码参数ITD最大、ILD最大和ILD残差。
图8中展示了实施图4c的共同模型的图3中所展示的编码器的变体。应注意,在这种编码器变体中,在框314中估算参数ITD和ICC。此外,这里我们考虑在框332中也提取并编码IPD参数的一般情况。框330和331对应于图4c中指示和详述的框。
参考图7,现在描述了根据本发明的一个实施例的解码器。
在本示例中,这种解码器包括解复用器701,在所述解复用器中提取了已编码单声道信号以供在702处(根据规范3GPPTS 26.442或TS 26.443)通过单声道EVS解码器进行解码。根据编码器上使用的比特率,对二进制序列中与单声道EVS编码器相对应的部分进行解码。这里假设在二进制序列中既没有帧丢失也没有任何二进制错误以简化说明,然而在解码器中可相当明显地实施校正帧丢失的已知技术。
在没有声道错误的情况下,已解码单声道信号对应于
Figure GDA0004045455760000261
对/>
Figure GDA0004045455760000262
执行了通过具有与编码器上相同开窗的短时离散傅里叶变换(框703和704)进行的分析以获得频谱
Figure GDA0004045455760000263
在此认为还应用了频域中的解联(框720)。这种解联也可以在时域中应用。
这里没有呈现用于合成立体声信号的框708的实施方式的细节,因为它们不在本发明的保护范围内,但是可以使用现有技术中已知的常规合成技术。
在合成框708中,例如可以重构具有两个声道的信号,其中,对单声道信号的以下处理被解码并变换为频率:
Figure GDA0004045455760000264
Figure GDA0004045455760000265
其中,c=10ILD[b]/10(其中,b是包含索引k的频谱线的子带的索引),
Figure GDA0004045455760000266
并且
Figure GDA0004045455760000267
ITD是针对频谱线k解码的ITD(如果对单个ITD进行编码,则此值对于索引k的各个频谱线都是相同的),并且NFFT是FFT和逆FFT的长度(框704、709、712)。
还可以考虑在718处解码的参数ICC以重新创建非局部化的声音环境(背景噪声)从而改善质量。
因此计算频谱
Figure GDA0004045455760000268
和/>
Figure GDA0004045455760000269
并且此后通过逆FFT、开窗、相加和重叠(框709至714)将这些频谱转换到时域以获得合成的声道/>
Figure GDA00040454557600002610
和/>
Figure GDA00040454557600002611
在705、715和718处对已经被编码以获得空间化提示的参数进行解码。
在718处,然而,如果提示ICCq[b]已被编码,则对其进行解码。
在705处,对角度参数θ进行解码,可选地具有值ITD最大。在此参数的基础上,实施用于获得声道间时移提示的表示模型的模块706以获得此模型。正如编码器一样,此模型可以由上文定义的方程(15)来定义。因此,基于此模型和已解码的角度参数,模块707可以确定关于多声道信号的声道间时移(ITD)提示。
如果在解码器处对每个频率或每个频带的角度进行编码,则对每个频率或频带的这些不同角度进行解码以定义每个频率或频带的提示ITD。
采用相同的方式,在可以对声道间强度差(ILD)提示进行编码的参数被编码的情况下,它们在715处在解码器处由用于对这些参数进行解码的模块进行解码。
因此,残差参数(Resid.ILD)和参考ILD参数(/LD最大)在715处被解码。
在这些参数的基础上,实施用于获得声道间强度差提示的表示模型的模块716以获得此模型。正如编码器一样,此模型可以由上文定义的方程(30)来定义。
因此,基于此模型、ILD残差参数(也就是说,关于实际声道间强度差(ILD)的提示与利用模型估算的声道间强度差(ILD)提示之间的差)、参考ILD参数(ILD最大)以及在705处针对提示ITD解码的角度参数,模块717可以确定多声道信号的声道间强度差(ILD)提示。
如果在编码器处ILD编码参数按频带逐项列出,则对这些不同的基于频带的参数进行解码以定义每频率或频带的提示ILD。
应注意,图7的解码器与图4a的编码器有关。应当理解,如果根据图4b或图4c完成根据本发明的编码,则将相应地修改解码器以便特别地对采用形式mopt,topt,popt的模型索引和角度索引进行解码并根据所使用的模型以及与重构值相关联的索引来重构ITD和ILD的值。
在本发明的变体中,图7的解码器因此如图9中所示的那样被修改。在这种变体中,并不直接重构已解码的ILD和ITD参数。用双耳合成(框920)替代立体声合成(框708)。因此,对提示ILD和ITD的解码缩减为对角坐标的解码(框910)。通过使用预定义的HRTF基础(框930),因此可以对双耳信号而不是立体声信号进行解码。在各种变体中,将可以在时域中应用HRTF滤波器。
在具体的立体声编码和解码应用情况下,已经描述了参考图3呈现的编码器以及参考图7呈现的解码器。基于通过离散傅里叶变换对立体声声道进行的分解描述了本发明。本发明还适用于其他复数表示,如例如,MCLT(调制复数交叠变换)分解,这种分解组合了改进的离散余弦变换(MDCT)与改进的离散正弦变换(MDST),并且本发明还适用于伪正交镜像滤波器(PQMF)类型的滤波器排的情况。因此,具体实施方式中使用的术语“频谱线”可扩展至“子带(sub-band)”或“频带(frequency band)”的概念,而不会改变本发明的性质。
如参考图3和图7描述的编码器和解码器可结合到休息室解码器、“机顶盒”、或者音频或视频内容读取器类型的多媒体设备中。它们还可以集成到移动电话或通信网关类型的通信设备中。
图10表示这种设备项的示例性实施例,其中集成了根据本发明的如参考图3、图8和图4a至图4c所描述的编码器或如参考图7或图9所描述的解码器。这种装置包括与存储器块BM协同操作的处理器PROC,所述存储器块包括存储装置和/或工作存储器MEM。
在编码器的情况下,存储器块可以有利地包括包含代码指令的计算机程序,当这些代码指令由处理器PROC执行时,这些指令用于实施在本发明意义上的编码方法的步骤,具体地为以下步骤:提取关于多声道信号的多个空间化提示;获得所提取的空间化提示的至少一个表示模型;确定所获得的模型的至少一个角度参数;以及对所确定的所述至少一个角度参数进行编码以便在空间化提示编码期间对所提取的空间化提示进行编码。
在解码器的情况下,存储器块可以有利地包括包含代码指令的计算机程序,当这些代码指令由处理器PROC执行时,这些指令用于实施在本发明意义上的解码方法的步骤,具体地为以下步骤:接收并解码至少一个已编码的角度参数;获得空间化提示的至少一个表示模型;以及基于所获得的所述至少一个模型并且基于所述至少一个已解码角度参数来确定关于多声道信号的多个空间化提示。
存储器MEM可以存储根据本发明的编码和解码方法中所使用的各种空间化提示的一个或多个表示模型。
通常,一方面图3、图4的说明以及另一方面图7的说明分别针对编码器和解码器重复这种计算机程序的算法的步骤。计算机程序还可以被存储在存储器介质上,其可以由装置或设备项的读取器进行读取或者可以被下载到其存储空间中。
以编码器名义的这种设备项包括输入模块,所述输入模块能够通过通信网络或通过读取存储在存储介质上的内容来接收多声道信号,例如包括右侧和左侧的声道R和声道L的双耳信号。这种多媒体设备项还可以包括用于捕获这种双耳信号的装置。
以编码器名义的装置包括输出模块,所述输出模块能够传送由声道缩减处理产生的单声道信号M以及至少角度参数θ,所述角度参数使得可以应用空间化提示的表示模型以便检索此空间提示。如果相关,则诸如ILD残差、ILD或参考ITD(ILD最大或ITD最大)参数等其他参数也经由输出模块传送。
以解码器名义的这种设备项包括输入模块,所述输入模块能够接收由声道缩减处理产生的单声道信号M以及至少角度参数θ,所述角度参数使得可以应用空间化提示的表示模型以便检索此空间提示。如果相关,则为了检索空间化提示,诸如ILD残差、ILD或参考ITD(ILD最大或ITD最大)参数等其他参数也经由输出模块E接收。
以解码器名义的装置包括输出模块,所述输出模块能够传送多声道信号,例如,包括右侧和左侧的声道R和L的双耳信号。

Claims (14)

1.一种对数字音频多声道信号进行参数编码的方法,所述方法包括对由施加至所述多声道信号的声道缩减处理(307)所产生的信号(M)进行编码、以及对关于所述多声道信号的空间化提示进行编码的步骤(312),其特征在于,所述方法包括以下步骤:
-提取(314,320)关于所述多声道信号的多个空间化提示,其中,所述多个空间化提示包括至少两种类型的所述空间化提示;
-获得(315,317)所提取的所述空间化提示的至少一个表示模型;
-确定(315,411)所获得的所述表示模型的至少一个角度参数;
-对所确定的所述至少一个角度参数进行编码(316,318),以便在空间化提示编码期间对所提取的所述空间化提示进行编码。
2.如权利要求1所述的编码方法,其特征在于,所述空间化提示由所述多声道信号的频率子带来定义,并且其特征在于,确定每个子带至少一个角度参数并对其进行编码。
3.如权利要求1所述的方法,其特征在于,所述方法进一步包括计算参考空间化提示的步骤以及对此参考空间化提示进行编码的步骤。
4.如权利要求1所述的编码方法,其特征在于,所述空间化提示之一是声道间时移ITD提示。
5.如权利要求1所述的编码方法,其特征在于,所述空间化提示之一是声道间强度差ILD提示。
6.如权利要求5所述的方法,其特征在于,所述方法进一步包括用于对声道间强度差提示进行编码的以下步骤:
-基于所获得的所述表示模型和所确定的所述角度参数来估算声道间强度差提示;
-对所提取和所估算的所述声道间强度差提示之间的差进行编码。
7.如权利要求1所述的方法,其特征在于,获得对若干空间化提示共同的所述表示模型。
8.如权利要求1所述的编码方法,其特征在于,通过从针对所述空间化提示的各个值定义的模型表中进行选择来执行获得所述空间化提示的所述表示模型。
9.如权利要求8所述的方法,其特征在于,对所述表的与所选表示模型相对应的索引进行编码。
10.一种对数字音频多声道信号进行参数解码的方法,所述方法包括对由施加至所述多声道信号的声道缩减处理所产生的已编码的信号进行解码(702)的步骤、以及对关于所述多声道信号的空间化提示进行解码(705,715)的步骤,其特征在于,所述方法包括用于对至少一个空间化提示进行解码的以下步骤:
-接收并解码(705,715)至少一个已编码的角度参数;
-获得(706,716)空间化提示的至少一个表示模型;
-基于所获得的所述至少一个所述表示模型并且基于所述至少一个已解码角度参数来确定(707,717)关于所述多声道信号的多个空间化提示,其中,所述多个空间化提示包括至少两种类型的所述空间化提示。
11.如权利要求10中所述的解码方法,其特征在于,所述解码方法包括接收并解码模型表的索引的步骤、以及获得有待基于已解码的索引进行解码的所述空间化提示的所述至少一个表示模型的步骤。
12.一种数字音频多声道信号的参数编码器,所述参数编码器包括用于对由用于施加至所述多声道信号的声道缩减处理(307)的模块所产生的信号(M)进行编码的模块(312)、以及用于对关于所述多声道信号的空间化提示进行编码的模块(315,317,316,318),其特征在于,所述参数编码器包括:
-用于提取关于所述多声道信号的多个空间化提示的模块(314,320),其中,所述多个空间化提示包括至少两种类型的所述空间化提示;
-用于获得所提取的所述空间化提示的至少一个表示模型的模块(315,317);
-用于确定所获得的所述表示模型的至少一个角度参数的模块(411);
-用于对所确定的所述至少一个角度参数进行编码以便在空间化提示编码期间对所提取的所述空间化提示进行编码的模块(316,318)。
13.一种数字音频多声道信号的参数解码器,所述参数解码器包括用于对由施加至所述多声道信号的声道缩减处理所产生的已编码的信号进行解码的模块(702)、以及用于对关于所述多声道信号的空间化提示进行解码的模块(705,715),其特征在于,所述参数解码器包括:
-用于接收并解码至少一个已编码角度参数的模块(705,715);
-用于获得所述空间化提示的至少一个表示模型的模块(706,716);
-用于基于所获得的所述至少一个表示模型并且基于所述至少一个已解码角度参数来确定关于所述多声道信号的多个空间化提示的模块(707,717),其中,所述多个空间化提示包括至少两种类型的所述空间化提示。
14.一种由处理器可读的存储介质,其上记录有包括代码指令的计算机程序,所述代码指令用于执行如权利要求1至9之一所述的编码方法的步骤和/或如权利要求10至11之一所述的解码方法的步骤。
CN201780015676.XA 2016-03-10 2017-03-10 用于对多声道音频信号的参数编码和解码的空间化信息进行的优化编码和解码 Active CN108885876B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR1652034A FR3048808A1 (fr) 2016-03-10 2016-03-10 Codage et decodage optimise d'informations de spatialisation pour le codage et le decodage parametrique d'un signal audio multicanal
FR1652034 2016-03-10
PCT/FR2017/050547 WO2017153697A1 (fr) 2016-03-10 2017-03-10 Codage et décodage optimisé d'informations de spatialisation pour le codage et le décodage paramétrique d'un signal audio multicanal

Publications (2)

Publication Number Publication Date
CN108885876A CN108885876A (zh) 2018-11-23
CN108885876B true CN108885876B (zh) 2023-03-28

Family

ID=56008743

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780015676.XA Active CN108885876B (zh) 2016-03-10 2017-03-10 用于对多声道音频信号的参数编码和解码的空间化信息进行的优化编码和解码

Country Status (6)

Country Link
US (2) US10930290B2 (zh)
EP (1) EP3427260B1 (zh)
CN (1) CN108885876B (zh)
ES (1) ES2880343T3 (zh)
FR (1) FR3048808A1 (zh)
WO (1) WO2017153697A1 (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201718341D0 (en) 2017-11-06 2017-12-20 Nokia Technologies Oy Determination of targeted spatial audio parameters and associated spatial audio playback
GB2572650A (en) 2018-04-06 2019-10-09 Nokia Technologies Oy Spatial audio parameters and associated spatial audio playback
GB2572761A (en) * 2018-04-09 2019-10-16 Nokia Technologies Oy Quantization of spatial audio parameters
GB2574239A (en) 2018-05-31 2019-12-04 Nokia Technologies Oy Signalling of spatial audio parameters
GB2575305A (en) 2018-07-05 2020-01-08 Nokia Technologies Oy Determination of spatial audio parameter encoding and associated decoding
GB2576769A (en) * 2018-08-31 2020-03-04 Nokia Technologies Oy Spatial parameter signalling
BR112021025420A2 (pt) * 2019-07-08 2022-02-01 Voiceage Corp Método e sistema para codificar metadados em fluxos de áudio e para adaptação de taxa de bits intraobjeto e interobjeto flexível
FR3101741A1 (fr) * 2019-10-02 2021-04-09 Orange Détermination de corrections à appliquer à un signal audio multicanal, codage et décodage associés
JP7485037B2 (ja) * 2020-06-24 2024-05-16 日本電信電話株式会社 音信号復号方法、音信号復号装置、プログラム及び記録媒体
JP7491376B2 (ja) * 2020-06-24 2024-05-28 日本電信電話株式会社 音信号符号化方法、音信号符号化装置、プログラム及び記録媒体
CN115691514A (zh) * 2021-07-29 2023-02-03 华为技术有限公司 一种多声道信号的编解码方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1748247A (zh) * 2003-02-11 2006-03-15 皇家飞利浦电子股份有限公司 音频编码
US20070016416A1 (en) * 2005-04-19 2007-01-18 Coding Technologies Ab Energy dependent quantization for efficient coding of spatial audio parameters
US20080252510A1 (en) * 2005-09-27 2008-10-16 Lg Electronics, Inc. Method and Apparatus for Encoding/Decoding Multi-Channel Audio Signal
CN102656628A (zh) * 2009-10-15 2012-09-05 法国电信公司 优化的低吞吐量参数编码/解码
CN103329197A (zh) * 2010-10-22 2013-09-25 法国电信公司 用于反相声道的改进的立体声参数编码/解码
CN104464742A (zh) * 2014-12-31 2015-03-25 武汉大学 一种3d音频空间参数全方位非均匀量化编码***及方法

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BRPI0304540B1 (pt) * 2002-04-22 2017-12-12 Koninklijke Philips N. V Methods for coding an audio signal, and to decode an coded audio sign, encoder to codify an audio signal, codified audio sign, storage media, and, decoder to decode a coded audio sign
DE602005005640T2 (de) * 2004-03-01 2009-05-14 Dolby Laboratories Licensing Corp., San Francisco Mehrkanalige audiocodierung
US20090299756A1 (en) * 2004-03-01 2009-12-03 Dolby Laboratories Licensing Corporation Ratio of speech to non-speech audio such as for elderly or hearing-impaired listeners
US7983922B2 (en) * 2005-04-15 2011-07-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating multi-channel synthesizer control signal and apparatus and method for multi-channel synthesizing
US8379868B2 (en) * 2006-05-17 2013-02-19 Creative Technology Ltd Spatial audio coding based on universal spatial cues
US8345899B2 (en) * 2006-05-17 2013-01-01 Creative Technology Ltd Phase-amplitude matrixed surround decoder
US8712061B2 (en) * 2006-05-17 2014-04-29 Creative Technology Ltd Phase-amplitude 3-D stereo encoder and decoder
FR2903562A1 (fr) * 2006-07-07 2008-01-11 France Telecom Spatialisation binaurale de donnees sonores encodees en compression.
US8046214B2 (en) * 2007-06-22 2011-10-25 Microsoft Corporation Low complexity decoder for complex transform coding of multi-channel sound
EP2201566B1 (en) * 2007-09-19 2015-11-11 Telefonaktiebolaget LM Ericsson (publ) Joint multi-channel audio encoding/decoding
WO2010004155A1 (fr) * 2008-06-26 2010-01-14 France Telecom Synthese spatiale de signaux audio multicanaux
CN102084418B (zh) * 2008-07-01 2013-03-06 诺基亚公司 用于调整多通道音频信号的空间线索信息的设备和方法
WO2010076460A1 (fr) * 2008-12-15 2010-07-08 France Telecom Codage perfectionne de signaux audionumériques multicanaux
KR101710113B1 (ko) * 2009-10-23 2017-02-27 삼성전자주식회사 위상 정보와 잔여 신호를 이용한 부호화/복호화 장치 및 방법
US8923995B2 (en) * 2009-12-22 2014-12-30 Apple Inc. Directional audio interface for portable media device
JP5511848B2 (ja) * 2009-12-28 2014-06-04 パナソニック株式会社 音声符号化装置および音声符号化方法
CA2731043C (en) * 2010-02-05 2015-12-29 Qnx Software Systems Co. Enhanced spatialization system with satellite device
CA2806000C (en) * 2010-07-20 2016-07-05 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for encoding an audio information, method for decoding an audio information and computer program using an optimized hash table
CN103262159B (zh) * 2010-10-05 2016-06-08 华为技术有限公司 用于对多声道音频信号进行编码/解码的方法和装置
EP2477188A1 (en) * 2011-01-18 2012-07-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoding and decoding of slot positions of events in an audio signal frame
FR2973551A1 (fr) * 2011-03-29 2012-10-05 France Telecom Allocation par sous-bandes de bits de quantification de parametres d'information spatiale pour un codage parametrique
KR20230048461A (ko) * 2015-08-25 2023-04-11 돌비 레버러토리즈 라이쎈싱 코오포레이션 오디오 디코더 및 디코딩 방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1748247A (zh) * 2003-02-11 2006-03-15 皇家飞利浦电子股份有限公司 音频编码
US20070016416A1 (en) * 2005-04-19 2007-01-18 Coding Technologies Ab Energy dependent quantization for efficient coding of spatial audio parameters
US20080252510A1 (en) * 2005-09-27 2008-10-16 Lg Electronics, Inc. Method and Apparatus for Encoding/Decoding Multi-Channel Audio Signal
CN102656628A (zh) * 2009-10-15 2012-09-05 法国电信公司 优化的低吞吐量参数编码/解码
CN103329197A (zh) * 2010-10-22 2013-09-25 法国电信公司 用于反相声道的改进的立体声参数编码/解码
CN104464742A (zh) * 2014-12-31 2015-03-25 武汉大学 一种3d音频空间参数全方位非均匀量化编码***及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《Azimuthal Perceptual Resolution Model Based Adaptive 3D Spatial Parameter Coding》;Li Gao et al.;《MMM2015 Lecture Notes in Computer Science》;20150105;第8935卷;第534-545页 *

Also Published As

Publication number Publication date
US20190066701A1 (en) 2019-02-28
CN108885876A (zh) 2018-11-23
FR3048808A1 (fr) 2017-09-15
WO2017153697A1 (fr) 2017-09-14
ES2880343T3 (es) 2021-11-24
US10930290B2 (en) 2021-02-23
EP3427260A1 (fr) 2019-01-16
US11664034B2 (en) 2023-05-30
US20210110835A1 (en) 2021-04-15
EP3427260B1 (fr) 2021-04-28

Similar Documents

Publication Publication Date Title
CN108885876B (zh) 用于对多声道音频信号的参数编码和解码的空间化信息进行的优化编码和解码
JP6626581B2 (ja) 1つの広帯域アライメント・パラメータと複数の狭帯域アライメント・パラメータとを使用して、多チャネル信号を符号化又は復号化する装置及び方法
JP5189979B2 (ja) 聴覚事象の関数としての空間的オーディオコーディングパラメータの制御
CN108369810B (zh) 用于对多声道音频信号进行编码的自适应声道缩减处理
EP3776541B1 (en) Apparatus, method or computer program for estimating an inter-channel time difference
JP2016525716A (ja) 適応位相アライメントを用いたマルチチャネルダウンミックスにおけるコムフィルタアーチファクトの抑制
JP2015517121A (ja) インターチャネル差分推定方法及び空間オーディオ符号化装置
JP2022163058A (ja) ステレオ信号符号化方法およびステレオ信号符号化装置
JP2017058696A (ja) インターチャネル差分推定方法及び空間オーディオ符号化装置
Jansson Stereo coding for the ITU-T G. 719 codec
Mouchtaris et al. Multichannel Audio Coding for Multimedia Services in Intelligent Environments

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant