CN105378832A - 利用对象特定时间/频率分辨率从混合信号分离音频对象 - Google Patents

利用对象特定时间/频率分辨率从混合信号分离音频对象 Download PDF

Info

Publication number
CN105378832A
CN105378832A CN201480027540.7A CN201480027540A CN105378832A CN 105378832 A CN105378832 A CN 105378832A CN 201480027540 A CN201480027540 A CN 201480027540A CN 105378832 A CN105378832 A CN 105378832A
Authority
CN
China
Prior art keywords
time
side information
audio
frequency
specific
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201480027540.7A
Other languages
English (en)
Other versions
CN105378832B (zh
Inventor
萨沙·迪施
约尼·保卢斯
托尔斯滕·卡斯特纳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Publication of CN105378832A publication Critical patent/CN105378832A/zh
Application granted granted Critical
Publication of CN105378832B publication Critical patent/CN105378832B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)
  • Spectroscopy & Molecular Physics (AREA)

Abstract

提出了一种用于解码包括降混信号X和侧信息PSI的多对象音频信号的音频解码器。该侧信息包括针对时间/频率区R(tR,fR)中的音频对象Si的对象特定的侧信息PSIi,和指示针对时间/频率区R(tR,fR)中的音频对象si的对象特定的侧信息的对象特定的时间/频率分辨率TFRh的对象特定的时间/频率分辨率信息TFRIi。音频解码器包括对象特定的时间/频率分辨率确定器110,其被配置成根据针对音频对象si的侧信息PSI而确定对象特定的时间/频率分辨率信息TFRIi。音频解码器还包括对象分离器120,其被配置成根据对象特定的时间/频率分辨率TFRIi,利用对象特定的侧信息而从降混信号X中分离音频对象si。也描述了用于解码或编码的相应的编码器和相应的方法。

Description

利用对象特定时间/频率分辨率从混合信号分离音频对象
技术领域
本发明涉及音频信号处理,且具体而言涉及用于采用音频对象自适应单独时间-频率分辨率进行音频对象编码的解码器、编码器、***、方法及计算机程序。
根据本发明的实施例涉及用于解码由降混信号及对象相关的参数侧信息(PSI)组成的多对象音频信号的音频解码器。根据本发明的其他实施例涉及用于根据降混信号表示及对象相关的PSI来提供升混信号表示的音频解码器。本发明的其他实施例涉及用于解码由降混信号及相关的PSI组成的多对象音频信号的方法。根据本发明的其他实施例涉及用于根据降混信号表示和对象相关的PSI来提供升混信号表示的方法。
本发明的其他实施例涉及用于将多个音频对象信号编码成降混信号及PSI的音频编码器。本发明的其他实施例涉及用于将多个音频对象信号编码成降混信号及PSI的方法。
根据本发明的其他实施例涉及对应于用于解码、编码和/或提供升混信号的方法的计算机程序。
本发明的其他实施例涉及用于信号混合操纵的音频对象自适应单独时间-频率分辨率切换。
背景技术
在现代数字音频***中,在接收机侧上允许所传输内容的音频对象相关的修改为主要趋势。这些修改包括音频信号的选定部分的增益修改和/或在经由空间分布式扬声器进行的多信道回放的情况下的专用音频对象的空间重新定位。这可藉由将音频内容的不同部分单独传递至不同扬声器来达成。
换言之,在音频处理、音频传输及音频储存的技术中,越来越希望允许对象导向的音频内容回放上的用户交互,并且也需要利用多信道回放的延伸可能性来单独渲染音频内容或部分音频内容,以便改进听觉印象。由此,多信道音频内容的使用为用户带来显著的改进。例如,可获得三维听觉印象,该三维听觉印象带来改进的用户对娱乐应用的满意度。然而,多信道音频内容在专业环境中也是有用的,例如在电话会议应用中,这是因为通话器可懂度可通过使用多信道音频回放来改进。另一可能的应用是为收听器提供音乐片段以单独调整不同部分(也称为“音频对象”)或诸如人声零件或不同乐器这样的轨道的回放水平和/或空间位置。用户可出于个人品味的原因、为了更容易转录来自音乐片段、教育目的、伴唱机、排演等的一或更多个部分而执行这样的调整。
例如以脉冲代码调制(PCM)数据或甚至压缩音频格式的形式的所有数字多信道或多对象音频内容的直接离散传输需要极高的比特率。然而,也希望以比特率有效的方式传输且储存音频数据。因此,愿意接受音频质量与比特率要求之间的合理折衷,以便避免由多信道/多对象应用导致的过度资源负载。
近来,在音频编码领域中,用于多信道/多对象音频信号的比特率有效的传输/储存的参数技术已由例如活动图像专家组(MPEG)及其它引入。一个实例是作为信道导向方法的MPEG环场(MPS)[MPS、BCC],或作为对象导向的方法的MPEG空间音频对象编码(SAOC)[JSC、SAOC、SAOC1、SAOC2]。另一对象导向的方法称为“告知源分离”[ISS1、ISS2、ISS3、ISS4、ISS5、ISS6]。这些技术的目的是基于信道/对象的降混及描述所传输/储存的音频场景和/或音频场景中的音频源对象的额外的侧信息,来重构所期望的输出音频场景或所期望的音频源对象。
这种***中的信道/对象相关的侧信息的估计及应用是以时间-频率选择性的方式来完成的。因此,这种***采用时间-频率转换,例如离散傅立叶变换(DFT)、短时傅立叶变换(STFT)或像正交镜相滤波器(QMF)组的滤波器组等。使用MPEGSAOC之实例,在图1中描绘此类***之基本原理。
在STFT的情况下,时间维度是通过时间块编号来表示的,且频谱维度是通过频谱系数(“频格”)编号来捕获的。在QMF的情况下,时间维度是通过时隙编号来表示的,且频谱维度是通过子频带编号来捕获的。若QMF的频谱分辨率通过第二滤波器级的后续应用而被改进,则整个滤波器组称为混合式QMF,且精细分辨率子频带称为混合式子频带。
如以上已提及,在SAOC中,一般的处理是以时间-频率选择性的方式被执行的且可以在每一频带内如下描述:
·利用由元素d1,1…dN,P组成的降混矩阵作为编码器处理的一部分而将N个输入音频对象信号s1…sN降混至P个信道x1…xP。另外,编码器提取描述输入音频对象的特性的侧信息(侧信息估计器(SIE)模块)。对于MPEGSAOC,对象功率关于彼此的关系是这种侧信息的最基本的形式。
·传输/储存降混信号及侧信息。为此,可例如利用诸如MPEG-1/2层II或III(aka.mp3)、MPEG-2/4高级音频编码(AAC)等这样的熟知的感知音频编码器,来压缩降混音频信号。
·在接收端上,解码器在概念上试图利用所传输的侧信息来从(解码的)降混信号中恢复原始对象信号(“对象分离”)。然后利用由图1中的系数r1,1…rN,M描述的渲染矩阵将这些近似的对象信号混合成由M个音频输出信道表示的目标场景。所期望的目标场景在极端情况下可以是出自混合物的仅一个源信号的渲染(源分离情景),但也可以是由所传输对象组成的任何其它任意的声响场景。
以时间-频率为基础的***可利用具有静态时间分辨率及频率分辨率的时间-频率(t/f)转换。选取某一固定的t/f分辨率栅格通常涉及时间分辨率与频率分辨率之间的折衷。
固定的t/f分辨率的效应可以在音频信号混合物中的典型对象信号的实例上得到证明。例如,音调声音的频谱呈现为具有基本频率及若干泛音的调和相关的结构。这种信号的能量集中在某些频率区处。对于这种信号,所利用的t/f表示的高频率分辨率对于从信号混合物中分离窄频带音调频谱区而言是有益的。相反,像鼓声这样的瞬时信号通常具有相异的时间结构:大量的能量仅在短时段内存在,且遍布于大范围的频率上。对于这些信号,所利用的t/f表示的高时间分辨率对于从信号混合物中分离瞬时信号部分而言是有利的。
发明内容
当分别在编码器侧或在解码器侧生成和/或评估对象特定的侧信息时,希望考虑不同类型的音频对象关于其在时间-频率域中的表示的不同需求。
这个期望和/或其他期望是通过用于解码多对象音频信号的音频解码器、通过用于将多个音频对象信号编码成降混信号及侧信息的音频编码器、通过用于解码多对象音频信号的方法、通过用于编码多个音频对象信号的方法或通过对应的计算机程序来解决的,如由独立权利要求所限定的。
根据至少一些实施例,提供用于解码多对象信号的音频解码器。多对象音频信号由降混信号及侧信息组成。侧信息包含用于至少一个时间/频率区中的至少一个音频对象的对象特定的侧信息。侧信息进一步包含指示用于至少一个时间/频率区中的至少一个音频对象的对象特定的侧信息的对象特定的时间/频率分辨率的对象特定的时间/频率分辨率信息。音频解码器包含对象特定的时间/频率分辨率确定器,该对象特定的时间/频率分辨率确定器被配置成根据用于至少一个音频对象的侧信息而确定对象特定的时间/频率分辨率信息。音频解码器进一步包含对象分离器,该对象分离器被配置成根据对象特定的时间/频率分辨率、利用对象特定的侧信息从降混信号中分离至少一个音频对象。
其他实施例提供了用于将多个音频对象编码成降混信号及侧信息的音频编码器。音频编码器包含时间至频率转换器,该时间至频率转换器被配置成利用第一时间/频率分辨率将多个音频对象至少转换成第一多个对应的变换,且利用第二时间/频率分辨率将多个音频对象转换成第二多个对应的变换。音频编码器进一步包含侧信息确定器,该侧信息确定器被配置成确定用于第一多个对应的变换的至少一个第一侧信息以及用于第二多个对应的变换的第二侧信息。第一侧信息及第二侧信息指示多个音频对象在时间/频率区中彼此分别在第一时间/频率分辨率及第二时间/频率分辨率中的关系。音频编码器还包含侧信息选择器,该侧信息选择器被配置成基于适合性准则而针对多个音频对象中的至少一个音频对象从至少第一侧信息及第二侧信息中选择一个对象特定的侧信息。适合性准则指示了至少第一时间/频率分辨率或第二时间/频率分辨率对于在时间/频率域中表示音频对象的适合性。选定的对象特定的侧信息被***由音频编码器输出的侧信息中。
本发明的其他实施例提供了用于解码由降混信号及侧信息组成的多对象音频信号的方法。侧信息包含用于至少一个时间/频率区中的至少一个音频对象的对象特定的侧信息,且对象特定的时间/频率分辨率信息指示了用于至少一时间/频率区中的至少一个音频对象的对象特定的侧信息的对象特定的时间/频率分辨率。方法包含根据用于至少一个音频对象的侧信息而确定对象特定的时间/频率分辨率信息。方法进一步包含根据对象特定的时间/频率分辨率、利用对象特定的侧信息从降混信号中分离至少一个音频对象。
本发明的其他实施例提供用于将多个音频对象编码成降混信号及侧信息的方法。方法包含利用第一时间/频率分辨率将多个音频对象至少转换成第一多个对应的变换,且利用第二时间/频率分辨率将多个音频对象转换成第二多个对应的变换。方法进一步包含确定用于第一多个对应的变换的至少一个第一侧信息及用于第二多个对应的变换的第二侧信息。第一侧信息及第二侧信息指示了多个音频对象在时间/频率区中、分别在第一时间/频率分辨率及第二时间/频率分辨率中的彼此之间的关系。方法进一步包含基于适合性准则而针对多个音频对象中的至少一个音频对象、从至少第一侧信息及第二侧信息中选择一个对象特定的侧信息。适合性准则指示了至少第一时间/频率分辨率或第二时间/频率分辨率对于在时间/频率域中表示音频对象的适合性。对象特定的侧信息被***由音频编码器输出的侧信息中。
若所利用的t/f表示与要从混合物中分离的音频对象的时间和/或频谱特性不匹配,则音频对象分离的性能通常下降。不充分的性能可导致所分离的对象之间的串音。该串音被感知为前回声或后回声、音色修改,或在人类语音的情况下被感知为所谓的含糊其词。本发明的实施例提供了若干替代性t/f表示,当在编码器侧确定侧信息时或当在解码器侧使用侧信息时,可针对给定音频对象及给定时间/频率区而从上述替代性t/f表示中选择最适合的t/f表示。与现有技术相比,这提供了用于分离音频对象的改进的分离性能及所渲染的输出信号的改进的主观质量。
与用于编码/解码空间音频对象的其它方案相比,侧信息的量可大体上相同或稍微较高。根据本发明的实施例,侧信息是以有效的方式被使用的,这是因为它是以考虑到给定音频对象关于其时间及频谱结构的对象特定的特性的对象特定的方式而被应用的。换言之,侧信息的t/f表示被调整为适合各种音频对象。
附图说明
接着将参照附图描述根据本发明的实施例,其中:
图1示出了SAOC***的概念性概观的示意性框图;
图2示出了单信道音频信号的时间-频谱表示的示意及说明图;
图3示出了SAOC编码器内的侧信息的时间-频率选择性计算的示意性框图;
图4示意性地示出了根据一些实施例的增强型侧信息估计器的原理;
图5示意性地示出了由不同的t/f表示所表示的t/f区R(tR,fR);
图6是根据实施例的侧信息计算和选择模块的示意性框图;
图7示意性地示出了包含增强型(虚拟)对象分离(EOS)模块的SAOC解码;
图8示出了增强型对象分离模块(EOS模块)的示意性框图;
图9是根据实施例的音频解码器的示意性框图;
图10是根据相对简单的实施例的音频解码器的示意性框图,该音频解码器解码H个替代性t/f表示且随后选择对象特定的t/f表示;
图11示意性地示出了以不同的t/f表示所表示的t/f区R(tR,fR)及t/f区内的估计协方差矩阵E的确定的所得结果;
图12示意性地示出了用于为了在缩放的时间/频率表示中执行音频对象分离而使用缩放转换的音频对象分离的概念;
图13示出了用于利用关联的侧信息来解码降混信号的方法的示意性流程图;以及
图14示出了用于将多个音频对象编码成降混信号及关联的侧信息的方法的示意性流程图。
具体实施方式
图1示出了SAOC编码器10及SAOC解码器12的通用布置。SAOC编码器10接收N个对象(即,音频信号s1至sN)作为输入。特别地,编码器10包含降混器16,该降混器接收音频信号s1至sN且将其降混成降混信号18。或者,可在外部提供降混(“艺术降混”),且***估计额外的侧信息以使所提供的降混匹配所计算的降混。在图1中,降混信号显示为P信道信号。因此,任何单信道(P=1)、立体声(P=2)或多信道(P>=2)降混信号配置是可以设想的。
在立体声降混的情况下,降混信号18的信道表示为L0及R0,在单声道降混的情况下,信道简单地表示为L0。为了使得SAOC解码器12能够恢复单独的对象s1至sN,侧信息估计器17向SAOC解码器12提供包括SAOC参数的侧信息。例如,在立体声降混的情况下,SAOC参数包含对象水平差(OLD)、对象间互相关参数(IOC)、降混增益值(DMG)及降混信道水平差(DCLD)。包括SAOC参数的侧信息20连同降混信号18一起形成由SAOC解码器12接收的SAOC输出数据流。
SAOC解码器12包含升混器,该升混器接收降混信号18以及侧信息20,以便恢复音频信号s1及sN且将音频信号s1及sN渲染至任何用户选定的信道组道之上,其中渲染是通过输入至SAOC解码器12中的渲染信息26来规定的。
音频信号s1至sN可在诸如时域或频谱域这样的任何编码域中被输入至编码器10中。在音频信号s1至sN在时域中被馈送至诸如PCM编码这样的编码器10中的情况下,编码器10可使用诸如混合式QMF组这样的滤波器组,以便将信号传送至频谱域中,其中在特定滤波器组分辨率处,在与不同频谱部分相关联的若干子频带中表示音频信号。若音频信号s1至sN已处于编码器10所期望的表示中,则该编码器不必执行频谱分解。
图2示出了在刚刚提及的频谱域中的音频信号。如可看出,音频信号表示为多个子频带信号。每一子频带信号301至30K都包括由小框32指示的子频带值的序列。如可看出的,子频带信号301至30K的子频带值32在时间上彼此同步化,使得对于连贯的滤波器组时隙34中的每一个,每一子频带301至30K都包含确切的一个子频带值32。如由频率轴线36所示,子频带信号301至30K与不同的频率区相关联,且如由时间轴线38所示,滤波器组时隙34在时间上连贯地布置。
如以上所概述,侧信息提取器17根据输入音频信号s1至sN计算SAOC参数。根据当前实现的SAOC标准,编码器10在可相对于如通过滤波器组时隙34及子频带分解所确定的原始时间/频率分辨率而降低了某一量的时间/频率分辨率中执行此计算,其中该某一量在侧信息20内被通知给解码器侧。连贯的滤波器组时隙34组可形成SAOC帧41。SAOC帧41内的参数频带的数目也在侧信息20中传达。因此,时间/频率域被分为在图2中由虚线42例示的时间/频率小区域。在图2中,参数频带以相同方式分布于各种描绘的SAOC帧41中,从而能够获得时间/频率小区域的规则布置。然而,通常,根据对于相应的SAOC帧41中的频谱分辨率的不同需求,参数频带可能随着一个SAOC帧41与后续SAOC帧的不同而不同。此外,SAOC帧41的长度也可以变化。因此,时间/频率小区域的布置可以是不规则的。然而,特定SAOC帧41内的时间/频率小区域通常具有相同的持续时间,且在时间方向上对准,即该SAOC帧41中的所有t/f小区域在给定SAOC帧41的开始处开始且在该SAOC帧41的终点处结束。
侧信息提取器17根据以下公式计算SAOC参数。具体而言,侧信息提取器17将针对每一对象i的对象水平差计算为:
OLD i l , m = Σ n ∈ l Σ k ∈ m x i n , k x i n , k * m a x j ( Σ n ∈ l Σ k ∈ m x j n , k x j n , k * )
其中,求和以及指数n及k分别遍历所有时间指数34及所有频谱指数30,该所有频谱指数30属于对于SAOC帧(或处理时隙)由指数l参考且对于参数频带由指数m参考的某一时间/频率小区域42。由此,音频信号或对象i的所有子频带值xi的能量被相加且被归一化为该小区域在所有对象或音频信号之中的最高能量值。
此外,SAOC侧信息提取器17能够计算多对不同的输入对象s1至sN的对应的时间/频率小区域的相似性测量。虽然SAOC降混器16可计算所有对输入对象s1至sN之间的相似性测量,但是降混器16也可以抑制相似性测测的信令或将相似性测量的计算限制于形成共用立体声信道的左信道或右信道的音频对象s1至sN。在任何情况下,相似性测量称为对象间互相关参数计算如下:
IOC i , j l , m = IOC j , i l , m = Re { Σ n ∈ l Σ k ∈ m x i n , k x j n , k * Σ n ∈ l Σ k ∈ m x i n , k x i n , k * Σ n ∈ l Σ k ∈ m x j n , k x j n , k * }
其中,指数n及k也遍历属于某一时间/频率小区域42的所有子频带值,且i及j表示某一对音频对象s1至sN
降混器16通过使用施加至每一对象s1至sN的增益因子来降混对象s1至sN。即,将增益因子Di施加至对象i,然后将所有如此加权的对象s1至sN相加以获得单声道降混信号,其在图1中在P=1的情况下被例示。在图1中在P=2的情况下示出的双信道降混信号的另一示例性情况下,将增益因子D1,i施加至对象i,然后对所有如此增益放大的对象求和以便获得左降混信道L0,且将增益因子D2,i施加至对象i,然后对如此增益放大的对象求和以便获得右降混信道R0。在多信道降混(P>=2)的情况下应用与以上类似的处理。
该降混规定借助于降混增益DMGi且在立体声降混信号的情况下借助于降混信道水平DCLDi而被通知给解码器侧。
降混增益根据以下公式计算:
DMGi=20log10(Di+ε),(单声道降混),
DMG i = 10 log 10 ( D 1 , i 2 + D 2 , i 2 + ϵ ) , (立体声降混),
其中ε是诸如10-9的小数目。
对于DCLDs,以下公式适用:
DCLD i = 20 log 10 ( D 1 , i D 2 , i + ϵ ) .
在正常模式中,降混器16分别根据以下公式生成降混信号:
对于单声道降混,
( L 0 ) = ( D i ) Obj 1 . . . Obj N
或者对于立体声降混
L 0 R 0 = D 1 , i D 2 , i Obj 1 . . . Obj N .
因此,在以上提及的公式中,参数OLD及IOC是音频信号的函数,且参数DMG及DCLD是D的函数。顺便一提,请注意,D可随时间变化。
因此,在正常模式中,降混器16在无偏好的情况下混合所有对象s1至sN,即等同地处置所有对象s1至sN
在解码器侧处,升混器在一个计算步骤中执行降混程序的逆程序及由矩阵R(在文献中有时也称为A)表示的“渲染信息”26的实现,即,在双信道降混的情况下
Ch 1 . . . Ch M = RED * ( DED * ) - 1 L 0 R 0 ,
其中矩阵E是参数OLD及IOC的函数。矩阵E是音频对象s1至sN的估计协方差矩阵。在当前SAOC实现中,估计协方差矩阵E的计算通常是在SAOC参数的频谱/时间分辨率中执行的,即,对于每一个(l,m)执行,使得估计协方差矩阵可以写为El,m。估计协方差矩阵El,m的大小为NxN,其系数定义为
e i , j l , m = OLD i l , m OLD j l , m IOC i , j l , m .
因此,矩阵El,m
的情况下沿其对角线具有对象水平差,即,对于i=j,这是因为对于i=j,在其对角线以外,估计协方差矩阵E具有分别表示以对象间互相关测量加权的对象i和j的对象水平差的几何平均的矩阵系数。
图3示出了作为SAOC编码器10的一部分的侧信息估计器(SIE)的实例上的实现的一个可能原理。SAOC编码器10包含混合器16及侧信息估计器SIE。SIE在概念上由两个模块组成:一个模块用以计算每个信号的基于短时的t/f表示(例如,STFT或QMF)。所计算的短时t/f表示被馈送至第二模块,即t/f选择性侧信息估计模块(t/f-SIE)。t/f-SIE计算针对每个t/f小区域的侧信息。在当前SAOC实现中,时间/频率转换对于所有音频对象s1至sN为固定且相同的。此外,在对于所有音频对象相同且对于所有音频对象s1至sN具有相同的时间/频率分辨率的SAOC帧上确定SAOC参数,因此在一些情况下不顾对精细时间分辨率的对象特定的需求或在其它情况下对精细频谱分辨率的对象特定的需求。
现在描述当前SAOC概念的一些限制:为了使与侧信息关联的数据量保持相对小,对于跨越对应于音频对象的输入信号的若干时隙及若干(混合式)子频带的时间/频率区,以优选地粗略的方式确定用于不同音频对象的侧信息。如以上所述,若所利用的t/f表示不适于要从每个处理块(即,t/f区或t/f小区域)中的混合信号(降混信号)分离的对象信号的时间或频谱特性,则在解码器侧处所观测的分离性能可能是次最佳的。在相同的时间/频率分块上确定且实施用于音频对象的音调部分及音频对象的瞬时部分的侧信息,而不考虑当前对象特性。这通常导致用于主要音调音频对象部分的侧信息在稍微过于粗略的频谱分辨率处被确定,且也导致用于主要瞬时音频对象部分的侧信息在稍微过于粗略的时间分辨率处被确定。类似地,在解码器中实施这个此非适应性的侧信息导致次最佳的对象分离结果,该次最佳的对象分离结果受到对象串音的损害,该对象串音是以例如频谱粗糙度和/或可听前回声及后回声的形式的。
对于在解码器侧改进分离性能,期望使得解码器或用于解码的对应方法能够单独适配用于根据要分离的期望目标信号的特性来处理解码器输入信号(“侧信息及降混”)的t/f表示。对于每一目标信号(对象),例如,从给定组的可用表示中单独选择最适合的t/f表示以用于处理及分离。解码器由此由侧信息驱动,该侧信息通知要在给定时段及给定频谱区处用于每一单独对象的t/f表示。这个信息是在编码器处被计算的且除在SAOC内已传输的侧信息之外也被传达。
·本发明涉及用以计算由指示了对于每个对象信号而言最适合的单独t/f表示的信息所丰富的侧信息的、在编码器处的增强型侧信息估计器(E-SIE)。
·本发明还涉及在接收端处之的(虚拟)增强型对象分离器(E-OS)。E-OS开拓额外信息,该额外信息通知了随后用于每个对象的估计的实际t/f表示。
E-SIE可包含两个模块。一个模块针对每一对象信号计算直至H个t/f表示,该t/f表示在时间及频谱分辨率上不同且满足以下要求:时间/频率区R(tR,fR)可被定义成使得这些区内的信号内容可由H个t/f表示中的任一者描述。图5就H个t/f表示的实例而示出此概念,且示出了由两个不同t/f表示所表示的t/f区R(tR,fR)。t/f区R(tR,fR)内的信号内容可以以高频谱分辨率但低时间分辨率(t/f表示#l)、以高时间分辨率但低频谱分辨率(t/f表示#2)或以时间分辨率及频谱分辨率的一些其它组合(t/f表示#H)来表示。可能的t/f表示的数目不受限制。
因此,提供了用于将多个音频对象信号si编码成降混信号X及侧信息PSI的音频编码器。音频编码器包含在图4中示意性地示出的增强型侧信息估计器E-SIE。增强型侧信息估计器E-SIE包含时间-频率转换器52,该时间-频率转换器被配置成利用至少一第一时间/频率分辨率TFR1来将多个音频对象信号si至少转换成第一多个对应的转换信号s1,1(t,f)…sN,1(t,f)(第一时间/频率离散化),且利用第二时间/频率分辨率TFR2来将多个音频对象信号si转换成第二多个对应的变换s1,2(t,f)…sN,2(t,f)(第二时间/频率离散化)。在一些实施例中,时间-频率转换器52可被配置成使用多于两个时间/频率分辨率TFR1至TFRH。增强型侧信息估计器(E-SIE)进一步包含侧信息计算和选择模块(SI-CS)54。侧信息计算及选择模块包含(参看图6)侧信息确定器(t/f-SIE)或多个侧信息确定器55-1…55-H,该侧信息确定器或多个侧信息确定器被配置成确定针对第一多个对应的变换s1,1(t,f)…sN,1(t,f)的至少第一侧信息及针对第二多个对应的变换s1,2(t,f)…sN,2(t,f)的第二侧信息,该第一侧信息及第二侧信息指示了多个音频对象信号si在时间/频率区R(tR,fR)中、分别在第一时间/频率分辨率TFR1及第二时间/频率分辨率TFR2中的彼此之间的关系。多个音频信号si彼此之间的关系可以例如涉及不同频带中的音频信号的相关能量和/或音频信号之间的相关度。侧信息计算和选择模块54进一步包含侧信息选择器(SI-AS)56,该侧信息选择器被配置成基于适合性准则、针对每个音频对象信号si而从至少第一侧信息及第二侧信息中选择一个对象特定的侧信息,该适合性准则指示了至少第一时间/频率分辨率或第二时间/频率分辨率对于在时间/频率域中表示音频对象信号si的适合性。对象特定的侧信息然后被***由音频编码器输出的侧信息PSI中。
注意,将t/f平面编组成t/f区R(tR,fR)可以不必是等距地间隔的,如图5所示。编组为区R(tR,fR)可以例如是不均匀的,以在感知上适配。编组也可以符合现有的音频对象编码方案,诸如SAOC,以实现具有增强型对象估计能力的反向兼容编码方案。
t/f分辨率的适配不仅限于指定针对不同对象的不同参数分块,而且(即,通常由在用于SAOC处理的现有技术***中使用的共用时间/频率分辨率所呈现的)SAOC方案所基于的转换也可以被修改以更好地适合于单个目标对象。这例如在需要比由SAOC方案所基于的共用转换所提供的更高的频谱分辨率时尤其有用。在MPEGSAOC的示例性情况下,原始分辨率限于(混合式)QMF组的(共用)分辨率。通过本发明的处理,有可能增加频谱分辨率,但是作为折衷,时间分辨率中的一些在处理中丢失。这是利用施加于第一滤波器组的输出上的所谓的(频谱)缩放转换来完成的。概念上,若干连贯的滤波器组输出样本被处理为时域信号,且第二转换被施加于该输出样本以获得对应数量的频谱样本(具有仅一个时隙)。缩放转换可以基于滤波器组(类似于MPEGSAOC中的混合式滤波器级),或诸如DFT或复杂修正型离散余弦转换(CMDCT)这样的基于块的转换。以类似的方式,也可以以频谱分辨率为代价而增加时间分辨率(时间缩放转换):(混合式)QMF组的若干滤波器的若干并行输出被抽样为频域信号,且第二转换被施加于该并行输出以获得对应数量的时间样本(具有覆盖若干滤波器频谱范围的仅一个大频谱频带)。
对于每个对象,将H个t/f表示连同混合参数一起馈送至第二模块中,即侧信息计算和选择模块SI-CS。SI-CS模块针对对象信号中的每一个而确定在解码器处H个t/f表示中的哪个/哪些应用于哪一t/f区R(tR,fR)以估计对象信号。图6详细示出了SI-CS模块的原理。
对于H个不同的t/f表示中的每一个,计算对应的侧信息(SI)。例如,可以利用SAOC内的t/f-SIE模块。所计算的H个侧信息数据被馈送至侧信息评估和选择模块(SI-AS)。对于每个对象信号,SI-AS模块确定用于每个t/f区的最适当的t/f表示,以用于根据信号混合物而估计对象信号。
除常见的混合场景参数之外,SI-AS对于每个对象信号且对于每个t/f区而输出参考单独选定的t/f表示的侧信息。也可以输出表示对应的t/f表示的额外参数。
介绍了用于选择针对每个对象信号的最适合的t/f表示的两种方法:
1.基于源估计的SI-AS:利用基于产生针对每个对象信号的H个源估计的H个t/f表示所计算的侧信息数据,根据信号混合物而估计每个对象信号。对于每个对象,借助于源估计性能测量,针对H个t/f表示中的每一个评估每个t/f区R(tR,fR)内的估计质量。针对这种测量的简单实例是所达到的信号失真比(SDR)。也可以利用更复杂的感知测量。注意,可以仅基于如在SAOC内定义的参数化侧信息、在没有原始对象信号或信号混合物的知识的情况下有效地实现SDR。以下将描述针对基于SAOC的对象估计的情况的SDR的参数估计的概念。对于每个t/f区R(tR,fR),选择产生最高SDR的t/f表示,以用于侧信息估计和传输,且用于在解码器侧估计对象信号。
2.基于分析H个t/f表示的SI-AS:独立地针对每个对象,确定H个对象信号表示中的每一个的稀疏性。不同而言,评估不同表示中的每一个内的对象信号的能量如何很好地集中于少许值上或遍布于所有值上。选择最稀疏地表示对象信号的t/f表示。可以例如利用表征信号表示的平坦度或尖峰度的测量来评估信号表示的稀疏性。频谱平坦度测量(SFM)、波顶因子(CF)及L0范数是这种测量的实例。根据该实施例,适合性准则可基于给定音频对象的至少第一时间/频率表示及第二时间/频率表示(及可能进一步地时间/频率表示)的稀疏性。侧信息选择器(SI-AS)被配置成在至少第一侧信息及第二侧信息之中选择对应于最稀疏地表示音频对象信号si的时间/频率表示的侧信息。
现在描述针对基于SAOC的对象估计的情况的SDR的参数估计。
符号:
SN个原始音频对象信号的矩阵
XM个混合信号的矩阵
D∈οM×N降混矩阵
X=DS降混场景的计算
SestN个估计的音频对象信号的矩阵
在SAOC内,利用以下公式根据混合信号而在概念上估计对象信号:
Sest=ED*(DED*)-1X其中E=SS*
以DS代替X而给出:
Sest=ED*(DED*)-1DS=TS
估计的对象信号中的原始对象信号部分的能量可计算为:
E e s t = S e s t S e s t * = TSS * T * = TET *
然后可通过以下公式计算估计的信号中的失真项:
Edist=diag(E)-Eest,其中diag(E)表示含有原始对象信号的能量的对角矩阵。然后可通过使diag(E)与Edist相关来计算SDR。对于以相对于某一t/f区R(tR,fR)内的目标源能量的方式估计SDR而言,在区R(tR,fR)中的每个已处理的t/f小区域上执行失真能量计算,且在t/f区R(tR,fR)内的所有t/f小区域上累积目标和失真能量。
因此,适合性准则可基于源估计。在此情况下,侧信息选择器(SI-AS)56可进一步包含源估计器,该源估计器被配置成利用降混信号X及至少第一信息及第二信息来估计多个音频对象信号si中的至少一选定的音频对象信号,其中该第一信息及该第二信息分别对应于第一时间/频率分辨率TFR1及第二时间/频率分辨率TFR2。源估计器因此提供至少一第一估计音频对象信号si,estim1及第二估计音频对象信号si,estim2(可能达H个估计音频对象信号si,estimH)。侧信息选择器56也包含质量评估器,该质量评估器被配置成评估至少第一估计音频对象信号si,estim1及第二估计音频对象信号si, estim2的质量。此外,质量评估器可被配置成基于作为源估计性能测量的信号失真比SDR来评估至少第一估计音频对象信号si,estim1及第二估计音频对象信号si,estim2的质量,信号失真比SDR仅基于侧信息PSI而被确定,特别是估计协方差矩阵Eest
根据一些实施例的音频编码器可进一步包含降混信号处理器,该降混信号处理器被配置成将降混信号X转换成在时间/频率域中被抽样至多个时隙及多个(混合式)子频带中的表示。时间/频率区R(tR,fR)可在降混信号X的至少两个样本上延伸。被指定用于至少一音频对象的对象特定的时间/频率分辨率TFRh可比时间/频率区R(tR,fR)更精细。如以上所提及,关于时间/频率表示的不确定性原理,能够以时间分辨率为代价而增加信号的频谱分辨率,反之亦然。虽然自音频编码器发送至音频解码器的降混信号通常在解码器中通过具有固定的预定时间/频率分辨率的时间-频率转换而被分析,但是音频解码器仍可将预期时间/频率区R(tR,fR)内的已分析降混信号对象单独地转换成另一时间/频率分辨率,该另一时间/频率分辨率更适合于从降混信号中提取给定的音频对象si。降混信号在解码器处的这种转换在本文件中称为缩放转换。缩放转换可以是时间缩放转换或频谱缩放转换。
减少侧信息量
原则上,在本发明的***的简单实施例中,当通过从达H个t/f表示中进行选择来执行解码器侧处的分离时,必须针对每一对象且针对每一t/f区R(tR,fR)来传输用于达H个t/f表示的侧信息。可以在无感知质量的显著损失的情况下急剧地减少这个大量数据。对于每一对象,对于每一t/f区R(tR,fR)传输以下信息是足够的:
·全局地/粗略地描述t/f区R(tR,fR)中的音频对象的信号内容的一个参数,例如,区R(tR,fR)中的对象的平均信号能量。
·音频对象的精细结构的描述。这个描述是从单独的t/f表示中获得的,该单独t/f表示被选择用于最佳地根据混合物而估计音频对象。注意,可通过参数化粗略信号表示与精细结构之间的差异来有效地描述关于精细结构的信息。
·指示用于估计音频对象的t/f表示的信息信号。
在解码器处,可以如以下针对每一t/f区R(tR,fR)所描述的那样执行根据解码器处的混合物而估计所期望的音频对象。
·计算如由用于该音频对象的额外侧信息所指示的单独t/f表示。
·对于分离所期望的音频对象而言,采用对应的(精细结构)对象信号信息。
·对于所有剩余的音频对象,即,必须被抑制的干扰音频对象,若信息可用于所选定的t/f表示,则使用精细结构对象信号信息。否则,使用粗略信号描述。另一选项是针对特定的剩余音频对象而使用可用的精细结构对象信号信息,且通过例如取t/f区R(tR,fR)的子区中的可用精细结构音频对象信号信息的平均来近似所选定的t/f表示:以此方式,t/f分辨率不如所选t/f表示那样精细,但仍比粗略t/f表示更精细。
具有增强型音频对象估计的SAOC解码器
图7示意性地示出了包含增强型(虚拟)对象分离(E-OS)模块的SAOC解码,且形象化关于包含(虚拟)增强型对象分离器(E-OS)的改进的SAOC解码器的这个实例的原理。将信号混合物连同增强型参数侧信息(E-PSI)一起馈送SAOC解码器。E-PSI包含关于音频对象的信息、混合参数及额外信息。这个额外的侧信息被通知给虚拟E-OS,其中t/f表示应当用于每一对象s1…sN且用于每一t/f区R(tR,fR)。对于给定的t/f区R(tR,fR),对象分离器利用在侧信息中针对每一对象所通知的单独t/f表示来估计每个对象。
图8详细示出了E-OS模块之概念。对于给定的t/f区R(tR,fR),用以在P个降混信号上计算的单独t/f表示#h是由t/f表示信令模块110通知给多个t/f转换模块的。(虚拟)对象分离器120在概念上试图基于由额外侧信息指示的t/f转换#h来估计源sn。若针对所指示的t/f转换#h来传输,则(虚拟)对象分离器开拓关于对象的精细结构的信息,且否则使用源信号的所传输的粗略描述。注意,针对每一t/f区R(tR,fR)而计算的不同t/f表示的最大可能数目是H。多个时间/频率转换模块可被配置成执行P个降混信号的以上提及的缩放转换。
图9示出了用于解码包括降混信号X及侧信息PSI的多对象音频信号的音频解码器的示意性框图。侧信息PSI包含用于至少一时间/频率区R(tR,fR)中的至少一音频对象si的对象特定的侧信息PSIi,其中i=1…N。侧信息PSI也包含对象特定的时间/频率分辨率信息TFRIi,其中i=1…NTF。变量NTF指示了提供对象特定的时间/频率分辨率信息所针对的音频对象的数目,且NTF≤N。对象特定的时间/频率分辨率信息TFRIi也可以称为对象特定的时间/频率表示信息。特别地,术语“时间/频率分辨率”不应被理解为一定是指时间/频率域的均匀离散化,而是也可以是指t/f小区域内或跨全频带频谱的所有t/f小区域的非均匀离散化。通常且优选地,时间/频率分辨率被选择成使得给定t/f小区域的两个维度之一具有精细分辨率,且另一维度具有低分辨率,例如,对于瞬时信号,时间维度具有精细分辨率,且频谱分辨率为粗略的,而对于稳态信号,频谱分辨率为精细的,而时间维度具有粗略分辨率。时间/频率分辨率信息TFRIi指示了用于至少一个时间/频率区R(tR,fR)中的至少一个音频对象si的对象特定的侧信息PSIi的对象特定的时间/频率分辨率TFRh(h=1…H)。音频解码器包含对象特定的时间/频率分辨率确定器110,该对象特定的时间/频率分辨率确定器被配置成根据用于至少一个音频对象si的侧信息PSI来确定对象特定的时间/频率分辨率信息TFRIi。音频解码器进一步包含对象分离器120,该对象分离器被配置成根据对象特定的时间/频率分辨率TFRi、利用对象特定的侧信息PSIi而从降混信号X中分离至少一个音频对象si。这意味对象特定的侧信息PSIi具有由对象特定的时间/频率分辨率信息TFRIi指定的对象特定的时间/频率分辨率TFRi,且当由对象分离器120执行对象分离时,这个对象特定的时间/频率分辨率被考虑在内。
对象特定的侧信息(PSIi)可包含用于至少一时间/频率区R(tR,fR)中的至少一音频对象si的精细结构对象特定的侧信息精细结构对象特定的侧信息可以是描述水平(例如,音频对象的信号能量、信号功率、振幅等)是如何在时间/频率区R(tR,fR)内变化的精细结构水平信息。精细结构对象特定的侧信息可以分别是音频对象i和j的对象间的相关信息。此处,精细结构对象特定的侧信息是利用精细结构时隙η及精细结构(混合式)子频带κ、根据对象特定的时间/频率分辨率TFRi而在时间/频率栅格上被限定的。以下将在图12的上下文中描述该主题。目前,可以区分至少三种基本情况:
a)对象特定的时间/频率分辨率TFRi对应于QMF时隙和(混合式)子频带的粒度。在此情况下,η=n且κ=k。
b)对象特定的时间/频率分辨率信息TFRIi指示了必须在时间/频率区R(tR,fR)或其一部分内执行的频谱缩放转换。在此情况下,将每个(混合式)子频带k细分为两个或两个以上精细结构(混合式)子频带κk、κk+1,…,使得频谱分辨率增加。换言之,精细结构(混合式)子频带κk、κk+1,…是原始(混合式)子频带的分数。在交换中,时间分辨率由于时间/频率不确定性而减少。因此,精细结构时隙η包含时隙n、n+1,…中的两个或两个以上。
c)对象特定的时间/频率分辨率信息TFRIi指示了必须在时间/频率区R(tR,fR)或其一部分内执行的时间缩放转换。在此情况下,将每一时隙n细分为两个或两个以上精细结构时隙ηn、ηn+1,…,使得时间分辨率增加。换言之,精细结构时隙ηn、ηn+1,…是时隙n的分数。在交换中,频谱分辨率由于时间/频率不确定性而减少。因此,精细结构(混合式)子频带κ包含(混合式)子频带k、k+1,…中的两个或两个以上。
侧信息可进一步包含粗略的对象特定的侧信息OLDi、IOCi,j和/或针对所考虑时间/频率区R(tR,fR)中的至少一个音频对象si的绝对能量水平NRGi。粗略的对象特定的侧信息OLDi、IOCi,j和/或NRGi在至少一个时间/频率区R(tR,fR)内为常数。
图10示出了音频解码器的示意性框图,该音频解码器被配置成接收和处理针对一个时间/频率小区域R(tR,fR)内的所有H个t/f表示中的所有N个音频对象的侧信息。根据音频对象的数目N及t/f表示的数目H,针对每一t/f区R(tR,fR)所传输或储存的侧信息的量可能变得相当大,使得图10所示的概念更可能用于具有少量音频对象和不同t/f表示的场景。图10所示的实例仍然提供了针对不同音频对象而使用不同对象特定的t/f表示的其中一些原理的顿悟。
简言之,根据图10所示的实施例,针对感兴趣的所有H个t/f表示而确定和传输/储存整组参数(特别是OLD和IOC)。另外,侧信息针对每个音频对象而指示了应在哪一特定t/f表示中提取/合成该音频对象。在音频解码器中,执行所有t/f表示h中的对象重构然后从那些对象特定的小区域或t/f区、在时间和频率上组装最终的音频对象,其中上述小区域或t/f区是利用针对音频对象和感兴趣的小区域在侧信息中通知的特定t/f分辨率而被生成的。
将降混信号X提供给多个对象分离器1201至120H。对象分离器1201至120H中的每一个都被配置成执行针对一个特定t/f表示的分离任务。为此,每个对象分离器1201至120H进一步接收关联于对象分离器的特定t/f表示中的N个不同音频对象s1至sN的侧信息。注意,图10仅示出了多个H个对象分离器以用于说明的目的。在替选实施例中,针对每个t/f区R(tR,fR)的H个分离任务可由更少的对象分离器或甚至由单个对象分离器执行。根据其他可能的实施例,分离任务可以在多用途处理器上或在多核心处理器上作为不同执行线来执行。一些分离任务在计算上比其它分离任务更密集,这取决于对应的t/f表示有多精细。对于每一t/f区R(tR,fR),将N×H个组的侧信息提供给音频解码器。
对象分离器1201至120H提供了N×H个估计的分离音频对象 其可被馈送至可选的t/f分辨率转换器130,以便在该估计的分离音频对象不是共用t/f表示的情况下使其成为共用t/f表示。通常,共用t/f分辨率或表示可以是滤波器组或音频信号的通用处理所基于的转换的真实t/f分辨率,即,在MPEGSAOC的情况下,共用分辨率是QMF时隙和(混合式)子频带的粒度。出于说明的目的,可以假定将估计的音频对象暂时储存在矩阵140中。在实际实现中,之后不再使用的估计的分离音频对象可以被立即丢弃或甚至起初不被计算。矩阵140的每一行包含相同音频对象的H个不同的估计,即,基于H个不同的t/f表示所确定的估计的分离音频对象。以栅格示意性地示出了矩阵140的中间部分。每一矩阵元素对应于估计的分离音频对象中的音频信号。换言之,每个矩阵元素都包含目标t/f区R(tR,fR)内的多个时隙/子频带样本(例如,图11的实例中的7个时隙×3个子频带=21个时隙/子频带样本)。
音频解码器进一步被配置成接收针对不同音频对象且针对当前t/f区R(tR,fR)的对象特定的时间/频率分辨率信息TFRI1至TFRIN。对于每个音频对象i,对象特定的时间/频率分辨率信息TFRIi指示了估计的分离音频对象中的哪个/哪些应当被用来近似地再现原始音频对象。对象特定的时间/频率分辨率信息通常已由编码器确定,且作为侧信息的一部分而被提供给解码器。在图10中,矩阵140中的虚线框及十字指示了已针对每个音频对象所选择的t/f表示。该选择是通过选择器112来完成的,该选择器接收对象特定的时间/频率分辨率信息TFRI1…TFRIN
选择器112输出可被进一步处理的N个选定的音频对象信号。例如,可将N个选定的音频对象信号提供至渲染器150,该渲染器被配置成将选定的音频对象信号渲染成可用的扬声器设置,例如立体声或或5.1扬声器设置。为此,渲染器150可接收预设渲染信息和/或用户渲染信息,该预设渲染信息和/或用户渲染信息描述了应如何将估计的分离音频对象的音频信号分配至可用的扬声器。渲染器150是可选的,且可直接使用和处理在选择器112的输出处的估计的分离音频对象在替选实施例中,可将渲染器150设定为极端设置,诸如“独唱模式”或“伴唱机模式”。在独唱模式中,单个估计的音频对象被选择来被渲染成输出信号。在伴唱机模式中,除一个以外的所有估计的音频对象被选择以被渲染成输出信号。通常,不渲染领唱部分,但渲染伴奏部分。这两个模式在分离性能方面都是高要求的,因为甚至极少的串音也是可感知的。
图11示意性地示出了如何组织针对音频对象i的精细结构侧信息和粗略侧信息。图11的上部示出了根据时隙(在文献中,特别是在音频编码相关的ISO/IEC标准中通常由指数n指示)和(混合式)子频带(在文献中通常由指数k标识)而被抽样的时间/频率域的一部分。时间/频率域也分为不同的时间/频率区(由图11中的粗虚线图解地指示)。通常,一个t/f区包含若干时隙/子频带样本。一个t/f区R(tR,fR)应充当针对其它t/f区的代表性实例。示范性考虑的t/f区R(tR,fR)在七个时隙n至n+6及三个(混合式)子频带k至k+2上延伸,且因此包含21个时隙/子频带样本。现假定两个不同的音频对象i和j。音频对象i可具有t/f区R(tR,fR)内的大体上音调特性,而音频对象j可具有t/f区R(tR,fR)内的大体上瞬时特性。为了更适当地表示音频对象i和j的这些不同的特性,可针对音频对象i在频谱方向上且针对音频对象j在时间方向上进一步细分t/f区R(tR,fR)。注意,t/f区不一定相等或均匀地分布在t/f域中,而是可以在大小、位置及分布方面根据音频对象的需要而被适配。不同而言,在时间/频率域中将降混信号X抽样至多个时隙和多个(混合式)子频带中。时间/频率区R(tR,fR)可在降混信号X的至少两个样本上延伸。对象特定的时间/频率分辨率TFRh比时间/频率区R(tR,fR)更精细。
当在音频编码器侧确定针对音频对象i的侧信息时,音频编码器分析t/f区R(tR,fR)内的音频对象i且确定粗略侧信息和精细结构侧信息。粗略侧信息可以是对象水平差OLDi、对象间协方差IOCi,j和/或绝对能量水平NRGi,如尤其在SAOC标准ISO/IEC23003-2中所定义的。粗略侧信息是基于t/f区被限定的,且在现有SAOC解码器使用这种侧信息时通常提供反向兼容性。针对对象i的精细结构的对象特定的侧信息提供了指示如何在三个频谱子区中分配音频对象i的能量的三个其值。在所说明的情况下,三个频谱子区中的每一个都对应于一个(混合式)子频带,但其它分配也是可能的。甚至可以设想使得一个频谱子区小于另一频谱子区,以便具有在较小频谱子频带中可用的尤其精细的频谱分辨率。以类似方式,可将相同的t/f区R(tR,fR)细分为若干时间子区,以用于更适当地表示t/f区R(tR,fR)中的音频对象j的内容。
精细结构对象特定的侧信息可以描述粗略对象特定的侧信息(例如,OLDi、IOCi,j和/或NRGi)与至少一个音频对象si之间的差异。
图11的下半部示出了估计协方差矩阵E由于针对音频对象i和j的精细结构侧信息而在t/f区R(tR,fR)上变化。在对象分离任务中使用的其它矩阵或值也可以在t/f区R(tR,fR)内经受变化。协方差矩阵E的变化(和其它矩阵或值的可能的变化)必须由对象分离器120考虑在内。在所说明的情况下,针对t/f区R(tR,fR)的每个时隙/子频带样本而确定不同的协方差矩阵E。在音频对象中的仅一个音频对象具有与其(例如,对象i)关联的精细频谱结构的情况下,协方差矩阵E在三个频谱子区中的每一个内是常数(此处:三个(混合式)子频带中的每一个内的常数,但通常其它频谱子区也是可能的)。
对象分离器120可以被配置成根据下式来确定具有至少一音频对象si及至少一另一音频对象sj的元素的估计协方差矩阵En,k
e i , j n , k = fsl i n , k fsl j n , k fsc i , j n , k ,
其中
是针对时隙n和(混合式)子频带k的音频对象i和j的估计协方差;
是针对时隙n和(混合式)子频带k的音频对象i和j的对象特定的侧信息;
是分别针对时隙n和(混合式)子频带k的音频对象i和j的对象间相关信息。
中的至少一个分别根据由对象特定的时间/频率分辨率信息TFRIi、TFRIj指示的针对音频对象i或j的对象特定的时间/频率分辨率TFRh而在时间/频率区R(tR,fR)内变化。对象分离器120可进一步被配置成以上述方式利用估计协方差矩阵En,k而从降混信号X中分离至少一个音频对象si
当例如利用后续缩放转换使频谱分辨率或时间分辨率从基础转换的分辨率增加时,必须采取上述方法的替选方案。在这种情况下,对象协方差矩阵的估计需要在缩放域中完成,且对象重构也在缩放域中发生。重构结果然后可被逆转换回原始转换的域,例如(混合式)QMF,且将小区域交织到最终重构中是在该域中发生的。原则上,计算是以与其在除额外转换之外利用不同参数分块的情况下相同的方式来操作的。
图12示意性地示出了通过频谱轴线中的缩放实例所进行的缩放转换、缩放域中的处理及逆缩放转换。考虑由时隙n和(混合式)子频带k所定义的降混信号的t/f分辨率处的时间/频率区R(tR,fR)中的降混。在图12所示的实例中,时间-频率区R(tR,fR)跨越四个时隙n至n+3及一个子频带k。缩放转换可由信号时间/频率转换单元115执行。缩放转换可以是时间缩放转换或如图12所示是频谱缩放转换。频谱缩放转换可以藉由DFT、STFT、基于QMF的分析滤波器组等来被执行。时间缩放转换可以藉由逆DFT、逆STFT、基于逆QMF的合成滤波器组等来被执行。在图12的实例中,将降混信号X从由时隙n和(混合式)子频带k限定的降混信号时间/频率表示转换成跨越仅一个对象特定的时隙η但跨越四个对象特定的(混合式)子频带κ至κ+3的频谱缩放的t/f表示。因此,时间/频率区R(tR,fR)内的降混信号的频谱分辨率已经以时间分辨率为代价而增加了因子4。
处理由对象分离器121在对象特定的时间/频率分辨率TFRh处执行,该对象分离器也接收对象特定的时间/频率分辨率TFRh中的音频对象中的至少一个的侧信息。在图12的实例中,音频对象i是由时间/频率区R(tR,fR)中的侧信息来定义的,该时间/频率区匹配于对象特定的时间/频率分辨率TFRh,即一个对象特定的时隙η及四个对象特定的(混合式)子频带η至η+3。出于说明的目的,在图12中也示意性地示出了针对两个其他音频对象i+1及i+2的侧信息。音频对象i+1是由具有降混信号的时间/频率分辨率的侧信息来定义的。音频对象i+2是由具有时间/频率区R(tR,fR)中的两个对象特定的时隙及两个对象特定的(混合式)子频带的分辨率的侧信息来定义的。对于音频对象i+1,对象分离器121可考虑时间/频率区R(tR,fR)内的粗略侧信息。对于音频对象i+2,对象分离器121可考虑如由两个不同影线指示的时间/频率区R(tR,fR)内的两个频谱平均值。在一般情况下,若用于对应的音频对象的侧信息在当前由对象分离器121处理的准确的对象特定的时间/频率分辨率TFRh中不可用,但在时间维度及/或频谱维度上比时间/频率区R(tR,fR)更精细地离散化,则可由对象分离器121考虑多个频谱平均值和/或多个时间平均值。以这种方式,对象分离器121受益于比粗略侧信息(例如,OLD、IOC和/或NRG)更精细地离散化的对象特定的侧信息的可用性,即使未必如当前由对象分离器121处理的对象特定的时间/频率分辨率TFRh那样精细。
对象分离器121在对象特定的时间/频率分辨率(缩放t/f分辨率)处输出针对时间/频率区R(tR,fR)的至少一个提取的音频对象至少一个提取的音频对象然后由逆缩放转换器132进行逆缩放转换,以在降混信号的时间/频率分辨率处或在另一期望的时间/频率分辨率处获得R(tR,fR)中的提取的音频对象R(tR,fR)中的提取的音频对象然后与其它时间/频率区中的提取的音频对象组合,以便组装提取的音频对象所述其他时间/频率区例如是R(tR-1,fR-1),R(tR-1,fR)…R(tR+1,fR+1)。
根据对应的实施例,音频解码器可包含降混信号时间/频率转换器115,该降混信号时间/频率转换器被配置成将时间/频率区R(tR,fR)内的降混信号X从降混信号时间/频率分辨率转换成至少一个音频对象si的至少对象特定的时间/频率分辨率TFRh,以获得重新转换的降混信号Xη,κ。降混信号时间/频率分辨率与降混时隙n和降混(混合式)子频带k相关。对象特定的时间/频率分辨率TFRh与对象特定的时隙η及对象特定的(混合式)子频带κ相关。对象特定的时隙η可以相较于降混时间/频率分辨率的降混时隙n更精细或更粗略。同样地,对象特定的(混合式)子频带κ可以相较于降混时间/频率分辨率的降混(混合式)子频带更精细或更粗略。如以上关于时间/频率表示的不确定性原理所解释的,可以以时间分辨率为代价而增加信号的频谱分辨率,反之亦然。音频解码器可进一步包含逆时间/频率转换器132,该逆时间/频率转换器被配置成将时间/频率区R(tR,fR)内的至少一个音频对象si从对象特定的时间/频率分辨率TFRh转换回降混信号时间/频率分辨率。对象分离器121被配置成在对象特定的时间/频率分辨率TFRh处从降混信号X中分离至少一音频对象si
在缩放域中,针对对象特定的时隙η和对象特定的(混合式)子频带κ定义估计协方差矩阵Eη,κ。针对至少一个音频对象si和至少另一个音频对象sj的估计协方差矩阵中的元素的上述公式在缩放域中可表示为:
e i , j η , κ = fsl i η , κ fsl j η , κ fsc i , j η , κ ,
其中
是中的对象特定的时隙η和对象特定的(混合式)子频带κ的音频对象i和j的估计协方差;
是针对对象特定的时隙η和对象特定的(混合式)子频带κ的音频对象i和j的对象特定的侧信息;
是分别针对对象特定的时隙η及对象特定的(混合式)子频带κ的音频对象i和j的对象间相关信息。
如以上所解释的,另一个音频对象j可能并未由具有音频对象i的对象特定的时间/频率分辨率TFRh的侧信息来定义,使得参数在对象特定的时间/频率分辨率TFRh处不可用或不可确定。在此情况下,R(tR,fR)中的音频对象j的粗略侧信息或时间平均值或频谱平均值可被用来近似时间/频率区R(tR,fR)中或其子区中的参数
还是在编码器侧,通常应考虑精细结构侧信息。在根据实施例的音频编码器中,侧信息确定器(t/f-SIE)55-1…55-H被进一步配置成提供精细结构对象特定的侧信息及粗略的对象特定的侧信息OLDi作为第一侧信息和第二侧信息中至少之一的一部分。粗略的对象特定的侧信息OLDi在至少一个时间/频率区R(tR,fR)内为常数。精细结构对象特定的侧信息可描述粗略的对象特定的侧信息OLDi与至少一个音频对象si之间的差异。对象间相关IOCi,j以及其它参数化侧信息可以类似方式处理。
图13示出了用于解码包括降混信号X和侧信息PSI的多对象音频信号的方法的示意性流程图。侧信息包含中的至少一个时间/频率区R(tR,fR)中的至少一个音频对象si的对象特定的侧信息PSIi,及指示了针对至少一个时间/频率区R(tR,fR)中的至少一个音频对象si的对象特定的侧信息的对象特定的时间/频率分辨率TFRh的对象特定之时间/频率分辨率信息TFRIi。该方法包含根据针对至少一个音频对象si的侧信息PSI来确定对象特定的时间/频率分辨率信息TFRIi的步骤1302。该方法还包括根据对象特定的时间/频率分辨率TFRIi、利用对象特定的侧信息而从降混信号X中分离至少一个音频对象si的步骤1304。
图14示出了根据其他实施例的用于将多个音频对象信号si编码成降混信号X及侧信息PSI的方法的示意性流程图。音频编码器包含在步骤1402处将多个音频对象信号si转换成至少第一多个对应的变换s1,1(t,f)…sN,1(t,f)。第一时间/频率分辨率TFR1用以此目的。也利用第二时间/频率离散化TFR2将多个音频对象信号si转换成至少第二多个对应的变换s1,2(t,f)…sN,2(t,f)。在步骤1404处,确定针对第一多个对应的变换s1,1(t,f)…sN,1(t,f)的至少一个第一侧信息及针对于第二多个对应的变换s1,2(t,f)…sN,2(t,f)的第二侧信息。第一侧信息及第二侧信息指示了多个音频对象信号si在时间/频率区R(tR,fR)中、分别在第一时间/频率分辨率TFR1和第二时间/频率分辨率TFR2中的彼此间的关系。该方法还包括基于适合性准则而从至少第一侧信息和第二侧信息中为每个音频对象信号si选择一个对象特定的侧信息的步骤1406,该适合性准则指示了至少第一时间/频率分辨率或第二时间/频率分辨率对于在时间/频率域中表示音频对象信号si的适合性,其中该对象特定的侧信息被***由音频编码器输出的侧信息PSI中。
与SAOC的反向兼容性
所提出的解决方案可能甚至以完全解码器兼容的方式而有利地改进了感知音频质量。通过将t/f区R(tR,fR)定义为与现有技术SAOC内的t/f分组一致,现有标准的SAOC解码器能够解码PSI的反向兼容部分且在粗略t/f分辨率水平上产生对象的重构。如果所增添的信息由增强型SAOC解码器使用,则显著地改进了重构的感知质量。对于每一音频对象而言,该额外的侧信息包含应将单独t/f表示用于估计对象的信息,以及基于选定的t/f表示的对象精细结构的描述。
另外,如果增强型SAOC解码器正在有限资源上运行,则可忽略增强性,且仍可仅需要低计算复杂性而获得基本质量重构。
本发明的处理的应用领域
对象特定的t/f表示的概念及其关联的至解码器的信令可被应用于任何SAOC方案。其可与任何当前和将来的音频格式组合。该概念允许通过针对音频对象的参数化估计的单独t/f分辨率的音频对象自适应选择所实现的SAOC应用中的增强型感知音频对象估计。
尽管已经在设备的背景下描述了一些方面,但清楚的是,这些方面也代表对应方法的描述,其中,块或装置对应于方法步骤或方法步骤的特征。类似地,在方法步骤的背景下描述的方面也代表对应设备的对应块或项目或特征的描述。一些或所有方法步骤可由(或使用)硬件设备来执行,例如微处理器、可编程计算机或电子电路。在一些实施例中,一些单个或多个方法步骤可由这种设备执行。
本发明的编码音频信号可以被储存在数字存储介质上或可在诸如有线传输介质或如因特网的无线传输介质的传输介质上传输。
根据特定的实现需要,本发明的实施例可在以硬件或软件中实现。可以利用其上存储有电子可读控制信号的数字存储介质来执行该实现,例如,软盘、DVD、蓝光、CD、ROM、PROM、EPROM、EEPROM或闪存,该数字存储介质与可编程计算机***协作(或能够与之协作),使得执行相应的方法。因此,数字存储介质是计算机可读的。
根据本发明的一些实施例包含具有电子可读控制信号的数据载体,其能够与可编程计算机***协作,使得执行本文所描述的方法之一。
通常,本发明的实施例可被实现为具有程序代码的计算机程序产品,当该计算机程序产品在计算机上运行时,该程序代码操作用于执行上述方法之一。该程序代码可例如被存储在机器可读载体上。
其它实施例包含储存于机器可读载体上的、用于执行本文所述方法之一的计算机程序。
换言之,本发明方法的实施例因此是具有程序代码的计算机程序,当该计算机程序在计算机上运行时,该程序代码用于执行本文所描述的方法之一。
本发明方法的另一实施例因此是数据载体(或数字储存介质,或计算机可读介质),其上记录有用于执行本文所描述的方法之一的计算机程序。数据载体、数字储存介质或所记录的介质通常为有形和/或非暂时的。
本发明的方法的另一实施例因此是代表用于执行本文所描述的方法之一的计算机程序的数据流或信号序列。该数据流或信号序列可例如被配置成经由数据通信连接而被传送,例如经由因特网。
另一实施例包含一种处理装置,例如计算机或可编程逻辑装置,其被配置成或适于执行本文所描述的方法之一。
另一实施例包含一种计算机,其上安装有用于执行本文所描述的方法之一的计算机程序。
在一些实施例中,一种可编程逻辑装置(例如,现场可编程门阵列)可用以执行本文所描述的方法的功能性中的一些或全部。在一些实施例中,现场可编程门阵列可与微处理器协作,以便执行本文所描述的方法之一。通常,该方法优选地由任何硬件设备执行。
上文所述的实施例仅用于说明本发明的原理。将理解,对本文所描述的的布置和细节所做的修改和变型,对于本领域技术人员是显而易见的。因此,本发明的范围仅由将要授权的权利要求的范围所限制,而不由通过对本文中的实施例的描述和解释而呈现的特定细节所限制。
参考文献:
[MPS]ISO/IEC23003-1:2007,MPEG-D(MPEG音频技术),第1部分:MPEGSurround,2007。
[BCC]C.Faller及F.Baumgarte,“BinauralCueCoding-PartII:Schemesandapplica-tions”,IEEETrans.onSpeechandAudioProc.,第11卷,第6期,2003年11月
[JSC]C.Faller,“ParametricJoint-CodingofAudioSources”,120thAESConvention,巴黎,2006
[SAOC1]J.Herre、S.Disch、J.Hilpert、O.Hellmuth:“FromSACToSAOC–Re-centDevelopmentsinParametricCodingofSpatialAudio”,22ndRegionalUKAESConference,英国剑桥,2007年4月
[SAOC2]J.B.Resch、C.Falch、O.Hellmuth、J.Hilpert、A.Holzer、L.Terentiev、J.Breebaart、J.Koppens、E.Schuijers及W.Oomen:“SpatialAudioOb-jectCoding(SAOC)-TheUpcomingMPEGStandardonParametricObjectBasedAudioCoding”,l24thAESConvention,阿姆斯特丹,2008
[SAOC]ISO/IEC,“MPEGaudiotechnologies-Part2:SpatialAudioObjectCoding(SAOC)”,ISO/IECJTC1/SC29/WG11(MPEG)InternationalStandard23003-2.
[ISS1]M.Parvaix及L.Girin:“lnformedSourceSeparationofunderdeterminedinstan-taneousStereoMixturesusingSourceIndexEmbedding”,IEEEICASSP,2010
[ISS2]M.Parvaix、L.Girin、J.-M.Brassier:“Awatermarking-basedmethodforin-formedsourceseparationofaudiosignalswithasinglesensor”,IEEETransactionsonAudio,SpeechandLanguageProcessing,2010
[ISS3]A.Liutkus及J.Pinel及R.Badeau及L.Girin以及G.Richard:“Informedsourceseparationthroughspectrogramcodinganddataembedding’,SignalProcessingJournal,2011
[ISS4]A.Ozerov、A.Liutkus、R.Badeau、G.Richard:”Informedsourceseparation:sourcecodingmeetssourceseparation”,IEEEWorkshoponApplicationsofSignalProcessingtoAudioandAcoustics,2011
[ISS5]ShuhuaZhang及LaurentGirin:“AnInformedSourceSeparationSystemforSpeechSignals”,INTERSPEECH,2011
[ISS6]L.Girin及J.Pinel:“InformedAudioSourceSeparationfromCompressedLin-earStereoMixtures”,AES42ndInternationalConference:SemanticAudio,2011

Claims (18)

1.一种用于解码包括降混信号(X)和侧信息(PSI)的多对象音频信号的音频解码器,该侧信息包含针对至少一个时间/频率区(R(tR,fR))中的至少一个音频对象(si)的对象特定的侧信息(PSIi),和对象特定的时间/频率分辨率信息(TFRIi),该对象特定的时间/频率分辨率信息指示了针对所述至少一个时间/频率区(R(tR,fR))中的至少一个音频对象(si)的对象特定的侧信息的对象特定的时间/频率分辨率(TFRh),该音频解码器包括:
对象特定的时间/频率分辨率确定器(110),其被配置成根据针对所述至少一个音频对象(si)的侧信息(PSI)而确定所述对象特定的时间/频率分辨率信息(TFRIi);以及
对象分离器(120),其被配置成根据所述对象特定的时间/频率分辨率(TFRIi),利用所述对象特定的侧信息而从所述降混信号(X)中分离所述至少一个音频对象(si)。
2.根据权利要求1所述的音频解码器,其中,所述对象特定的侧信息是针对所述至少一个时间/频率区(R(tR,fR))中的至少一个音频对象(si)的精细结构对象特定的侧信息且其中,所述侧信息(PSI)进一步包括针对所述至少一个时间/频率区(R(tR,fR))中的至少一个音频对象(si)的粗略的对象特定的侧信息,该粗略的对象特定的侧信息在所述至少一个时间/频率区(R(tR,fR))内为常数。
3.根据权利要求1所述的音频解码器,其中,所述精细结构对象特定的侧信息描述了所述粗略的对象特定的侧信息与所述至少一个音频对象(si)之间的差异。
4.根据前述权利要求中任一项所述的音频解码器,其中,所述降混信号(X)在时间/频率域中被抽样至多个时隙和多个(混合式)子频带中,其中所述时间/频率区(R(tR,fR))在所述降混信号(X)的至少两个样本上延伸,且其中,所述对象特定的时间/频率分辨率(TFRh)在两个维度中的至少一个上比所述时间/频率区(R(tR,fR))更精细。
5.根据前述权利要求中任一项所述的音频解码器,其中,所述对象分离器(120)被配置成根据下式而确定具有所述至少一个音频对象(si)和至少另一音频对象(sj)中的元素的估计协方差矩阵(Eη,κ):
e i , j η , κ = fsl i η , κ fsl j η , κ fsc i , j η , κ ;
其中
是针对精细结构时隙η和精细结构(混合式)子频带κ的音频对象i和j的估计协方差;
是针对精细结构时隙η和精细结构(混合式)子频带κ的所述音频对象i和j的所述对象特定的侧信息;
是分别针对精细结构时隙η和精细结构(混合式)子频带κ的所述音频对象i和j的对象间相关信息;
其中,中的至少一个根据由所述对象特定的时间/频率分辨率信息(TFRIi、TFRIj)所指示的针对所述音频对象i和j的所述对象特定的时间/频率分辨率(TFRh),在所述时间/频率区(R(tR,fR))内变化,且
其中,所述对象分离器(120)被进一步配置成利用所述估计协方差矩阵(Eη,κ)而从所述降混信号(X)中分离所述至少一个音频对象(si)。
6.根据前述权利要求中任一项所述的音频解码器,进一步包括:
降混信号时间/频率转换器,其被配置从将所述时间/频率区(R(tR,fR))内的所述降混信号(X)从降混信号时间/频率分辨率转换成所述至少一个音频对象(si)的至少所述对象特定的时间/频率分辨率(TFRh),以获得重新转换的降混信号(Xη,κ);
逆时间/频率转换器,其被配置成将所述时间/频率区(R(tR,fR))内的所述至少一个音频对象(si)从所述对象特定的时间/频率分辨率(TFRh)在时间/频率上转换回共用的t/f分辨率或所述降混信号的时间/频率分辨率;
其中,所述对象分离器(120)被配置成在所述对象特定的时间/频率分辨率(TFRh)处从所述降混信号(X)中分离所述至少一个音频对象(si)。
7.一种用于将多个音频对象(si)编码成降混信号(X)和侧信息(PSI)的音频编码器,该音频编码器包括:
时间至频率转换器,其被配置成利用第一时间/频率分辨率(TFR1)将所述多个音频对象(si)至少转换成第一多个对应的变换(s1,1(t,f)、…sN,1(t,f)),且利用第二时间/频率分辨率(TFR2)将所述多个音频对象(si)转换成第二多个对应的变换(s1,2(t,f)、…sN,2(t,f));
侧信息确定器(t/f-SIE),其被配置成确定针对所述第一多个对应的变换(s1,1(t,f)…sN,1(t,f))的至少一个第一侧信息,和针对所述第二多个对应的变换((s1,2(t,f)…sN,2(t,f))的第二侧信息,所述第一侧信息和所述第二侧信息指示了所述多个音频对象(si)在时间/频率区(R(tR,fR))中,分别在所述第一时间/频率分辨率(TFR1)和所述第二时间/频率分辨率(TFR2)中的彼此间的关系;以及
侧信息选择器(SI-AS),其被配置成基于适合性准则而从至少所述第一侧信息和所述第二侧信息中为所述多个音频对象中的至少一个音频对象(si)选择一个对象特定的侧信息,所述适合性准则指示了至少所述第一时间/频率分辨率或所述第二时间/频率分辨率对于在时间/频率域中表示所述音频对象(si)的适合性,所述对象特定的侧信息被***由所述音频编码器输出的所述侧信息(PSI)中。
8.根据权利要求7所述的音频编码器,其中,所述适合性准则是基于源估计的,且其中,所述侧信息选择器(SI-AS)包括:
源估计器,其被配置成利用所述降混信号(X)和分别对应于所述第一时间/频率分辨率(TFR1)和所述第二时间/频率分辨率(TFR2)的至少所述第一信息和所述第二信息,来估计所述多个音频对象(si)中的至少一个选定的音频对象,该源估计器因此提供至少一个第一估计音频对象(si, estim1)和第二估计音频对象(si,estim2);
质量评估器,其被配置成评估至少所述第一估计音频对象(si,estim1)和所述第二估计音频对象(si,estim2)的质量。
9.根据权利要求8所述的音频编码器,其中,所述质量评估器被配置成基于作为源估计性能测量的信号失真比(SDR)来评估至少所述第一估计音频对象(si,estim1)和所述第二估计音频对象(si,estim2)的质量,所述信号失真比(SDR)是仅基于所述侧信息(PSI)而被确定的。
10.根据权利要求7至9中任一项所述的音频编码器,其中,针对所述多个音频对象之中的所述至少一个音频对象(si)的所述适合性准则是基于根据至少所述第一时间/频率分辨率(TFR1)和所述第二时间/频率分辨率(TFR2)的所述至少一个音频对象的不止一个t/f分辨率表示的稀疏程度的,且其中,所述侧信息选择器(SI-AS)被配置成在至少所述第一侧信息和所述第二侧信息之中选择与所述至少一个音频对象(si)的最稀疏的t/f表示相关联的侧信息。
11.根据权利要求7至10中任一项所述的音频编码器,其中,所述侧信息确定器(t/f-SIE)进一步被配置成提供精细结构对象特定的侧信息和粗略的对象特定的侧信息,以作为所述第一侧信息和所述第二侧信息中的至少一个的一部分,所述粗略的对象特定的侧信息在所述至少一个时间/频率区(R(tR,fR))内为常数。
12.根据权利要求11所述的音频编码器,其中,所述精细结构对象特定的侧信息描述了所述粗略的对象特定的侧信息与所述至少一个音频对象(si)之间的差异。
13.根据权利要求7至12中任一项所述的音频编码器,进一步包括降混信号处理器,该降混信号处理器被配置成将所述降混信号(X)转换成在时间/频率域中被抽样至多个时隙和多个(混合式)子频带中的表示,其中所述时间/频率区(R(tR,fR))在所述降混信号(X)的至少两个样本上延伸,且其中,被指定用于至少一个音频对象的对象特定的时间/频率分辨率(TFRh)在两个维度中的至少一个上比所述时间/频率区(R(tR,fR))更精细。
14.一种用于解码包括降混信号(X)和侧信息(PSI)的多对象音频信号的方法,所述侧信息包括针对至少一个时间/频率区(R(tR,fR))中的至少一个音频对象(si)的对象特定的侧信息(PSIi),和对象特定的时间/频率分辨率信息(TFRIi),该对象特定的时间/频率分辨率信息指示了针对所述至少一个时间/频率区(R(tR,fR))中的至少一个音频对象(si)的所述对象特定的侧信息的对象特定的时间/频率分辨率(TFRh),该方法包括:
根据针对所述至少一音频对象(si)的所述侧信息(PSI)而确定所述对象特定的时间/频率分辨率信息(TFRIi);以及
根据所述对象特定的时间/频率分辨率(TFRIi),利用所述对象特定的侧信息而从所述降混信号(X)中分离所述至少一个音频对象(si)。
15.一种用于将多个音频对象(si)编码成降混信号(X)和侧信息(PSI)的方法,该方法包括:
利用第一时间/频率分辨率(TFR1)而将所述多个音频对象(si)至少转换成第一多个对应的变换(s1,1(t,f)…sN,1(t,f)),且利用第二时间/频率分辨率(TFR2)而将所述多个音频对象(si)转换成第二多个对应的变换((s1,2(t,f)…sN,2(t,f));
确定针对所述第一多个对应的变换(s1,1(t,f)…sN,1(t,f))的至少一个第一侧信息和针对所述第二多个对应的变换(s1,2(t,f)…sN,2(t,f))的第二侧信息,所述第一侧信息和所述第二侧信息指示了所述多个音频对象(si)在时间/频率区(R(tR,fR))中,分别在所述第一时间/频率分辨率(TFR1)和所述第二时间/频率分辨率(TFR2)中的彼此间的关系;以及
基于适合性准则而从至少所述第一侧信息和所述第二侧信息中为所述多个音频对象中的至少一个音频对象(si)选择对象特定的侧信息,所述适合性准则指示了至少所述第一时间/频率分辨率或所述第二时间/频率分辨率对于在时间/频率域中表示所述音频对象(si)的适合性,所述对象特定的侧信息被***由所述音频编码器输出的所述侧信息(PSI)中。
16.一种用于解码包括降混信号(X)和侧信息(PSI)的多对象音频信号的音频解码器,所述侧信息包括针对至少一个时间/频率区(R(tR,fR))中的至少一个音频对象(si)的对象特定的侧信息(PSIi),和对象特定之时间/频率分辨率信息(TFRIi),该对象特定的时间/频率分辨率信息指示了针对所述至少一个时间/频率区(R(tR,fR))中的所述至少一个音频对象(si)的所述对象特定的侧信息的对象特定的时间/频率分辨率(TFRh),所述音频解码器包括:
对象特定的时间/频率分辨率确定器(110),其被配置成根据针对所述至少一个音频对象(si)的所述侧信息(PSI)而确定所述对象特定的时间/频率分辨率信息(TFRIi);以及
对象分离器(120),其被配置成根据所述对象特定的时间/频率分辨率(TFRIi),利用所述对象特定的侧信息而从所述降混信号(X)中分离所述至少一个音频对象(si),其中针对所述降混信号内的至少另一音频对象(sj)的对象特定的侧信息具有不同的对象特定的时间/频率分辨率(TFR)。
17.一种用于解码包括降混信号(X)和侧信息(PSI)的多对象音频信号的方法,所述侧信息包括针对至少一个时间/频率区(R(tR,fR))中的至少一个音频对象(si)的对象特定的侧信息(PSIi),和对象特定的时间/频率分辨率信息(TFRIi),该对象特定的时间/频率分辨率信息指示了针对所述至少一个时间/频率区(R(tR,fR))中的所述至少一个音频对象(si)的所述对象特定的侧信息的对象特定的时间/频率分辨率(TFRh),该方法包括:
根据针对所述至少一个音频对象(si)的所述侧信息(PSI)而确定所述对象特定的时间/频率分辨率信息(TFRIi);以及
根据所述对象特定的时间/频率分辨率(TFRIi),利用所述对象特定的侧信息而从所述降混信号(X)中分离所述至少一个音频对象(si),其中针对所述降混信号内的至少另一音频对象(sj)的对象特定的侧信息具有不同的对象特定的时间/频率分辨率(TFR)。
18.一种计算机程序,当该计算机程序在一计算机上运行时,用于执行根据权利要求14、15或17的方法。
CN201480027540.7A 2013-05-13 2014-05-09 解码器、编码器、解码方法、编码方法和存储介质 Active CN105378832B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP13167484.8 2013-05-13
EP13167484.8A EP2804176A1 (en) 2013-05-13 2013-05-13 Audio object separation from mixture signal using object-specific time/frequency resolutions
PCT/EP2014/059570 WO2014184115A1 (en) 2013-05-13 2014-05-09 Audio object separation from mixture signal using object-specific time/frequency resolutions

Publications (2)

Publication Number Publication Date
CN105378832A true CN105378832A (zh) 2016-03-02
CN105378832B CN105378832B (zh) 2020-07-07

Family

ID=48444119

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201480027540.7A Active CN105378832B (zh) 2013-05-13 2014-05-09 解码器、编码器、解码方法、编码方法和存储介质

Country Status (17)

Country Link
US (2) US10089990B2 (zh)
EP (2) EP2804176A1 (zh)
JP (1) JP6289613B2 (zh)
KR (1) KR101785187B1 (zh)
CN (1) CN105378832B (zh)
AR (1) AR096257A1 (zh)
AU (2) AU2014267408B2 (zh)
BR (1) BR112015028121B1 (zh)
CA (1) CA2910506C (zh)
HK (1) HK1222253A1 (zh)
MX (1) MX353859B (zh)
MY (1) MY176556A (zh)
RU (1) RU2646375C2 (zh)
SG (1) SG11201509327XA (zh)
TW (1) TWI566237B (zh)
WO (1) WO2014184115A1 (zh)
ZA (1) ZA201509007B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2804176A1 (en) * 2013-05-13 2014-11-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio object separation from mixture signal using object-specific time/frequency resolutions
US9812150B2 (en) 2013-08-28 2017-11-07 Accusonus, Inc. Methods and systems for improved signal decomposition
US10468036B2 (en) 2014-04-30 2019-11-05 Accusonus, Inc. Methods and systems for processing and mixing signals using signal decomposition
FR3041465B1 (fr) * 2015-09-17 2017-11-17 Univ Bordeaux Procede et dispositif de formation d'un signal mixe audio, procede et dispositif de separation, et signal correspondant
EP3293733A1 (en) * 2016-09-09 2018-03-14 Thomson Licensing Method for encoding signals, method for separating signals in a mixture, corresponding computer program products, devices and bitstream
CN108009182B (zh) * 2016-10-28 2020-03-10 京东方科技集团股份有限公司 一种信息提取方法和装置
JP6811312B2 (ja) * 2017-05-01 2021-01-13 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 符号化装置及び符号化方法
WO2019105575A1 (en) * 2017-12-01 2019-06-06 Nokia Technologies Oy Determination of spatial audio parameter encoding and associated decoding
KR20220025107A (ko) 2019-06-14 2022-03-03 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 매개변수 인코딩 및 디코딩
BR112022000806A2 (pt) * 2019-08-01 2022-03-08 Dolby Laboratories Licensing Corp Sistemas e métodos para atenuação de covariância
EP4032086A4 (en) * 2019-09-17 2023-05-10 Nokia Technologies Oy SPATIAL AUDIO PARAMETERS CODING AND ASSOCIATED DECODING
AU2021359779A1 (en) * 2020-10-13 2023-06-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding a plurality of audio objects and apparatus and method for decoding using two or more relevant audio objects

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2015293A1 (en) * 2007-06-14 2009-01-14 Deutsche Thomson OHG Method and apparatus for encoding and decoding an audio signal using adaptively switched temporal resolution in the spectral domain
CN101529501A (zh) * 2006-10-16 2009-09-09 杜比瑞典公司 多声道下混对象编码的增强编码和参数表示
CN101821799A (zh) * 2007-10-17 2010-09-01 弗劳恩霍夫应用研究促进协会 使用上混合的音频编码
CN102171754A (zh) * 2009-07-31 2011-08-31 松下电器产业株式会社 编码装置以及解码装置
CN102177426A (zh) * 2008-10-08 2011-09-07 弗兰霍菲尔运输应用研究公司 多分辨率切换音频编码/解码方案

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007506986A (ja) * 2003-09-17 2007-03-22 北京阜国数字技術有限公司 マルチ解像度ベクトル量子化のオーディオcodec方法及びその装置
US7809579B2 (en) * 2003-12-19 2010-10-05 Telefonaktiebolaget Lm Ericsson (Publ) Fidelity-optimized variable frame length encoding
RU2396608C2 (ru) * 2004-04-05 2010-08-10 Конинклейке Филипс Электроникс Н.В. Способ, устройство, кодирующее устройство, декодирующее устройство и аудиосистема
WO2006003891A1 (ja) * 2004-07-02 2006-01-12 Matsushita Electric Industrial Co., Ltd. 音声信号復号化装置及び音声信号符号化装置
RU2376656C1 (ru) * 2005-08-30 2009-12-20 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способ кодирования и декодирования аудиосигнала и устройство для его осуществления
BRPI0715312B1 (pt) * 2006-10-16 2021-05-04 Koninklijke Philips Electrnics N. V. Aparelhagem e método para transformação de parâmetros multicanais
DE102007040117A1 (de) * 2007-08-24 2009-02-26 Robert Bosch Gmbh Verfahren und Motorsteuereinheit zur Aussetzerkennung bei einem Teilmotorbetrieb
EP3273442B1 (en) * 2008-03-20 2021-10-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for synthesizing a parameterized representation of an audio signal
EP2175670A1 (en) * 2008-10-07 2010-04-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Binaural rendering of a multi-channel audio signal
MX2011011399A (es) * 2008-10-17 2012-06-27 Univ Friedrich Alexander Er Aparato para suministrar uno o más parámetros ajustados para un suministro de una representación de señal de mezcla ascendente sobre la base de una representación de señal de mezcla descendete, decodificador de señal de audio, transcodificador de señal de audio, codificador de señal de audio, flujo de bits de audio, método y programa de computación que utiliza información paramétrica relacionada con el objeto.
CN102460573B (zh) * 2009-06-24 2014-08-20 弗兰霍菲尔运输应用研究公司 音频信号译码器、对音频信号译码的方法
TWI463485B (zh) * 2009-09-29 2014-12-01 Fraunhofer Ges Forschung 音訊信號解碼器或編碼器、用以提供上混信號表示型態或位元串流表示型態之方法、電腦程式及機器可存取媒體
MY154641A (en) * 2009-11-20 2015-07-15 Fraunhofer Ges Forschung Apparatus for providing an upmix signal representation on the basis of the downmix signal representation, apparatus for providing a bitstream representing a multi-channel audio signal, methods, computer programs and bitstream representing a multi-channel audio signal using a linear cimbination parameter
EP2360681A1 (en) * 2010-01-15 2011-08-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for extracting a direct/ambience signal from a downmix signal and spatial parametric information
TWI557723B (zh) * 2010-02-18 2016-11-11 杜比實驗室特許公司 解碼方法及系統
RU2609097C2 (ru) * 2012-08-10 2017-01-30 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способы для адаптации аудиоинформации при пространственном кодировании аудиообъектов
EP2717261A1 (en) * 2012-10-05 2014-04-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for backward compatible multi-resolution spatial-audio-object-coding
EP2717262A1 (en) * 2012-10-05 2014-04-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for signal-dependent zoom-transform in spatial audio object coding
EP2757559A1 (en) * 2013-01-22 2014-07-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for spatial audio object coding employing hidden objects for signal mixture manipulation
EP2804176A1 (en) 2013-05-13 2014-11-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio object separation from mixture signal using object-specific time/frequency resolutions

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101529501A (zh) * 2006-10-16 2009-09-09 杜比瑞典公司 多声道下混对象编码的增强编码和参数表示
EP2015293A1 (en) * 2007-06-14 2009-01-14 Deutsche Thomson OHG Method and apparatus for encoding and decoding an audio signal using adaptively switched temporal resolution in the spectral domain
CN101821799A (zh) * 2007-10-17 2010-09-01 弗劳恩霍夫应用研究促进协会 使用上混合的音频编码
CN102177426A (zh) * 2008-10-08 2011-09-07 弗兰霍菲尔运输应用研究公司 多分辨率切换音频编码/解码方案
CN102171754A (zh) * 2009-07-31 2011-08-31 松下电器产业株式会社 编码装置以及解码装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
KYUNGRYEOL KOO ET AL: "Variable Subband Analysis for High Quality Spatial Audio Object Coding", 《2008 10TH INTERNATIONAL CONFERENCE ON ADVANCED COMMUNICATION TECHNOLOGY》 *

Also Published As

Publication number Publication date
AU2014267408A1 (en) 2015-12-03
JP6289613B2 (ja) 2018-03-07
MY176556A (en) 2020-08-16
WO2014184115A1 (en) 2014-11-20
HK1222253A1 (zh) 2017-06-23
US20160064006A1 (en) 2016-03-03
RU2015153218A (ru) 2017-06-14
KR101785187B1 (ko) 2017-10-12
US20190013031A1 (en) 2019-01-10
BR112015028121A2 (pt) 2017-07-25
AU2017208310C1 (en) 2021-09-16
RU2646375C2 (ru) 2018-03-02
AU2017208310B2 (en) 2019-06-27
MX353859B (es) 2018-01-31
AU2014267408B2 (en) 2017-08-10
CA2910506A1 (en) 2014-11-20
JP2016524721A (ja) 2016-08-18
EP2804176A1 (en) 2014-11-19
TWI566237B (zh) 2017-01-11
ZA201509007B (en) 2017-11-29
CN105378832B (zh) 2020-07-07
BR112015028121B1 (pt) 2022-05-31
AU2017208310A1 (en) 2017-10-05
SG11201509327XA (en) 2015-12-30
US10089990B2 (en) 2018-10-02
CA2910506C (en) 2019-10-01
EP2997572A1 (en) 2016-03-23
AR096257A1 (es) 2015-12-16
MX2015015690A (es) 2016-03-04
TW201503112A (zh) 2015-01-16
KR20160009631A (ko) 2016-01-26
EP2997572B1 (en) 2023-01-04

Similar Documents

Publication Publication Date Title
AU2017208310C1 (en) Audio object separation from mixture signal using object-specific time/frequency resolutions
Neuendorf et al. The ISO/MPEG unified speech and audio coding standard—consistent high quality for all content types and at all bit rates
US11074920B2 (en) Encoder, decoder and methods for backward compatible multi-resolution spatial-audio-object-coding
CN105190747A (zh) 用于空间音频对象编码中时间/频率分辨率的反向兼容动态适应的编码器、解码器及方法
CN104885150B (zh) 用于多声道缩混/上混情况的通用空间音频对象编码参数化概念的解码器和方法
RU2604337C2 (ru) Декодер и способ многоэкземплярного пространственного кодирования аудиообъектов с применением параметрической концепции для случаев многоканального понижающего микширования/повышающего микширования
KR20150043404A (ko) 공간적 오디오 객체 코딩에 오디오 정보를 적응시키기 위한 장치 및 방법
KR100891668B1 (ko) 믹스 신호 처리 방법 및 장치

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant