CN101406073B - 用于多声道音频重构中的信号成形的增强的方法 - Google Patents

用于多声道音频重构中的信号成形的增强的方法 Download PDF

Info

Publication number
CN101406073B
CN101406073B CN200680054008XA CN200680054008A CN101406073B CN 101406073 B CN101406073 B CN 101406073B CN 200680054008X A CN200680054008X A CN 200680054008XA CN 200680054008 A CN200680054008 A CN 200680054008A CN 101406073 B CN101406073 B CN 101406073B
Authority
CN
China
Prior art keywords
time
signal component
original channel
signal
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN200680054008XA
Other languages
English (en)
Other versions
CN101406073A (zh
Inventor
萨沙·迪施
卡斯滕·林茨迈尔
于尔根·赫勒
哈拉尔德·波普
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Publication of CN101406073A publication Critical patent/CN101406073A/zh
Application granted granted Critical
Publication of CN101406073B publication Critical patent/CN101406073B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2217/00Details of magnetostrictive, piezoelectric, or electrostrictive transducers covered by H04R15/00 or H04R17/00 but not provided for in any of their subgroups
    • H04R2217/03Parametric transducers where sound is generated or captured by the acoustic demodulation of amplitude modulated ultrasonic waves
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • Algebra (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • General Physics & Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereo-Broadcasting Methods (AREA)

Abstract

由多声道重构器使用至少一个下混声道和使用参数表示来重构的输出信号,可以使用基于该下混声道(38)来产生直射信号分量(42)和散射信号分量(44)的产生器(32)来产生,通过下混多个原始声道来获得所述至少一个下混声道,所述参数表示包括关于原始声道的时间精细结构的附加信息。仅修正(34)直射信号分量(42),使得重构的输出信号的时间精细结构(40)适合所需的时间精细结构,所传送的关于时间精细结构的附加信息指示了所述所需的时间精细结构。

Description

用于多声道音频重构中的信号成形的增强的方法
技术领域
本发明涉及多声道音频重构中的增强的信号成形的概念,尤其是一种新的包络成形方法。
背景技术
近来,音频编码的发展实现了基于立体声(或单声道)信号和对应控制数据来重建音频信号的多声道表示。由于传送了附加控制数据,以控制基于传送的单声道或立体声声道来进行的环绕声道的重建,也称为上混,因此,这些方法与较早的基于矩阵的解决方案,如DolbyPrologic本质上不同。这样的参数多声道音频解码器基于M个传送的声道和附加控制数据来重构N个声道,其中N>M。使用附加控制数据导致了比传送全部N个声道明显更低的数据速率,使得编码非常有效,而同时确保了与M声道设备和N声道设备的兼容性。M声道可以是单声道、立体声声道或5.1声道表示。因此,可以将7.2声道原始信号下混为5.1声道后向兼容信号,空间音频参数使得空间音频解码器能够以较小的附加比特流开销来重现与原始7.2声道紧密相似的版本。
这些参数环绕编码方法通常包括基于时间和频率变化的ILD(互声道音级差)与ICC(互声道相干性)参数的环绕信号的参数化。例如,这些参数描述了原始多声道信号的声道对之间的功率比和相关性。在解码过程中,通过如传送的ILD参数所描述的那样在所有声道对之间分配接收到的下混声道的能量,来获得重建的多声道信号。然而,如ICC参数所描述的,虽然不同声道中的信号很不同,但多声道信号可以在所有声道之间有相等的功率分布,从而提供了非常宽的声音的收听印象,因此,通过将信号与其解相关版本向混合来获得正确的宽度(wideness)。
将信号通过混响器,如全通滤波器,来获得信号的解相关版本,通常也称为湿(wet)或散射(diffuse)信号。解相关的一种简单形式是对信号应用指定的延迟。一般地,现有技术中已知多种不同的混响器,所使用的混响器的确切实现并不重要。
解相关器的输出通常具有非常平坦的时间响应。因此,单位脉冲(dirac)输入信号给出了衰变噪声突发。在混合解相关信号和原始信号时,对于一些瞬时信号类型,如掌声信号,对信号执行一些后处理是很重要的,以避免感知到较大的感知室大小可能导致的附加引入的人工效应和预回声类型的人工效应。
一般地,本发明涉及一种***,该***将多声道音频表示为音频下混数据(例如一或两个声道)和相关参数多声道数据的组合。在这样的方案(例如双耳线索编码(binaural cue coding))中,传送了音频下混数据流,其中可以注意到,下混的最简单形式是简单地加入多声道信号的不同信号。这样的信号(和信号)伴随有参数多声道数据流(辅助信息)。该辅助信息包括,例如以上讨论的用于描述多相对信号的原始声道的空间相互关系的一个或更多参数类型。在某种意义上,对例如具有和信号以及辅助信息的下混数据的发送/接收端而言,参数多声道方案用作预处理器/后处理器。应注意,可以附加地使用任何音频或话音编码器来对下混数据的和信号进行编码。
随着在低带宽载波上传送多声道信号变得越来越普遍,近来已经很好地开发出了这些***,这些***也以“空间音频编码”、“MPEG环绕”而为人所知。
在这些技术的范围内,以下出版物是已知的:
[1]C.Faller and F.Baumgarte,“Efficient representation of spatialaudio using perceptual parametrization,”in Proc.IEEE WASPAA,Mohonk,NY,Oct.2001.
[2]F.Baumgarte and C.Faller,“Estimation of auditory spatial cuesfor binaural cue coding,”in Proc.ICASSP 2002,Orlando,FL,May 2002.
[3]C.Faller and F.Baumgarte,“Binaural cue coding:a novel andefficient representation of spatial audio,”in Proc.ICASSP 2002,Orlando,FL,May 2002.
[4]F.Baumgarte and C.Faller,“Why binaural cue coding is betterthan intensity stereo coding,”in Proc.AES 112th Conv.,Munich,Germany,May 2002.
[5]C.Faller and F.Baumgarte,“Binaural cue coding applied tostereo and multi-channel audio compression,”in Proc.AES 112th Conv.,Munich,Germany,May 2002.
[6]F.Baumgarte and C.Faller,“Design and evaluation of binauralcue coding,”in AES 113th Conv.,Los Angeles,CA,Oct.2002.
[7]C.Faller and F.Baumgarte,“Binaural cue coding applied toaudio compression with flexible rendering,”in Proc.AES 113th Conv.,Los Angeles,CA,Oct.2002.
[8]J.Breebaart,J.Herre,C.Faller,J.
Figure GDA00001640200500031
F.Myburg,S.Disch,H.Purnhagen,G.Hoto,M.Neusinger,K.W.Oomen:“MPEGSpatial Audio Coding/MPEG Surround:Overview and Current Status”,119th AES Convention,New York 2005,Preprint 6599
[9]J.Herre,H.Purnhagen,J.Breebaart,C.Faller,S.Disch,K.
Figure GDA00001640200500033
E.Schuijers,J.Hilpert,F.Myburg,“The Reference ModelArchitecture for MPEG Spatial Audio Coding”,118th AES Convention,Barcelona 2005,Preprint 6477
[10]J.Herre,C.Faller,S.Disch,C.Ertel,J.Hilpert,A.Hoelzer,K.Linzmeier,C.Spenger,P.Kroon:″Spatial Audio Coding:Next-GenerationEfficient and Compatible Coding of Multi-Channel Audio″,117th AESConvention,San Francisco 2004,Preprint 6186
[11]J.Herre,C.Faller,C.Ertel,J.Hilpert,A Hoelzer,C.Spenger:″MP3Surround:Efficient  and Compatible Coding of Multi-ChannelAudio″,116th AES Convention,Berlin 2004,Preprint 6049.
关注经由一个传送的单声道信号来传送两个声道的相关技术被称为“参数立体声”,例如,在以下出版物中更多地描述了该技术:
[12]J.Breebaart,S.van de Par,A.Kohlrausch,E.Schuijers,“High-Quality Parametric Spatial Audio Coding at Low Bitrates”,AES116th Convention,Berlin,Preprint 6072,May 2004
[13]E.Schuijers,J.Breebaart,H.Purnhagen,J.Engdegard,“LowComplexity Parametric Stereo Coding”,AES 116th Convention,Berlin,Preprint 6073,May 2004.
如上所述,在空间音频解码器中,从直射信号部分与散射信号部分来计算多声道上混,该散射信号部分是通过解相关从直射部分中获得的。因此,一般地,散射部分具有与直射部分不同的时间包络。在这里的上下文中,术语“时间包络”描述了信号的能量或幅度随时间的变化。对于具有较宽立体声图像和同时具有瞬时包络结构的输入信号,不同的时间包络导致了上混信号中的人工效应(预回声和后回声、时间“拖尾(smearing)”)。一般地,瞬时信号是在短时间段内剧烈变化的信号。
针对这类信号的最重要示例可能是类似掌声的信号,在直播录音中经常出现该信号。
为了避免将具有不合适的时间包络的散射/解相关声音引入上混信号而导致的人工效应,已经提出了多种技术:
美国申请11/006,492(“Diffuse Sound Shaping for BCC Schemesand The Like”)说明,可以通过对散射信号的时间包络进行成形以匹配直射信号的时间包络,来提高关键瞬时信号的感知质量。
已经由不同的工具,如“时间包络成形”(TES)和“时间处理”(TP),将这种方法引入MPEG环绕技术。由于散射信号的目标时间包络是从传送的下混信号的包络得到的,因此,这种方法不需要传送附加的辅助信息。然而,由此,对所有输出声道,散射声音的时间精细结构都相同。由于从传送的下混信号中直接获得的直射信号部分也具有类似的时间包络,因此,这种方法可以在“明快性(crisp-ness)”方面提供类似掌声的信号的感知质量。然而,由于对所有声道,直射信号和散射信号都具有类似的时间包络,因此,这样的技术可以增强类似掌声的信号的主观质量,但不能改善信号中单次掌声事件的空间空间分布,因为仅当在瞬时信号出现时一个重构声道远比其他声道更为强烈时这才是可能的,而对于共享基本上相同的时间包络的信号是不可能的。
美国申请11/006,482(“individual Channel Shaping for BCCSchemes and The Like”)描述了克服这个问题的一种选择性方法。该方法采用编码器传送的精细颗粒时间宽带辅助信息来执行直射信号与散射信号的精细时间成形。显然,该方法实现了时间精细接收,该结构对每个输出声道是单独的,因此,能够也容纳这样的信号,即对于该信号,瞬时时间仅在输出声道的子集中出现。US 60/726,389(“Methods for Improved Temporal and Spatial Shaping ofMulti-Channel Audio Signals”)描述了该方法的进一步的变型。所讨论的用于增强瞬时编码信号的感知质量的两种方法均包括对散射信号的包络的时间成形,以匹配对应的直射信号的时间包络。
虽然之前描述的现有技术的两种方法均可以在明快性方面增强类似掌声的信号的主观质量,但是,只有后一种方法也可以改善重构信号的时间重分布。由于对干(dry)的与散射的声音的组合进行的时间成形导致了特性失真(或在执行松时间成形时感知到各鼓掌拍击不“紧”,或在对信号应用具有非常高时间分辨率的成形时引入失真),因此,合成的掌声信号的主观质量仍不令人满意。当散射信号是直射信号的简单地延迟拷贝时,这变得很明显。接着,与直射信号混合的散射信号可能具有与直射信号不同的频谱组成。因此,即使缩放包络来匹配直射信号的包络,在重构信号中将出现并非直接源自原始信号的不同频谱成分。当缩放散射信号来匹配直射信号的包络时,在重构过程中突出(使其更响)散射信号部分时,所引入的失真可能变得甚至更糟。
发明内容
本发明的目的是提供一种多声道重构中增强的信号成形的概念。
为了实现该目的,根据本发明的第一方面,提供了一种多声道重构器,使用通过对多个原始声道进行下混而获得的至少一个下混声道,并使用参数表示来产生重构输出声道,所述参数表示包括原始声道的时间结构信息,所述多声道重构器包括:产生器,用于基于所述下混声道来产生重构输出声道的直射信号分量和散射信号分量;直射信号修正器,用于使用所述包括原始声道的时间结构信息的参数表示来修正所述直射信号分量;以及组合器,用于对修正的直射信号分量和所述散射信号分量进行组合来获得所述重构输出声道。
优选地,所述产生器***作为使用所述下混声道的滤波的和/或延迟的部分来产生所述散射信号分量。
优选地,所述直射信号修正器***作为使用原始声道的时间结构信息,所述原始声道的时间结构信息指示了原始声道的有限长度时间部分内所述原始声道中包含的能量。
优选地,所述直射信号修正器***作为使用原始声道的时间结构信息,所述原始声道的时间结构信息指示了原始声道的有限长度时间部分内的所述原始声道的均值幅度。
优选地,所述组合器***作为将所述修正的直射信号分量与所述散射信号分量相加来获得所述重构信号。
优选地,所述多声道重构器***作为使用第一下混声道和第二下混声道,所述第一下混声道具有所述多个原始声道的左侧的信息,所述第二下混声道具有所述多个原始声道的右侧的信息,其中,仅使用由所述第一下混声道产生的直射和散射信号分量来组合左侧的第一重构输出声道,并且使用仅根据所述第二下混信号产生的直射和散射信号分量来组合右侧的第二重构输出声道。
优选地,所述直射信号修正器***作为修正有限长度时间部分的直射信号,所述有限长度时间部分比所述参数表示内的附加参数信息的帧时间部分更短,其中,所述产生器使用所述附加参数信息来产生所述直射和散射信号分量。
优选地,所述产生器***作为使用附加参数信息,所述附加参数信息具有原始声道的能量信息,所述能量信息是相对于所述多个原始声道的其他声道的能量信息。
优选地,所述直射信号修正器***作为使用原始声道的时间结构信息,所述原始声道的时间结构信息将原始声道的时间结构与所述下混声道的时间结构相关。
优选地,所述原始声道的时间结构信息与所述下混声道的时间结构信息具有能量或幅度度量。
优选地,所述直射信号修正器被进一步操作为获得与所述下混声道的时间结构有关的下混时间信息。
优选地,所述直射信号修正器***作为获得下混时间信息,所述下混时间信息指示了有限长度时间间隔内所述下混声道中包含的能量、或所述有限长度时间间隔内的幅度度量。
优选地,所述直射信号修正器被进一步操作为使用所述下混时间信息以及所述原始声道的时间结构信息,来获得重构的下混声道的目标时间结构。
优选地,所述直射信号修正器***作为获得针对所述下混声道中高于频谱下界的频谱部分的下混时间信息。
优选地,所述直射信号修正器被进一步操作为对所述下混声道进行频谱白化,并使用频谱白化的下混声道来获得所述下混时间信息。
优选地,所述直射信号修正器被进一步操作为获得所述下混声道的平滑表示,并从所述下混声道的平滑表示来获得所述下混时间信息。
优选地,所述直射信号修正器***作为通过使用一阶低通滤波器对所述下混声道进行滤波来获得所述平滑表示。
优选地,所述直射信号修正器被进一步操作为获得所述直射信号分量和所述散射信号分量的组合的时间结构信息。
优选地,所述直射信号修正器***作为对所述直射信号和散射信号分量的组合进行频谱白化,并使用频谱白化的直射和散射信号分量来获得所述直射信号和散射信号分量的组合的时间结构信息。
优选地,所述直射信号修正器被进一步操作为获得所述直射和散射信号分量的组合的平滑表示,并从所述直射和散射信号分量的组合的平滑表示来获得所述直射和散射信号分量的组合的时间结构信息。
优选地,所述直射信号修正器***作为通过使用一阶低通滤波器对所述直射和散射信号分量进行滤波来获得所述直射和散射信号分量的组合的平滑表示。
优选地,所述直射信号修正器***作为使用原始声道的时间结构信息,所述原始声道的时间结构信息表示了原始声道的有限长度时间间隔的能量或幅度与所述下混声道的有限长度时间间隔的能量或幅度的比值。
优选地,所述直射信号修正器***作为使用所述下混声道和所述时间结构信息来获得所述重构输出声道的目标时间结构。
根据本发明的第二方面,提供了一种使用通过对多个原始声道进行下混而获得的至少一个下混声道并使用参数表示来产生重构输出声道的方法,所述参数表示包括原始声道的时间结构信息,所述方法包括:基于所述下混声道来产生重构输出声道的直射信号分量和散射信号分量;使用所述包括原始声道的时间结构信息的参数表示来修正所述直射信号分量;以及对修正的直射信号分量和所述散射信号分量进行组合来获得所述重构输出声道。
根据本发明的第三方面,提供了一种多声道音频解码器,使用通过对多个原始声道进行下混而获得的至少一个下混声道,并使用参数表示来产生多声道信号的重构,所述参数表示包括原始声道的时间结构信息,所述多声道音频解码器包括根据本发明第一方面的多声道重构器。
本发明基于以下发现,即对于由多声道重构器使用至少一个下混声道和使用参数表示来重构的输出信号,在使用基于该下混声道来产生直射信号分量和散射信号分量的产生器时,能够以高质量有效地重构该输出信号,通过下混多个原始声道来获得所述至少一个下混声道,所述参数表示包括关于原始声道的时间(精细)结构的附加信息。如果仅修正直射信号分量,使得重构的输出信号的时间精细结构适合所需的时间精细结构,则可以实质上增强质量,所传送的关于时间精细结构的附加信息指示了所述所需的时间精细结构。
换言之,对从下混信号中直接获得的直射信号部分进行缩放,几乎不会在出现瞬时信号的时刻引入附加人工效应。在现有技术中,当对湿信号进行缩放来匹配所需包络时,很可能出现这样的情况,即与直射信号混合的突出的散射信号掩蔽了重构声道中的原始瞬时信号,以下将更多地描述这一点。
本发明通过仅对直射信号分量进行缩放,克服了这个问题,从而以在辅助信息内传送附加参数来描述时间包络为代价,不可能产生附加人工效应。
根据本发明的一个实施例,使用具有白化频谱的直射和散射信号的表示来获得包络缩放参数,即所述表示中,信号的不同频谱部分具有几乎相同的能量。使用白化频谱的优点有两方面。一方面,使用白化频谱作为计算用于缩放直射信号的缩放因子的基础,允许每时隙仅传送一个参数,所述参数包括时间结构信息。由于在多声道音频编码中,通常在许多频带内处理信号,因此,这一特征有助于减少附加需要的辅助信息的数量,因此增加了附加参数传送的比特率。典型地,每个时帧和参数频带仅传送一次其他参数,如ICLD和ICC。由于参数频带的数量可能高于20,主要优点是每个声道仅需传送单个参数。一般地,在多声道编码中,在帧结构中,即在具有若干采样值的实体中处理信号,例如每帧1024个采样值。此外,如上所述,在处理之前,将信号分为若干频谱部分,使得最终,每帧和信号的每频谱部分典型地传送一个ICC和ICLD参数。
仅使用一个参数的第二个优点是从物理上推动的,由于所讨论的瞬时信号天然地具有较宽的频谱。因此,为了正确解决对单个声道内的瞬时信号的能量,最合适的是使用白化频谱来计算能量缩放因子。
在本发明的另一个实施例中,在出现附加残留信号时,仅对高于特定频谱限制的信号频谱部分应用本发明的修正直射信号分量的概念。这是因为残留信号与下混信号一起允许了原始声道的高质量重现。
概况而言,设计本发明的概念,相对于现有技术的方法,提供了增强的时间和空间质量,避免了与这些现有技术相关的问题。因此,传送辅助信息来描述各声道的精细时间包络结构,从而允许在解码器端对上混声道信号进行精细时间/空间成形。本文中描述的本发明方法基于以下发现/考虑:
●类似掌声的信号可以被视为由单一、独特的近处拍掌和源自非常密集的远处拍掌的类似噪声的环境信号(ambience)组成。
●在空间音频解码器中,在时间包络方面,近处拍掌的最佳近似是直射信号。因此,本发明方法仅处理直射信号。
●由于散射信号主要表示了信号的环境部分,因此对精细时间分辨率的任何处理可能引入失真和调制人工效应(即使这样的技术可能实现掌声明快性的一定的主观增强)。出于这些考虑,本发明的处理不涉及散射信号(不经过精细时间成形)。
●然而,散射信号对上混信号的能量平衡有贡献。本发明方法通过由传送的信息计算要单独对直射信号部分应用的修正宽带缩放因子来解决这一点。选择该修正因子,使得在特定界限内,给定的时间间隔中的总能量相同,如同将原始因子应用到该间隔中的信号的直射和散射部分一样。
●使用本发明方法,如果将空间线索的频谱分辨率选择为较低——例如“全带宽”——以确保保持信号中包含的瞬时信号的频谱完整性,则能够获得最佳的主观音频质量。在这种情况下,由于安全地用频谱分辨率交换了时间分辨率,因此所提出的方法不必需增加平均空间辅助信息的比特率。
通过仅随时间放大或衰减(damp)(“成形”)信号的“干”的部分,实现了主观质量的提高,从而:
●通过加强瞬时信号位置处的直射信号部分来增强瞬时信号质量,同时避免源自具有不合适的时间包络的散射信号的附加失真
●通过在瞬时事件的空间起源处相对于散射部分来突出直射部分,并在远处全景位置处相对于散射部分来衰减该直射部分,改善了空间定位。
附图说明
图1示出了多声道编码器和对应解码器的框;
图1b示出了使用解相关信号的信号重构的示意略图;
图2示出了本发明的多声道重构器的示例;
图3示出了本发明的多声道重构器的另一个示例;
图4示出了多声道解码方案中用于标识不同参数频带的参数频带表示的示例;
图5示出了本发明的多声道解码器的示例;以及
图6示出了一个框图,详细示出了本发明的重构输出声道的方法的示例。
具体实施方式
图1根据现有技术的多声道音频数据的编码的示例,以更清楚地说明本发明的概念所解决的问题。
一般地,在编码器端,将原始多声道信号10输入多声道编码器12,多声道编码器12获得辅助信息14,辅助信息14指示了该原始多声道信号的各声道相对于彼此的空间分布。除了产生辅助信息14外,多声道编码器12产生一个或更多和信号16,和信号16是从该原始多声道信号下混得到的。广泛使用的著名配置是所称的5-1-5和5-2-5配置。在5-1-5配置中,编码器从5个输入声道产生一个单声道和信号16,因此,对应的解码器18必须产生重构的多声道信号20的5个重构声道。在5-2-5配置中,编码器从5个输入声道产生两个下混声道,该下混声道中的第一声道典型地持有左侧或右侧的信息,而该下混声道中的第二声道持有另一侧的信息。
例如在图1中所示的,描述原始声道的空间分布的样本参数是之前介绍的参数ICLD和ICC。
可以注意到,在获得辅助信息14的解析中,典型地,在表示原始声道的指定频率间隔的子带域中处理多声道信号10的原始声道的样本。单个频率间隔由K表示。在一些应用中,在处理之前,可以由混合滤波器组对输入声道进行滤波,即可以进一步对参数频带K进行子分割,每个子分割由k表示。
此外,在每个单个参数频带内,以逐帧的方式来对描述原始声道的样本值进行处理,即若干连续的样本形成有限持续时间的帧。典型地,上述BCC参数描述了完整的帧。
以某种方式与本发明的相关的并在现有技术中已知的参数是ICLD参数,该参数相对于原始多声道或信号的其他声道的对应帧来描述声道的单个帧内包含的能量。
通常,在解相关信号的帮助下实现附加声道的产生,产生该附加声道以仅从一个传送的和信号重构多声道信号,该解相关信号是使用解相关器或混响器从该和信号中获得的。对于一种典型的应用,离散采样频率可以是44.100kHz,因此,单个样本表示原始声道的约0.02ms的有限长度的间隔。可以注意到,使用滤波器组,将信号分为许多信号部分,每个信号部分表示原始信号的有限频率间隔。为了补偿描述声道的参数的可能的增加,通常降低时间分辨率,使得滤波器组域内单个样本所描述的有限长度的时间部分可以增加至0.5ms。典型的帧长度可以在10至15ms之间变化。
在不限制本发明的范围的情况下,可以利用不同的滤波器结构和/或延迟或其组合来获得解相关信号。可以进一步注意到,不必需使用整个频谱来获得解相关信号。例如,可以仅使用高于和信号(下混信号)的频谱下界(指定值K)的频谱部分,使用延迟和/或滤波器来获得解相关信号。因此,一般地,解相关信号描述了从下混信号(下混声道)获得的信号,使得例如,在使用该解相关信号和下混声道来获得相关系数时,该相关系数明显偏离1(unity)0.2。
图1b给出了多声道音频编码过程中的下混和重构过程的极其简化的示例,以解释本发明的在重构多声道信号的声道过程中仅缩放直射信号分量的概念的重大益处。对于以下的描述,假设了一些简化。第一个简化是,左和右声道的下混是该声道内的幅度的简单相加。第二个强烈的简化是,假设相关性是整个信号的简单延迟。
在这些假设下,应对左声道21a和右声道21b的帧进行编码。如在所示的窗的x轴所示,在多声道编码中,典型地,对以固定采样频率来采样的样本值执行处理。为了便于解释,在以下的简要概述中忽略这一点。
如上所述,在编码器端,将左和右声道组合(下混)为要向解码器传送的下混声道22。在解码器端,从传送的下混信号中获得解相关信号23,在本示例中,下混声道22是左声道21a和右声道21b之和。如已经解释过的,接着执行从信号帧来重构左声道,从下混声道22和解相关信号23来获得该信号帧。
可以注意到,如ICLD参数所示,在组合之前,每个单个帧经过全局缩放,该ICLD参数将单个声道的各帧内的能量与多声道信号的其他声道的对应帧的能量相关。
如在本实施例中所假设的,在左声道21a和右声道21b内包含相等的能量,在组合之前,使用约0.5的因子来缩放传送的下混声道22和解相关信号23。这就是说,当上混与下混同样简单时,即对两个信号求和时,原始左声道21a的重构是经缩放的下混声道24a与经缩放的解相关信号24b之和。
由于对传送信号求和以及由ICLD参数引起的缩放,瞬时信号的信号对背景的比值可能减小约为2的因子。此外,当将两个信号简单相加时,在经缩放的解相关信号24b中,在延迟的瞬时结构的位置可能引入附加的回声类型的人工效应。
如图1b所示,现有技术试图通过对经缩放的解相关信号24b进行缩放以使其匹配经缩放的传送声道24a的包络来克服该回声问题,如帧24b中的虚线所示。由于该缩放,左声道21a中的原始瞬时信号位置的幅度可能增大。然而,帧24b中缩放位置处的解相关信号的频谱组成与原始瞬时信号的频谱组成不同。因此,即使可以很好地重现信号的总体强度,也会向信号引入可听见的人工效应。
本发明的重大优点在于,本发明仅对重构信号的直射信号分量进行缩放。由于该声道确实具有与原始瞬时信号相对应的信号分量,该原始瞬时信号具有正确的频谱组成和正确的定时,因此,仅对下混声道进行缩放将产生以高精度重构原始瞬时事件的重构信号。这是由于,只有该缩放所突出的信号部分才具有与原始瞬时信号相同的频谱组成。
图2示出了本发明的多声道重构器的示例的框图,以详细描述本发明概念的原理。
图2示出了多声道重构器30,具有产生器32、直射信号修正器和组合器36。产生器32接收从多个原始声道下混而来的下混声道38,以及包括原始声道的时间结构信息的参数表示40。
该产生器基于该下混声道来产生直射信号分量42和散射信号分量44。
直射信号修正器34接收直射信号分量42以及散射信号分量44,此外还接收具有原始声道的时间结构信息的参数表示40。根据本发明,直射信号修正器34使用该参数表示,仅修正直射信号分量42来获得修正的直射信号分量46。
修正的直射信号分量46和直射信号修正器34未改变的散射信号分量44输入组合器36,组合器36对修正的直射信号分量46和散射信号分量44进行组合来获得重构的输出声道50。
通过仅对从传送的下混声道38获得的直射信号分量42进行修正而不进行混响(解相关),可以重构重构输出声道的时间包络,该时间包络与其下原始声道的时间包络紧密匹配,而不像现有技术中那样引入附加人工效应和可听见的失真。
如在图3的描述中将要更详细地描述的,本发明的包络成形恢复了合成输出信号的宽带包络。其包括修正上混过程,接着是每个输出声道的直射信号部分的包络平坦化和重新成形。为了重新成形,使用参数表示的比特流中包含的参数宽带包络辅助信息。根据本发明的一个实施例,该辅助信息包括将传送的下混信号的包络与原始输出声道信号的包络相关的比值(envRatio)。在解码器中,从这些比值获得增益因子,对给定输出声道的帧中的每个时隙上的直射信号应用该增益因子。根据本发明的概念,不改变每个声道的散射声音部分。
图3的框图中所示的本发明的优选实施例是多声道重构器60,修改该多声道重构器60来适合MPEG空间解码器的解码器信号流。
多声道重构器60包括产生器62,如在MPEG编码中所使用的,产生器62使用通过对多个原始声道进行下混而获得的下混声道68以及具有多声道信号的原始声道的空间特性信息的参数表示70,来产生直射信号分量64以及散射信号分量66。多声道重构器60还包括直射信号修正器68,接收直射信号分量64、散射信号分量66、下混信号69和附加的包络辅助信息72作为输入。
该直射信号修正器在其修正器输出73提供了修正的直射信号分量,以下将更详细描述进行修正的方式。
组合器74接收修正的直射信号分量和散射信号分量,以获得重构的输出声道76。
如图所示,在现有的多声道环境中可以容易地实现本发明。在这样的编码方案中,可以根据在参数比特流中附加地传送的一些参数来开启或关闭本发明概念的总体应用。例如,可以引入附加的标志bsTempShapeEnable,当将该标志设为1时,指示需要使用本发明的概念。
此外,可以引入附加的标志,具体地指定需要基于逐声道地应用本发明的概念。因此,可以使用附加的标志,例如成为bsEnvShapeChannel。可以对每个单个声道提供该标志,将该标志设为1时,可以指示使用本发明的概念。
此外还可以注意到,为了便于表示,在图3中仅描述了两个声道的配置。当然,本发明不应局限于仅有两个声道的配置。此外,可以使用任何声道配置来与本发明的概念相结合。例如,可以使用5或7输入声道来与本发明的增强的包络成形相结合。
如图3所示,当在MPEG编码方案中应用本发明的概念,通过设定bsTempShapeEnable等于1,以信号来指示应用本发明的概念时,产生器62根据以下方程,使用混合子带域中的修正的后混合(post-mixing)来分离地合成直射和散射信号分量:
y direct n , k = M n , k w direct n , k , 0 &le; k < K
y diffuse n , k = M n , k w diffuse n , k , 0 &le; k < K
这里以及在以下段落中,向量wm,k描述了子带域的第k个子带的n个混合子带参数的向量。如上述等式所示,在上混中,分离地获得直射和散射信号y。直射输出持有直射信号分量和残留信号,该残留信号在MPEG编码中可能附加地出现的一种信号。散射输出仅提供了散射信号。根据本发明的概念,所引导的包络成形(本发明的包络成形)仅对直射信号分量进行进一步处理。
包络成形过程对不同信号采用包络提取操作。由于这是在对直射信号分量应用本发明的修正之前的必经步骤,因此,在以下段落中更详细地描述直射信号修正器68中进行的包络提取过程。
如上所述,在混合子带域中,使用k来表示子带。也可以将若干子带k组织在参数频带K中。
图4的表格中给出了在以下讨论的本发明的实施例下的子带与参数频带的关联。
首先,对于帧中的每个时隙,使用yn,k来计算特定参数频带K的能量
Figure GDA00001640200500161
yn,k是混合子带输入信号。
E slot &kappa; ( n ) = &Sigma; k ~ y n , k ~ ( y n , k ~ ) * , k ~ = { k | &kappa; &OverBar; ( k ) = &kappa; } , &ForAll; &kappa; start < &kappa; < &kappa; stop
其中κstart=10,κstop=18。
该求和包括根据表A.1归属于一个参数频带K的所有
Figure GDA00001640200500163
随后,对每个参数频带,长期能量平均
Figure GDA00001640200500164
计算为:
E &OverBar; slot &kappa; ( n ) = ( 1 - &alpha; ) E slot &kappa; ( n ) + &alpha; E &OverBar; slot &kappa; ( n - 1 )
&alpha; = exp ( - 64 0.4 &CenterDot; 44100 )
其中,α是与一阶IIR低通(约400ms时间常数)相对应的加权因子,n表示时隙索引。平滑总平均(宽带)能量
Figure GDA00001640200500167
计算为:
E &OverBar; total ( n ) = ( 1 - &alpha; ) E total ( n ) + &alpha; E &OverBar; total ( n - 1 )
其中
E total ( n ) = 1 &kappa; stop - &kappa; start + 1 &Sigma; &kappa; = &kappa; start &kappa; stop E slot &kappa; ( n )
&alpha; = exp ( - 64 0.4 &CenterDot; 44100 )
从上述方程可以看到,在从声道的平滑表示获得增益因子之前,对时间包络进行平滑。一般地,平滑是指从具有递减梯度的原始声道获得平滑的表示。
从上述方程可以看到,随后描述的白化操作是基于时间平滑的总能量估计和子带中的平滑的能量估计,从而确保了最终的包络估计的更好的稳定性。
确定这些能量的比值来获得用于频谱白化操作的权值:
w &kappa; ( n ) = E &OverBar; total ( n ) E &OverBar; slot &kappa; ( n ) + &epsiv;
通过对参数频带的加权成分求和来获得宽带包络估计,所述成分对长期能量平均进行归一化并计算平方根
Env ( n ) = EnvAbs ( n ) Env &OverBar; ( n )
其中
EnvAbs ( n ) = &Sigma; &kappa; = &kappa; start &kappa; stop w &kappa; ( n ) &CenterDot; E slot &kappa; ( n )
Env &OverBar; ( n ) = ( 1 - &beta; ) EnvAbs ( n ) + &beta; Env &OverBar; ( n - 1 )
&beta; = exp ( - 64 0.04 &CenterDot; 44100 )
β是与一阶IIR低通(约40ms时间常数)相对应的加权因子。
使用频谱白化的能量或幅度度量作为计算缩放因子的基础。从上述方程可以看到,频谱白化是指改变频谱,使得音频声道表示的每个频谱带内包含相同的能量或均值幅度。这是最有利的,因为所讨论的瞬时信号具有非常宽的频谱,使得必需使用整个可用频谱的完整信息来计算增益因子,以不致相对于其他非瞬时信号抑制了该瞬时信号。换言之,频谱白化的信号是在其频谱表示的不同频谱带中具有近似相等的能量的信号。
本发明的直射信号修正器对直射信号分量进行修正。如上所述,在传送的残留信号存在的情况下,可以将处理限制在从起始索引开始的一些子带索引中。此外,可以将处理总体限制在阈值索引之上的子带索引中。
包络成形处理由对每个输出声道的直射声音包络的平坦化,接着是向目标包络的重新成形组成。如果在辅助信息中对该声道以信号指示了bsEnvShapeChannel=1,则这产生了对每个输出声道的直射信号应用的增益曲线。
仅对特定混合子子带(sub-subband)k进行该处理:
k>7
在传送的残留信号存在的情况下,将k选择为从所讨论的声道的上混中包含的最高残留频带之上开始。
如在之前的部分所描述的,对于5-1-5配置,通过估计传送的下混的包络EnvDmx来获得目标包络,随后,使用由编码器传送的并重新量化的包络比值envRatioch对其进行缩放。
接着,对每个输出声道,对帧中的所有时隙,通过估计其包络Envch来计算其增益曲线gch(n),并将该增益曲线与目标包络相关。最终,将该增益曲线转换为对上混声道的直射部分独立进行缩放的有效增益曲线:
ratioch(n)=min(4,max(0.25,gch+ampRatioch(n)·(gch-1)))
其中
g ch ( n ) = envRatio ch ( n ) &CenterDot; Env Dmx ( n ) Env ch ( n )
ampRatio ch ( n ) = &Sigma; k | y ch , diffuse n , k | &Sigma; k | y ch , direct n , k | + &epsiv;
ch∈{L,Ls,C,R,Rs}
对于5-2-5配置,从左声道传送的下混信号的包络EnvDmxL获得L和Ls的目标包络,使用右声道传送的下混包络EnvDmxR来获得R和Rs的目标包络。从左和右声道传送的下混信号的包络之和获得中心声道。
对每个输出声道,通过估计其包络EEnvL,Ls,C,R,Rs来计算增益曲线,并将该增益曲线与目标包络相关。在第二步骤中,将该增益曲线转换为对上混声道的直射部分独立进行缩放的有效增益曲线:
ratioch(n)=min(4,max(0.25,gch+ampRatioch(n)·(gch-1)))
其中
ampRatio ch ( n ) = &Sigma; k | y ch , diffuse n , k | &Sigma; k | y ch , direct n , k | + &epsiv; , ch∈{L,Ls,C,R,Rs}
g ch ( n ) = envRatio ch ( n ) &CenterDot; Env DmxL ( n ) Env ch ( n ) , ch∈{L,Ls}
g ch ( n ) = envRatio ch ( n ) &CenterDot; Env DmxR ( n ) Env ch ( n ) , ch∈{R,Rs}
g ch ( n ) = envRatio ch ( n ) &CenterDot; 0.5 ( Env DmxL ( n ) + Env DmxR ( n ) ) Env ch ( n ) , ch∈{C}
对所有声道,如果bsEnvShapeChannel=1,则应用该包络调整增益曲线。
y ~ ch , direct k ( n ) = ratio ch ( n ) &CenterDot; y ch , direct k ( n ) , ch∈{L,Ls,C,R,Rs}
否则,简单地复制直射信号:
y ~ ch , direct k ( n ) = y ch , direct k ( n ) , ch∈{L,Ls,C,R,Rs}
最终,每个单个声道修正的直射信号分量必须根据以下等式,与混合子带域内的对应各声道的散射信号分量组合:
y ch n , k = y ~ ch , direct n , k + y ch , diffuse n , k , ch∈{L,Ls,C,R,Rs}
从以上段落可以看到,本发明的概念教导了在空间音频解码器中提高感知质量和类似掌声的信号的空间分布。通过获得具有精细缩放时间颗粒度的增益因子,以仅对空间上混信号的直射部分进行缩放来完成了这种增强。本质上,从传送的辅助信息和编码器中对直射和散射信号的音级或能量的度量来获得该增益因子。
虽然上述示例具体描述了基于幅度度量的计算,但是,应注意,本发明的方法不限于此,而是也可以计算例如能量度量或适合于描述信号的时间包络的其他量。
上述示例描述了针对5-1-5和5-2-5声道配置的计算。自然,上述原理可以类似地应用到例如7-2-7和7-5-7声道配置上。
图5示出了本发明的多声道音频解码器100的示例,多声道音频解码器100接收由一个原始多声道信号的多个声道下混而得到的下混声道102,以及参数表示104,参数表示104包括该原始多声道信号的原始声道(左前置、右前置、左后置和右后置)的时间结构信息。多声道解码器100具有产生器106,用于对下混声道102下的每个原始声道产生直射信号分量和散射信号分量。多声道解码器100还包括针对要重构的每个声道的4个本发明的直射信号修正器108a至108d,使得该多声道解码器在其输出112输出4个输出声道(左前置、右前置、左后置和右后置)。
虽然使用要重构4个原始声道的示例配置来详细描述了本发明的多声道解码器,但是,本发明的概念可以在具有任意声道数目的多声道音频方案中实现。
图6示出了一个框图,详细描述了本发明的产生重构输出声道的方法。
在产生步骤110,从下混声道获得直射信号分量和散射信号分量。在修正步骤112,使用参数表示的参数来修正直射信号分量,该参数表示具有原始声道的时间结构信息。
在组合步骤114,将修正的直射信号分量与散射信号分量组合来获得重构的输出声道。
根据本发明方法的特定实现需要,可以以硬件或软件实现本发明的方法。可以使用数字存储介质,尤其是具有电子可读控制信号存储在其上的磁盘、CD或DVD来执行该实现方式,所述电子可读控制信号可以与可编程计算机***协作来执行本发明的方法。一般地,因此,本发明也在于具有程序代码的计算机程序产品,所述程序代码存储在机器可读载体上,当计算机程序产品在计算机上运行时,所述程序代码执行本发明的方法。换言之,因此,本发明可以被实现为具有程序代码的计算机程序,当计算机程序在计算机上运行时,所述程序代码执行本发明的方法。
虽然参照本发明的具体实施例具体地说明并描述了上述内容,但是,本领域技术人员应理解,在不背离其精神和范围的情况下,可以做出形式和细节上的各种其他改变。应理解,为了适应不同的实施例,在不背离此处所公开的及由所附权利要求所包括的更宽的概念的情况下,可以做出各种改变。

Claims (25)

1.多声道重构器(30;60),使用通过对多个原始声道进行下混而获得的至少一个下混声道(38;68),并使用参数表示(40;72)来产生重构输出声道(50;76),所述参数表示(40;72)包括原始声道的时间结构信息,所述多声道重构器(30;60)包括:
产生器(32;62),用于基于所述下混声道(38;68)来产生重构输出声道(50;76)的直射信号分量(42;64)和散射信号分量(44;66);
直射信号修正器(34;69),用于使用所述包括原始声道的时间结构信息的参数表示(40;72)来修正所述直射信号分量(42;64);以及
组合器(36;74),用于对修正的直射信号分量(46)和所述散射信号分量(44;66)进行组合来获得所述重构输出声道(50;76)。
2.如权利要求1所述的多声道重构器(30;60),其中,所述产生器(32;62)***作为使用所述下混声道(38;68)的滤波的和/或延迟的部分来产生所述散射信号分量(44;66)。
3.如权利要求1所述的多声道重构器(30;60),其中,所述直射信号修正器(34;69)***作为使用原始声道的时间结构信息,所述原始声道的时间结构信息指示了原始声道的有限长度时间部分内所述原始声道中包含的能量。
4.如权利要求1所述的多声道重构器(30;60),其中,所述直射信号修正器(34;69)***作为使用原始声道的时间结构信息,所述原始声道的时间结构信息指示了原始声道的有限长度时间部分内的所述原始声道的均值幅度。
5.如权利要求1所述的多声道重构器(30;60),其中,所述组合器(36;74)***作为将所述修正的直射信号分量(46)与所述散射信号分量(44;66)相加来获得所述重构信号。
6.如权利要求1所述的多声道重构器,其中,所述多声道重构器***作为使用第一下混声道和第二下混声道(38;68),所述第一下混声道具有所述多个原始声道的左侧的信息,所述第二下混声道(38;68)具有所述多个原始声道的右侧的信息,其中,仅使用由所述第一下混声道产生的直射和散射信号分量来组合左侧的第一重构输出声道(50;76),并且使用仅根据所述第二下混信号产生的直射和散射信号分量来组合右侧的第二重构输出声道。
7.如权利要求1所述的多声道重构器(30;60),其中,所述直射信号修正器(34;68)***作为修正有限长度时间部分的直射信号,所述有限长度时间部分比所述参数表示(40;72)内的附加参数信息的帧时间部分更短,其中,所述产生器(32;62)使用所述附加参数信息来产生所述直射和散射信号分量。
8.如权利要求7所述的多声道重构器(30;60),其中,所述产生器(32;62)***作为使用附加参数信息,所述附加参数信息具有原始声道的能量信息,所述能量信息是相对于所述多个原始声道的其他声道的能量信息。
9.如权利要求1所述的多声道重构器(30;60),其中,所述直射信号修正器(34;68)***作为使用原始声道的时间结构信息,所述原始声道的时间结构信息将原始声道的时间结构与所述下混声道(38;68)的时间结构相关。
10.如权利要求1所述的多声道重构器(30;60),其中,所述原始声道的时间结构信息与所述下混声道的时间结构信息具有能量或幅度度量。
11.如权利要求1所述的多声道重构器(30;60),其中,所述直射信号修正器(34;68)被进一步操作为获得与所述下混声道(38;68)的时间结构有关的下混时间信息。
12.如权利要求11所述的多声道重构器(30;60),其中,所述直射信号修正器(34;68)***作为获得下混时间信息,所述下混时间信息指示了有限长度时间间隔内所述下混声道(38;68)中包含的能量、或所述有限长度时间间隔内的幅度度量。
13.如权利要求11所述的多声道重构器(30;60),其中,所述直射信号修正器(34;68)被进一步操作为使用所述下混时间信息以及所述原始声道的时间结构信息,来获得重构的下混声道(38;68)的目标时间结构。
14.如权利要求11所述的多声道重构器(30;60),其中,所述直射信号修正器(34;68)***作为获得针对所述下混声道(38;68)中高于频谱下界的频谱部分的下混时间信息。
15.如权利要求11所述的多声道重构器(30;60),其中,所述直射信号修正器(34;68)被进一步操作为对所述下混声道(38;68)进行频谱白化,并使用频谱白化的下混声道(38;68)来获得所述下混时间信息。
16.如权利要求11所述的多声道重构器(30;60),其中,所述直射信号修正器(34;68)被进一步操作为获得所述下混声道(38;68)的平滑表示,并从所述下混声道的平滑表示来获得所述下混时间信息。
17.如权利要求16所述的多声道重构器(30;60),其中,所述直射信号修正器(34;68)***作为通过使用一阶低通滤波器对所述下混声道(38;68)进行滤波来获得所述平滑表示。
18.如权利要求1所述的多声道重构器(30;60),其中,所述直射信号修正器(34;68)被进一步操作为获得所述直射信号分量和所述散射信号分量的组合的时间结构信息。
19.如权利要求18所述的多声道重构器(30;60),其中,所述直射信号修正器(34;68)***作为对所述直射信号和散射信号分量的组合进行频谱白化,并使用频谱白化的直射和散射信号分量来获得所述直射信号和散射信号分量的组合的时间结构信息。
20.如权利要求18所述的多声道重构器(30;60),其中,所述直射信号修正器(34;68)被进一步操作为获得所述直射和散射信号分量的组合的平滑表示,并从所述直射和散射信号分量的组合的平滑表示来获得所述直射和散射信号分量的组合的时间结构信息。
21.如权利要求20所述的多声道重构器(30;60),其中,所述直射信号修正器(34;68)***作为通过使用一阶低通滤波器对所述直射和散射信号分量进行滤波来获得所述直射和散射信号分量的组合的平滑表示。
22.如权利要求1所述的多声道重构器(30;60),其中,所述直射信号修正器(34;68)***作为使用原始声道的时间结构信息,所述原始声道的时间结构信息表示了原始声道的有限长度时间间隔的能量或幅度与所述下混声道(38;68)的有限长度时间间隔的能量或幅度的比值。
23.如权利要求1所述的多声道重构器(30;60),其中,所述直射信号修正器(34;68)***作为使用所述下混声道(38;68)和所述时间结构信息来获得所述重构输出声道(50;76)的目标时间结构。
24.使用通过对多个原始声道进行下混而获得的至少一个下混声道(38;68)并使用参数表示(40;72)来产生重构输出声道(50;76)的方法,所述参数表示(40;72)包括原始声道的时间结构信息,所述方法包括:
基于所述下混声道(38;68)来产生重构输出声道(50;76)的直射信号分量和散射信号分量;
使用所述包括原始声道的时间结构信息的参数表示(40;72)来修正所述直射信号分量;以及
对修正的直射信号分量(46)和所述散射信号分量进行组合来获得所述重构输出声道(50;76)。
25.多声道音频解码器,使用通过对多个原始声道进行下混而获得的至少一个下混声道(38;68),并使用参数表示(40;72)来产生多声道信号的重构,所述参数表示(40;72)包括原始声道的时间结构信息,所述多声道音频解码器包括如权利要求1至23所述的多声道重构器。
CN200680054008XA 2006-03-28 2006-05-18 用于多声道音频重构中的信号成形的增强的方法 Active CN101406073B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US78709606P 2006-03-28 2006-03-28
US60/787,096 2006-03-28
PCT/EP2006/004732 WO2007110101A1 (en) 2006-03-28 2006-05-18 Enhanced method for signal shaping in multi-channel audio reconstruction

Publications (2)

Publication Number Publication Date
CN101406073A CN101406073A (zh) 2009-04-08
CN101406073B true CN101406073B (zh) 2013-01-09

Family

ID=36649469

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200680054008XA Active CN101406073B (zh) 2006-03-28 2006-05-18 用于多声道音频重构中的信号成形的增强的方法

Country Status (21)

Country Link
US (1) US8116459B2 (zh)
EP (1) EP1999997B1 (zh)
JP (1) JP5222279B2 (zh)
KR (1) KR101001835B1 (zh)
CN (1) CN101406073B (zh)
AT (1) ATE505912T1 (zh)
AU (1) AU2006340728B2 (zh)
BR (1) BRPI0621499B1 (zh)
CA (1) CA2646961C (zh)
DE (1) DE602006021347D1 (zh)
ES (1) ES2362920T3 (zh)
HK (1) HK1120699A1 (zh)
IL (1) IL194064A (zh)
MX (1) MX2008012324A (zh)
MY (1) MY143234A (zh)
NO (1) NO339914B1 (zh)
PL (1) PL1999997T3 (zh)
RU (1) RU2393646C1 (zh)
TW (1) TWI314024B (zh)
WO (1) WO2007110101A1 (zh)
ZA (1) ZA200809187B (zh)

Families Citing this family (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7983922B2 (en) * 2005-04-15 2011-07-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating multi-channel synthesizer control signal and apparatus and method for multi-channel synthesizing
EP1905002B1 (en) * 2005-05-26 2013-05-22 LG Electronics Inc. Method and apparatus for decoding audio signal
JP4988717B2 (ja) 2005-05-26 2012-08-01 エルジー エレクトロニクス インコーポレイティド オーディオ信号のデコーディング方法及び装置
KR100880642B1 (ko) 2005-08-30 2009-01-30 엘지전자 주식회사 오디오 신호의 디코딩 방법 및 장치
US8577483B2 (en) * 2005-08-30 2013-11-05 Lg Electronics, Inc. Method for decoding an audio signal
US7788107B2 (en) * 2005-08-30 2010-08-31 Lg Electronics Inc. Method for decoding an audio signal
US8208641B2 (en) * 2006-01-19 2012-06-26 Lg Electronics Inc. Method and apparatus for processing a media signal
KR100863479B1 (ko) * 2006-02-07 2008-10-16 엘지전자 주식회사 부호화/복호화 장치 및 방법
MX2008012324A (es) 2006-03-28 2008-10-10 Fraunhofer Ges Zur Foeerderung Metodo mejorado para la modulacion de señales en la reconstruccion de audio multicanal.
US7987096B2 (en) * 2006-09-29 2011-07-26 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
US8571875B2 (en) * 2006-10-18 2013-10-29 Samsung Electronics Co., Ltd. Method, medium, and apparatus encoding and/or decoding multichannel audio signals
FR2911020B1 (fr) * 2006-12-28 2009-05-01 Actimagine Soc Par Actions Sim Procede et dispositif de codage audio
FR2911031B1 (fr) * 2006-12-28 2009-04-10 Actimagine Soc Par Actions Sim Procede et dispositif de codage audio
EP2227804B1 (en) * 2007-12-09 2017-10-25 LG Electronics Inc. A method and an apparatus for processing a signal
US8615316B2 (en) 2008-01-23 2013-12-24 Lg Electronics Inc. Method and an apparatus for processing an audio signal
CN101662688B (zh) * 2008-08-13 2012-10-03 韩国电子通信研究院 音频信号的编码和解码方法及其装置
WO2010028784A1 (en) * 2008-09-11 2010-03-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for providing a set of spatial cues on the basis of a microphone signal and apparatus for providing a two-channel audio signal and a set of spatial cues
US8023660B2 (en) 2008-09-11 2011-09-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus, method and computer program for providing a set of spatial cues on the basis of a microphone signal and apparatus for providing a two-channel audio signal and a set of spatial cues
JP5237463B2 (ja) * 2008-12-11 2013-07-17 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ マルチチャンネルオーディオ信号を生成するための装置
US9225842B2 (en) * 2008-12-22 2015-12-29 Koninklijke Philips N.V. Determining an acoustic coupling between a far-end talker signal and a combined signal
ES2524428T3 (es) * 2009-06-24 2014-12-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decodificador de señales de audio, procedimiento para decodificar una señal de audio y programa de computación que utiliza etapas en cascada de procesamiento de objetos de audio
CN105047206B (zh) 2010-01-06 2018-04-27 Lg电子株式会社 处理音频信号的设备及其方法
EP2360681A1 (en) * 2010-01-15 2011-08-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for extracting a direct/ambience signal from a downmix signal and spatial parametric information
RU2586851C2 (ru) 2010-02-24 2016-06-10 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Устройство для формирования улучшенного сигнала микширования с понижением, способ формирования улучшенного сигнала микширования с понижением и компьютерная программа
EP2369861B1 (en) * 2010-03-25 2016-07-27 Nxp B.V. Multi-channel audio signal processing
KR102033071B1 (ko) * 2010-08-17 2019-10-16 한국전자통신연구원 멀티 채널 오디오 호환 시스템 및 방법
TR201900417T4 (tr) 2010-08-25 2019-02-21 Fraunhofer Ges Forschung Birden fazla kanala haiz olan bir ses sinyalini enkode etmek için bir cihaz.
EP2612321B1 (en) 2010-09-28 2016-01-06 Huawei Technologies Co., Ltd. Device and method for postprocessing decoded multi-channel audio signal or decoded stereo signal
US9078077B2 (en) 2010-10-21 2015-07-07 Bose Corporation Estimation of synthetic audio prototypes with frequency-based input signal decomposition
US8675881B2 (en) * 2010-10-21 2014-03-18 Bose Corporation Estimation of synthetic audio prototypes
KR101227932B1 (ko) * 2011-01-14 2013-01-30 전자부품연구원 다채널 멀티트랙 오디오 시스템 및 오디오 처리 방법
EP2477188A1 (en) * 2011-01-18 2012-07-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoding and decoding of slot positions of events in an audio signal frame
US9311923B2 (en) * 2011-05-19 2016-04-12 Dolby Laboratories Licensing Corporation Adaptive audio processing based on forensic detection of media processing history
CN103620673B (zh) * 2011-06-24 2016-04-27 皇家飞利浦有限公司 用于处理已编码多声道音频信号的音频信号处理器和用于音频信号处理器的方法
KR101842257B1 (ko) * 2011-09-14 2018-05-15 삼성전자주식회사 신호 처리 방법, 그에 따른 엔코딩 장치, 및 그에 따른 디코딩 장치
CA2899134C (en) * 2013-01-29 2019-07-30 Frederik Nagel Decoder for generating a frequency enhanced audio signal, method of decoding, encoder for generating an encoded signal and method of encoding using compact selection side information
US9830917B2 (en) 2013-02-14 2017-11-28 Dolby Laboratories Licensing Corporation Methods for audio signal transient detection and decorrelation control
TWI618050B (zh) 2013-02-14 2018-03-11 杜比實驗室特許公司 用於音訊處理系統中之訊號去相關的方法及設備
TWI618051B (zh) 2013-02-14 2018-03-11 杜比實驗室特許公司 用於利用估計之空間參數的音頻訊號增強的音頻訊號處理方法及裝置
CN104981867B (zh) 2013-02-14 2018-03-30 杜比实验室特许公司 用于控制上混音频信号的通道间相干性的方法
AU2014280256B2 (en) * 2013-06-10 2016-10-27 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for audio signal envelope encoding, processing and decoding by splitting the audio signal envelope employing distribution quantization and coding
AU2014280258B9 (en) 2013-06-10 2017-04-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for audio signal envelope encoding, processing and decoding by modelling a cumulative sum representation employing distribution quantization and coding
EP2830333A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-channel decorrelator, multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a premix of decorrelator input signals
AU2014295207B2 (en) * 2013-07-22 2017-02-02 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Multi-channel audio decoder, multi-channel audio encoder, methods, computer program and encoded audio representation using a decorrelation of rendered audio signals
EP2830046A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding an encoded audio signal to obtain modified output signals
KR101779731B1 (ko) 2013-10-03 2017-09-18 돌비 레버러토리즈 라이쎈싱 코오포레이션 업믹서에서의 적응적 확산 신호 생성
BR112016008817B1 (pt) 2013-10-21 2022-03-22 Dolby International Ab Método para reconstruir um sinal de áudio de n canais, sistema de decodificação de áudio, método para codificar um sinal de áudio de n canais e sistema de codificação de áudio
JP6396452B2 (ja) 2013-10-21 2018-09-26 ドルビー・インターナショナル・アーベー オーディオ・エンコーダおよびデコーダ
JP6035270B2 (ja) * 2014-03-24 2016-11-30 株式会社Nttドコモ 音声復号装置、音声符号化装置、音声復号方法、音声符号化方法、音声復号プログラム、および音声符号化プログラム
EP2980794A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
WO2016050854A1 (en) * 2014-10-02 2016-04-07 Dolby International Ab Decoding method and decoder for dialog enhancement
WO2017140600A1 (en) 2016-02-17 2017-08-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Post-processor, pre-processor, audio encoder, audio decoder and related methods for enhancing transient processing
CN108604454B (zh) * 2016-03-16 2020-12-15 华为技术有限公司 音频信号处理装置和输入音频信号处理方法
JP7257975B2 (ja) 2017-07-03 2023-04-14 ドルビー・インターナショナル・アーベー 密集性の過渡事象の検出及び符号化の複雑さの低減
CN110246508B (zh) * 2019-06-14 2021-08-31 腾讯音乐娱乐科技(深圳)有限公司 一种信号调制方法、装置和存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004097794A2 (en) * 2003-04-30 2004-11-11 Coding Technologies Ab Advanced processing based on a complex-exponential-modulated filterbank and adaptive time signalling methods

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4217276C1 (zh) 1992-05-25 1993-04-08 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung Ev, 8000 Muenchen, De
DE4236989C2 (de) 1992-11-02 1994-11-17 Fraunhofer Ges Forschung Verfahren zur Übertragung und/oder Speicherung digitaler Signale mehrerer Kanäle
US5794180A (en) 1996-04-30 1998-08-11 Texas Instruments Incorporated Signal quantizer wherein average level replaces subframe steady-state levels
SE512719C2 (sv) * 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
DE19747132C2 (de) 1997-10-24 2002-11-28 Fraunhofer Ges Forschung Verfahren und Vorrichtungen zum Codieren von Audiosignalen sowie Verfahren und Vorrichtungen zum Decodieren eines Bitstroms
KR100335609B1 (ko) 1997-11-20 2002-10-04 삼성전자 주식회사 비트율조절이가능한오디오부호화/복호화방법및장치
US7644003B2 (en) 2001-05-04 2010-01-05 Agere Systems Inc. Cue-based audio coding/decoding
US7292901B2 (en) * 2002-06-24 2007-11-06 Agere Systems Inc. Hybrid multi-channel/cue coding/decoding of audio signals
TW569551B (en) 2001-09-25 2004-01-01 Roger Wallace Dressler Method and apparatus for multichannel logic matrix decoding
US7039204B2 (en) * 2002-06-24 2006-05-02 Agere Systems Inc. Equalization for audio mixing
WO2005086139A1 (en) * 2004-03-01 2005-09-15 Dolby Laboratories Licensing Corporation Multichannel audio coding
TWI498882B (zh) * 2004-08-25 2015-09-01 Dolby Lab Licensing Corp 音訊解碼器
SE0402649D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Advanced methods of creating orthogonal signals
SE0402652D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Methods for improved performance of prediction based multi- channel reconstruction
WO2006108543A1 (en) * 2005-04-15 2006-10-19 Coding Technologies Ab Temporal envelope shaping of decorrelated signal
MX2008012324A (es) 2006-03-28 2008-10-10 Fraunhofer Ges Zur Foeerderung Metodo mejorado para la modulacion de señales en la reconstruccion de audio multicanal.

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004097794A2 (en) * 2003-04-30 2004-11-11 Coding Technologies Ab Advanced processing based on a complex-exponential-modulated filterbank and adaptive time signalling methods

Also Published As

Publication number Publication date
NO20084409L (no) 2008-10-21
JP5222279B2 (ja) 2013-06-26
IL194064A (en) 2014-08-31
RU2393646C1 (ru) 2010-06-27
KR101001835B1 (ko) 2010-12-15
HK1120699A1 (en) 2009-04-03
ES2362920T3 (es) 2011-07-15
EP1999997A1 (en) 2008-12-10
CA2646961C (en) 2013-09-03
MX2008012324A (es) 2008-10-10
TWI314024B (en) 2009-08-21
US8116459B2 (en) 2012-02-14
BRPI0621499A2 (pt) 2011-12-13
NO339914B1 (no) 2017-02-13
MY143234A (en) 2011-04-15
CA2646961A1 (en) 2007-10-04
US20070236858A1 (en) 2007-10-11
KR20080107446A (ko) 2008-12-10
DE602006021347D1 (de) 2011-05-26
PL1999997T3 (pl) 2011-09-30
ZA200809187B (en) 2009-11-25
RU2008142565A (ru) 2010-05-10
AU2006340728A1 (en) 2007-10-04
BRPI0621499B1 (pt) 2022-04-12
WO2007110101A1 (en) 2007-10-04
ATE505912T1 (de) 2011-04-15
EP1999997B1 (en) 2011-04-13
JP2009531724A (ja) 2009-09-03
AU2006340728B2 (en) 2010-08-19
TW200738037A (en) 2007-10-01
CN101406073A (zh) 2009-04-08

Similar Documents

Publication Publication Date Title
CN101406073B (zh) 用于多声道音频重构中的信号成形的增强的方法
AU2005324210C1 (en) Compact side information for parametric coding of spatial audio
RU2407226C2 (ru) Генерация пространственных сигналов понижающего микширования из параметрических представлений мультиканальных сигналов
US7961890B2 (en) Multi-channel hierarchical audio coding with compact side information
RU2388068C2 (ru) Временное и пространственное генерирование многоканальных аудиосигналов
US8150042B2 (en) Method, device, encoder apparatus, decoder apparatus and audio system
CN1947172B (zh) 方法、装置、编码器设备、解码器设备以及音频***
JP5724044B2 (ja) 多重チャネル・オーディオ信号の符号化のためのパラメトリック型符号化装置
JP2008522243A (ja) 外部的に供給されるダウンミックスとの空間オーディオのパラメトリック・コーディングの同期化
JP2017535153A (ja) オーディオ・エンコーダおよびデコーダ
MX2008011994A (es) Generacion de mezclas descendentes espaciales a partir de representaciones parametricas de señales de multicanal.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant