CN103325374A - 使用相位值平滑对下混频音频信号进行上混频的装置、方法和计算机程序 - Google Patents

使用相位值平滑对下混频音频信号进行上混频的装置、方法和计算机程序 Download PDF

Info

Publication number
CN103325374A
CN103325374A CN201310120468XA CN201310120468A CN103325374A CN 103325374 A CN103325374 A CN 103325374A CN 201310120468X A CN201310120468X A CN 201310120468XA CN 201310120468 A CN201310120468 A CN 201310120468A CN 103325374 A CN103325374 A CN 103325374A
Authority
CN
China
Prior art keywords
phase
smooth
level
uppermixing
phase value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310120468XA
Other languages
English (en)
Other versions
CN103325374B (zh
Inventor
马蒂亚斯·诺伊辛格
朱利安·罗比亚尔
约翰内斯·希尔珀特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Publication of CN103325374A publication Critical patent/CN103325374A/zh
Application granted granted Critical
Publication of CN103325374B publication Critical patent/CN103325374B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)

Abstract

一种用于将描述一个或多个下混频音频声道的下混频音频信号上混频成描述多个上混频音频声道的上混频音频信号的装置包括:上混频器和参数确定器。上混频器被配置为应用时变上混频参数来对下混频音频信号进行上混频,以便获得上混频音频信号,其中时变上混频参数包括时变平滑的相位值。参数确定器被配置为基于量化上混频参数输入信息,来获得一个或多个时间平滑的上混频参数以供上混频器使用。参数确定器被配置为使用相位改变限制算法将前一平滑的相位值的缩放版本与输入相位信息的缩放版本相组合,以基于前一平滑的相位值和输入相位信息来确定当前平滑的相位值。

Description

使用相位值平滑对下混频音频信号进行上混频的装置、方法和计算机程序
本申请是申请日为2010年4月1日的中国专利申请201080003595.6(使用相位值平滑对下混频音频信号进行上混频的装置、方法和计算机程序)的分案申请。 
技术领域
根据本发明的实施例涉及一种用于对下混频音频信号进行上混频的装置、方法和计算机程序。 
根据本发明的一些实施例涉及参数多声道音频编码的自适应相位参数平滑。 
背景技术
下面将描述本发明的背景。参数音频编码领域中的新近发展发表了将多声道音频(例如,5.1)信号联合编码成一个(或一个以上)下混频声道加辅助信息流的技术。这些技术被称为双耳提示编码(Binaural Cue Coding)、参数立体声、及MPEG环绕等等。 
许多出版物描述了所谓的“双耳提示编码”参数多声道编码方法,例如见参考文献[1][2][3][4][5]。 
“参数立体声」”是一种基于传输的单声道信号加参数辅助信息的双声道立体声信号的参数编码的相关技术,例如见参考文献[6][7]。 
“MPEG环绕”是参数多声道编码的ISO标准,例如见参考文献[8]。 
上面提及的技术是基于将压缩形式的人类空间听觉的相关感知提示以及相关联的单声道或立体声下混频信号传输至接收器。典型的提示可以是声道间级差(ILD)、声道间相关或相干(ICC)、以及声道间时间差(ITD)、声道间相位差(IPD)、及总相位差(OPD)。 
这些参数在一些情况中以适合于人类听觉分辨率的频率与时间分辨率来传输。 
对该传输而言,典型地对这些参数进行量化(或在一些情况中甚至必须被量化),其中经常(尤其是对低比特率情境)使用相当粗略的量化。 
时间上的更新间隔由编码器根据信号特性确定。这意味着,并非对下混频信号的每个采样都传输参数。换言之,在一些情况中,描述上面提及的提示的参数的传输速率(或传输频率,或更新速率)可以小于音频采样(或诸组音频采样)的传输速率(或传输频率,或更新速率)。 
代替传输声道间相位差(IPD)及总相位差(OPD),仅传输声道间相位差(IPD)并估计解码器中总相位差(OPD)也是可能的。 
由于解码器在一些情况中可能必须以无隙方式随时间将参数连续应用于例如每个采样(或音频采样),因此可能需要在解码器侧处得到中间参数,典型地是通过过去与当前参数集的间的内插。 
然而,一些传统内插方法导致不良的音频质量。 
下面参考图7将描述通用双耳提示编码方案。图7示出了双耳提示编码传输***800的示意框图,该双耳提示编码传输***800包含双耳提示编码编码器810及双耳提示编码解码器820。双耳提示编码编码器810可以例如接收多个音频信号812a、812b及812c。进一步地,双耳提示编码编码器810被配置为利用下混频器814来对音频输入信号812a-812c进行下混频以获得下混频信号816,该下混频信号816例如可以是和信号且可被用“AS”或“X”表示。进一步地,双耳提示编码编码器810被配置为利用分析器818来分析音频输入信号812a-812c以获得辅助信息信号819(“SI”)。和信号816及辅助信息信号819自双耳提示编码编码器810传输至双耳提示编码解码器820。双耳提示编码解码器820可被配置为基于和信号816及声道间提示824合成多声道音频输出信号,该多声道音频输入信号例如包含音频声道y1、y2,...yN。为此目的,双耳提示编码解码器820可以包含双耳提示编码合成器822,该双耳提示编码合成器822接收和信号816及声道间提示824并提供音频信号y1、y2,...yN。 
双耳提示编码解码器820进一步包含辅助信息处理器826,该辅助信息处理器826被配置为接收辅助信息819,以及可选地接收使用者输入827。该辅助信息处理器826被配置为基于辅助信息819和可选使用者输入827来提供声道间提示824。 
总之,对音频输入信号进行分析且下混频。和信号与辅助信息被传输至解码器。声道间提示是由辅助信息及本地使用者输入来产生的。双耳提示编码合成产生多声道音频输出信号。 
至于详情请参考C.Faller与F.Baumgarte所著文章“Binaural Cue Coding Part II:Schemes and applications,″(出版于:2003年11月第11卷语音与音频处理的IEEE学报)。 
然而,已得知的是,如果辅助信息被粗略量化或分辨率不足,许多传统双耳提示编码解码器提供质量劣化的多声道输出音频信号。 
鉴于此问题,需要一种将下混频音频信号上混频成上混频的音频信号的改进构思,这在描述上混频信号不同声道中之间的相位关系的辅助信息以相对低分辨率被量化的情况下,减少了听觉印象的降级。 
发明内容
根据本发明的实施例建立一种用于将描述了一个或一个以上下混频音频声道的下混频音频信号上混频成描述了多个上混频音频声道的上混频音频信号的装置。该装置包含上混频器,该上混频器被配置为应用时变上混频参数来对下混频信号进行上混频,以便获得上混频音频信号。该时变上混频参数包含时变平滑的相位值。该装置进一步包含参数确定器,该参数确定器被配置为基于量化的上混频参数输入信息来获得一个或一个以上时间平滑的上混频参数,以由该上混频器使用。该参数确定器被配置为利用相位改变限制算法,来将前一平滑的相位值的缩放版本与输入相位信息的缩放版本相组合,以基于该前一平滑的相位值及该输入相位信息来确定当前平滑的相位值。 
根据本发明的该实施例是基于下述发现:上混频信号中的可听伪像可以通过利用相位改变限制算法来将前一平滑的相位值的缩放版本与输入相位信息的缩放版本相组合来减少或甚至避免,因为结合相位 改变限制算法考虑前一平滑的相位值允许将平滑的相位值的不连续性保持适度地小。后续平滑的相位值的间(例如,前一平滑的相位值与当前平滑的相位值)不连续性的减小相应地有助于避免(或保持足够小)应用了后续相位值(例如,前一平滑的相位值与当前平滑的相位值)的音频信号的部分之间的过渡的可听频率变化。 
综上所述,本发明建立参数多声道音频编码的自适应相位处理的一般性概念。根据本发明的实施例通过减少由粗略量化或快速改变相位参数而引起的输出信号中的伪像取代其它技术。 
在优选实施例中,参数确定器被配置为将前一平滑的相位值的缩放版本与输入相位信息的缩放版本相组合,使得当前平滑的相位值在第一角度区域与一第二角度区域中的较小角度区域中,其中第一角度区域沿着数学正方向从前一平滑的相位值所定义的第一开始方向延伸至相位输入信息所定义的第一结束方向,其中第二角度区域沿着数学正方向从输入相位信息所定义的一第二开始方向延伸至前一平滑的相位值所定义的第二结束方向。因此,在本发明的一些实施例中,由相位值的递归(无限脉冲响应型)平滑而引入的相位变化保持尽可能小。因此,可听伪像保持尽可能小。例如,装置可以被配置为确保当前平滑的相位值置于两角度范围中的较小角度范围中,其中该两角度范围中的第一角度范围覆盖大于180°及其中该角度范围中的第二角度范围覆盖小于180°,两个角度范围共同覆盖360°。因此,相位改变限制算法确保了前一平滑化的相位值与当前平滑的相位值之间的相位差小于180°,优选地甚至小于90°。这有助于保持可听伪像尽可能小。 
在优选实施例中,参数确定器被配置为根据相位输入信息与前一平滑的相位值之间的差值,从多个不同组合规则中选择组合规则,并利用选定的组合规则来确定该当前平滑的相位值。因此,可以实现的是选择适当的组合规则,这确保了前一平滑化相位值与当前平滑的相位值之间的相位改变小于预定阈值、或更概括而言足够地小或尽可能小。因此,本发明装置胜过类似具有固定组合规则的类似装置。 
在优选实施例中,参数确定器被配置为如果相位输入信息与前一平滑的相位值之间的差值在-π与+π的范围内,则选择基本组合规则, 否则选择一个或一个以上不同的相位适应组合规则。基本组合规则定义了相位输入信息的缩放版本与前一平滑化相位值的缩放版本的线性组合,而无需恒定被加数。一个或一个以上相位适应组合规则考虑了恒定相位适应被加数,定义了输入相位信息的缩放版本与前一平滑的相位值的缩放版本线性组合。因此,可以执行前一平滑的相位值与输入相位信息的有利且易于实施的线性组合,其中如果前一平滑的相位值与输入相位信息之间的差值取相对大的值(大于π或小于-π),则可以选择性地应用附加的被加数。因此,前一平滑的相位值与输入相位信息之间的差值大的问题情况可用特定适宜的相位适应组合规则来处理,该特定适宜的相位适应组合规则允许保持后续平滑的相位值之间的相位改变足够小。 
在优选实施例中,该参数确定器包含平滑控制器,其中该平滑控制器被配置为,在平滑的相位量与对应的输入相位量之间的差值大于预定阈值的情况下,选择性地禁用相位值平滑功能。因此,如果存在较大的输入相位信息改变,则可以禁用相位值平滑功能。典型地,输入相位信息的极大改变表示的是,确实期望执行非平滑的相位改变,因为输入相位信息的相当大的改变(显著大于量化步骤)通常与音频信号内的特定声音事件有关。因此,在大部分情况下改进听觉印象的对相位值的平滑在此特定情况中是有害的。因此,该听觉印象甚至可以通过选择性地禁用相位值平滑功能来改进。 
在优选实施例中,平滑控制器被配置为对两个平滑的相位值之间的差值进行评估作为该平滑的相位量,并且对与这两个平滑的相位值相对应的两个输入相位值之间的差值进行评估,作为对应的输入相位量。已经发现,在一些情况中,与多声道音频信号的不同(上混频)声道相关联的相位值之间的差值是判定应当启用还是禁用相位值平滑功能的特别有意义的量。 
在优选实施例中,上混频器被配置为,如果平滑化功能(或相位值平滑功能)被启用,则对于指定时间部分应用由不同平滑的相位值定义的不同时间上平滑的相位旋转,来获得具有声道间相位差的上混频音频声道的信号,并且如果平滑功能(或相位值平滑功能)被禁用,则应用 由不同非平滑相位值定义的时间上非平滑的相位旋转,来获得具有声道间相位差的不同上混频音频声道的信号。在此情况中,参数确定器包含平滑控制器,平滑控制器被配置为,如果平滑的相位值之间的差值与非平滑的声道间相位差值存在差异且该差异超过预定阈值,则选择性地禁用相位值平滑功能,平滑的相位值被应用于获得不同上混频音频声道的信号,非平滑的声道间相位差值由所述装置接收或由所述装置从接收到的信息中导出。已经发现,如果声道间相位差值被评估为用于激活和去激活相位值平滑功能的准则,则相位值平滑功能的选择性去激活就提高听觉印象而言是特别有用的。 
在优选实施例中,参数确定器被配置为,根据平滑的相位值与对应的输入相位值之间的当前差值,来调整滤波器时间常数,以确定平滑相位值序列。通过调整滤波器时间常数可以实现的是,非常大的输入相位值改变获得足够小的稳定时间(settling time),而对输入相位值的较低或中等改变保持充分良好的平滑特性。此功能带来了特别的好处,因为输入相位值的相当小的(或至多中等规模的)改变通常是由量化粒度引起。换言之,由量化粒度引起的输入相位值的逐步改变可以造成有效的平滑操作。在这种情况中,平滑功能特别有利,其中,相对长的滤波器时间常数带来良好结果。相反,显著大于量化步骤的非常大的输入相位值改变典型地对应于期望的较大相位值改变。在此情况中,相对短的滤波器时间常数带来良好结果。因此,通过根据平滑的相位值与对应的输入相位值之间的当前差值,来调整滤波器时间常数可达到的是,输入相位值的有意较大改变造成平滑的相位值的快速改变,而取量化步骤的规模的输入相位值的相对小的改变造成平滑相位值的相对慢且平滑的过渡。因此,对于期望相位值的有意、较大改变以及对于期望相位值的较小改变(然而可以由一个量化步骤引起该输入相位值的改变)皆达到良好的听觉印象。 
在优选实施例中,参数确定器被配置为根据平滑声道间相位差与非平滑声道相位差之间的差值,来调整滤波器时间常数以确定平滑相位值序列,平滑声道间相位差由与上混频音频信号的不同声道相关联的两个平滑的相位值之间的差值来定义,非平滑声道相位差由非平滑 声道间相位差信息来定义。已经发现,选择性地调整滤波器时间常数的构想可以有利地结合声道间相位差的处理来使用。 
在优选实施例中,用于上混频的装置被配置为根据从音频比特流中提取的信息,选择性地启用或禁用相位值平滑功能。已经发现,听觉印象的改进可以通过在音频编码器的控制下提供选择性启用或禁用音频解码器内的相位值平滑功能的可能性来获得。 
根据本发明的实施例建立一种实施上面所讨论用于将下混频音频信号上混频成上混频音频信号的装置的功能的方法。所述方法基于与所讨论装置的相同构想。 
此外,根据本发明的实施例建立一种用于执行所述方法的计算机程序。 
附图说明
参考附图随后将描述根据本发明的实施例,在附图中: 
图1示出了根据本发明实施例的用于对下混频音频信号进行上混频的装置示意框图; 
图2a和2b示出了根据本发明另一实施例的用于对下混频音频信号进行上混频的装置的示意框图; 
图3示出了总相位差OPD1、OPD2和声道间相位差IPD的示意图; 
图4a和4b示出了相位改变限制算法的第一种情况的相位关系的图示; 
图5a和5b示出了相位改变限制算法的第二种情况的相位关系的图示; 
图6示出了根据本发明实施例的用于将下混频音频信号上混频成上混频音频信号的方法的流程图; 
图7示出了表示通用双耳提示编码方案的示意框图。 
具体实施方式
1.根据图1的实施例 
图1示出了根据本发明实施例的用于对下混频音频信号进行上混 频的装置100的示意框图。装置100被配置为接收对一个或一个以上下混频音频声道加以描述的下混频音频信号110,并且提供对多个上混频音频声道加以描述的上混频音频信号120。装置100包含上混频器130,该上混频器130被配置为应用时变上混频参数来对下混频音频信号进行上混频,以便获得上混频的音频信号120。装置100还包含参数确定器140,该参数确定器140被配置为接收量化的上混频参数输入信息142。参数确定器140被配置为基于量化的上混频参数输入信息142来获得一个或一个以上时间上平滑的上混频参数144以供上混频器130使用。 
参数确定器140被配置为利用相位改变限制算法146,将前一平滑的相位值的缩放版本与包括在量化的上混频参数输入信息142中的输入相位信息142a的缩放版本相组合,以基于前一平滑的相位值和该输入相位信息142来确定当前平滑的相位值144a。该当前平滑的相位值144a包括在时变平滑的上混频参数144中。 
下面将说明有关装置100的功能的一些细节。下混频音频信号110例如以复值集合序列的形式被输入至上混频器130中,该复值集合序列表示时频域(描述在由此处未示出的编码器确定的更新速率下的交叠与非交叠频带或频率子带)中的下混频音频信号。上混频器130被配置为根据时变、平滑的上混频参数来将下混频音频信号110的多个声道线性组合,及/或将下混频音频信号110的声道与辅助信号(例如,去相关信号)线性组合(其中该辅助信号可以从下混频音频信号110的当前音频声道、下混频音频信号110的一个或一个以上其它音频声道、或下混频音频信号110的音频声道的组合中获得)。因此,上混频器130可以使用时变平滑的上混频参数144,基于下混频音频信号110来判定在产生上混频音频信号120(或其声道)中所使用的幅度缩放和/或相位旋转(或时间延迟)。 
参数确定器140典型地被配置为以等于(或在一些情况中高于)量化的上混频参数输入信息142所描述的辅助信息的更新速率来提供时变、平滑的上混频参数144。参数确定器140可以被配置为避免(或至少减小)由量化的上混频参数输入信息142的粗略(比特率节省)量化而引起的伪 像。为此目的,参数确定器140可以对例如描述声道间相位差的相位信息应用平滑。该对包括在量化的上混频参数输入信息142中的输入相位信息142a的平滑是利用相位改变限制算法143来执行的,使得避免了会造成可听伪像的相位的较大且突然的改变(或至少被限制到可容忍的程度)。 
优选地,通过将前一平滑的相位值与输入相位信息142a的值相结合来执行平滑,使得当前平滑化的相位值依赖于前一平滑的相位值和输入相位信息142a的当前值。如此,可以利用简单结构的平滑算法来获得特定的平滑过渡。换言之,有限脉冲响应平滑的缺点可以通过提供考虑了前一平滑化相位值的无限脉冲响应型平滑来避免。 
可选地,参数确定器140可以包含附加的内插功能,如果量化的上混频参数输入信息142以相对长的时间间隔来传输(例如,每组下混频音频信号110的频谱值不到一次),则该内插功能是有利的。 
总之,装置100允许基于量化的上混频参数输入信息142提供时变平滑的相位值144a,使得时变平滑的相位值144a非常适合于利用上混频器130从下混频音频信号中导出上混频音频信号120。 
利用上面讨论构思来提供平滑的相位值144减小了(或甚至消除)可听伪像,其中对前一平滑的相位值的考虑与相位改变限制结合。因此,实现上混频音频信号120的良好听觉效果。 
2.根据图2的实施例 
2.1.图2的实施例的概述 
参考图2a和2b将描述有关用于对音频信号进行上混频的装置的结构和操作的进一步细节。图2a和2b示出了根据本发明另一实施例的用于对下混频音频信号进行混频的装置200的详细示意性框图。 
装置200可以被视作用于基于下混频音频信号210和辅助信息SI产生多声道(例如,5.1)音频信号的解码器。装置200实现了关于装置100而描述的功能。 
装置200可以例如服务对根据所谓的“双耳提示编码”、所谓的“参数立体声”或所谓的“MPEG环绕”而编码的多声道音频信号。自然 地,装置200可以类似地用于对根据其它利用空间提示的***而编码的多声道音频信号进行上混频。 
为简明起见,装置200被描述为对单一声道下混频音频信号执行一上混频成为双声道信号。然而,这里说明的构想易于扩展至下混频音频信号包含一个以上声道的情况,且也易于扩展至上混频音频信号包含两个以上声道的情况。 
2.2.图2实施例的输入信号与输入时序 
装置200被配置为接收下混频音频信号210及辅助信息212。此外,装置200被配置为提供包含例如多个声道的上混频音频信号214。 
下混频音频信号210例如可以是由编码器(例如,图7所示的BCC编码器810)产生的和信号。例如,下混频音频信号210可以例如以复值频率分解的形式在时频域中表示。例如,音频信号的多个频率子带(可以交叠或非交叠)的音频内容可以用对应的复值表示。对于指定频带,下混频音频信号可以由对考虑了后续(交叠与非交叠)时间间隔的频率子带中的音频内容加以描述的复值序列来表示。后续时间间隔的后续复值可以在装置100(其可以是多声道音频信号解码器的部分)或耦接至装置100的附加装置中例如利用滤波器组(例如,QMF滤波器组)、快速傅立叶变换或其它同等物来获得。然而,本文所予以描述的下混频音频信号210的表示通常不等同于用于从多声道音频信号编码器传输至多声道音频信号解码器或装置100的下混频信号的表示。因此,下混频音频信号210可以由复值集合或向量组成的流来表示。 
下面假定,下混频音频信号210的后续时间间隔用整数值索引k标示。还假定的是,装置200在下混频音频信号210的每一间隔k及每一声道接收一个复值集合或向量。因此,在时间索引k描述的每一个音频采样更新间隔内接收一个采样(复值集合或向量)。 
换言之,下混频音频信号210的音频采样(“AS”)由装置210接收,使得单一音频采样AS与每个音频采样更新间隔k相关联。 
装置200还接收对上混频参数加以描述的辅助信息。例如,辅助信息212可以描述下列上混频参数中的一个或多个:声道间级差(ILD)、声道间相关(或相干)(ICC)、声道间时间差(ITD)、声道间相位差(IPD)、 及总相位差(OPD)。典型地,辅助信息212包含ILD参数及参数ICC、ITD、IPD、OPD中的至少一个。然而,为了节省频宽,在一些实施例中辅助信息212在下混频音频信号210的每倍数音频采样更新间隔k内仅朝装置200传输或由装置200接收一次(或单一辅助信息集合的传输可以在时间上覆盖多个音频采样更新间隔k)。因此,在一些情况中,对于多个音频采样更新间隔k仅有一个辅助信息参数集合。然而,在其它情况中,对于每个音频采样更新间隔k可以有一组辅助信息参数。 
辅助信息更新的间隔以索引n表示,其中仅为简单起见,下面将假定,用整数值索引k表示的下混频音频信号210的后续时间间隔等于更新辅助信息SI212的时间间隔,使得关系k=n成立。然而,如果在下混频音频信号210的每多个后续时间间隔k内仅执行一次辅助信息SI 212更新,则例如可以在后续输入相位信息值αn或后续平滑的相位值
Figure BDA00003025171300111
之间执行内插。 
例如,辅助信息可以以音频采样更新间隔k=4、k=8及k=16被传输至装置200(或由装置200接收)。相反,在音频采样更新间隔之间不向装置200传输(或由装置200接收)辅助信息212。因此,辅助信息212的更新间隔可以随时间变化,因为编码器可以例如仅在当需要时(例如,当解码器认识到辅助信息的改变大于预定值时)才确定提供辅助信息更新。例如,装置200在音频采样更新间隔k=4接收到的辅助信息可以与音频采样更新间隔k=3、4、5相关联。类似地,装置200在音频采样更新间隔k=8接收到的辅助信息可以与音频采样更新间隔k=6、7、8、9、10相关联,以此类推。然而,不同关联自然是可能的,且针对辅助信息的更新间隔自然地也可以大于或小于所讨论的间隔。 
2.3.图2实施例的输出信号与输出时序 
然而,装置200服务于在复值频率组成中提供上混频音频信号。例如,装置200可以被配置为提供上混频音频信号214,使得该上混频音频信号包含与下混频音频信号210相同的音频采样更新间隔或音频信号更新速率。换言之,对于下混频音频信号210的每一采样(或音频采样更新间隔k),在一些实施例中产生上混频音频信号214的采样。 
2.4.上混频 
下面将详细描述对于每一音频采样间隔k如何获得用于对下混频音频信号210进行上混频的上混频参数的更新,即便在一些实施例中解码器输入辅助信息212仅可以以较大更新间隔来更新。下面,将说明对单个子带的处理,但是此构思自然地可以扩展至多个子带。 
装置200可以包含上混频器230作为关键组件,该上混频器230被配置为作为复值线性组合器进行操作。上混频器230被配置为接收与音频采样更新间隔k相关联的下混频音频信号210(例如,表示特定频带)的采样x(t)或x(k)。信号x(t)或x(k)有时也表示为“干信号”。另外,上混频器230被配置为接收表示下混频音频信号的去相关版本的采样q(t)或q(k)。 
此外,装置200包含去相关器(例如,延迟器或混响器)240,去相关器240被配置为接收下混频音频信号的采样x(k)并基于此下混频音频信号的采样x(k)提供下混频音频信号(用x(k)表示)的去相关版本的采样q(k)。下混频音频信号(采样x(k))的去相关版本(采样q(k))可以被表示为“湿信号”。 
上混频器230包含例如矩阵向量乘法器232,该矩阵向量乘法器232被配置为执行“干信号”(用x(k)表示)与“湿信号”(用q(k)表示)的实值(或在一些情况中,多个值)线性组合,以获得第一上混频声道信号(用采样y1(k)表示)与第二上混频声道信号(用采样y2(k)表示)。矩阵向量乘法器232可以例如被配置为执行下列矩阵向量乘法来获得上混频声道信号的采样y1(k)与y2(k): 
y 1 ( k ) y 2 ( k ) = H ( k ) x ( k ) q ( k )
矩阵向量乘法器232或复值线性组合器230还可以包含相位调整器233,该相位调整器233被配置为调整表示上混频声道信号的采样y1(k)与y2(k)的相位。例如,相位调整器233可以被配置为获得相位调整的第一上混频声道信号,该相位调整的第一上混频信号根据下式由采样 
Figure BDA00003025171300122
表示 
y ~ 1 ( k ) = e j α 1 ( k ) y 1 ( k ) ,
并获得相位调整的第二上混频声道信号,该相位调整的第二上混频声道信号根据下式由采样
Figure BDA00003025171300131
表示 
y ~ 2 ( k ) = e j α 2 ( k ) y 2 ( k ) ,
因此,上混频音频信号214(其采样用
Figure BDA00003025171300134
表示)是由复值线性组合器230基于干信号与湿信号利用时变上混频参数而获得的。时变平滑的相位值
Figure BDA00003025171300135
用于确定上混频音频信号
Figure BDA00003025171300136
Figure BDA00003025171300137
的相位(或声道间相位差)。例如,相位调整器232可以被配置为应用时变平滑的相位值。然而,备选地,时变平滑的相位值可能已被矩阵向量乘法器232使用(或甚至在矩阵H的项的产生中)。在此情况中,可以完全忽略相位调整器233。 
2.5上混频参数的更新 
如由上述方程式可见,期望在每一音频采样更新间隔k内更新上混频参数矩阵H(k)与上混频声道相位值α1(k)、α2(k)。在每一音频采样更新间隔k内更新上混频参数矩阵带来该上混频参数矩阵始终良好适应于实际声学环境的优点。因为上混频参数矩阵的改变分布于多个音频采样更新间隔上,即使仅在音频采样的每倍数更新间隔k内更新一次辅助信息212,在每一音频采样更新间隔k内更新上混频参数矩阵也允许保持后续音频采样间隔k之间的上混频参数矩阵H(或其项)的逐步改变较小。同样,期望平滑化由对辅助信息SI 212的量化而引起的上混频参数矩阵H的任何改变。类似地,期望频繁地更新上混频声道相位值α1(k)与α2(k),以便至少在连续音频信号期间避免所述上混频声道相位值的逐步改变。再者,期望在时间上平滑上混频声道相位值以便减小或避免可能由对辅助信息SI212的量化而引起的伪像。 
装置200包含辅助信息处理单元250,该辅助信息处理单元250被配置为基于辅助信息212提供时变上混频参数262,例如,矩阵H(k)的项Hij(k)与上混频声道相位值α1(k)、α2(k)。辅助信息处理单元250例如被配置为在每一音频采样更新间隔k内提供更新的上混频参数组,即使仅 在音频采样的每倍数更新间隔k内更新一次辅助信息212。然而,在一些实施例中辅助信息处理单元250可以被配置为不经常提供更新的时变平滑上混频参数组,例如辅助信息SI212的每次更新仅提供一次。 
辅助信息处理单元250包含上混频参数输入信息确定器252,该上混频参数输入信息确定器252被配置为接收辅助信息212并基于此辅助信息212而获得一个或多个上混频参数(例如,以上混频参数的幅值序列254和上混频参数的相位值序列256的形式),一个或多个上混频参数可以被视作上混频参数输入信息(包含例如,输入幅度信息254及输入相位信息256)。例如,上混频参数输入信息确定器252可以组合多个提示(例如,ILD、ICC、ITD、IPD、OPD)来获得上混频参数输入信息254、256或可以单独评估提示中的一个或多个。上混频参数输入信息确定器252被配置为以输入幅值(也表示为输入幅度信息)序列254和分离的输入相位值(也表示为输入相位信息)序列256的形式来描述上混频参数。输入相位值序列256的元素可被视作输入相位信息αn。序列254的输入幅值可以例如代表复数的绝对值,及序列256的输入相位值可以例如代表该复数的角度值(或相位值)(例如相对于实部虚部正交坐标系中的实部轴而测量的)。 
因此,上混频参数输入信息确定器252可以提供上混频参数的输入幅值序列254和上混频参数的输入相位值序列256。上混频参数输入信息确定器252可以被配置为从辅助信息集合中获得完整的上混频参数集合(例如,矩阵H的完整矩阵元素集合和相位值α1、α2的完整集合)。辅助信息集合212与输入上混频参数集合254、256之间存在关联。因此,上混频参数输入信息确定器252可以被配置为在每一上混频参数更新间隔内更新一次序列254、256的输入上混频参数,即每次更新该辅助信息集合时更新一次。 
辅助信息处理单元还包含参数平滑器(有时也被简单表示为“参数确定器”)260,该参数平滑器260将在下面详细说明。参数平滑器260被配置为接收上混频参数(或矩阵元素)的(实数值)输入幅值序列254与上混频参数(或矩阵元素)的(实数值)输入相位值序列256,上混频参数(或矩阵元素)的(实数值)输入相位值序列256可以被视作输入相位信息 αn。此外,参数平滑器被配置为基于对序列254与序列256的平滑来提供时变平滑的上混频参数序列262。 
参数平滑器260包含幅值平滑器270与相位值平滑器272。 
幅值平滑器被配置为接收序列254并基于序列254提供上混频参数(或矩阵的矩阵元素)的平滑幅值序列274。幅值平滑器270可以例如被配置为执行幅值平滑,这将在下面详细讨论。 
类似地,相位值平滑器272可以被配置为接收序列256并基于序列256提供上混频参数(或矩阵值)的时变平滑的相位值序列276。相位值平滑器272可以例如被配置为执行平滑化算法,这将在下面被详细讨论。 
在一些实施例中,幅值平滑器270和相位值平滑器被配置为分开或独立地执行幅值平滑和相位值平滑。因此,序列254的幅值并不影响相位值平滑,且序列256的相位值并不影响幅值平滑。然而,假定的是,量值平滑器270与相位值平滑器272以时间同步方式进行操作,使得序列274、276包含上混频参数的对应的成对的平滑幅值和平滑相位值。 
通常,参数平滑器260分别用作不同的上混频参数或矩阵元素。因此,参数平滑器260可以针对每一上混频参数(出自多个上混频参数)或矩阵H的矩阵元素接收一个幅值序列254。类似地,参数平滑器260可以接收输入相位值αn序列256供每一上混频音频声道的相位调整。 
2.6有关参数平滑的细节 
下面将说明有关本发明的一实施例的细节,该实施例减小了解码器中由IPD/OPD的量化和/或OPD的估计而引擎的相位处理伪像。为了简明起见,下面描述仅限为自一个至两个声道的上混频,并不限制可应用相同技术的自m至n个声道的上混频的一般情况。 
解码器的例如自一个至两个声道的上混频过程由向量与上混频矩阵H的矩阵乘法来执行,该向量包括被称为干信号的下混频信号x(也用x(k)表示)和被称为湿信号的下混频信号q(也用q(k)表示)的去相关版本。湿信号q由通过去相关滤波器240馈送下混频信号x而产生。上混频信号y是包含输出的第一及第二声道的向量(例如,y1(k)与y2(k))。所有信号x、q、y在幅值频率分解(例如,时频域表示)中是可用的。 
此矩阵运算是针对每一频带的所有子带采样(或至少针对一些频带的一些子带采样)而执行(例如,单独地)。例如,矩阵运算可根据下列方程式来执行: 
y 1 y 2 = x q .
上混频矩阵H的系数是从空间提示(典型地,ILD和ICC)中导出,获得基本上对于每一声道基于ICC执行干信号与湿信号混合的实值矩阵元素,并依ILD确定调整两个输出声道的输出级。 
对于空间提示(例如,ILD、ICC、ITD、IPD和/或OPD)的传输,期望在编码器中量化一些或所有类型的参数。特别地对于低比特率情形,经常期望(或甚至必需)利用相当粗略的量化来减少传输的数据量。然而,对于特定类型的信号,粗略量化可以导致可听伪像。为了减小这些伪像,平滑操作可以应用于上混频矩阵H的元素来平滑引起伪像的相邻量化器步骤之间的过渡。 
该平滑例如可由对矩阵元素的简单低通滤波来执行: 
H ~ n = δ H n + ( 1 - δ ) H ~ n - 1
此平滑例如可由幅值平滑器270来执行,其中当前输入幅度信息Hn(例如,由上混频参数输入信息确定器252提供并且用254表示)可以与前一平滑的幅值(或幅度矩阵)
Figure BDA00003025171300163
相组合,以便获得当前平滑的幅值(或幅度矩阵)
Figure BDA00003025171300164
因为平滑可以对信号部分有一负面影响,其中空间参数快速改变,平滑可以由从编码器传输的附加辅助信息来控制。 
下面将详细描述相位值的应用和确定。如果使用IPD和/或OPD,则可以将附加的相移应用于输出信号(例如,采样y1(k)和y2(k)定义的信号)。IPD描述两个声道(例如,由采样
Figure BDA00003025171300165
定义的相位调整后的第一上混频声道信号与采样
Figure BDA00003025171300166
定义的相位调整后的第二上混频声道信号)之间的相位差,而OPD描述一个声道与下混频之间的相位差。 
下面参考图3将简要阐述IPD与OPD的定义,图3示出了下混频信号与多个声道信号之间相位关系的示意图。现在参考图3,下混频信号(或其频谱系数x(k))的相位由第一指针310表示。相位调整后的第一上混频 声道信号(或其一频谱系数
Figure BDA00003025171300171
)的相位由第二指针320表示。下混频信号(或其频谱值或系数)与相位调整后的第一上混频声道信号(或其频谱系数)之间的相位差用OPD1来表示。相位调整后的第二上混频声道信号(或其频谱系数
Figure BDA00003025171300172
)由第三指针330表示。下混频信号(或其频谱系数)与相位调整后的第二上混频声道信号(或其频谱系数)之间的相位差用OPD2来表示。相位调整后的第一上混频声道信号(或其频谱系数)与相位调整后的第二上混频声道信号(或其频谱系数)之间的相位差用IPD表示。 
为重构原始信号的相位属性(基于干信号提供具有适当相位的相位调整后的第一上混频声道信号与相位调整后的第二上混频声道信号),应知晓这两个声道的OPD。通常,IPD连同OPD一起传输(第二OPD接着可由此计算)。为减少传输的数据量,利用包含在下混频信号中的相位信息连同传输的ILD和IPD,在解码器中仅传输IPD并估计OPD也是可能的。此处理可例如由上混频参数输入信息确定器252来执行。 
解码器(例如,装置200)中的相位重构是根据下列方程式由输出子带信号(例如,由频谱系数y1(k)、y2(k)所描述的信号)的复旋转来执行: 
y 1 ~ = e j α 1 y 1
y ~ 2 = e j α 2 y 2 ,
在上面方程式中,角度α1与α2等于两个声道的OPD(或,例如,平滑的OPD)。 
如上所述,参数(例如,ILD参数和/或ICC参数)的粗略量化会导致可听伪像,这也适用于IPD和OPD的量化。如上所述的平滑操作被应用于上混频矩阵Hn的元素,它仅减少由ILD与ICC的量化而引起的伪像,而那些由相位参数的量化而引起的伪像并不受影响。 
此外,额外的伪像可由上述被应用于每一输出声道的时变相位旋转而引入。已经发现,如果相移角度α1与α2随时间快速波动,则应用的旋转角度可以导致瞬时信号频率的短漏失或改变。 
这两个问题可通过将上述平滑方法的修改版本应用于角度α1和α2而显著减少。因为在此情况中,平滑滤波器被应用于环绕每个2π的角 度,优选地通过所谓的展开(unwrapping)来修改平滑滤波器。因此,根据下列算法来计算平滑的相位值
Figure BDA00003025171300181
该算法通常规定对相位改变的限制: 
Figure BDA00003025171300182
下面参考图4a、4b、5a和5b将简要描述上述算法的功能。参考上述用于计算当前平滑的相位值
Figure BDA00003025171300183
的方程式或算法,可以看出的是,如果,值αn
Figure BDA00003025171300184
之间的差值小于或等于π(上述方程式的“否则”的情况),当前平滑的相位值
Figure BDA00003025171300185
是通过当前输入相位信息αn与前一平滑的相位值 
Figure BDA00003025171300186
的加权线性组合来获得,而无需额外被加数。假定δ是0与1之间的参数,该参数确定(或表示)平滑过程的时间常数,当前平滑的相位值
Figure BDA00003025171300187
在值αn
Figure BDA00003025171300188
之间。例如,如果δ=0.5,则的值是αn
Figure BDA000030251713001810
的平均值(算术平均值)。 
然而,如果αn
Figure BDA000030251713001811
之间的差值大于π,则满足上述方程式的第一种情况(行)。在此情况中,当前平滑的相位值
Figure BDA000030251713001812
是由αn
Figure BDA000030251713001813
的线性组合来获得的,考虑了恒定相位修改项-2πδ。因此,可实现保持
Figure BDA000030251713001814
之间的差值足够小。在图4a中示出了这种情况的示例,其中相位
Figure BDA000030251713001816
由第一指针410指示,相位αn由第二指针412指示,相位由第三指针414指示。 
图4b示出了针对不同值与αn的相同情况。同样,相位值αn
Figure BDA000030251713001820
由指针450、452、454指示。 
同样,应当实现的是,
Figure BDA000030251713001821
Figure BDA000030251713001822
之间的角度差保持足够小。在两种情况中,相位值
Figure BDA000030251713001823
所定义的方向是两个角度区域中的较小区域,其中两各角度区域中的第一区域通过将指针410、450以数学正(逆时针)方向朝指针412、452旋转而覆盖,其中第二角度区域将通过将指针412、452以数学正(逆时针)方向朝指标410、450旋转而覆盖。 
然而,如果得知相位值αn
Figure BDA000030251713001824
之间的差值小于-π,则利用上述方程式的第二种情况(行)来获得
Figure BDA000030251713001825
的值。相位值
Figure BDA000030251713001826
是通过αn
Figure BDA000030251713001827
的线性组合来获得的,具有常数相位适应项2πδ。在图5a和5b中说明此种
Figure BDA000030251713001828
Figure BDA000030251713001829
小于-π情况的示例。 
总之,相位值平滑器272可以被配置为根据值αn
Figure BDA00003025171300191
之间的差值,来选择不同的相位值计算规则(可以是线性组合规则)。 
2.7平滑构思的可选扩展 
下面将讨论上面所讨论相位值平滑构思的一些可选扩展。至于其它参数(例如,ILD、ICC、ITD),在需要旋转角度快速改变的情况下可能有信号,例如,如果原始信号(例如编码器处理的信号)的IPD快速改变。对于此类信号,相位值平滑器272执行的平滑将(在一些情况中)对输出质量有负面影响且不应该被应用于此类情况中。为了避免由频带编码器针对每一信号处理频带控制平滑所需要的可能的比特率开销,在解码器中(例如,在装置200中)可以利用自适应平滑控制(例如,利用平滑控制器来实现):生成的IPD(即两个平滑角度之间的差值,例如,计算角度α1(k)与α2(k)之间的差值)且与传输的IPD(例如,输入相位信息αn描述的声道间相位差)比较。如果差值大于特定阈值,则平滑可以被禁用,且(例如,相位调整器233)可以使用未处理的角度(例如,由输入相位信息描述且由上混频参数输入信息确定器提供的角度αn),否则低通滤波的角度(例如,相位值平滑器272提供的平滑相位值
Figure BDA00003025171300192
)可以(例如,通过相位调整器233)应用于输出信号。 
在(可选的)高级版本中,相位值平滑器272应用的算法可以利用可变滤波器时间常数来扩展,该可变滤波器时间常数是基于处理后的IPD与未处理IPD之间的当前差值来修改。例如,参数δ的值(其确定滤波器时间常数)可以根据当前平滑的相位值
Figure BDA00003025171300193
与当前输入相位值αn之间的差值或根据前一平滑的相位值
Figure BDA00003025171300194
与当前输入相位值αn之间的差值来调整。 
此外在一些实施例中,在自适应平滑控制无法给出最佳结果的关键信号情况下,在比特流(表示下混频音频信号210和辅助信息212)中传输(可选地)单个比特,以完全启用或禁用编码器对所有频带的平滑。 
3.结论 
综上所述,已经描述了参数化多声道音频编码的自适应相位处理 的一般性概念。根据本发明的实施例通过减小由对相位参数的粗略量化或快速改变而引起的输出信号中的伪像来取代其它技术。 
4.方法 
根据本发明的实施例包含一种将描述一或多个下混频音频声道的下混频音频信号上混频成描述多个上混频音频声道的上混频音频信号的方法。图6示出了这种方法的流程图,其整体用700来表示。 
方法700包含步骤710:利用相位改变限制算法将前一平滑的相位值的缩放版本与当前相位输入信息的缩放版本相组合,以基于前一平滑的相位值和输入相位信息,来确定当前平滑化的相位值。 
方法700也包含步骤720:应用时变上混频参数来对下混频音频信号进行上混频,以便获得上混频的音频信号,其中时变上混频参数包含时间平滑的相位值。 
自然地,方法700可以由本文就发明装置而予以描述的特征与功能当中的任一项来补充。 
5.实现备选方案 
尽管在装置的上下文中描述了一些方面,然而应清楚,这些方面也可以表示对相应方法的描述,其中,模块或装置对应于方法步骤或方法步骤的特征。类似地,在方法步骤的上下文中描述的方面也可以表示对相应设备的相应模块或条目或特征的描述。一些或所有方法步骤可由(或利用)硬件装置来执行,例如,微处理器、可编程计算机或电子电路。在一些实施例中,某一个或多个最重要方法步骤可以由这样的装置来执行 
根据特定的实现需要,本发明的实施例可以以硬件或软件的形式实现。可以使用数字存储介质来执行这种实现,所述数字存储介质例如是上面存储有电可读控制信号的软盘、DVD、蓝光、CD、ROM、PROM、EPROM、EEPROM或闪存,所述电可读控制信号与可编程计算机***协作(或能够与可编程计算机***协作),以执行相应的方法。因此,所述数字存储介质可以是计算机可读的。 
根据本发明的一些实施例包括数据载体,所述数据载体具有电可 读控制信号,所述电可读控制信号可以与可编程计算机***协作,以执行本文描述的方法之一。 
通常,本发明的实施例可以被实现为具有程序代码的计算机程序产品,所述程序代码用于在所述计算机程序产品在计算机上运行时执行上述方法之一。程序代码例如可以存储在机器可读载体上。 
其他实施例包括用于执行本文中描述的方法之一的计算机程序,所述计算机程序存储在机器可读载体上。 
换言之,本发明的方法的实施例因此是一种具有程序代码的计算机程序,所述程序代码用于在计算机程序在计算机上运行时执行本文描述的方法之一。 
本发明方法的另一实施例因此是一种数据载体(或数字存储介质,或计算机可读介质),包括记录在该数据载体上的计算机程序,所述计算机程序用于执行本文描述的方法之一。 
因此本发明的方法的另一实施例是一种数据流或信号序列,所述数据流或信号序列表示用于执行本文描述的方法之一的计算机程序。所述数据流或信号序列可以例如被配置为经由数据通信连接(例如,经由互联网)来传递。 
另一实施例包括一种处理装置,例如计算机或可编程逻辑装置,所述处理装置被配置为适于执行本文描述的方法之一。 
另一实施例包括一种上面安装有计算机程序的计算机,所述计算机程序用于执行本文描述的方法之一。 
在一些实施例中,可以使用可编程逻辑装置(例如,现场可编程门阵列)来执行本文描述的方法的一些或全部功能。在一些实施例中,现场可编程门阵列可以与微处理器协作,以执行本文描述的方法之一。通常,方法优选地由任何硬件设备来执行。 
上述实施例仅用于说明本发明的原理。应理解,对于本领域技术人员来说,本文描述的布置和细节的修改和变化是显而易见的。因此,本发明仅由非待审专利权利要求来限制,而不由本文中通过描述和说明实施例而提供的特定细节来限制。 
参考文献 
[l]C.Faller and F.Baumgarte,″Efficient representation of spatial audio using perceptual parameterization″,IEEE WASPAA,Mohonk,NY,October2001 
[2]F.Baumgarte and C.Faller,″Estimation of auditory spatial cues for binaural cue coding″,ICASSP,Orlando,FL,May 2002 
[3]C.Faller and F.Baumgarte,″Binaural cue coding:a novel and efficient representation of spatial audio,″ICASSP,Orlando,FL,May 2002 
[4]C.Faller and F.Baumgarte,″Binaural cue coding applied to audio compression with flexible rendering″,AES113th Convention,Los Angeles,Preprint5686,October 2002 
[5]C.Faller and F.Baumgarte,″Binaural Cue Coding-Part II:Schemes and applications,″IEEE Trans,on Speech and Audio Proc.,vol.11,no.6,Nov.2003 
[6]J.Breebaart,S.van de Par,A.Kohlrausch,E.Schuijers,″High-Quality Parametric Spatial Audio Coding at Low Bitrates″,AES 116th Convention,Berlin,Preprint6072,May 2004 
[7]E.Schuijers,J.Breebaart,H.Purnhagen,J.Engdegard,″Low Complexity Parametric Stereo Coding″,AES116th Convention,Berlin,Preprint 6073,May 2004 
[8]ISO/IEC JTC 1/SC 29/WG 11,23003-1,MPEG Surround 
[9]J.Blauert,Spatial Hearing:The Psychophysics of Human Sound Localization,The MIT Press,Cambridge,MA,revised edition 1997。 

Claims (13)

1.一种用于将描述一个或多个下混频音频声道的下混频音频信号(110;210)上混频成描述多个上混频音频声道的上混频音频信号(120;214)的装置(100;200),所述装置(100;200)包括:
上混频器(130;230),被配置为应用时变上混频参数(114;262)来对下混频音频信号进行上混频,以便获得上混频音频信号,其中时变上混频参数包括时变平滑的相位值(144a;270);
参数确定器(140;250),其中所述参数确定器被配置为基于量化的上混频参数输入信息(142;212),来获得一个或多个时间平滑的上混频参数(αn)以供上混频器(130;230)使用,
其中参数确定器(140;250)被配置为使用相位改变限制算法将前一平滑的相位值
Figure FDA00003025171200011
的缩放版本
Figure FDA00003025171200012
与输入相位信息(αn)的缩放版本(δαn)相组合,以基于前一平滑的相位值和输入相位信息来确定当前平滑的相位值
2.如权利要求1所述的装置(100;200),其中参数确定器(140;250)被配置为将前一平滑的相位值
Figure FDA00003025171200014
的缩放版本
Figure FDA00003025171200015
与输入相位信息(αn)的缩放版本(δαn)相组合,使得当前平滑的相位值
Figure FDA00003025171200016
在第一角度区域和第二角度区域之中的较小角度区域中,其中第一角度区域沿着数学正方向从前一平滑的相位值
Figure FDA00003025171200017
所定义的第一开始方向延伸至输入相位信息(αn)所定义的第一结束方向,以及第二角度区域沿着数学正方向从输入相位信息(αn)所定义的第二开始方向延伸至前一平滑的相位值所定义的第二结束方向。
3.如权利要求1或2所述的装置(100;200),其中参数确定器(140;250)被配置为根据输入相位信息(αn)与前一平滑的相位值
Figure FDA00003025171200019
之间的差值
Figure FDA000030251712000110
从多个不同组合规则中选择组合规则,并且使用选定的组合规则来确定当前平滑的相位值
4.如权利要求3所述的装置(100;200),其中参数确定器(140;250)被配置为在输入相位信息(αn)与前一平滑的相位值
Figure FDA000030251712000112
之间的差值在-π与+π之间的范围中的情况下,选择基本相位组合规则,否则选择一个或多个不同的相位适应组合规则;
其中基本相位组合规则定义了输入相位信息的缩放版本(δαn)与前一平滑的相位值的缩放版本
Figure FDA00003025171200021
的线性组合,其中无恒定被加数;以及
其中一个或多个相位适应组合规则定义了输入相位信息的缩放版本与前一平滑的相位值的缩放版本的线性组合,其中考虑了恒定相位适应被加数(+π,-π)。
5.如权利要求1至4中任一项所述的装置(100;200),其中参数确定器被配置为根据以下方程获得当前平滑的相位值
Figure FDA00003025171200022
Figure FDA00003025171200023
其中
Figure FDA00003025171200024
表示前一平滑的相位值;
αn表示输入相位信息;
“mod”表示模运算符;以及
δ表示平滑参数,平滑参数的值在0与1之间的区间中,不包括区间的边界以外。
6.如权利要求1至5中任一项所述的装置(100;200),其中参数确定器(140;250)包括平滑控制器,
其中平滑控制器被配置为在平滑的相位量与对应的输入相位量(αn)之间的差值大于预定阈值的情况下,选择性地禁用相位值平滑功能。
7.如权利要求6所述的装置(100;200),其中平滑控制器被配置为评估两个平滑的相位值(α1、α2)之间的差值作为平滑的相位量,以及评估与两个平滑的相位值(α1、α2)相对应的两个输入相位值(256)之间的差值作为对应的输入相位量。
8.如权利要求1至7中任一项所述的装置(100;200),其中上混频器(130;230)被配置为,在平滑功能被启用的情况下,在给定时间部分内,应用由不同的平滑的相位值(α1、α2)所定义的不同的时间平滑的相位旋转(α1、α2),来获得具有声道间相位差的不同上混频音频声道的信号
Figure FDA00003025171200031
以及在平滑功能被禁用的情况下,应用由不同的非平滑的相位值所定义的时间非平滑的相位旋转(256),来获得具有声道间相位差的不同上混频音频声道的信号;
其中参数确定器(140;250)包括平滑控制器;以及
其中平滑控制器被配置为,如果平滑的相位值(α1、α2)之间的差值与非平滑的声道间相位差值(212)存在差异且该差异超过预定阈值,则选择性地禁用相位值平滑功能,平滑的相位值(α1、α2)被应用于获得不同上混频音频声道的信号
Figure FDA00003025171200032
非平滑的声道间相位差值(212)由所述装置(100;200)接收或由所述装置从接收到的信息(212)中导出。
9.如权利要求1至8中任一项所述的装置(100;200),其中参数确定器(140;250)被配置为根据平滑的相位值
Figure FDA00003025171200033
与对应的输入相位值(αn)之间的当前差值,来调整滤波器时间常数(δ),以确定平滑相位值
Figure FDA00003025171200034
的序列(262)。
10.如权利要求1至9中任一项所述之装置(100;200),其中参数确定器(140;250)被配置为根据平滑的声道间相位差与非平滑的声道间相位差之间的差值,来调整滤波器时间常数(δ),以确定平滑相位值
Figure FDA00003025171200035
的序列(262),平滑的声道间相位差由与上混频音频信号的不同声道相关联的两个平滑的相位值(α1、α2)之间的差值定义,非平滑的声道间相位差由非平滑的声道间相位差信息(212)定义。
11.如权利要求1至10中任一项所述的装置(100;200),其中用于上混频的所述装置被配置为,根据从音频比特流中提取的信息来选择性地启用和禁用相位值平滑功能。
12.一种用于将描述一个或多个下混频音频声道的下混频音频信号上混频成描述多个上混频音频声道的上混频音频信号的方法(700),所述方法包括:
使用相位改变限制算法将前一平滑的相位值的缩放版本与当前相位输入信息的缩放版本相组合(710),以基于前一平滑的相位值和输入相位信息来确定当前时间平滑的相位值;以及
应用(720)时变上混频参数来对下混频音频信号进行上混频,以便获得上混频音频信号,其中时变上混频参数包括时间平滑的相位值。
13.一种计算机程序,当所述计算机程序运行在计算机上时用于执行权利要求12所述的方法。
CN201310120468.XA 2009-04-08 2010-04-01 使用相位值平滑对下混频音频信号进行上混频的装置、方法和计算机程序 Active CN103325374B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16760709P 2009-04-08 2009-04-08
US61/167,607 2009-04-08
CN2010800035956A CN102257563B (zh) 2009-04-08 2010-04-01 使用相位值平滑对下混频音频信号进行上混频的装置和方法

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN2010800035956A Division CN102257563B (zh) 2009-04-08 2010-04-01 使用相位值平滑对下混频音频信号进行上混频的装置和方法

Publications (2)

Publication Number Publication Date
CN103325374A true CN103325374A (zh) 2013-09-25
CN103325374B CN103325374B (zh) 2017-06-06

Family

ID=42335156

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201310120468.XA Active CN103325374B (zh) 2009-04-08 2010-04-01 使用相位值平滑对下混频音频信号进行上混频的装置、方法和计算机程序
CN2010800035956A Active CN102257563B (zh) 2009-04-08 2010-04-01 使用相位值平滑对下混频音频信号进行上混频的装置和方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN2010800035956A Active CN102257563B (zh) 2009-04-08 2010-04-01 使用相位值平滑对下混频音频信号进行上混频的装置和方法

Country Status (20)

Country Link
US (6) US9053700B2 (zh)
EP (2) EP2394268B1 (zh)
JP (1) JP5358691B2 (zh)
KR (1) KR101356972B1 (zh)
CN (2) CN103325374B (zh)
AR (1) AR076238A1 (zh)
AU (1) AU2010233863B2 (zh)
BR (1) BRPI1004215B1 (zh)
CA (1) CA2746524C (zh)
CO (1) CO6501150A2 (zh)
ES (2) ES2452569T3 (zh)
HK (2) HK1163915A1 (zh)
MX (1) MX2011006248A (zh)
MY (1) MY160545A (zh)
PL (2) PL2394268T3 (zh)
RU (1) RU2550525C2 (zh)
SG (1) SG174117A1 (zh)
TW (1) TWI420512B (zh)
WO (1) WO2010115850A1 (zh)
ZA (1) ZA201103703B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108770120A (zh) * 2018-05-25 2018-11-06 上海乘讯信息科技有限公司 一种智能通道状态灯

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8666752B2 (en) * 2009-03-18 2014-03-04 Samsung Electronics Co., Ltd. Apparatus and method for encoding and decoding multi-channel signal
KR20110022252A (ko) * 2009-08-27 2011-03-07 삼성전자주식회사 스테레오 오디오의 부호화, 복호화 방법 및 장치
WO2011039668A1 (en) * 2009-09-29 2011-04-07 Koninklijke Philips Electronics N.V. Apparatus for mixing a digital audio
US9424852B2 (en) 2011-02-02 2016-08-23 Telefonaktiebolaget Lm Ericsson (Publ) Determining the inter-channel time difference of a multi-channel audio signal
ITTO20120067A1 (it) * 2012-01-26 2013-07-27 Inst Rundfunktechnik Gmbh Method and apparatus for conversion of a multi-channel audio signal into a two-channel audio signal.
EP2834814B1 (en) 2012-04-05 2016-03-02 Huawei Technologies Co., Ltd. Method for determining an encoding parameter for a multi-channel audio signal and multi-channel audio encoder
MX346944B (es) 2013-01-29 2017-04-06 Fraunhofer Ges Forschung Aparato y metodo para generar una señal de frecuencia reforzada mediante la suavizacion temporal de las subbandas.
TWI546799B (zh) 2013-04-05 2016-08-21 杜比國際公司 音頻編碼器及解碼器
EP2830335A3 (en) 2013-07-22 2015-02-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method, and computer program for mapping first and second input channels to at least one output channel
EP2830052A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, audio encoder, method for providing at least four audio channel signals on the basis of an encoded representation, method for providing an encoded representation on the basis of at least four audio channel signals and computer program using a bandwidth extension
EP2830333A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-channel decorrelator, multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a premix of decorrelator input signals
MX361115B (es) * 2013-07-22 2018-11-28 Fraunhofer Ges Forschung Descodificador de audio multicanal, codificador de audio multicanal, métodos, programa de computadora y representación de audio codificada usando una decorrelación de señales de audio renderizadas.
US10170125B2 (en) * 2013-09-12 2019-01-01 Dolby International Ab Audio decoding system and audio encoding system
WO2015038578A2 (en) 2013-09-12 2015-03-19 Dolby Laboratories Licensing Corporation System aspects of an audio codec
EP2854133A1 (en) 2013-09-27 2015-04-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Generation of a downmix signal
KR101805327B1 (ko) 2013-10-21 2017-12-05 돌비 인터네셔널 에이비 오디오 신호들의 파라메트릭 재구성을 위한 역상관기 구조
KR102381216B1 (ko) 2013-10-21 2022-04-08 돌비 인터네셔널 에이비 오디오 신호들의 파라메트릭 재구성
CN104681029B (zh) * 2013-11-29 2018-06-05 华为技术有限公司 立体声相位参数的编码方法及装置
WO2016066743A1 (en) 2014-10-31 2016-05-06 Dolby International Ab Parametric encoding and decoding of multichannel audio signals
US10176813B2 (en) 2015-04-17 2019-01-08 Dolby Laboratories Licensing Corporation Audio encoding and rendering with discontinuity compensation
WO2016210445A1 (en) 2015-06-26 2016-12-29 Kandou Labs, S.A. High speed communications system
US10224042B2 (en) * 2016-10-31 2019-03-05 Qualcomm Incorporated Encoding of multiple audio signals
EP3539127B1 (en) 2016-11-08 2020-09-02 Fraunhofer Gesellschaft zur Förderung der Angewand Downmixer and method for downmixing at least two channels and multichannel encoder and multichannel decoder
KR102291811B1 (ko) 2016-11-08 2021-08-23 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우 사이드 이득 및 잔여 이득을 사용하여 멀티채널 신호를 인코딩 또는 디코딩하기 위한 장치 및 방법
US10366695B2 (en) 2017-01-19 2019-07-30 Qualcomm Incorporated Inter-channel phase difference parameter modification
CN111684772B (zh) 2017-12-28 2023-06-16 康杜实验室公司 同步切换多输入解调比较器
CN111886879B (zh) * 2018-04-04 2022-05-10 哈曼国际工业有限公司 一种用于在音频输出中产生自然空间变化的***和方法
EP3671741A1 (en) 2018-12-21 2020-06-24 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Audio processor and method for generating a frequency-enhanced audio signal using pulse processing
EP3726730B1 (en) * 2019-04-17 2021-08-25 Goodix Technology (HK) Company Limited Peak current limiter
CN110491366B (zh) * 2019-07-02 2021-11-09 招联消费金融有限公司 音频平滑处理方法、装置、计算机设备和存储介质
JP2023549038A (ja) * 2020-10-09 2023-11-22 フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン パラメータ変換を用いて符号化されたオーディオシーンを処理するための装置、方法、またはコンピュータプログラム
JP2023549033A (ja) * 2020-10-09 2023-11-22 フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン パラメータ平滑化を用いて符号化されたオーディオシーンを処理するための装置、方法、またはコンピュータプログラム
US11533576B2 (en) * 2021-03-29 2022-12-20 Cae Inc. Method and system for limiting spatial interference fluctuations between audio signals

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1647155A (zh) * 2002-04-22 2005-07-27 皇家飞利浦电子股份有限公司 空间声频的参数表示
WO2005069274A1 (en) * 2004-01-20 2005-07-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal
CN1926607A (zh) * 2004-03-01 2007-03-07 杜比实验室特许公司 多信道音频编码
CN101379555A (zh) * 2006-02-07 2009-03-04 Lg电子株式会社 用于编码/解码信号的装置和方法
US20100286990A1 (en) * 2008-01-04 2010-11-11 Dolby International Ab Audio encoder and decoder

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6737572B1 (en) * 1999-05-20 2004-05-18 Alto Research, Llc Voice controlled electronic musical instrument
US7222070B1 (en) * 1999-09-22 2007-05-22 Texas Instruments Incorporated Hybrid speech coding and system
ATE323935T1 (de) 2001-04-09 2006-05-15 Koninkl Philips Electronics Nv Adpcm sprachkodiersystem mit phasenfaltungs und - entfaltungsfiltern
AU2002307884A1 (en) * 2002-04-22 2003-11-03 Nokia Corporation Method and device for obtaining parameters for parametric speech coding of frames
US7903824B2 (en) * 2005-01-10 2011-03-08 Agere Systems Inc. Compact side information for parametric coding of spatial audio
US7751572B2 (en) 2005-04-15 2010-07-06 Dolby International Ab Adaptive residual audio coding
US20070055510A1 (en) * 2005-07-19 2007-03-08 Johannes Hilpert Concept for bridging the gap between parametric multi-channel audio coding and matrixed-surround multi-channel coding
KR20080093024A (ko) 2006-02-07 2008-10-17 엘지전자 주식회사 부호화/복호화 장치 및 방법
RU2343563C1 (ru) * 2007-05-21 2009-01-10 Федеральное государственное унитарное предприятие "ПЕНЗЕНСКИЙ НАУЧНО-ИССЛЕДОВАТЕЛЬСКИЙ ЭЛЕКТРОТЕХНИЧЕСКИЙ ИНСТИТУТ" (ФГУП "ПНИЭИ") Способ передачи и приема закодированной речи
KR20100035121A (ko) * 2008-09-25 2010-04-02 엘지전자 주식회사 신호 처리 방법 및 이의 장치
US8258849B2 (en) 2008-09-25 2012-09-04 Lg Electronics Inc. Method and an apparatus for processing a signal
EP2169666B1 (en) * 2008-09-25 2015-07-15 Lg Electronics Inc. A method and an apparatus for processing a signal

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1647155A (zh) * 2002-04-22 2005-07-27 皇家飞利浦电子股份有限公司 空间声频的参数表示
WO2005069274A1 (en) * 2004-01-20 2005-07-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal
CN1926607A (zh) * 2004-03-01 2007-03-07 杜比实验室特许公司 多信道音频编码
US20080031463A1 (en) * 2004-03-01 2008-02-07 Davis Mark F Multichannel audio coding
CN101379555A (zh) * 2006-02-07 2009-03-04 Lg电子株式会社 用于编码/解码信号的装置和方法
US20100286990A1 (en) * 2008-01-04 2010-11-11 Dolby International Ab Audio encoder and decoder

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JUNGHOE KIM ET AL.: "Enhanced Stereo Coding with phase parameters for MPEG Unified Speech and Audio Coding", 《AES 127TH CONVENTION》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108770120A (zh) * 2018-05-25 2018-11-06 上海乘讯信息科技有限公司 一种智能通道状态灯

Also Published As

Publication number Publication date
US20200168233A1 (en) 2020-05-28
JP5358691B2 (ja) 2013-12-04
TW201118860A (en) 2011-06-01
CA2746524C (en) 2015-03-03
AU2010233863A1 (en) 2010-10-14
BRPI1004215A2 (pt) 2016-12-06
US9734832B2 (en) 2017-08-15
US10056087B2 (en) 2018-08-21
US20220358939A1 (en) 2022-11-10
PL2405425T3 (pl) 2014-12-31
SG174117A1 (en) 2011-10-28
EP2394268A1 (en) 2011-12-14
RU2011123124A (ru) 2012-12-20
HK1166174A1 (zh) 2012-10-19
US20110255714A1 (en) 2011-10-20
EP2394268B1 (en) 2014-01-08
ZA201103703B (en) 2012-02-29
HK1163915A1 (en) 2012-09-14
PL2394268T3 (pl) 2014-06-30
AU2010233863B2 (en) 2013-09-26
WO2010115850A1 (en) 2010-10-14
RU2550525C2 (ru) 2015-05-10
US20150131801A1 (en) 2015-05-14
CN102257563B (zh) 2013-09-25
ES2452569T3 (es) 2014-04-02
BRPI1004215B1 (pt) 2021-08-17
JP2012512438A (ja) 2012-05-31
KR101356972B1 (ko) 2014-02-05
MY160545A (en) 2017-03-15
CA2746524A1 (en) 2010-10-14
AR076238A1 (es) 2011-05-26
US20180358026A1 (en) 2018-12-13
US10580418B2 (en) 2020-03-03
KR20110095339A (ko) 2011-08-24
CN103325374B (zh) 2017-06-06
ES2511390T3 (es) 2014-10-22
TWI420512B (zh) 2013-12-21
MX2011006248A (es) 2011-07-20
US20170301356A1 (en) 2017-10-19
CN102257563A (zh) 2011-11-23
CO6501150A2 (es) 2012-08-15
US9053700B2 (en) 2015-06-09
US11430453B2 (en) 2022-08-30
EP2405425B1 (en) 2014-07-23
EP2405425A1 (en) 2012-01-11

Similar Documents

Publication Publication Date Title
CN102257563B (zh) 使用相位值平滑对下混频音频信号进行上混频的装置和方法
EP3279893B1 (en) Temporal envelope shaping for spatial audio coding using frequency domain wiener filtering
EP2169666B1 (en) A method and an apparatus for processing a signal
JP7280306B2 (ja) 改良されたミッド/サイド決定を持つ包括的なildを持つmdct m/sステレオのための装置および方法
CN110998721B (zh) 用于使用宽频带滤波器生成的填充信号对已编码的多声道信号进行编码或解码的装置
AU2012205170B2 (en) Temporal Envelope Shaping for Spatial Audio Coding using Frequency Domain Weiner Filtering
CN113544774A (zh) 降混器及降混方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant