CN1938760A - 多通道编码器 - Google Patents

多通道编码器 Download PDF

Info

Publication number
CN1938760A
CN1938760A CNA2005800106522A CN200580010652A CN1938760A CN 1938760 A CN1938760 A CN 1938760A CN A2005800106522 A CNA2005800106522 A CN A2005800106522A CN 200580010652 A CN200580010652 A CN 200580010652A CN 1938760 A CN1938760 A CN 1938760A
Authority
CN
China
Prior art keywords
signal
data
scrambler
input signal
channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2005800106522A
Other languages
English (en)
Other versions
CN1938760B (zh
Inventor
G·H·霍托
D·J·布里巴特
E·A·弗比特斯基
A·C·邓布林克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of CN1938760A publication Critical patent/CN1938760A/zh
Application granted granted Critical
Publication of CN1938760B publication Critical patent/CN1938760B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

描述在多通道编码器(5;15)中编码输入信号(CH1-CH3;400-450)以生成相应输出数据的方法,其中输出数据包含下混合输出信号(610,620)以及互补参数数据(600)。该方法包括下混合输入信号(CH1-CH3;400-450)以生成相应的下混合输出信号(610,620)的第一步骤,和在下混合期间处理输入信号(CH1-CH3;400-450)以生成对于下混合输出信号(610,620)互补的所述参数数据(600)的第二步骤。输入信号(CH1-CH3;400-450)的处理牵涉在下混合输出信号(610,620)中包括信息,该信息在后续解码下混合输出信号(610,620)和参数数据(600)以确定至少某一参数数据并从而能够表示随后将被再生的输入信号(CH1-CH3;400-450)的期间是可使用的。也阐述了在编码器(5;15)中用来执行基本信号处理操作的编码装置。

Description

多通道编码器
技术领域
本发明涉及多通道编码器,例如利用空间音频的参数描述的多通道音频编码器。而且,本发明还涉及在这样的多通道编码器中处理例如空间音频的信号的方法。此外,本发明涉及可操作来解码利用这样的多通道编码器生成的信号的解码器。
背景技术
近年来,音频记录和再现已经从单耳(非立体声)单通道格式发展到双通道立体声格式,并且最近又发展到多通道格式,例如时常在家庭影院***中使用的五通道音频格式。超级音频压缩盘(SACD)以及数字视盘(DVD)数据载体的出现导致这样的五通道音频再现在当代引起注意。目前许多用户拥有的设备能够在其家中提供五通道音频回放;相应地,在适合的数据载体上的五通道音频节目内容变得愈加可利用,例如上述的SACD以及DVD数据载体。由于不断增长的对于多通道节目内容的兴趣,更有效的多通道音频节目内容的编码正成为重要的问题,例如,以提供增强的质量、更长的播放时间以及甚至更多的通道之中的一个或多个。此外,这种不断增长的兴趣已经促使诸如MPEG的标准化组织团体意识到:多通道编码器的设计是相关的主题。
能够利用参数描述符表示诸如音频节目内容的空间音频信息的编码器是公知的。例如,在公布的国际PCT专利申请号PCT/IB2003/002858(WO2004/008805)中,描述了多通道音频信号的编码,该音频信号至少包括第一信号成分(LF)、第二信号成分(LR)和第三信号成分(RF)。这个编码使用的方法包括以下步骤:
(a)使用第一参数编码器,对第一和第二信号成分进行编码,以生成第一编码信号(L)以及第一组编码参数(P2);
(b)使用第二参数编码器,对第一编码信号(L)和另一信号(R)进行编码,以生成第二编码信号(T)和第二组编码参数(P1),其中另一信号(R)至少从第三信号成分(RF)中导出;和
(c)至少利用至少从第二编码信号(T)、第一组编码参数(P2)和第二组编码参数(P1)中导出的结果编码信号(T)来表示多通道音频信号。
音频信号的参数描述近年来已获得注意,因为已经表明:发送描述音频信号的量化参数需要相对极少的传输容量。这些量化参数能够在解码器中被接收及被处理,以再生在感觉上与其相应的原始音频信号没有显著不同的音频信号。
当来自现代多通道编码器的输出随后被解码时,出现了显著的通道间干扰的问题。在多通道编码器被安排来产生与两通道下混合(down-mix)相关的高质量立体声图像时,这样的干扰尤其显著。本发明用于至少部分地解决这个问题,从而提高了相应的解码的多通道音频的质量。
发明内容
本发明的目的是提供可选择的多通道编码器或者(程序)块,其能用于多通道编码器内,易于生成编码的输出数据,随后能利用减少的通道间干扰来解码输出数据。
根据本发明的第一方面,提供一种多通道编码器,可操作来处理在多个输入通道中传送的输入信号,以生成包括下混合输出信号以及互补参数数据的相应输出数据,该编码器包括:
(a)下混合器,用于对输入信号进行下混合,以生成相应的下混合输出信号;以及
(b)分析器,用于处理输入数据,所述分析器可操作来生成互补下混合输出信号的所述参数数据,
所述编码器可用于在生成下混合输出信号时允许随后解码下混合输出信号,以预测在该编码器中被处理过的并接着被丢弃的通道中的信号。
本发明具有的优点在于:来自编码器的输出数据易于利用降低的通道间干扰来解码,即,能够增强输入信号的后续再生。
此外,也潜在地减少表示输入信号所要求的从多通道编码器输出的数据量。
优选地,该编码器可操作为根据时间/频率瓦片(tile)处理输入信号。更优选地,在处理输入信号之前或在此期间在编码器中定义这些瓦片。
优选地,在编码器中,通过应用至少一个信号的最优化,该分析器可用于生成至少部分的参数数据(C1,i;C2,i),其中至少一个信号是从一个或多个输入信号与所述一个或多个输入信号的估计之间的差中导出的,这能够从多通道编码器的输出数据中生成。更优选地,该最优化牵涉最小化欧几里得(Euclidean)标准。
优选地,在编码器中,具有分析器能够处理的N个输入通道,以便为每个时间/频率瓦片生成参数数据,该分析器可操作来输出M(N-M)个参数以及M个下混合输出信号,用于在输出数据中表示输入信号,其中M和N为整数,且M<N。更优选地,在编码器中整数M等于2的情况下,下混合器可操作来生成两个下混合输出信号,其易于在双通道立体声音响设备中进行重放并利用标准立体声编码器来编码。这样的特性能够使得该编码器及其相关的输出数据后向兼容早期的重放***,例如,立体声双通道重放***。
根据本发明的第二方面,提供一种用于包含在根据本发明的第一方面的多通道编码器中的信号处理器,该处理器可操作来在多通道编码器中处理数据,以生成其下混合输出信号和参数数据。
根据本发明的第三方面,提供一种在多通道编码器中编码输入信号以生成相应输出数据的方法,该输出数据包括下混合输出信号以及互补参数数据,该方法包括以下步骤:
(a)经多个(N)输入通道,将输入信号提供给多通道编码器;
(b)下混合输入信号,以生成相应(M)下混合输出信号;以及
(c)处理输入信号,以生成互补下混合输出信号的所述参数数据,
其中在多通道编码器中输入信号的处理包括确定参数数据,以便能够表示随后将被再生的输入信号,所述下混合信号允许其解码,以预测在编码器中被处理的并随后在其中被丢弃的通道中的信号的内容。
根据本发明的第四方面,提供一种根据本发明的第三方面的方法生成的编码的输出数据,所述输出数据能够被存储在数据载体上。
根据本发明的第五方面,提供一种用于解码由根据本发明的第一方面的编码器生成的输出数据的解码器,该解码器包括:
(a)处理装置,用于从编码器中接收下混合输出信号以及参数数据,处理装置可操作来处理参数数据,以确定一个或多个系数或参数;以及
(b)计算装置,用于使用参数数据并且也使用在步骤(a)中确定的一个或多个系数计算被编码在输出数据中的每个输入信号的近似表示,以便进一步处理,从而充分再生输入信号的表示,得到由编码器生成的输出数据。
根据本发明的第六方面,提供一种包括在根据本发明的第五方面的多通道解码器中的信号处理器,该信号处理器可操作来辅助处理与再生输入信号的表示相关的数据。
根据本发明的第七方面,提供一种在多通道解码器中解码编码数据的方法,所述数据具有利用根据本发明的第一方面的多通道编码器生成的形式,该方法包括以下步骤:
(a)处理在编码数据中存在的下混合输出信号以及参数数据,所述处理利用参数数据来确定一个或多个系数或参数;以及
(b)使用参数数据并且也使用在步骤(a)中确定的一个或多个系数计算被编码在输出数据中的每个输入信号的近似表示,以便进一步处理,从而充分再生输入信号的表示,得到由编码器生成的编码数据。
将认识到,本发明的特性易于被组合在任何组合中而不脱离本发明的范围。
附图说明
现在将仅以实例的方式并参考以下附图来说明本发明的实施例,其中:
图1是多通道编码器的一个实施例的示意性框图,其中包括与本发明的第一上下文(context)相关的根据本发明的编码器;
图2是根据本发明的解码器的一个实施例的示意性框图,其与本发明的第一上下文相关的图1的编码器相兼容;
图3是本发明的一个优选实施例,其中在与本发明的第二上下文相关的根据本发明的多通道编码器中采用编码器;
图4是解码器的一个实施例,其使用本发明的编码器,与本发明的第二上下文相关的图3的编码器相兼容;以及
图5是其中利用标准立体声编码器和解码器相互配置根据本发明的多通道编码器和多通道解码器的一种配置。
具体实施方式
将以第一和第二上下文来描述本发明。在第一上下文中,本发明涉及一种编码器,其可操作来处理原始输入信号,以生成相应的编码的输出数据,该输出数据随后能在解码器中被解码,以重生在感觉上比至今可能的更为精确的原始输入信号的表示。在第二上下文中,本发明涉及本发明的特定示例性实施例。
现在将参照图1和2来考虑第一上下文。总体而言,本发明涉及在图1中一般利用5表示的编码器。该编码器5包括N个输入通道,用于接收相应的原始输入信号;例如,当N=3时,该编码器包括3个输入通道CH1、CH2、CH3。该编码器5可用于处理N个通道的原始输入信号,以生成:
(a)在M个下混合通道输出上的相应编码输出信号,其中M<N,例如,当M=2时,分别利用610和620标识的两个通道输出OP1和OP2;和
(b)一个或多个参数信号输出,例如,利用600标识的参数输出。
为了随后在解码器中对编码器5生成的输出信号进行最优解码,即相对于最少方差,当前有益的是在生成其编码输出信号600、610、620时在编码器5中采用主成分分析(PCA)。如果考虑利用编码器5的PCA生成的参数,处理这些输出信号600、610、620,以便图2中利用10标识的解码器上最佳可能的信号再生对应于提供给该编码器5的N个输入信号,这是潜在可能的。在信号600、610、620中用于PCA参数的值由原始输入信号自身诱发,并因此允许在编码器5中不会出现对下混合的控制。当在编码器5及其相应的解码器10中采用PCA,这样的缺乏控制使之在当代基本上不可能获得令人满意的立体图像质量。
发明人对于本发明已意识到:当固定的下混合和前述的M个下混合通道一起在编码器5中采用时,在互补解码器10上基本上完美再生原始输入信号在利用附加适当组的N-M通道传送互补信息来扩展这些M下混合通道时是潜在可能的。因此,当与这样的N-M通道相关的信息在编码期间至少被部分地丢弃时,利用固定下混合生成的M下混合通道的输出信号不能被用于再生充分完美的N通道中原始输入信号的表示。然而,发明者已意识到,当合适的处理被应用于M个下混合通道例如应用于输出610、620时,这些N-M个通道能至少部分地被预测。
因此,根据本发明配置的编码器5从M个下混合通道中至少预测对应于解码器上的N-M通道的一些信息,同时避免从编码器5发送特定参数到解码器10的需求。如将在下面更详细描述的那样,这样的预测利用了在N通道的信号之间出现的信号冗余。此外,当解码从编码器5提供的编码数据时,相应地兼容解码器10恢复冗余。
为了进一步阐明本发明,将描述如图1所示的编码器5的一个实例性实施例,并接着将参照其数学原理提供其中采用的信号处理的方法。
依照前述第二上下文,本发明的示例性实施例现在将参照图3和图4来描述。
在图3中,示出了一般利用15标识的多通道编码器。该编码器15包括三个处理单元20、30、40,用于接收利用400-450标识的六个输入信号;这六个输入信号的特性将在以下进行说明。这三个处理单元20、30、40可用于生成前面参照编码器5所描述的N个通道500-520。该编码器15还包括混合与参数提取单元180,用于接收处理单元20、30、40分别处理的输出500、510和520。提取单元180的输出包括前述的第三参数组输出600以及左、右中间信号950和960,其分别通过反向变换与OLA单元360相连接,以分别生成用于左、右通道的上述下混合输出610和620。参数输出组720、820、920、600以及下混合输出610和620对应于来自编码器15的编码输出数据,其适于随后被传送给相应的兼容解码器,在那里输出数据被解码,以再生六个输入信号400-450之中的一个或多个的表示。可替换地,下混合输出610和620能被提供给标准立体声编码器。
这六个利用400-450标识的原始输入信号包括:左前音频信号400,左后音频信号410,效果音频信号420,中央音频信号430,后前音频信号440以及右后音频信号450。效果信号420最好具有基本上120Hz的带宽,用于例如模拟隆隆声、***声和轰隆声效果。此外,输入信号400、410、430、440、450优选地对应于5通道家庭影音通道。
最好以在公开的欧洲专利申请号EP 1107232中所阐述的方式来实现这些处理单元20、30、40,有关这些单元20、30、40,在这里结合该欧洲专利申请作为参考。
处理单元20包含分段与变换单元100、参数分析单元110、参数-PCA角单元120以及PCA旋转单元130。该变换单元100包括变换后的左前和左后输出700,710,其分别耦合到PCA旋转单元130和参数分析单元110。第一参数组输出720通过PCA角单元120耦合到PCA旋转单元130。该旋转单元120可用于处理输出700,710以及第一参数组输出,以生成处理的输出500。单元20内的处理是基于时间/频率瓦片来执行的。
类似地,处理单元30包括分段与变换单元200、参数分析单元210、参数-PCA角单元220以及PCA旋转单元230。该变换单元200包括变换的左前和左后输出800,810,其分别耦合到PCA旋转单元230和参数分析单元210。第四参数组输出820通过PCA角单元220耦合到PCA旋转单元230。该旋转单元220可用于处理输出800,810以及第四参数组输出,以生成处理的输出510。单元30内的处理也是基于时间/频率瓦片来完成的。
类似地,处理单元40包括分段与变换单元300、参数分析单元310、参数-PCA角单元320以及PCA旋转单元330。该变换单元300包括变换后的左前和左后输出900,910,其分别耦合到PCA旋转单元330和参数分析单元310。第二参数组输出920通过PCA角单元320耦合到PCA旋转单元330。该旋转单元320可用于处理输出900,910以及第二参数组输出,以生成处理的输出520。单元40内的处理是基于时间/频率瓦片完成的。
处理的输出500、510和520分别对应于左、中央和右处理的信号。此外,通过现代的两通道立体声回放设备容易重放下混合输出610和620,因此保持与早期的立体声音响***的后向兼容性。第三参数组输出600包括额外的参数数据,其能在解码器例如图2所示的解码器10上与输出参数组720,820,920和下混合输出610,620一起进行处理,以再生六个输入信号400-450的表示。接着,将描述其中出现这个下混合以生成下混合输出610与620和在第三参数组输出600上的参数数据的方式。
再次参照图1和2的本发明的第一上下文,N个通道CH1-CH3的原始输入信号,即z1[n],z2[n],...,zn[n],描述N通道的离散时域波形。这些信号z1[n]-zn[n]在三个处理单元20、30、40中被分段,这样的分段使用相互共同的分离,优选地采用时间上交迭分析窗口。随后,通过应用合适的变换,例如快速傅利叶变换(FFT)或类似的等效类型的变换,每个段被从时间格式变换为频率格式,即从时域变换到频域。这样的格式变换优选地在执行适当软件的计算硬件中实现。可替换地,能够使用滤波器组结构来实现该变换,以获得时间/频率瓦片。此外,该变换导致通道CH1-CH3的输入信号的分段后的子带表示。为了方便,这些输入信号z1[n]-zn[n]的分段后的子带表示分别利用Z1[k]-Zn[k]来标识,其中k为频率索引。
为方便起见,我们考虑2个下混合通道来说明编码器15,尽管扩展至其他数目的下混合通道是可能的。从在N通道CH1-CH3中传送的原始输入信号中,编码器5处理前述的子带表示Z1[k]-Zn[k],以生成两个下混合通道L0[k]和R0[k],如公式1和2(Eq.1和2)中所提供的那样。
L 0 [ k ] = Σ i = 1 N α i Z i [ k ]       公式1
R 0 [ k ] = Σ i = 1 N β i Z i [ k ]       公式2
其中参数αi和βi优选地根据两个下混合通道L0[k]和R0[k]中良好的立体图像的要求进行设置。如前所阐明的,当2个下混合通道L0[k]和R0[k]被补充适当参数组以充分再生N-2丢失通道时,后续的解码器例如再生通道CH1-CH3的原始输入信号的表示的解码器10仅能够生成基本上完美的表示。当采用固定的下混合时,在一定程度上,N-2个被丢弃通道的信息能够从两个下混合通道L0[k]和R0[k]中预测,因此提供在相应的解码器例如解码器10上提高再生前述的通道CH1-CH3的原始输入信号表示的精度的一种方法。
在其中与一定的N通道相关的信息在生成输出信号600、610、620时被丢弃的情况中,即丢弃的通道利用C0,i[k]标识,这些被丢弃的通道能通过运用公式3(Eq.3)从下混合通道L0[k]和R0[k]中进行预测:
C ^ 0 , i [ k ] = C - 1 , i L 0 [ k ] + C - 2 , i R 0 [ k ]       公式3
其中根据一个或多个最优化标准来选择参数
Figure A20058001065200133
。优选地,在编码器5中采用的最优化标准为信号C0,i[k]及其估算 的最小欧几里得标准。为了允许根据公式3的处理在互补编码器5的解码器中被采用,参数
Figure A20058001065200136
优选地被包括在从编码器5输出的第三参数组600中。
发明者已经意识到,公式3中的参数
Figure A20058001065200137
Figure A20058001065200138
与在最小化在解码器10中生成的信号Zi[k]与其估算
Figure A20058001065200139
的欧几里得标准之差时在编码器5中生成的参数有关。该编码器5优选地被配置为采用这些后面的参数Zi[k]和。接着,通过使用公式4(Eq.4)在编码器5中可计算原始输入信号Zi[k]的欧几里得标准差的平方:
Σ k | Z i [ k ] - Z ^ i [ k ] | 2       公式4
其中
Z ^ i [ k ] = C 1 , Z i L 0 [ k ] + C 2 , Z i R 0 [ k ]       公式5
最好通过应用公式6、7(Eq.6、7)来获得公式4的最小值:
C 1 , Z i = < L 0 [ k ] , Z i [ k ] > * | | R 0 [ k ] | | 2 - < R 0 [ k ] , Z i [ k ] > * < L 0 [ k ] , R 0 [ k ] > * | | L 0 [ k ] | | 2 | | R 0 [ k ] | | 2 - | < L 0 [ k ] , R 0 [ k ] > | 2       公式6
C 2 , Z i = < R 0 [ k ] , Z i [ k ] > * | | L 0 [ k ] | | - < L 0 [ k ] , Z i [ k ] > * < L 0 [ k ] , R 0 [ k ] > | | L 0 [ k ] | | 2 | | R 0 [ k ] | | 2 - | < L 0 [ k ] , R 0 [ k ] > | 2       公式7
其中
| | A [ k ] | | 2 = &Sigma; k | A [ k ] | 2      公式8
&lang; A [ k ] , B [ k ] &rang; = &Sigma; k A [ k ] B * [ k ]      公式9
因此,对于可从公式6和7计算的参数C1,Zi和C2,zi,对于系数αi和βi从公式10-13(Eq.10-13)中可推导出以下关系,例如,与公式1和2(Eq.1和2)相关:
&Sigma; i = 1 N &alpha; i C 1 , z i = 1      公式10
&Sigma; i = 1 N &beta; i C 2 , z i = 1      公式11
- &Sigma; i = 1 N &beta; i C i , z i = 0      公式12
- &Sigma; i = 1 N &alpha; i C 2 , Z i = 0      公式13
因此,在编码器5中,应用如公式1-13(Eq.1-13)所描述的处理操作,变换对应于N通道的输入信号即CH1-CH3的输入信号是可行的,其中N=3,每个通道具有两个参数以及两个下混合通道,以生成输出610、620的信号以及第三参数组输出600,用于第i个通道的两个参数为C1,Zi和C2Zi。如果对于每个时间/频率瓦片,下混合是固定的,则在解码器10中下混合是已知的,因此参数之间的关系是预先已知的。另一方面,如果选择改变下混合,则必须将有关实际下混合的信息发送到解码器10。
在解码器5中,CH1-CH3的输入信号在通道单元100,200,300中被处理,从而以时间/频率瓦片生成输入信号的表示。针对这些瓦片中的每一个,重复利用公式1-13所描述的处理操作。所有的频域瓦片的信号L0[k]被组合进编码器5中并被变换到时域,以形成用于当前段的信号,并且这个信号至少部分地与有关至少前一分段的信号进行组合,以生成编码的输出信号620。以与信号L0[k]相类似的方式来处理信号R0[k],以生成编码的输出信号610。
总的来说,作为本发明特定实施例的编码器5以及类似地编码器15可用于把三个输入信号CH1-CH3编码为两个下混合通道610和620,即在处理CH1-CH3输入信号时所应用的每个时间/频率瓦片的参数lo[n]、ro[n]以及2N-4参数。
对于图1示出的编码器5的补充,类似地在图3中所示出的编码器15是在图2中示意性表示的互补解码器,并且其中一般利用10来标识。该解码器10包括处理单元1000,其可操作来从编码器5中接收下混合输出信号610、620以及传送参数信息的第三参数组输出600,例如前述参数C1,Zi和C2,Zi的值。该解码器10可操作用于处理从输出600、610、620接收的信号,以生成解码后的输出信号1500、1510、1520,这些分别是输入信号CH1、CH2、CH3的解码的表示。
在解码器10上,当从编码器5中接收例如通过诸如因特网的通信网络和/或诸如数字视盘(DVD)或类似数字媒体的数据载体传送的输出600、610、620时,对每个时间/频率瓦片,执行下面处理功能:
(a)对于所有N通道,使用2N-4系数和四个公式,计算系数C1,Zi和C2,Zi,即有关公式10-13的信息,描述这些系数之间的关系;并随后
(b)使用公式14(Eq.14),计算每个输入信号Zi[k]的适当表示
Z i ^ = C 1 , Z i L 0 [ k ] + C 2 , Z i R 0 [ k ]      公式14
其中L0[k]和R0[k]是表示在解码器10上接收的两个下混合通道的时间/频率瓦片的信号,即分别为输出610和620。
现在将以第二上下文参照图4描述在第一上下文中在图2所示的解码器10的特定示例性实施例。在图4中,示出了一般以18标识的解码器。该解码器18包括分段与变换单元1600,用于变换前述的利用ro和lo标识的前述下混合输出610和620,以生成对应的变换信号1650、1660,分别利用Ro和Lo标示。此外,该解码器18还包括解码处理器1610,用于接收信号600、1650、1660并处理它们,以生成相应的处理的信号1700、1710、1720,这些信号分别与左通道(L)、中央通道(C)和右通道(R)相关。
信号1700直接耦合并且也通过所示的解相关器1750耦合到逆PCA单元1800,该单元可用于生成两个中间输出Lf、Ls,其耦合到逆变换与OLA单元1900。该逆变换与OLA单元1900可用于处理中间输出Lf、Ls,以生成对应于图2中的输出1500的解码器输出2000、2010,即再生版本的输入信号400、410。
类似地,信号1710直接耦合以及也通过所示的解相关器1760耦合到逆PCA单元1810,该单元可用于生成两个中间输出Cs、LFE,其耦合到逆变换与OLA单元1910。该逆变换与OLA单元1910可用于处理中间输出Cs、LFE,以生成对应于图2中输出1510的解码器输出2020、2030,即再生版本的输入信号420、430。
类似地,信号1720直接耦合以及也通过如所示的解相关器1770耦合到逆PCA单元1820,该单元可用于生成两个中间输出Rf、Rs,其耦合到逆变换与OLA单元1920。该逆变换与OLA单元1920可用于处理中间输出Rf、Rs,以生成对应于图2中输出1520的解码器输出2040、2050,即再生版本的输入信号440、450。
这些单元1800、1810、1820在操作期间要求参数输入920、820、720,以接收足够的数据用于正确操作。
在解码处理器1610(也称为根据本发明的解码器)内执行的处理操作包括如上参考图2所示的解码器10所述的数学运算。
将知道,在不脱离利用所附的权利要求所定义的本发明的范围的情况中,上文描述的本发明实施例容易进行修改。
例如,编码器5(类似地,编码器15)优选地被安排为操作,以便在处理过程中运用公式15和16(Eq.15和Eq.16)在下混合输出中生成良好的立体图像:
L0[k]=L[k]+Cs[k]           公式15
R0[k]=R[k]+Cs[k]           公式16
在这样的情况下,N=3,因此,如利用2N-4所确定的,每个瓦片仅有两个参数需要从编码器5发送到解码器10。这种安排的优点在于:两个参数或者系数C1,Zi和C2,Zi名义上在相似的数值范围内,因此可对它们应用相似的量化。
相应地,在解码器10上,当提供三个或更多通道回放时,对于每个瓦片计算六个参数,即C1,L、C2,L、C1,R、C2,R、C1,Cs以及C2,Cs。这样的计算基于两个发送的参数以及与这六个参数之间关系有关的信息。
作为一个实例,系数C1,L和C2,R被从编码器发送到解码器10。解码器10随后能够利用公式17(Eq.17)从中导出其他的系数,即:
C2,L=C2,R-1     C1,R=C1,L-1
C1,Cs=1-C1,L    C2,Cs=1-C2,R                公式17
当对于每个瓦片已推导出这六个参数时,通过在解码器10内执行的运算中使用公式18(Eq.18),能在解码器10内再生在编码器5中输出信号的表示,即
Figure A20058001065200172
L ^ [ k ] R ^ [ k ] Cs ^ [ k ] = C 1 , L L 0 [ k ] + C 2 , L R 0 [ k ] C 1 , R L 0 [ k ] + C 2 , R R 0 [ k ] C 1 , C L 0 [ k ] + C 2 , C R 0 [ k ]       公式18
这些信号
Figure A20058001065200177
随后可从频域变换到时域,以生成信号1500-1520,用于从解码器10输出,以便用户例如在家庭影院呈现期间欣赏。在多通道编码器5、15的最简单应用中,标准立体声编码装置,即编码器和解码器,其中M=2,被采用在前文所述的多通道编码器5、15以及多通道解码器10、18之间。换句话说,参照图3和4,图3中的输出信号610、620被直接馈送到标准立体声编码器3000以及随后通过多路复用器3002,如图5所示。包括参数数据(600;600,720,820,920)的多路复用器3002的输出3005随后经过数据通信路由3010例如通过数据载体或通信网络被传送到多路分用器3012,并接着被传送到互补立体声编码器3000的立体声解码器3020。来自解码器3020的解码的输出信号3030与来自多路分用器3012的参数数据(600;600,720,820,920)一起被馈送到多通道解码器10、18。解码器3020的输出3030为来自多通道编码器5、15的输出信号610、620的再生版本。如图5所示的配置是其中多通道编码器5、15和多通道解码器10、18易于相互互连的方式的一个示例。
在所附的权利要求书中,括弧内包括的数字及其他符号用于辅助理解权利要求,并且无论如何不打算用来限制权利要求的范围。
在解释说明书及其相关的权利要求时,诸如“由…组成”、“包括”、“结合”、“包含”、“是”以及“具有”等表述将被解释为非排它性的方式,即解释为允许在这里没有明确定义的其他项或组件的存在。对单数的提及也被解释为对复数的提及,并且反之亦然。

Claims (13)

1、一种多通道编码器(5;15),可操作来处理在多个输入通道(CH1-CH3;400-450)中传送的输入信号,以生成相应的输出数据,该输出数据包括下混合输出信号(610,620)以及互补参数数据(600),该编码器(5;15)包括:
(a)下混合器,用于对输入信号(CH1-CH3;400-450)进行下混合,以生成相应的下混合输出信号(610,620);和
(b)分析器(180),用于处理输入信号(CH1-CH3;400-450),所述分析器(180)可操作来生成对于下混合输出信号(610,620)互补的所述参数数据,
所述编码器在生成下混合输出信号时可操作来允许随后解码下混合输出信号,以预测在编码器中被处理的并随后被丢弃的通道中的信号。
2、根据权利要求1所述的多通道编码器(5;15),所述编码器(5;15)可操作来基于时间/频率瓦片处理输入信号(CH1-CH3;400-450)。
3、根据权利要求2所述的多通道编码器(5;15),其中在处理输入信号(CH1-CH3;400-450)之前或在处理输入信号(CH1-CH3;400-450)期间在编码器(5;15)中定义这些瓦片。
4、根据权利要求1所述的多通道编码器(5;15),其中分析器可操作来通过应用从一个或多个输入信号和所述一个或多个输入信号的估算之间的差中导出的至少一个信号的优化来生成至少部分的参数数据(C1,i;C2,i),其中该估算可以从多通道编码器(5;15)的输出信号(600,610,620)中生成。
5、根据权利要求4所述的多通道编码器(5;15),其中优化包括最小化欧几里得标准。
6、根据权利要求1所述的多通道编码器(5;15),其中具有分析器可操作来处理的N个输入通道,以便针对每个时间/频率瓦片生成参数数据,该分析器可操作来输出M(N-M)参数以及M下混合输出信号,用于在输出数据(600,610,620)中表示输入信号(CH1-CH3;400-450);其中M和N为整数,并且M<N。
7、根据权利要求6所述的多通道编码器(5;15),其中整数M等于2,以使输出信号易于在双通道立体声设备中进行重放和利用标准立体声编码器进行编码。
8、一种信号处理器(180),用于包括在根据权利要求1所述的多通道编码器中,该处理器(180)可操作来在多通道编码器(5;15)中处理数据,以生成其下混合输出信号和参数数据。
9、一种在多通道编码器(5;15)中编码输入信号(CH1-CH3;400-450)以生成相应的输出数据(600,610,620)的方法,其中输出数据包括下混合输出信号(610,620)以及互补参数数据(600),该方法包括以下步骤:
(a)经由多个(N)输入通道,将输入信号(CH1-CH3;400-450)提供给编码器(5;15);
(b)下混合输入信号(CH1-CH3;400-450),以生成相应的(M)下混合输出信号(610,620);以及
(c)处理输入信号(CH1-CH3;400-450),以生成对于下混合输出信号(610,620)  补的所述参数数据(600),
其中在多通道编码器中输入信号(CH1-CH3;400-450)的处理包括确定参数数据,以便能够表示随后将被再生的输入数据(CH1-CH3;400-450),所述下混合信号允许其解码,以便预测在编码器中被处理的并随后被丢弃的通道中的信号的内容。
10、一种根据权利要求9所述的方法生成的编码输出数据(600,610,620),所述输出数据(600,610,620)被存储在数据载体上。
11、一种多通道解码器(10;18),用于解码利用根据权利要求1所述的多通道编码器(5;15)生成的输出数据,该解码器(10;18)包括:
(a)处理装置,用于从编码器(5;15)接收下混合输出信号(610,620)以及参数数据(600),该处理装置可操作来处理参数数据,以确定一个或多个系数或参数;以及
(b)计算装置,用于使用参数数据以及在步骤(a)中确定的一个或者多个系数计算在输出数据中编码的每个输入信号的近似表示,以便进一步处理,从而充分再生输入信号(CH1-CH3)的表示(1400-1420),得到利用编码器(5;15)生成的输出信号(600,610,620)。
12、一种信号处理器,用于根据权利要求11所述的多通道解码器中,所述信号处理器可操作来辅助处理与再生输入信号的表示相关的数据。
13、一种在多通道解码器(10,18)中解码编码数据的方法,所述数据具有利用根据权利要求1所述的多通道编码器(5;15)生成的形式,该方法包括以下步骤:
(a)处理在编码数据中出现的下混合信号(610,620)以及参数数据(600),所述处理利用参数数据来预测一个或多个系数或参数;以及
(b)使用参数数据以及在步骤(a)中确定的一个或者多个系数,计算在编码数据中编码的每个输入信号的近似表示,以便进一步处理,从而充分再生输入信号(CH1-CH3)的表示(1400-1420),得到由编码器(5;15)生成的编码数据(600,610,620)。
CN2005800106522A 2004-04-05 2005-03-25 多通道编码器 Active CN1938760B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP04101405.1 2004-04-05
EP04101405 2004-04-05
EP04102862 2004-06-22
EP04102862.2 2004-06-22
PCT/IB2005/051040 WO2005098824A1 (en) 2004-04-05 2005-03-25 Multi-channel encoder

Publications (2)

Publication Number Publication Date
CN1938760A true CN1938760A (zh) 2007-03-28
CN1938760B CN1938760B (zh) 2012-05-23

Family

ID=34962080

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2005800106522A Active CN1938760B (zh) 2004-04-05 2005-03-25 多通道编码器

Country Status (10)

Country Link
US (2) US7813513B2 (zh)
EP (3) EP1895512A3 (zh)
JP (2) JP4938648B2 (zh)
KR (1) KR101135869B1 (zh)
CN (1) CN1938760B (zh)
BR (1) BRPI0509100B1 (zh)
MX (1) MXPA06011359A (zh)
RU (1) RU2382419C2 (zh)
TW (1) TWI380286B (zh)
WO (1) WO2005098824A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103493128A (zh) * 2012-02-14 2014-01-01 华为技术有限公司 用于执行多信道音频信号的适应性下混和上混的方法及设备
CN105531761A (zh) * 2013-09-12 2016-04-27 杜比国际公司 音频解码***和音频编码***

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4938648B2 (ja) * 2004-04-05 2012-05-23 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ マルチチャンネル・エンコーダ
EP2575129A1 (en) * 2006-09-29 2013-04-03 Electronics and Telecommunications Research Institute Apparatus and method for coding and decoding multi-object audio signal with various channel
MY145497A (en) * 2006-10-16 2012-02-29 Dolby Sweden Ab Enhanced coding and parameter representation of multichannel downmixed object coding
CN102037507B (zh) * 2008-05-23 2013-02-06 皇家飞利浦电子股份有限公司 参数立体声上混合设备、参数立体声译码器、参数立体声下混合设备、参数立体声编码器
KR101428487B1 (ko) * 2008-07-11 2014-08-08 삼성전자주식회사 멀티 채널 부호화 및 복호화 방법 및 장치
EP2146522A1 (en) * 2008-07-17 2010-01-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating audio output signals using object based metadata
RU2520329C2 (ru) 2009-03-17 2014-06-20 Долби Интернешнл Аб Усовершенствованное стереофоническое кодирование на основе комбинации адаптивно выбираемого левого/правого или среднего/побочного стереофонического кодирования и параметрического стереофонического кодирования
KR101710113B1 (ko) * 2009-10-23 2017-02-27 삼성전자주식회사 위상 정보와 잔여 신호를 이용한 부호화/복호화 장치 및 방법
JP5511848B2 (ja) 2009-12-28 2014-06-04 パナソニック株式会社 音声符号化装置および音声符号化方法
JP5604933B2 (ja) * 2010-03-30 2014-10-15 富士通株式会社 ダウンミクス装置およびダウンミクス方法
EP2578000A1 (en) * 2010-06-02 2013-04-10 Koninklijke Philips Electronics N.V. System and method for sound processing
CN103460282B (zh) * 2010-08-25 2015-08-19 弗兰霍菲尔运输应用研究公司 用于利用传送的相位信息产生去相关信号的装置
KR101697550B1 (ko) * 2010-09-16 2017-02-02 삼성전자주식회사 멀티채널 오디오 대역폭 확장 장치 및 방법
DK2691951T3 (en) 2011-03-28 2016-11-14 Dolby Laboratories Licensing Corp TRANSFORMATION WITH REDUCED COMPLEXITY OF AN Low-Frequency
EP2733965A1 (en) * 2012-11-15 2014-05-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating a plurality of parametric audio streams and apparatus and method for generating a plurality of loudspeaker signals
TWI546799B (zh) 2013-04-05 2016-08-21 杜比國際公司 音頻編碼器及解碼器
US9892737B2 (en) 2013-05-24 2018-02-13 Dolby International Ab Efficient coding of audio scenes comprising audio objects
CN110085240B (zh) * 2013-05-24 2023-05-23 杜比国际公司 包括音频对象的音频场景的高效编码
EP2830064A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding and encoding an audio signal using adaptive spectral tile selection
WO2015150384A1 (en) 2014-04-01 2015-10-08 Dolby International Ab Efficient coding of audio scenes comprising audio objects

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69428939T2 (de) * 1993-06-22 2002-04-04 Deutsche Thomson-Brandt Gmbh Verfahren zur Erhaltung einer Mehrkanaldekodiermatrix
US5890125A (en) * 1997-07-16 1999-03-30 Dolby Laboratories Licensing Corporation Method and apparatus for encoding and decoding multiple audio channels at low bit rates using adaptive selection of encoding method
JP3342001B2 (ja) * 1998-10-13 2002-11-05 日本ビクター株式会社 記録媒体、音声復号装置
MY123651A (en) * 1999-04-07 2006-05-31 Dolby Laboratories Licensing Corp Matrix improvements to lossless encoding and decoding
US6539357B1 (en) * 1999-04-29 2003-03-25 Agere Systems Inc. Technique for parametric coding of a signal containing information
EP2299735B1 (en) * 2000-07-19 2014-04-23 Koninklijke Philips N.V. Multi-channel stereo-converter for deriving a stereo surround and/or audio center signal
US7200561B2 (en) * 2001-08-23 2007-04-03 Nippon Telegraph And Telephone Corporation Digital signal coding and decoding methods and apparatuses and programs therefor
AU2003209585A1 (en) * 2002-04-05 2003-10-20 Koninklijke Philips Electronics N.V. Signal processing
CN1284319C (zh) * 2002-04-22 2006-11-08 西安大唐电信有限公司 一种多通道amr声码器的实现方法和设备
BRPI0304540B1 (pt) * 2002-04-22 2017-12-12 Koninklijke Philips N. V Methods for coding an audio signal, and to decode an coded audio sign, encoder to codify an audio signal, codified audio sign, storage media, and, decoder to decode a coded audio sign
JP4322207B2 (ja) * 2002-07-12 2009-08-26 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ符号化方法
US7502743B2 (en) * 2002-09-04 2009-03-10 Microsoft Corporation Multi-channel audio encoding and decoding with multi-channel transform selection
US7447317B2 (en) * 2003-10-02 2008-11-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V Compatible multi-channel coding/decoding by weighting the downmix channel
JP4938648B2 (ja) * 2004-04-05 2012-05-23 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ マルチチャンネル・エンコーダ

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103493128A (zh) * 2012-02-14 2014-01-01 华为技术有限公司 用于执行多信道音频信号的适应性下混和上混的方法及设备
CN103493128B (zh) * 2012-02-14 2015-05-27 华为技术有限公司 用于执行多信道音频信号的适应性下混和上混的方法及设备
US9514759B2 (en) 2012-02-14 2016-12-06 Huawei Technologies Co., Ltd. Method and apparatus for performing an adaptive down- and up-mixing of a multi-channel audio signal
CN105531761A (zh) * 2013-09-12 2016-04-27 杜比国际公司 音频解码***和音频编码***
US10170125B2 (en) 2013-09-12 2019-01-01 Dolby International Ab Audio decoding system and audio encoding system
CN105531761B (zh) * 2013-09-12 2019-04-30 杜比国际公司 音频解码***和音频编码***

Also Published As

Publication number Publication date
CN1938760B (zh) 2012-05-23
EP3573055B1 (en) 2022-03-23
JP2011209745A (ja) 2011-10-20
TWI380286B (en) 2012-12-21
JP4938648B2 (ja) 2012-05-23
KR20070001206A (ko) 2007-01-03
WO2005098824A1 (en) 2005-10-20
BRPI0509100B1 (pt) 2018-11-06
EP1895512A3 (en) 2014-09-17
EP1895512A2 (en) 2008-03-05
TW200612392A (en) 2006-04-16
EP3573055A1 (en) 2019-11-27
US8065136B2 (en) 2011-11-22
RU2382419C2 (ru) 2010-02-20
US20070239442A1 (en) 2007-10-11
BRPI0509100A (pt) 2007-08-28
KR101135869B1 (ko) 2012-04-19
EP1735777A1 (en) 2006-12-27
MXPA06011359A (es) 2007-01-16
RU2006139082A (ru) 2008-05-20
JP5539926B2 (ja) 2014-07-02
US20110040398A1 (en) 2011-02-17
US7813513B2 (en) 2010-10-12
JP2007531914A (ja) 2007-11-08

Similar Documents

Publication Publication Date Title
CN1938760B (zh) 多通道编码器
US9966080B2 (en) Audio object encoding and decoding
CN101479786B (zh) 用于编码和解码基于对象的音频信号的方法和装置
CN101887726B (zh) 立体声编码和解码的方法
KR101346120B1 (ko) 오디오 인코딩 및 디코딩
CN101044550B (zh) 产生编码多通道信号的设备和方法、对编码多通道信号进行解码的设备和方法
JP5455647B2 (ja) オーディオデコーダ
EP1735774B1 (en) Multi-channel encoder
KR100936498B1 (ko) 스테레오 호환성의 멀티채널 오디오 코딩
JP4685925B2 (ja) 適応残差オーディオ符号化
CN1922657B (zh) 用于可变块尺寸信号的解码方案
Hilpert et al. The MPEG Surround audio coding standard [Standards in a nutshell]
CN101506875A (zh) 用于组合多个参数编码的音频源的设备和方法
Purnhagen et al. Immersive audio delivery using joint object coding
JP2005521921A (ja) 信号処理
Staff New Developments In Low Bit-rate Coding
Fejzo et al. DTS-HD: Technical Overview of Lossless Mode of Operation
Nema et al. Comparison of Multichannel Audio Decoders for Use in Mobile and Handheld Devices

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant