CN101151658B - 多声道音频编码和解码方法、编码器和解码器 - Google Patents

多声道音频编码和解码方法、编码器和解码器 Download PDF

Info

Publication number
CN101151658B
CN101151658B CN2006800102009A CN200680010200A CN101151658B CN 101151658 B CN101151658 B CN 101151658B CN 2006800102009 A CN2006800102009 A CN 2006800102009A CN 200680010200 A CN200680010200 A CN 200680010200A CN 101151658 B CN101151658 B CN 101151658B
Authority
CN
China
Prior art keywords
data
signal
sound channel
strengthen
channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2006800102009A
Other languages
English (en)
Other versions
CN101151658A (zh
Inventor
G·H·霍索
F·P·迈伯格
A·W·J·乌门
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=36607294&utm_source=***_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=CN101151658(B) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of CN101151658A publication Critical patent/CN101151658A/zh
Application granted granted Critical
Publication of CN101151658B publication Critical patent/CN101151658B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Stereo-Broadcasting Methods (AREA)

Abstract

多声道音频编码器(10)对N-声道的音频信号进行编码。第一单元(110)产生用于N-声道信号的第一编码M-声道信号(N>M),例如空间立体声的下混合。下混合器(115、116、117)产生用于相对于N-声道音频信号的信号的第一增强数据。为N-声道信号产生第二M-声道信号,例如艺术立体声混合。然后,处理器(123)为相对于第一M-声道信号的第二M-声道信号产生第二增强数据。第二单元(120)产生包含第二M-声道信号、第一增强数据和第二增强数据的输出信号。发生器(123)能在产生第二增强数据作为绝对增强数据或者作为相对于第二编码M-声道信号的相对增强数据之间动态选择。解码器(20)能执行逆向操作,并且能根据接收到的比特流中的指示应用第二增强数据作为绝对的或者相对的增强。

Description

多声道音频编码和解码方法、编码器和解码器
技术领域
本发明涉及用于多声道信号的音频编码和/或解码。
背景技术
多声道音频信号是具有两个或更多音频声道的音频信号。众所周知的多声道音频信号的例子是两声道立体声音频信号和具有两个前置音频声道、两个后置音频声道、一个中心音频信号和一个附加的低频增强(LFE)声道的5.1声道音频信号。该5.1声道音频信号被用在DVD(数字化多功能盘)和SACD(超级音频压缩盘)***中。由于多声道资料的日益普及,多声道资料的高效编码变得更加重要。
在音频处理领域,将一定数量的音频声道向另一定数量的音频声道的转换是为人熟知的。这样的转换可能由于多种原因而进行。例如,音频信号可以被转换为其它格式以提供增强的用户体验。例如,传统的立体声录制品仅仅包含两个声道而现代高级音频***一般使用五个或六个声道,像在流行的5.1环绕声***中一样。于是,两立体声声道可以转换为五个或六个声道以便发挥高级音频***的全部优势。
声道转换的另一个原因是编码效率。已经发现,例如环绕声音频信号能编码为与参数比特流结合的立体声声道音频信号,该参数比特流描述音频信号的多声道空间特性。解码器能重建具有令人满意的准确程度的环绕声音频信号。这样,可以获得实质的比特速率节省。
5.1-2-5.1多声道音频编码***是公知的。在这种公知的音频编码***中,5.1输入音频信号被编码并表示为两个下混合声道和相关参数。这些下混合信号被整体称为空间下混合。在这种公知***中,空间下混合形成具有立体声映像的立体声音频信号,即,在质量上,媲美从5.1输入声道而来的固定ITU下混合。只拥有立体声装备的用户能听这种空间立体声下混合,而拥有5.1声道装备的听众能听5.1声道再现,其利用这种空间立体声下混合和相关参数制成。5.1声道装备从空间立体声下混合(例如,立体声音频信号)和相关参数中解 码/重建5.1声道音频信号。
但是,与原始的立体声信号或者显式产生的立体声信号相比,空间立体声下混合常常被视为降低了质量的。例如,专业的演播室工程师常常发现空间立体声下混合有些呆板枯燥。因为这个原因,常常产生不同于空间立体声下混合的艺术立体声下混合。例如增加额外的混响或者声源,加宽立体声映像,等等。为了使用户能够欣赏艺术立体声下混合,这种艺术下混合而不是空间下混合可以通过传输媒体进行传送或者存储在存储介质上。然而,因为用于从立体声信号中产生5.1信号的参数数据基于原始下混合信号,这一方法严重地影响了5.1声道音频信号再生的质量。特别地,输入5.1声道音频信号被编码为空间立体声下混合和相关参数。通过用艺术立体声下混合代替空间立体声下混合,空间立体声下混合可能不再可用于***解码端,并且5.1声道音频信号的高质量重建成为不可能。
一种改进5.1声道音频信号质量的可能途径是包含更多的空间立体声下混合信号的数据。例如,除艺术立体声下混合之外,空间立体声下混合信号可以被包含在同一比特流中,或者被平行传送。然而,这实质上提高了数据率,因而增加了通信带宽或者存储的需求,并将降低已编码多声道信号的质量-数据率比。
因此,一种改进的多声道音频的编码/解码***将是有利的,特别是一种允许改进性能、质量和/或质量-数据率比的***将是有利的。
发明内容
因此,本发明致力于更好地减轻、缓和或消除一个或多个上面提到的缺点,无论是单个地还是以某种组合形式。
根据本发明的第一方面,提供一种多声道音频编码器,用于编码N-声道音频信号,该多声道音频编码器包括:用于为该N-声道音频信号产生第一M-声道信号的装置,M小于N;用于产生相对于N-声道音频信号的第一M-声道信号的第一增强数据的装置;用于为N-声道音频信号产生第二M-声道信号的装置;用于产生相对于第一M-声道信号的第二M-声道信号的第二增强数据的增强装置;用于产生包含第二M-声道信号、第一增强数据和第二增强数据的已编码输出信号 的装置;并且其中增强装置设置成可以在产生第二增强数据作为绝对增强数据或者作为相对于第二M-声道信号的相对增强数据之间动态地选择。
本发明可以允许一种多声道信号的高效编码。特别地,能实现一种增加了质量-数据率比的高效编码。本发明可以允许一个M-声道信号替代另一个M-声道信号,并且对基于对第一M-声道信号相关的增强数据的多声道产生的影响得到降低。特别地,在允许基于与空间下混合相关的增强数据在解码器上实现高效多声道重建的同时,一种艺术下混合而不是空间下混合可被传送。增强数据的动态选择允许增强数据大小显著地减小和/或可产生信号的质量的提高。
绝对增强数据不参照第二M-声道信号描述第一M-声道信号,而相对增强数据参照第二M-声道信号的描述第一M-声道信号。
用于产生第一和/或第二M-声道信号的装置可以通过处理N-声道信号或者例如通过从内部或外部源中接收M-声道信号来产生信号。
根据本发明的一个可选特征,增强装置设置为响应于N-声道信号的特性,在绝对增强数据和相对增强数据之间进行选择。
这可以允许一种高效性能并且特别地可以提供一种提高了质量-数据率比的已编码信号。例如,该选择可以通过评测从N-声道信号的一个片段的特性导出的一个或更多参数来执行,并且特别地基于从第一和/或第二M-声道信号(其自身能从N-声道信号导出)导出的一个或更多参数。
根据本发明的一个可选特征,增强装置设置为响应于绝对增强数据和相对增强数据的相对特性,在绝对增强数据和相对增强数据之间进行选择。
这可以允许一种高效性能并且特别地可以提供一种提高了质量-数据率比的已编码信号。可替换地或者另外地,其可以允许一种高效的和/或低复杂度的实现。
根据本发明的一个可选特征,该相对特性是相对于相对增强数据的信号能量的绝对增强数据的信号能量。
这可以允许一种高效性能并且特别地可以提供一种提高了质量-数据率比的已编码信号。可替换地或者另外地,其可以允许一种高效的和/或低复杂度的实现。特别地,增强装置可以选择具有最低信号 能量的增强数据类型。
根据本发明的一个可选特征,该增强装置设置为将第二M-声道信号划分成信号块,并个别地为每一个信号块在绝对增强数据和相对增强数据之间进行选择。
这可以允许一种高效性能并且特别地可以提供一种提高了质量-数据率比的已编码信号。可替换地或者另外地,其可以允许一种高效的和/或低复杂度的实现。信号块可以在时域和/或频域中划分,而且每一个信号块可以特定地包含一组时间/频率片。这种到信号块的划分可以应用于第一M-声道信号和/或N-声道信号。
根据本发明的一个可选特征,该增强装置设置为仅基于与一个信号块相关的特性,为该信号块在绝对增强数据和相对增强数据之间进行选择。
这可以允许一种高效性能并且特别地可以提供一种提高了质量-数据率比的已编码信号。可替换地或者另外地,其可以允许一种高效的和/或低复杂度的实现。特别地,增强装置可以选择具有最低信号能量的增强数据类型。
根据本发明的一个可选特征,在产生增强数据作为绝对增强数据和作为相对增强数据之间切换的切换时间间隔期间,增强装置设置为将增强数据产生为绝对增强数据和相对增强数据的一种组合。
这可以允许改进的切换,并且特别地可以减少与切换相关的人工噪声。可以得到改善的声音质量。当从绝对到相对增强数据和/或从相对到绝对增强数据进行切换时,在切换时间间隔期间的组合可以得到应用。该组合可以使用重叠相加技术得到。
根据本发明的一个可选特征,该组合包含绝对增强数据和相对增强数据之间的一种插值。
这可以允许一种具有高质量的实用且高效的实现。改善的声音质量可以被获得。
根据本发明的一个可选特征,用于产生已编码输出信号的装置设置为包含指示使用了相对增强数据还是绝对增强数据的数据。
这可以允许一种高效的性能,并且特别地可以提供一种提高了质量-数据率比的已编码信号。可替换地或者另外地,这可以允许一种高效的和/或低复杂度的实现。该指示数据可以特定地包含每一个信 号块的一个选择指示。
根据本发明的一个可选特征,第二增强数据包含增强数据的第一部分和增强数据的第二部分,该第二部分提供比第一部分更高质量的的第一M-声道信号的表示。
这可以允许一种高效的性能,并且特别地可以提供一种提高了质量-数据率比的已编码信号。第一部分可以比第二部分具有更低的数据率。第二部分可以包括更加准确地允许编码器重建第一M-声道信号的数据。
根据本发明的一个可选特征,该增强装置设置为仅在产生第二部分作为绝对增强数据或者作为相对增强数据之间动态地选择。
这可以允许一种高效的性能,并且特别地可以提供一种提高了质量-数据率比的已编码信号。
根据本发明的一个可选特征,该增强装置设置为产生相对于通过将第一部分的增强数据应用于第一M-声道信号而产生的参考信号的第二部分的相对数据。
这可以允许一种高效的性能,并且特别地可以提供一种提高了质量-数据率比的已编码信号。
根据本发明的另一个方面,提供一种多声道音频解码器,用于解码N-声道音频信号,该多声道音频解码器包括:用于接收已编码音频信号的装置,该已编码音频信号包含用于N-声道音频信号的第一M-声道信号,其中M小于N,和用于多声道扩展的第一增强数据,其中第一增强数据是相对于与第一M-声道信号不同的第二M-声道信号的;相对于第二M-声道信号的第一M-声道信号的第二增强数据,该第二增强数据包含绝对增强数据和相对于第一M-声道信号的相对增强数据,和指示信号块的第二增强数据是绝对增强数据还是相对增强数据的指示数据;用于响应于第一M-声道信号和第二增强数据而产生M-声道多声道扩展信号的产生装置;和用于响应于M-声道多声道扩展信号和第一增强数据而产生N-声道解码信号的装置;并且其中产生装置设置为响应于指示数据而将第二增强数据作为绝对增强数据或相对增强数据应用之间进行选择。
本发明可以允许一种高效且高性能的多声道信号的解码。特别地,对于给定的数据率,可以实现信号的具有改善质量的高效解码。 本发明可以允许一个M-声道信号代替另一个M-声道信号,其中减少了对基于相对于第一M-声道信号的增强数据的多声道产生的影响。特别地,一种艺术下混合而不是空间下混合可以被传送,同时允许基于与空间下混合相关的增强数据在解码器中实现高效的多声道重建。
绝对增强数据不参照第一M-声道信号描述第二M-声道信号,而相对增强数据参照第一M-声道信号描述第二M-声道信号。
根据本发明的一个可选特征,该产生装置设置为在时域中将第二增强数据应用于第一M-声道信号。
这可以允许一种高效的性能,并且特别地可以提供一种对于给定的数据率具有提高了的质量的解码信号。可替换地或者另外地,这可以允许一种高效的和/或低复杂度的实现。
根据本发明的一个可选特征,该产生装置设置为在频域中将第二增强数据应用于第一M-声道信号。
这可以允许一种高效的性能,并且特别地可以提供一种对于给定的数据率具有提高了的质量的解码信号。可替换地或者另外地,这可以允许一种高效的和/或低复杂度的实现。
特别地,在许多实施例中,频域应用可以减少所需频率变换的次数。例如,该频域可以是正交镜像滤波器组(QMF)或者改进型离散余弦变换(MDCT)域。
根据本发明的一个可选特征,该第二增强数据包含增强数据的第一部分和增强数据的第二部分,该第二部分提供一种质量比第一部分更高的第一M-声道信号的表示。
这可以允许一种高效的性能,并且特别地可以提供一种对于给定的数据率具有提高了的质量的解码信号。可替换地或者另外地,这可以允许一种高效的和/或低复杂度的实现。该第二部分可包含允许解码器更加准确地重建第一M-声道信号的数据。
根据本发明的一个可选特征,该产生装置设置为仅在将第二部分的第二增强数据用作绝对增强数据或者相对增强数据之间进行选择。
这可以允许一种高效的性能,并且特别地可以提供一种对于给定的数据率具有提高了的质量的解码信号。可替换地或者另外地,这可以允许一种高效的和/或低复杂度的实现。
根据本发明的一个可选特征,该产生装置设置为通过将第二部分 的相对增强数据应用到通过将第一部分的增强数据应用到第一M-声道信号而产生的信号而产生M-声道多声道扩展。
这可以允许一种高效的性能,并且特别地可以提供一种对于给定的数据率具有提高了的质量的解码信号。可替换地或者另外地,这可以允许一种高效的和/或低复杂度的实现。
根据本发明的另一个方面,提供一种编码N-声道音频信号的方法,该方法包括:为N-声道音频信号产生第一M-声道信号,M小于N;产生相对于N-声道音频信号的第一M-声道信号的第一增强数据;为N-声道音频信号产生第二M-声道信号;产生相对于第一M-声道信号的第二M-声道信号的第二增强数据;产生包括该第二M-声道信号、第一增强数据和第二增强数据的已编码输出信号;并且其中第二增强数据的产生包括在产生第二增强数据作为绝对增强数据或者作为相对于第二M-声道信号的相对增强数据之间的动态地选择。
根据本发明的另一个方面,提供一种解码N-声道音频信号的方法,该方法包括:接收已编码音频信号,其包括:用于N-声道音频信号的第一M-声道信号,M小于N,用于多声道扩展的第一增强数据,该第一增强数据是相对于不同于第一M-声道信号的第二M-声道信号的;相对于第二M-声道信号的第一M-声道信号的第二增强数据,该第二增强数据包括绝对增强数据和相对于第一M-声道信号的相对增强数据,和指示信号块的第二增强数据是绝对增强数据还是相对增强数据的指示数据;响应于第一M-声道信号和第二增强数据而产生M-声道多声道扩展信号;和响应于M-声道多声道扩展信号和第一增强数据而产生N-声道解码信号;并且其中M-声道多声道扩展信号的产生包括响应于指示数据而在将第二增强数据用作绝对增强数据或者相对增强数据之间的选择。
根据本发明的另一个方面,提供一种用于N-声道音频信号的已编码多声道音频信号,包括:用于N-声道音频信号的M-声道信号数据,M小于N;用于多声道扩展的第一增强数据,该第一增强数据是相对于不同于第一M-声道信号的第二M-声道数据的;相对于第二M-声道信号的第一M-声道信号的第二增强数据,该第二增强数据包括绝对增强数据和相对于第一M-声道信号的相对增强数据;和指示信号块的第二增强数据是绝对增强数据还是相对增强数据的指示数据。
根据本发明的另一个方面,提供一种其上存储有上述信号的存储媒体。
根据本发明的另一个方面,提供一种发送器,用于传送已编码多声道音频信号,该发送器包含上述的多声道音频编码器。
根据本发明的另一个方面,提供一种接收器,用于接收多声道音频信号,该接收器包含上述的多声道音频解码器。
根据本发明的另一个方面,提供一种传送***,包括:用于通过传送信道传送已编码多声道音频信号到接收器的发送器,该发送器包含上述的多声道音频编码器,而且该接收器包含上述的多声道音频解码器。
根据本发明的另一个方面,提供一种传送已编码多声道音频信号的方法,该方法包括对N-声道音频信号的编码,其中编码包括:产生用于N-声道音频信号的第一M-声道信号,M小于N;产生相对于N-声道音频信号的第一M-声道信号的第一增强数据;为N-声道音频信号产生第二M-声道信号;产生相对于第一M-声道信号的第二M-声道信号的第二增强数据;产生包含第二M-声道信号、第一增强数据和第二增强数据的已编码输出信号;并且其中第二增强数据的产生包含在产生第二增强数据作为绝对增强数据或者相对于第二M-声道信号的相对增强数据之间的动态选择。
根据本发明的另一个方面,提供一种接收已编码多声道音频信号的方法,该方法包含对已编码多声道音频信号进行解码,该解码包括:接收包含用于N-声道音频信号的第一M-声道信号的已编码多声道音频信号,M小于N,用于多声道扩展的第一增强数据,该第一增强数据是相对于不同于第一M-声道信号的第二M-声道信号的;相对于第二M-声道信号的第一M-声道信号的第二增强数据,该第二增强数据包含绝对增强数据和相对于第一M-声道信号的相对增强数据,和指示信号块的第二增强数据是绝对增强数据还是相对增强数据的指示数据;响应于第一M-声道信号和第二增强数据而产生M-声道多声道扩展信号;和响应于M-声道多声道扩展信号和第一增强数据而产生N-声道解码信号;并且其中M-声道多声道扩展信号的产生包含响应于指示数据而在将第二增强数据用作绝对增强数据或者相对增强数据之间的选择。
根据本发明的另一个方面,提供一种传送和接收音频信号的方法,该方法包括:对N-声道音频信号进行编码,其中编码包括:为N-声道音频信号产生第一M-声道信号,M小于N,产生相对于N-声道音频信号的第一M-声道信号的第一增强数据,为N-声道音频信号产生第二M-声道信号,产生相对于第一M-声道信号的第二M-声道信号的第二增强数据,该第二增强数据的产生包括在产生第二增强数据作为绝对增强数据或者作为相对于第二M-声道信号的相对增强数据之间的动态选择,产生包括第二M-声道信号、第一增强数据和第二增强数据的已编码输出信号;从发送器到接收器传送该已编码输出信号;在接收器接收该已编码输出信号;对该已编码输出信号进行解码,其中解码包括:响应于第二M-声道信号和第二增强数据而产生M-声道多声道扩展信号,该M-声道多声道扩展信号的产生包括在将第二增强数据作为绝对增强数据或者相对增强数据应用之间的选择,和响应于M-声道多声道扩展信号和第一增强数据而产生N-声道解码信号。
根据本发明的另一个方面,提供一种计算机程序产品,该计算机程序产品可操作用来使处理器执行上述方法的步骤。
根据本发明的另一个方面,提供一种多声道音频记录器,该记录器包括上述的多声道音频编码器。
根据本发明的另一个方面,提供一种多声道音频播放器(60),该播放器包括上述的多声道音频解码器。
本发明的这些和其它方面、特征和优点将参照下文所述的实施例进行展示和说明。
附图说明
本发明的实施例将仅以举例的方式参照附图进行描述,其中:
图1显示了根据本发明一些实施例的多声道音频编码器的方框图;
图2显示了根据本发明一些实施例的多声道音频解码器的方框图;
图3显示了根据本发明一些实施例的传送***的方框图;
图4显示了根据本发明一些实施例的多声道音频播放器/记录器 的方框图;
图5显示了根据本发明一些实施例的多声道音频编码器的方框图;
图6显示了根据本发明一些实施例的增强数据发生器的方框图;
图7显示了根据本发明一些实施例的多声道音频解码器的方框图;
图8显示了多声道音频解码器的元件的方框图;
图9显示了根据本发明一些实施例的多声道音频解码器的元件的方框图;
图10显示了根据本发明一些实施例的多声道音频解码器的元件的方框图;和
图11显示了根据本发明一些实施例的多声道音频解码器的元件的方框图。
具体实施方式
下面的描述集中在本发明适用于5.1到2编码器和/或2到5.1解码器的实施例。但是,应当理解,本发明并不限于这一应用。
图1显示了根据本发明一些实施例的多声道音频编码器10的一个实施例的方框图。多声道音频编码器10设置为将N个音频信号101编码为M个音频信号102和相关参数数据104、105。其中,M和N是整数,N>M且M≥1。多声道音频编码器10的一个例子是5.1到2编码器,其中N等于6,即5+1声道,且M等于2。这种多声道音频编码器将5.1声道输入音频信号编码为2声道输出音频信号,例如立体声输出音频信号,和相关参数。多声道音频编码器10的其它例子是5.1到1、6.1到2、6.1到1、7.1到2和7.1到1编码器。具有其它N和M值的编码器也是可能的,只要N大于M且M大于等于1。
编码器10包括第一编码单元110和与之相耦接的第二编码单元120。第一编码单元110接收N个输入音频信号101并将N个音频信号101编码为M个音频信号102和第一相关参数数据104。M个音频信号102和第一相关参数数据104代表N个音频信号101。由第一单元110执行的从N个音频信号101到M个音频信号102的编码也可被称为一种下混合,而M个音频信号102也可被称为空间下混合102。 单元110可以是传统的参数化多声道音频编码器,其将多声道音频信号101编码为单声或立体声下混合音频信号102和相关参数104。相关参数104使得解码器可以从单声或立体声下混合音频信号102重建多声道音频信号101。需要注意的是,下混合102也可以具有多于两个的声道。
第一单元110将空间下混合102提供给第二单元120。第二单元120从空间下混合102产生具有第二相关参数数据105形式的第二增强数据。第二相关参数数据105代表空间下混合102,即,这些参数105包含空间下混合102的特征或特性,其使得解码器至少能够重建空间下混合102的一部分,例如,通过合成类似空间下混合102的信号。该相关参数数据包括第一和第二相关参数数据104和105。
第二相关参数数据105包含修正参数,该修正参数使得能够从K(=M)个进一步的音频信号103重建空间下混合102。通过这种方式,解码器可以完成空间下混合102的一种更好的重建。这种重建可以在一种诸如艺术下混合之类的可替换下混合103,即,K个进一步的音频信号103的基础上进行。解码器可以将修正参数应用于该可替换下混合信号103,以使其更加接近地类似空间下混合102。
第二单元120可以在其输入端接收该可替换下混合103。该可替换下混合103可以从编码器10外部的源接收(如图1所示)或者,可替换地,该可替换下混合103可以在编码器10内部产生,例如从N个音频信号101产生(没有图示)。第二单元120可以将空间下混合102的至少一部分与可替换下混合103相比较,并且产生代表空间下混合102和可替换下混合103之间的差别的修正参数105,例如,空间下混合102特性和可替换下混合103特性之间的差别。在本例中,可替换下混合103具体而言是与空间下混合相关联的艺术下混合。
在本例中,第二单元120可以进一步地产生修正参数作为绝对值,其直接代表空间下混合102而没有参照可替换下混合103。此外,第二单元120包含用于为编码器输出信号在相对和绝对修正参数之间进行选择的功能。特别地,这一选择是动态地执行的,并且可以根据信号和/或参数数据的特征为个别的信号块进行。
另外,第二单元120可以包括这样的功能:包含哪个修正参数(绝对的或相对的)被用于已编码信号的不同片段的指示。例如,每一个 信号块可以包含一个数据比特,以指示是相对还是绝对参数数据被包含用于该信号块。
修正参数105优选包括一个或更多统计信号特性(之间的差别),像方差、协方差和相关,或者这些特性的比或下混合信号(之间的差别)的比。需要注意的是,一个信号的方差等于该信号的能量或者功率。这些统计信号特性使空间下混合的良好重建能够获得。
图2显示了根据本发明一些实施例的多声道音频解码器20的一个实施例的方框图。解码器20设置为将K个音频信号103和相关参数数据104、105解码为N个音频信号203。其中,K和N是整数,N>K且K≥1。K个音频信号103,即,可替换下混合103,和相关参数数据104、105代表N个音频信号203,即,多声道音频信号203。多声道音频解码器20的一个例子是2到5.1解码器,其中N等于6,即5+1声道,且K等于2。这种多声道音频解码器将2声道输入音频信号,例如立体声输入音频信号,和相关参数解码为5.1声道输出音频信号。多声道音频解码器20的其它例子是1到5.1、2到6.1、1到6.1、2到7.1和1到7.1解码器。具有其它N和K值的解码器也是可能的,只要N大于K且K大于等于1。
多声道音频解码器20包括第一单元210和与之相耦接的第二单元220。第一单元210接收可替换的下混合103和修正参数105形式的增强数据,并从可替换的下混合103和修正参数105中重建M个进一步的音频信号202,即,空间下混合202或其近似。其中,M是整数,且M≥1。修正参数105代表空间下混合202。第一单元210特别地设置为确定修正参数105是绝对还是相对修正参数,并相应地使用该参数。特别地,第一单元210能基于接收到的比特流中的显式数据确定单独信号块的修正参数105是相对还是绝对参数。例如,一个单独的数据比特可以包含在每一个信号块中以指示该参数是该信号块中的绝对还是相对修正参数。
第二单元220从第一单元210中接收空间下混合202和修正参数104。第二单元220将空间下混合202和修正参数104解码为多声道音频信号203。第二单元220可以是传统的参数化多声道音频解码器,其将单声或立体声下混合信号202和相关参数104解码为多声道音频信号203。
第一单元210可以被安排用于确定从输入信号103中重建信号202是否是必需的或者期望的。当提供给第一单元210的是空间下混合信号202而不是可替换的下混合103时,这样的重建是不可用的。通过从输入信号103中产生包含在修正参数105中的类似的或者相同的信号特性,并通过将这些产生的信号特性与修正参数105相比较,第一单元210能够确定这一状况。如果这种比较显示产生的信号特性等同于或者基本上等同于修正参数105,那么输入信号103就充分地类似空间下混合信号202,并且第一单元210可以转发输入信号103到第二单元220。如果该比较显示产生的信号特性不等同于或者基本上不等同于修正参数105,则输入信号103不能充分地类似空间下混合信号202,并且第一单元210可以从输入信号103和修正参数105中重建/估计空间下混合信号202。
第一单元210可以从可替换下混合中产生表示可替换下混合103的进一步的修正参数/特性。在这种情况下,第一单元210可以从可替换下混合103和修正参数105与进一步的修正参数(之间的差别)中重建空间下混合202。
修正参数105和进一步的修正参数分别可以包含空间下混合202和可替换下混合103的统计特性。这些统计特性,例如方差、相关和协方差等等,提供导出它们的信号的良好表示。它们在重建空间下混合202中是有用的,例如通过变换可替换下混合,这样其相关特性与包含在修正参数105中的特性相符合。
图3显示了根据本发明一些实施例的传送***70的一个实施例的方框图。传送***70包括发送器40,用于通过传送声道30,例如有线或者无线的通信链路,传送已编码多声道音频信号到接收器50。发送器40包括上述的多声道音频编码器10,用于将多声道音频信号101编码为空间下混合102和相关参数104、105。发送器40还包括用于通过传送声道30传送包含参数104、105和空间下混合102或可替换下混合103的已编码多声道音频信号到接收器50的装置41。接收器50包括用于接收已编码多声道音频信号的装置51和用于将可替换下混合103或空间下混合102和相关参数104、105解码为多声道音频信号203的如上所述的多声道音频解码器20。
图4显示了根据本发明一些实施例的多声道音频播放器/记录器 60的一个实施例的方框图。根据本发明的一些实施例,音频播放器/记录器60包括多声道音频解码器20和/或多声道音频变码器10。音频播放器/记录器60可以具有自己的存储器,例如固态存储器或硬盘。音频播放器记录器60也可以配备可分离存储装置,例如(可记录的)DVD盘片或(可记录的)CD盘片。包含可替换下混合103和参数104、105的所存储的已编码多声道音频信号可以通过解码器20解码并通过音频播放器/记录器60播放或重现。编码器10可以为在存储装置上进行存储而编码多声道音频信号。
图5显示了根据本发明一些实施例的多声道音频编码器10的方框图。特别地,图5的编码器可以是图1的编码器10。编码器10包括第一单元110和与之相耦接的第二单元120。第一单元110接收5.1多声道音频信号101,其包含左前、左后、右前、右后、中央和低频增强音频信号,分别记为lf、lr、rf、rr、co和lfe。第二单元120接收艺术立体声下混合103,其包含左艺术和右艺术音频信号,分别记为la和ra。多声道音频信号101和艺术下混合103是时域音频信号。在第一和第二单元110和120中,这些信号101和103被分段并变换到频率-时间域。
在第一单元110中,参数数据104用三步导出。在第一步,三对音频信号lf与rf、rf与rr、co与lfe被分别分段,并且分段信号在分段和变换单元112、113和114中分别变换到频域。作为结果产生的分段信号的频域表示分别显示为频域信号Lf、Lr、Rf、Rr、Co和LFE。在第二步,这三对频域信号Lf与Lr、Rf与Rr、Co与LFE分别在下混合器115、116和117中进行下混合,以分别产生单声音频信号L、R和C和相关参数141、142与143。下混合器115、116和117可以是传统的MPEG4参数化立体声编码器。最后,在第三步,三个单声音频信号L、R和C在下混合器118中进行下混合以获得空间立体声下混合102和相关参数144。该空间下混合102包含信号Lo和Ro。
参数数据141、142、143和144以第一相关参数数据104的形式包含在第一增强数据中。参数数据104和空间下混合102代表5.1输入信号101。
在第二单元,分别由音频信号la和ra在时域内表示的艺术下混 合信号103在分段单元121中进行第一次分段。所得到的分段音频信号127分别包含信号las和ras。接下来,该分段音频信号127通过变换器122变换到频域。所得到的频域信号126包含信号La和Ra。最后,频域信号126(其是分段艺术下混合103的频域表达)和分段空间下混合102的频域表达被提供给发生器123,其以修正参数105的形式产生进一步的(第二)增强数据,使得解码器能够修正/变换艺术下混合103,以便其更加接近地类似空间下混合102。
在该具体的例子中,分段时域信号127也馈送到选择器124。该选择器124的另外两个输入是空间立体声下混合102的频域表示和控制信号128。控制信号128确定选择器124是将艺术下混合103还是空间下混合102作为已编码多声道音频信号的一部分输出。当艺术下混合不可用时,空间下混合102可以被选出。控制信号128能手动设置或者通过感测艺术下混合103的存在而自动产生。控制信号128可以包含于参数比特流之中,以便相应的解码器20可以像后面所描述的那样利用它。因此,该特定的例示编码器允许产生包含空间下混合102或者艺术下混合103的信号。
选择器124的输出信号102、103记为信号lo和ro。若艺术立体声下混合127将被选择器124输出,那么分段时域信号las与ras就在选择器124中通过重叠相加组合到信号lo与ro之中。如果空间立体声下混合102由控制信号128指示而被输出,那么选择器124把信号Lo和Ro变换回时域,并通过重叠相加到信号lo与ro之中将它们合并。时域信号lo与ro形成5.1到2编码器10的立体声下混合。
下面给出发生器123的更详细的描述。发生器123的功能是确定第二增强数据,特别是修正参数,其描述艺术下混合103的变换,从而在某种意义上类似原始的空间下混合102。
一般而言,该变换可以描述为
[L d R d]=[L a R a A 1...A N]T         (1)
其中,L aR a是包含艺术下混合103左右声道时间/频率片的采样的向量,L dR d是包含修正艺术下混合左右声道的时间/频率片的采样的向量,A 1,...,A N包括可选辅助声道的时间/频率片的采样,T是变换矩阵。注意,任一向量V都定义为列向量。修正艺术下混合是这样的艺术下混合103,其通过变换而被变换以使其类似原始空间下混合 102。辅助声道A 1,...,A N在所描述的***中是空间下混合信号或其低频内容。
(N+2)×2变换矩阵T描述从艺术下混合103和辅助声道向修正艺术下混合的变换。更优选地,变换矩阵T或其元素包含在修正参数105中以使得解码器20能重建变换矩阵T的至少一部分。此后,解码器20能将变换矩阵T应用于艺术下混合103以重建空间下混合102(如下面所述)。
可替换地,修正参数105包含空间下混合102的信号特性,例如能量或功率值和/或相关值。因此解码器20能够从艺术下混合103产生此类信号特性。空间下混合102和艺术下混合103的信号特性使得解码器20能够建立变换矩阵T(下面将述及)并将其应用于艺术下混合103以重建空间下混合102(下面也将述及)。
特别地,发生器123设置为产生相对和绝对修正数据两者并为个别的信号块(或片段)在该数据间进行选择。因此,用于已编码信号的修正参数105包含用于不同信号块的绝对修正数据和相对修正数据两者。对照绝对修正数据,相对修正数据相对于艺术下混合103描述空间下混合102。特别地,相对修正数据可以是差别数据,其允许艺术下混合采样得到修正以相应于(更加接近地)空间下混合采样,而绝对下混合数据可以直接地相应于空间下混合采样而不参照或依赖艺术下混合采样。
将会理解的是,存在多种途径,可以修正艺术立体声下混合103使其类似原始立体声下混合102,这些途径包括:
I.波形匹配。
II.统计特性匹配:
a.左右声道的能量或者功率匹配。
b.左右声道的协方差矩阵匹配。
III.得到在左右声道能量或者功率匹配约束下的波形的最佳可能的匹配。
IV.上述方法I-III的混合。
为清晰起见,首先不考虑(1)中的辅助声道A 1,...,A N,因此,变换矩阵T可以写成
[L d R d]=[L a R a]T                     (2)
且相对增强数据可以如下述例子所示得到产生:
I.波形匹配(方法I)
艺术下混合103和空间下混合102的波形匹配可以通过将修正艺术下混合的左右信号表示为艺术立体声下混合103的左右信号的线性组合得到:
L d=α1 L a1 R aR d=α2 L a2 R a           (3)
然后,(2)中的矩阵T可以写成:
T = α 1 α 2 β 1 β 2 .
选择参数α1、α2、β1和β2的一种途径是最小化空间下混合信号Ls和Rs与其估计(即,修正艺术下混合信号Ld和Rd)之间欧几里得距离的平方,因此
min α 1 , β 1 Σ k | | L s [ k ] - L d [ k ] | | 2 = min α 1 , β 1 Σ k | | L s [ k ] - α 1 L a [ k ] - β 1 R a [ k ] | | 2 - - - ( 4 )
min α 2 , β 2 Σ k | | R s [ k ] - R d [ k ] | | 2 = min α 2 , β 2 Σ k | | R s [ k ] - α 2 L a [ k ] - β 2 R a [ k ] | | 2 . - - - ( 5 )
II.统计特性匹配(方法II)
方法II.a:现在讨论左右信号的能量的匹配。分别记为Ld和Rd的修正左右艺术下混合信号,现在可以如下计算:
L d=αL aR d=βR a          (6)
这里,在实参数情况下,α和β由下式给出:
α = Σ k | | L s [ k ] | | 2 Σ k | | L a [ k ] | | 2 , β = Σ k | | R s [ k ] | | 2 Σ k | | R a [ k ] | | 2 , - - - ( 7 )
因此变换矩阵T可以写成
T = Σ k | | L s [ k ] | | 2 Σ k | | L a [ k ] | | 2 0 0 Σ k | | R s [ k ] | | 2 Σ k | | R a [ k ] | | 2 . - - - ( 8 )
利用这些选项,可以确保信号Ld和Rd分别具有和信号Ls和Rs相 同的能量。
方法II.b:为了匹配艺术立体声下混合103和空间立体声下混合102的协方差矩阵,这些矩阵可以利用特征值分解做如下分解:
C a = U a S a U a H , - - - ( 9 )
C 0 = U 0 S 0 U 0 H ,
其中艺术立体声下混合103的协方差矩阵Ca由下式给出
Ca=[L a R a]H[L a R a]。            (10)
Ua是酉矩阵,Sa是对角矩阵。C0是空间立体声下混合102的协方差矩阵,U0是酉矩阵,S0是对角矩阵。当计算
X aw = L ‾ aw R ‾ aw = L ‾ a R ‾ a U a S a - 1 / 2 - - - ( 11 )
时,得到两个互不相关的信号L awR aw(由于与矩阵Ua相乘),两信号具有单位能量(由于与矩阵 
Figure GSB00000332376700187
相乘)。通过计算:
X d = L ‾ d R ‾ d = L ‾ a R ‾ a U a S a - 1 / 2 U r S 0 1 / 2 U 0 H , - - - ( 12 )
首先,[L a R a]的协方差矩阵变换为等于单位矩阵的协方差矩阵,即, 
Figure GSB000003323767001810
的协方差矩阵。应用任意酉矩阵Ur不会改变协方差结构,而且应用 导致等价于空间立体声下混合102的协方差结构。
定义矩阵S 0w和信号L 0wR 0w如下:
S 0 w = L ‾ 0 w R ‾ 0 w = L ‾ s R ‾ s U 0 S 0 - 1 / 2 - - - ( 13 )
矩阵Ur可以被选择为使得根据最小平方欧几里得距离的最佳可能的波形匹配在信号L 0wL aw和信号R 0wR aw之间得到,其中L awR aw由(11)给出。利用对Ur的这个选择,一种在统计方法之内的波形匹配可以得到应用。
从(12)可以看出,变换矩阵T由下式给出:
T = U a S a - 1 / 2 U r S 0 1 / 2 U 0 H . - - - ( 14 )
III.能量约束下的最佳波形匹配(方法III)
假设(3)中参数α1、α2、β1和β2可以通过在能量约束
Σ k | | L s [ k ] | | 2 = Σ k | | L d [ k ] | | 2 , Σ k | | R s [ k ] | | 2 = Σ k | | R d [ k ] | | 2 - - - ( 15 )
下最小化(4)和(5)得到。
IV.混合方法(方法IV)
关于混合不同的方法,可能的组合包括混合方法II.a和II.b, 或者混合方法II.a和III。过程可以如下:
a)若使用方法II.b/III时获得的L sL d之间和R sR d之间的波形匹配良好,则使用方法II.b/III。
b)若该波形匹配差,使用方法II.a。
c)通过混合其变换矩阵,作为这种波形匹配的质量的函数,保证两种方法之间的逐渐过渡。
这可以做如下的数学表达:
利用(3)和(2),变换矩阵T可以写成如下的一般形式:
T = α 1 α 2 β 1 β 2 . - - - ( 16 )
该矩阵可以利用两个向量T LT R改写如下:
T = T ‾ L T ‾ R , T ‾ L = α 1 β 1 , T ‾ R = α 2 β 2 . - - - ( 17 )
L sL d之间波形匹配的质量可以通过使用方法II.b或方法III得到,记为γL。其定义为
γ L = max ( 0 , Σ k L s [ k ] L d * [ k ] Σ k | | L s [ k ] | | | | L d [ k ] | | ) . - - - ( 18 )
R sR d之间波形匹配的质量可以通过使用方法II.b或方法III得到,记为γR。其定义为
γ R = max ( 0 , Σ k R s [ k ] R d * [ k ] Σ k | | R s [ k ] | | | | R d [ k ] | | ) . - - - ( 19 )
γL和γR都在0-1之间。左声道的混合系数δL和右声道的混合系数δR可以如下定义:
Figure GSB000003323767001915
Figure GSB000003323767001916
其中,μL,min、μL,max、μR,min和μR,max在0-1间取值,μL,min<μL,max且μR,min<μR,max。 等式(20)保证混合系数δL和δR在0-1间取值。
分别定义方法II.a、II.b和III的变换矩阵T为由(8)给出的Te、由(14)给出的Ta、和Tce。每一个变换矩阵都可以分成类似(17)中T的划分的两个向量如下:
Ta=[T a,L T a,R],Te=[T e,L T e,R],Tce=[T ce,L T ce,R]。    (21)
混合方法II.a和方法II.b的变换矩阵T可如下得到:
T=[T L T R]=[δL T a,L+(1-δL)T e,L δR T a,R+(1-δR)T e,R]。     (22)
混合方法II.a和方法III的变换矩阵T可如下得到:
T=[T L T R]=[δL T ce,L+(1-δL)T e,L δR T ce,R+(1-δR)T e,R]。   (23)
现在,考虑对应于两个增强层声道的两个辅助声道,上述式(1)可以改写为
[L d R d]=[L a R a L enh R enh]T′。    (24)
其中,L aR a(同前)分别包含艺术下混合的左右声道的时间/频率片的采样,L dR d分别包含修正艺术下混合的左右声道的时间/频率片的采样,且L enhR enh分别包含增强层信号的时间/频率片的采样。因此,4×2变换矩阵T′描述从艺术下混合和增强层信号到修正艺术下混合的变换。联系式(1),这里仅使用的两个辅助声道是增强层信号L enhR enh
在该特定的示例***中,第二增强层可以包含两种不同类型的数据:
第一种类型的数据包含式(1)的矩阵T中所包含的参数。在本例中,对全部信号带宽计算这些参数,并变换艺术立体声下混合以使得在某种意义上其类似于空间下混合。这样,这种类型的参数可提供一种修正艺术下混合,其更加接近地类似于原始的空间下混合但不(必要)允许解码器准确地产生空间下混合。在每一个时间/频率片上仅需四个参数,即仅需T的值(T11、T12、T21和T22)。这些参数可以绝对地或差分地编码,且编码器10可以明确地在绝对和差分编码之间动态地切换。
第二种类型的数据对应于实际的空间下混合,且在该特定例子中是空间下混合的带宽受限版本的一种表示。特别地,这种类型的数据表示空间下混合的低频部分(例如,低于1.7kHz的频率)。这使得 在解码器非常准确地重建空间下混合的这一部分成为可能,而不是(像使用矩阵T那样)只产生一种具有相同特性,例如统计特性,的信号。这种类型的数据可以绝对地或相对地编码为艺术下混合。特别地,这种类型的数据能被差分地编码。举例来说,变换矩阵T被用于艺术下混合(例如,见式(26)),且这种信号与空间下混合的差可得到编码。
这样,在一些实施例中,第二增强数据被分成增强数据的第一和第二部分,其中第一部分不如第二部分准确地描述空间下混合。典型地,第二增强数据的第一部分的相应数据率低于第二部分的数据率。第二增强数据的第二部分的增强数据可仅仅与下混合的一部分相联系,并特别地可以仅仅与低频部分相联系。
在一些实施例中,发生器123可设置成为第二增强数据的第一部分和第二部分在绝对和相对数据之间进行选择,无论个别地还是一起。在其它实施例中,发生器123可以仅仅为数据的某一部分在绝对和相对数据之间进行选择。特别地,此后的实施例将被描述为其中第二增强数据的第一部分包含T的参数,而第二部分包含空间下混合的一种低频表示,并且绝对和相对数据之间的动态选择仅仅应用于第二增强数据的第二部分。
举例来说,在这些实施例中,在第一部分的增强数据得到应用之后(即,作为相对于修正艺术下混合的差分值),用于第二增强数据的第二部分的相对数据能产生为相对于艺术下混合的差分值。
下面,实施例如下文描述,其中发生器123仅仅在第二增强数据的第二部分的相对和绝对数据之间进行选择。
本例中,用于第二增强数据第一和第二部分的一部分的绝对增强数据可为相关的时间/频率片导出,通过设定:
L enhL s
R enhR s,                (25)
T ′ = 0 0 0 0 1 0 0 1 ,
其中,L sR s分别包含空间立体声下混合的左右声道的时间/频率片的采样。因此,在这个特定的例子中,绝对增强数据简单地对应于空 间下混合102的实际的时间/频率片采样,其可替代相应的艺术下混合103的时间/频率片采样。
进一步地,对第二增强数据的第一和第二部分的一部分,相关的时间/频率片的相对增强数据可作为差分数据导出,通过设定:
L enhL s-T11 L a-T21 R a
R enhR s-T12 L a-T22 R a,                       (26)
T ′ = T 11 T 12 T 21 T 22 1 0 0 1 .
这里,参数T11、T12、T21和T22构成式(2)中的矩阵T:
T = T 11 T 12 T 21 T 22 . - - - ( 27 )
通过这种方式,发生器123能为艺术下混合103产生绝对增强数据和相对增强数据,允许解码器产生修正艺术下混合,其更加接近地类似于用来产生多声道增强数据的空间下混合102。
进一步地,发生器123设置为在绝对增强数据和相对增强数据之间进行选择。在这个特定的例子中,这一选择对于个别的信号块(例如,个别的片段)并且基于这些信号块内的信号的特征执行。特别地,发生器123能评价所给信号块的绝对增强数据和相对增强数据的特征,并能确定哪一个数据将要包含在给定信号块的增强层中。另外,发生器123可以包含哪一个数据被选择的指示,从而允许解码器正确地应用接收到的增强数据。
在一些实施例中,发生器123能评价编码以确定是绝对增强数据还是相对增强数据能被最有效地编码(例如,对于给定精度具有最小数量的比特)。强制的方法(brute force approach)可以对所有的两种类型的增强数据进行准确编码,并且比较所编码数据的大小。但是,在一些实施例中,这会是一种复杂的方法,且在例示的编码器10中,发生器123评价相对于相对增强数据的信号能量的绝对增强数据的信号能量,并且基于对两者的比较选择将包含哪一种类型的数据。
特别地,对于音频编码器,就比特速率而言将信号编码为具有最小可能能量常常是有益的。因此,发生器123选择具有最低信号能量的类型的增强数据。特别地,当
L s-T11 L a-T21 R a2+‖R s-T12 L a-T22 R a2<‖L s2+‖R s2    (28)时,选择相对增强数据,否则选择绝对增强数据。
在不同的增强数据之间进行切换的一个问题是会产生一些明显的人工噪声。在例示的编码器10中,发生器123还包括在不同的增强数据之间逐渐切换的功能。因此,代替从一个信号块的增强数据的一种类型向下一个信号块的另一种类型的直接切换,切换从一批数据到另一批数据逐渐的进行。
这样,在一个时间间隔(其可以具有小于或大于一个信号块的持续时间)期间,发生器123产生增强数据作为绝对增强数据和相对增强数据的一个组合。该组合例如可以通过在不同类型的数据之间插值实现,或者可以使用重叠和相加技术。
作为一个具体的例子,取代在不同类型的增强数据之间的突然切换:
L enhL s-T11 L a-T21 R aR enhR s-T12 L a-T22 R a或者L enhL sR enhR s
所传送的增强数据可如下产生:
L enhL s-αT11 L a-αT21 R aR enhR s-αT12 L a-αT22 R a,     (29)
其中,第k个数据帧中α的值可如下确定:
Figure GSB00000332376700236
其中,αk表示在第k个帧中α的值,而δ是适配速度。在许多情形下,δ=0.33的值能提供可靠的没有人工噪声的编码。式(29)给出的信号 L enhR enh可使用参数插值或重叠相加技术获得,并且编码和添加到比特流。另外,关于差分或绝对增强数据的决策被包含在比特流中,从而使解码器导出与编码器中所使用的相同的α值成为可能。
应当理解,尽管本说明书集中在使用具有M-声道的每一个个别(声道内)编码的差分和绝对模式上,其它实施例可以使用不同的编码方式。例如,对M=2,当执行立体声信号的(声道间)编码时,下一个步骤可以应用诸如M/S编码(中部/边缘编码,因此对和信号和差分信号编码)之类。在许多实施例中,这将是一个优势,在个别的声道的(声道内)编码的差分和绝对模式中都是如此。
变换矩阵T′的元素可以是实数值或复数值。这些元素可以按如下 方式编码到修正参数中:变换矩阵T的为正实数的那些元素可以被对数量化,象MPEG4参数化立体声中的IID参数那样。可以为参数值设置一个上限,以避免小信号过度放大。这一上限可以是固定的或者是自动产生的左声道与艺术左声道之间的相关和自动产生的右声道与艺术右声道之间的相关的函数。在变换矩阵T′的为复数值的元素中,其幅值可使用IID参数量化,而相位可线性量化。实数值的且可能是负值的T′的元素可以通过取该元素的绝对值的对数进行编码,同时保证负值与正值之间的区别。
图6更加详细地图解了图5中的发生器123的一个例子。在该例中,发生器123包括信号块处理器145,其接收频域的空间和艺术下混合102、126,并将这些信号划分为信号块。每个信号块都对应于预定持续时间的一个时间间隔。在一些实施例中,信号块可以可替换地或者另外地在频域中得到划分,例如变换子声道可以被一起分组到不同信号块中。
信号块处理器145与绝对增强数据处理器146相耦接,如前所述,绝对增强数据处理器146为个别的信号块产生绝对增强数据。另外,信号块处理器145与相对增强数据处理器147相耦接,如前所述,相对增强数据处理器147为个别的信号块产生相对增强数据。相对和绝对增强数据基于信号块内的信号特征而确定,并且特别地,用于给定的时间/频率片组的增强数据可仅基于该时间/频率片组而确定。
绝对增强数据处理器146与第一信号能量处理器148相耦接,如前所述,第一信号能量处理器148确定每一个信号块的绝对增强数据的信号能量。类似地,相对增强数据处理器147与第二信号能量处理器149相耦接,如前所述,第二信号能量处理器149确定每一个信号块的相对增强数据的信号能量。
第一和第二信号能量处理器148、149与选择处理器150相耦接,选择处理器150根据哪种类型具有最低的信号能量为每一个信号块选择绝对或者相对增强数据。
选择处理器150被馈送给增强数据处理器151,增强数据处理器151进一步地与增强数据处理器146和相对增强数据处理器147相耦接。选择处理器151接收指示哪一种类型的增强数据被选择的控制信号,并相应地产生与所选择的增强数据一样的增强数据。进一步地, 选择处理器151设置为执行一种逐渐切换,包括切换时间间隔期间在绝对和相对参数之间插值。
选择处理器151与编码处理器152相耦接,该编码处理器依照给定的协议对增强数据进行编码。另外,编码处理器152通过例如为每一个信号块设置一个比特以指示数据类型,对指示每一个信号块中哪一种类型的数据被选择的数据进行编码。来自编码处理器152的已编码数据被包含在由编码器10产生的已编码比特流中。
图7显示了根据本发明一些实施例的多声道音频解码器的另一个实施例的方框图,特别地,其可以是图2中的音频解码器20。
解码器20包括第一单元210和与之相耦接的第二单元220。第一单元210接收下混合信号lo与ro和修正参数105作为输入。例如,该输入可以作为来自图1或图5中的编码器10的单个比特流接收。下混合信号lo与ro可以是空间下混合102或者艺术下混合103的一部分。
第一单元210包括分段和变换单元211和下混合修正单元212。在分段和变换单元211中,下混合信号lo与ro分别被分段,且这些分段信号被变换到频域。所得到的分段下混合信号的频域表示分别显示为频域信号Lo与Ro。接下来,频域信号Lo与Ro在下混合修正单元212中得到处理。下混合修正单元212的功能是修正输入的下混合,以使得其类似于空间下混合202,即,从艺术下混合103和修正参数105中重建空间下混合202。
若空间下混合102被解码器20接收到,则下混合修正单元212不必修正下混合信号Lo与Ro,并且这些下混合信号Lo与Ro简单地传递到第二单元220,作为空间下混合202的下混合信号Ld和Rd。控制信号217可指示是否需要修正输入的下混合,即,输入的下混合是空间下混合还是可替换下混合。控制信号217可在解码器20内部产生,例如,通过分析输入的下混合和相关参数105,该相关参数105可以描述期望的空间下混合的信号特性。若输入的下混合与期望的信号特性相匹配,控制信号217则可设为指示不需要修正。可替换地,控制信号217可以手动设置,或者其设置也可以作为已编码多声道音频信号的一部分接收,例如在参数集105中。
如果编码器20接收艺术下混合103,并且控制信号217指示所 接收的下混合信号Lo与Ro需通过下混合修正单元212进行修正,则解码器可以两种方式操作,这取决于所接收的修正参数的表示。若该参数表示从艺术下混合到空间下混合的相对变换(即,若该参数是相对增强数据),那么变换变量可通过将修正参数应用于艺术下混合直接获得,即编码器中所执行操作的逆向操作。在不同的实施例中,这一方式可能仅应用于第二增强数据的第二部分。
另一方面,若该传送的参数表示空间下混合的绝对特性,那么解码器可用空间下混合采样直接代替艺术下混合采样。例如,若第二增强数据的第二部分简单地存在于空间下混合的时间/频率片采样内,则解码器可用这些直接代替相应的艺术下混合的时间/频率片采样。将会理解的是,解码器也可能首先计算实际传送的艺术下混合的相应特性。然后,用此信息(所传送的参数和所传送艺术下混合的计算的特性),描述从所传送艺术下混合(的特性)到空间下混合(的特性)变换的变换变量被确定。更具体地,变换矩阵T可利用如前所述的方法II.a或者(稍加修正的)II.b得到确定。
如果绝对能量在第二增强数据的第一部分中进行传送,则可以使用方法II.a。所传送的(绝对)参数ELs与ERs分别表示空间下混合的左右信号的能量,且由下式给出:
E L 0 = Σ k | | L s [ K ] | | 2 , E R 0 = Σ k | | R s [ k ] | | 2 . - - - ( 31 )
所传送的下混合的能量EDLs与EDrs在解码器进行计算。利用这些变量,我们可以求得(7)中的参数α与β如下
α = E L s E DL s , β = E R s E DR s . - - - ( 32 )
变换矩阵由下式给出:
T = α 0 0 β . - - - ( 33 )
特别地,下混合修正单元212包括这样的功能:从所接收的比特流中提取艺术下混合和修正参数105。艺术下混合被分成信号块(对应于解码器所用的信号块)。对每一个信号块,下混合修正单元212评价所接收的比特流的数据指示以确定式相对还是绝对第二增强数据被提供用于该信号块的第一和第二部分。然后,下混合修正单元212应用第二增强数据的第一和第二部分作为绝对增强数据或相对增 强数据以响应该指示数据。
已经发现,当变换矩阵元素T12和T21设为零时,可以得到低的复杂度和高的性能。下面,在这一约束下,对下混合修正单元212的一些特别实现进行说明。但是,应当理解,这些实现可以很容易地扩展到T12和/或T21不为零的情况。
在没有第二增强数据的第二部分的增强数据传送用于艺术下混合信号的情况下,第一单元210可如图8所示实现。时域立体声下混合声道lo与ro被首先分段并通过QMF变换变换到频域,得到表示艺术立体声下混合的时间/频率片的信号La与Ra。接着,这些信号使用变换矩阵T进行变换,得到信号T11La与T22Ra
应当理解,增强数据可以在时域和/或频域中产生和应用。因此,将已编码时域增强数据(Lenh,Renh)包含在比特流中是可能的。但是,在一些应用中,包含已编码频域增强数据而不是时域增强数据是有利的。例如,在许多编码器中,增强数据在频域中为时间/频率片产生,并且为了产生时域信号,编码器需要一种频域到时域的变换。进一步地,为了应用这种增强数据,解码器将该数据从时域转变到频域。那么,通过在频域中包括增强数据,可以简化域转换。
在一些实施例中,各种不同的时频转换可用于产生艺术下混合及增强数据。例如,艺术下混合的编码可使用QMF变换,而增强数据使用MDCT变换。在这种情况下,增强数据将包含在(MDCT)频域中,且在两种频域间的直接变换可如图9所示由下混合修正单元212执行。
在本例中,变换矩阵T*可以简单地是式(2)中的变换矩阵T。但是,为了减少切换人工噪声,T*可以对应于式(2)中的变换矩阵T但为逐渐切换加以修正。特别地,矩阵T*可以包含式(30)所确定的因子α,其中关于是绝对还是相对增强数据的判断从比特流中取出。这一方案应用于那些存在第二增强数据的第二部分的增强层数据的信号块/频段;否则,可以使用图8的方法。
如果增强数据(Lenh,Renh)在时域中提供,可以使用类似图9的方法,如图10所示。但是,在这种情况下,频域到频域的变换被时域到频域的变换所代替,特别地,当QMF变换被用于艺术下混合的编码时,变换可以替换为时域到QMF域的变换。因此,在这个例子中, 增强数据在频域中使用。
在许多实施例中,可以使用一种时域增强数据的解码器实现,它在第一单元210中仅使用一次时域到频域变换。
特别地,可以使用下述的差分增强数据参数:
L ‾ enh = T 22 L ‾ s - T 21 R ‾ s det ( T ) - L ‾ a ,
R ‾ enh = - T 12 L ‾ s + T 11 R ‾ s det ( T ) - R ‾ a , - - - ( 34 )
T ′ = 1 0 0 1 1 0 0 1 ,
如果由式(27)给出的矩阵T是非奇异的(因此其逆存在)的话。现在式(1)可以改写为:
[L d R d]=[L a R a L enh R enh]T′T。      (35)
图11说明了基于式(34)和(35)的一种下混合修正单元212用于时域增强数据的高效实现。为清晰起见,矩阵T中T12与T21都设为零。与图10的实现相比,图11的实现只需一个时域到QMF域的变换。
这样,如上所述,下混合修正单元212产生信号202,其非常接近地类似用于多声道增强数据的空间下混合。这可被第二单元220有效地用于将两声道音频信号扩展为完全的环绕声多声道信号。更进一步,通过为每一个信号块动态地和灵活地选择最适当的增强数据类型(相对的或绝对的),可以实现一种更加有效的编码,并且可以实现一种在质量-数据率之比方面有改进的多声道编码/解码。
第二单元220可以是传统的2到5.1多声道解码器,其将所重建的空间下混合202和相关的参数数据104解码为5.1声道输出信号203。如前所述,参数数据104包含参数化数据141、142、143和144。第二单元220执行编码器10中第一单元110的逆处理。第二单元220包含向上混合器221,其将立体声下混合202和相关参数144转换为三个单声音频信号L、R和C。然后,单声音频信号L、R和C中的每一个分别在去相关器222、225和228中进行去相关。此后,混合矩阵223将单声音频信号L、其去相关对应部分和相关参数141变换为信号Lf和Lr。类似地,混合矩阵226将单声音频信号R、其去相关 对应部分和相关参数142变换为信号Rf和Rr,混合矩阵229将单声音频信号C、其去相关对应部分和相关参数143变换为信号Co和LFE。最后,三对分段频域信号Lf和Lr、Rf和Rr、Co和LFE分别变换到时域,并分别在逆变换器224、227和230中通过重叠相加来组合,以分别获得三对输出信号lf和lr、rf和rr、co和lfe。输出信号lf、lr、rf、rr、co和lfe形成已解码多声道音频信号203。
多声道音频编码器10和多声道音频解码器20可以通过数字化硬件或通过软件实现,该软件可由数字信号处理器或通用微处理器执行。
应当理解,为了清楚,上面的说明参照多种功能单元和处理器对本发明的实施例进行描述。然而,显而易见,功能在不同功能单元或处理器间的任何适当分布都可以在不减损本发明的情况下得到应用。例如,被描述为由分离的处理器或控制器执行的功能可以由同一个处理器或控制器执行。因此,对特定功能单元的参照只能看成是参考提供所描述功能的适当装置,而不能看成是指示严格的逻辑或物理结构或组织。
本发明可以以任何合适的形式实现,包括硬件、软件、固件或它们的任何结合。可选地,本发明可以至少部分地作为计算机软件实现,该计算机软件可以在一个或更多数据处理器和/或数字信号处理器上运行。本发明的实施例的元件和组件可以以任何合适的方式物理地、功能地和逻辑地实现。毫无疑问地,功能可以在单个单元中、在多个单元中或者作为其它功能单元的一部分而得到实现。像这样,本发明可以在单个单元中实现或者物理和功能地分布在不同的单元和处理器中而得以实现。
尽管本发明结合一些实施例进行说明,却并非企图将本发明限制于在此给出的特定形式。相反,本发明的范围仅受所附权利要求限制。另外,尽管一个特征看起来被描述为与特定的实施例相联系,本领域的技术人员将认识到所描述的实施例的各种特征可以根据本发明进行组合。在权利要求书中,术语包括并不排除其它元素或步骤的存在。
此外,尽管多个装置、元件或方法步骤被个别列出,它们可以由单个的单元或处理器等实现。另外,尽管个别特征被包含在不同的权利要求中,它们可能会被有利地组合,且其被不同的权利要求所包含 并不意味着这些特征的组合不可行和/或没有好处。一个特征在一类权利要求中的包含并不意味着其限制于该类别而是表明该特征在适当时可以同样适用于其它权利要求类别。此外,特征在权利要求中的顺序并不意味着特征必须以特定的顺序工作,并且特别地,方法权利要求中个别步骤的顺序并不意味着该步骤必须以该顺序执行。相反,这些步骤可以任何合适的顺序执行。另外,单数引用并不排除多个。因此,对“一个”、“一”、“第一”、“第二”等的引用并不排除多个。权利要求中的参照符号仅仅作为一种澄清实例而提供,不能解释为对权利要求的范围的任何方式的限制。

Claims (28)

1.一种多声道音频编码器(10),用于编码N-声道音频信号,该多声道音频编码器(10)包括:
用于为N-声道音频信号产生第一M-声道信号的装置(110),M小于N;
用于产生相对于N-声道音频信号的第一M-声道信号的第一增强数据的装置(115、116、117、118);
用于为N-声道音频信号产生第二M-声道信号的装置(121);
用于产生相对于第一M-声道信号的第二M-声道信号的第二增强数据的增强装置(123);
用于产生包含第二M-声道信号、第一增强数据和第二增强数据的已编码输出信号的装置(120);并且
其中增强装置(123)设置成在产生第二增强数据作为绝对增强数据或者作为相对于第二M-声道信号的相对增强数据之间动态地选择。
2.如权利要求1所述的多声道音频编码器(10),其中增强装置(123)设置为响应于N-声道信号的特征,在绝对增强数据和相对增强数据之间进行选择。
3.如权利要求1所述的多声道音频编码器(10),其中增强装置(123)设置为响应于绝对增强数据和相对增强数据的相对特征,在绝对增强数据和相对增强数据之间进行选择。
4.如权利要求3所述的多声道音频编码器(10),其中相对特征是相对于相对增强数据的信号能量的绝对增强数据的信号能量。
5.如权利要求1所述的多声道音频编码器(10),其中增强装置(123)设置为将第二M-声道信号划分成信号块,并个别地为每一个信号块在绝对增强数据和相对增强数据之间进行选择。
6.如权利要求5所述的多声道音频编码器(10),其中增强装置(123)设置为仅基于与一个信号块相关的特征,为该信号块在绝对增强数据和相对增强数据之间进行选择。
7.如权利要求1所述的多声道音频编码器(10),其中在产生增强数据作为绝对增强数据和作为相对增强数据之间切换的切换时间间隔期间,增强装置(123)设置为产生增强数据作为绝对增强数据和相对增强数据的一种组合。
8.如权利要求7所述的多声道音频编码器(10),其中,所述组合包含绝对增强数据和相对增强数据之间的一种插值。
9.如权利要求1所述的多声道音频编码器(10),其中用于产生已编码输出信号的装置(120)设置为包含指示使用了相对增强数据还是绝对增强数据的数据。
10.如权利要求1所述的多声道音频编码器(10),其中第二增强数据包含增强数据的第一部分和增强数据的第二部分,该第二部分提供比第一部分更高质量的的第一M-声道信号的表示。
11.如权利要求10所述的多声道音频编码器(10),其中增强装置(123)设置为仅在产生第二部分作为绝对增强数据或者作为相对增强数据之间动态地选择。
12.如权利要求10所述的多声道音频编码器(10),其中增强装置(123)设置为产生相对于通过将第一部分的增强数据应用于第一M-声道信号而产生的参考信号的第二部分的相对数据。
13.一种多声道音频解码器(20),用于解码N-声道音频信号,该多声道音频解码器(20)包括:
用于接收已编码音频信号的装置(210),该已编码音频信号包括:
用于N-声道音频信号的第一M-声道信号,其中M小于N,
用于多声道扩展的第一增强数据,其中第一增强数据是相对于与第一M-声道信号不同的第二M-声道信号的;
相对于第二M-声道信号的第一M-声道信号的第二增强数据,该第二增强数据包含绝对增强数据和相对于第一M-声道信号的相对增强数据,和
指示数据,指示信号块的第二增强数据是绝对增强数据还是相对增强数据;
用于响应于第一M-声道信号和第二增强数据而产生M-声道多声道扩展信号的产生装置(212);和
用于响应于M-声道多声道扩展信号和第一增强数据而产生N-声道解码信号的装置(220);并且其中产生装置(212)设置为响应于指示数据而将第二增强数据作为绝对增强数据或相对增强数据应用之间进行选择。
14.如权利要求13所述的多声道音频解码器(20),其中产生装置(212)设置为在时域中将第二增强数据应用于第一M-声道信号。
15.如权利要求13所述的多声道音频解码器(20),其中产生装置(212)设置为在频域中将第二增强数据应用于第一M-声道信号。
16.如权利要求13所述的多声道音频解码器(20),其中第二增强数据包含增强数据的第一部分和增强数据的第二部分,该第二部分提供一种质量比第一部分更高的第一M-声道信号的表示。
17.如权利要求16所述的多声道音频解码器(20),其中产生装置(212)设置为仅在将第二增强数据的第二部分作为绝对增强数据或者相对增强数据应用之间进行选择。
18.如权利要求16所述的多声道音频解码器(20),其中第二增强数据的第二部分包括相对增强数据,产生装置(212)设置为通过将第二部分的相对增强数据应用到通过将第一部分的增强数据应用到第一M-声道信号而产生的信号而产生M-声道多声道扩展。
19.一种编码N-声道音频信号的方法,该方法包括:
为N-声道音频信号产生第一M-声道信号,M小于N;
产生相对于N-声道音频信号的第一M-声道信号的第一增强数据;
为N-声道音频信号产生第二M-声道信号;
产生相对于第一M-声道信号的第二M-声道信号的第二增强数据;
产生包括该第二M-声道信号、第一增强数据和第二增强数据的已编码输出信号;并且
其中第二增强数据的产生包括在产生第二增强数据作为绝对增强数据或者作为相对于第二M-声道信号的相对增强数据之间动态地选择。
20.一种解码N-声道音频信号的方法,该方法包括:
接收已编码音频信号,该已编码音频信号包括:
用于N-声道音频信号的第一M-声道信号,M小于N,
用于多声道扩展的第一增强数据,该第一增强数据是相对于不同于第一M-声道信号的第二M-声道信号的;
相对于第二M-声道信号的第一M-声道信号的第二增强数据,该第二增强数据包括绝对增强数据和相对于第一M-声道信号的相对增强数据,和
指示数据,指示信号块的第二增强数据是绝对增强数据还是相对增强数据;
响应于第一M-声道信号和第二增强数据而产生M-声道多声道扩展信号;和
响应于M-声道多声道扩展信号和第一增强数据而产生N-声道解码信号;并且其中M-声道多声道扩展信号的产生包括响应于指示数据而在将第二增强数据作为绝对增强数据或者相对增强数据应用之间进行选择。
21.一种用于传送已编码多声道音频信号的发送器(40),该发送器(40)包含根据权利要求1的多声道音频编码器(10)。
22.一种用于接收多声道音频信号的接收器(50),该接收器(50)包含根据权利要求13的多声道音频解码器(20)。
23.一种传送***(70),包括:用于通过传送信道(30)传送已编码多声道音频信号到接收器(50)的发送器(40),该发送器(40)包含根据权利要求1的多声道音频编码器(10),而且该接收器包含根据权利要求13的多声道音频解码器(20)。
24.一种传送已编码多声道音频信号的方法,该方法包括对N-声道音频信号编码,其中该编码包括:
产生用于N-声道音频信号的第一M-声道信号,M小于N;
产生相对于N-声道音频信号的第一M-声道信号的第一增强数据;
为N-声道音频信号产生第二M-声道信号;
产生相对于第一M-声道信号的第二M-声道信号的第二增强数据;
产生包含第二M-声道信号、第一增强数据和第二增强数据的已编码输出信号;并且
其中第二增强数据的产生包含在产生第二增强数据作为绝对增强数据或者相对于第二M-声道信号的相对增强数据之间动态选择。
25.一种接收已编码多声道音频信号的方法,该方法包含对已编码多声道音频信号进行解码,该解码包括:
接收已编码多声道音频信号,该已编码多声道音频信号包含:
用于N-声道音频信号的第一M-声道信号,M小于N,
用于多声道扩展的第一增强数据,该第一增强数据是相对于不同于第一M-声道信号的第二M-声道信号的;
相对于第二M-声道信号的第一M-声道信号的第二增强数据,该第二增强数据包含绝对增强数据和相对于第一M-声道信号的相对增强数据,和
指示数据,指示信号块的第二增强数据是绝对增强数据还是相对增强数据;
响应于第一M-声道信号和第二增强数据而产生M-声道多声道扩展信号;和
响应于M-声道多声道扩展信号和第一增强数据而产生N-声道解码信号;并且其中M-声道多声道扩展信号的产生包含响应于指示数据而在将第二增强数据作为绝对增强数据或者相对增强数据应用之间进行选择。
26.一种传送和接收音频信号的方法,该方法包括:
对N-声道音频信号进行编码,其中该编码包括:
为N-声道音频信号产生第一M-声道信号,M小于N,
产生相对于N-声道音频信号的第一M-声道信号的第一增强数据,
为N-声道音频信号产生第二M-声道信号,
产生相对于第一M-声道信号的第二M-声道信号的第二增强数据,该第二增强数据的产生包括在产生第二增强数据作为绝对增强数据或者作为相对于第二M-声道信号的相对增强数据之间动态选择,
产生包括第二M-声道信号、第一增强数据和第二增强数据的已编码输出信号;
从发送器到接收器传送该已编码输出信号;
在接收器接收该已编码输出信号;
对该已编码输出信号进行解码,其中该解码包括:
响应于第二M-声道信号和第二增强数据而产生M-声道多声道扩展信号,该M-声道多声道扩展信号的产生包括在将第二增强数据作为绝对增强数据或者相对增强数据应用之间进行选择,和
响应于M-声道多声道扩展信号和第一增强数据而产生N-声道解码信号。
27.一种多声道音频记录器(60),该记录器(60)包括根据权利要求1的多声道音频编码器(10)。
28.一种多声道音频播放器(60),该播放器(60)包括根据权利要求13的多声道音频解码器(20)。
CN2006800102009A 2005-03-30 2006-03-16 多声道音频编码和解码方法、编码器和解码器 Active CN101151658B (zh)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
EP05102515 2005-03-30
EP05102515.3 2005-03-30
EP05103085.6 2005-04-18
EP05103085 2005-04-18
EP06100245 2006-01-11
EP06100245.7 2006-01-11
PCT/IB2006/050826 WO2006103586A1 (en) 2005-03-30 2006-03-16 Audio encoding and decoding

Publications (2)

Publication Number Publication Date
CN101151658A CN101151658A (zh) 2008-03-26
CN101151658B true CN101151658B (zh) 2011-07-06

Family

ID=36607294

Family Applications (2)

Application Number Title Priority Date Filing Date
CN2006800106527A Active CN101151660B (zh) 2005-03-30 2006-03-16 多通道音频编码器、解码器以及相应方法
CN2006800102009A Active CN101151658B (zh) 2005-03-30 2006-03-16 多声道音频编码和解码方法、编码器和解码器

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN2006800106527A Active CN101151660B (zh) 2005-03-30 2006-03-16 多通道音频编码器、解码器以及相应方法

Country Status (11)

Country Link
US (1) US7840411B2 (zh)
EP (1) EP1866913B1 (zh)
JP (1) JP5106383B2 (zh)
KR (2) KR20130079627A (zh)
CN (2) CN101151660B (zh)
AT (1) ATE406651T1 (zh)
BR (1) BRPI0608756B1 (zh)
DE (1) DE602006002501D1 (zh)
ES (1) ES2313646T3 (zh)
MX (1) MX2007011995A (zh)
WO (1) WO2006103586A1 (zh)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BRPI0516201A (pt) * 2004-09-28 2008-08-26 Matsushita Electric Ind Co Ltd aparelho de codificação escalonável e método de codificação escalonável
JP4850827B2 (ja) * 2005-04-28 2012-01-11 パナソニック株式会社 音声符号化装置および音声符号化方法
JP4907522B2 (ja) * 2005-04-28 2012-03-28 パナソニック株式会社 音声符号化装置および音声符号化方法
US7461106B2 (en) * 2006-09-12 2008-12-02 Motorola, Inc. Apparatus and method for low complexity combinatorial coding of signals
KR101016224B1 (ko) 2006-12-12 2011-02-25 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우 인코더, 디코더 및 시간 영역 데이터 스트림을 나타내는 데이터 세그먼트를 인코딩하고 디코딩하는 방법
US8576096B2 (en) * 2007-10-11 2013-11-05 Motorola Mobility Llc Apparatus and method for low complexity combinatorial coding of signals
US8209190B2 (en) * 2007-10-25 2012-06-26 Motorola Mobility, Inc. Method and apparatus for generating an enhancement layer within an audio coding system
US20090234642A1 (en) * 2008-03-13 2009-09-17 Motorola, Inc. Method and Apparatus for Low Complexity Combinatorial Coding of Signals
US8639519B2 (en) * 2008-04-09 2014-01-28 Motorola Mobility Llc Method and apparatus for selective signal coding based on core encoder performance
BRPI0905069A2 (pt) 2008-07-29 2015-06-30 Panasonic Corp Aparelho de codificação de áudio, aparelho de decodificação de áudio, aparelho de codificação e de descodificação de áudio e sistema de teleconferência
US8219408B2 (en) * 2008-12-29 2012-07-10 Motorola Mobility, Inc. Audio signal decoder and method for producing a scaled reconstructed audio signal
US8175888B2 (en) * 2008-12-29 2012-05-08 Motorola Mobility, Inc. Enhanced layered gain factor balancing within a multiple-channel audio coding system
US8200496B2 (en) * 2008-12-29 2012-06-12 Motorola Mobility, Inc. Audio signal decoder and method for producing a scaled reconstructed audio signal
US8140342B2 (en) * 2008-12-29 2012-03-20 Motorola Mobility, Inc. Selective scaling mask computation based on peak detection
US8428936B2 (en) * 2010-03-05 2013-04-23 Motorola Mobility Llc Decoder for audio signal including generic audio and speech frames
US8423355B2 (en) * 2010-03-05 2013-04-16 Motorola Mobility Llc Encoder for audio signal including generic audio and speech frames
JP5957446B2 (ja) * 2010-06-02 2016-07-27 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. 音響処理システム及び方法
EA030776B9 (ru) 2011-03-28 2019-01-31 Долби Лабораторис Лайсэнзин Корпорейшн Преобразование пониженной сложности для канала низкочастотных эффектов
CN102802112B (zh) * 2011-05-24 2014-08-13 鸿富锦精密工业(深圳)有限公司 具有音频文件格式转换功能的电子装置
US9129600B2 (en) 2012-09-26 2015-09-08 Google Technology Holdings LLC Method and apparatus for encoding an audio signal
TWI546799B (zh) 2013-04-05 2016-08-21 杜比國際公司 音頻編碼器及解碼器
EP2830047A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for low delay object metadata coding
EP2830050A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for enhanced spatial audio object coding
EP2830334A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-channel audio decoder, multi-channel audio encoder, methods, computer program and encoded audio representation using a decorrelation of rendered audio signals
EP2830045A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
EP2830052A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, audio encoder, method for providing at least four audio channel signals on the basis of an encoded representation, method for providing an encoded representation on the basis of at least four audio channel signals and computer program using a bandwidth extension
CN103413553B (zh) 2013-08-20 2016-03-09 腾讯科技(深圳)有限公司 音频编码方法、音频解码方法、编码端、解码端和***
US9067135B2 (en) * 2013-10-07 2015-06-30 Voyetra Turtle Beach, Inc. Method and system for dynamic control of game audio based on audio analysis
EP2879408A1 (en) 2013-11-28 2015-06-03 Thomson Licensing Method and apparatus for higher order ambisonics encoding and decoding using singular value decomposition
CN105206278A (zh) * 2014-06-23 2015-12-30 张军 一种基于流水线的三维音频编码加速方法
WO2016035567A1 (ja) * 2014-09-01 2016-03-10 ソニー株式会社 音声処理装置
CN114097028A (zh) * 2019-07-08 2022-02-25 沃伊斯亚吉公司 用于编解码音频流中的元数据及用于灵活对象内和对象间比特率适配的方法和***

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19628293C1 (de) * 1996-07-12 1997-12-11 Fraunhofer Ges Forschung Codieren und Decodieren von Audiosignalen unter Verwendung von Intensity-Stereo und Prädiktion
SG54379A1 (en) * 1996-10-24 1998-11-16 Sgs Thomson Microelectronics A Audio decoder with an adaptive frequency domain downmixer
US5946352A (en) * 1997-05-02 1999-08-31 Texas Instruments Incorporated Method and apparatus for downmixing decoded data streams in the frequency domain prior to conversion to the time domain
US6122619A (en) * 1998-06-17 2000-09-19 Lsi Logic Corporation Audio decoder with programmable downmixing of MPEG/AC-3 and method therefor
US6539357B1 (en) * 1999-04-29 2003-03-25 Agere Systems Inc. Technique for parametric coding of a signal containing information
SE519985C2 (sv) * 2000-09-15 2003-05-06 Ericsson Telefon Ab L M Kodning och avkodning av signaler från flera kanaler
ATE315823T1 (de) * 2002-02-18 2006-02-15 Koninkl Philips Electronics Nv Parametrische audiocodierung
CN1311426C (zh) * 2002-04-10 2007-04-18 皇家飞利浦电子股份有限公司 立体声信号的编码、解码方法和装置及其传输设备
DE60317203T2 (de) * 2002-07-12 2008-08-07 Koninklijke Philips Electronics N.V. Audio-kodierung
KR100528325B1 (ko) * 2002-12-18 2005-11-15 삼성전자주식회사 비트율 조절이 가능한 스테레오 오디오 부호화 및복호화방법 및 그 장치
US7447317B2 (en) * 2003-10-02 2008-11-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V Compatible multi-channel coding/decoding by weighting the downmix channel
US7394903B2 (en) * 2004-01-20 2008-07-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal
SE0400998D0 (sv) * 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Method for representing multi-channel audio signals
US7391870B2 (en) * 2004-07-09 2008-06-24 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E V Apparatus and method for generating a multi-channel output signal
PL1769655T3 (pl) * 2004-07-14 2012-05-31 Koninl Philips Electronics Nv Sposób, urządzenie, urządzenie kodujące, urządzenie dekodujące i system audio
TWI393121B (zh) * 2004-08-25 2013-04-11 Dolby Lab Licensing Corp 處理一組n個聲音信號之方法與裝置及與其相關聯之電腦程式
SE0402652D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Methods for improved performance of prediction based multi- channel reconstruction
US7787631B2 (en) * 2004-11-30 2010-08-31 Agere Systems Inc. Parametric coding of spatial audio with cues based on transmitted channels
US7903824B2 (en) * 2005-01-10 2011-03-08 Agere Systems Inc. Compact side information for parametric coding of spatial audio
EP1691348A1 (en) * 2005-02-14 2006-08-16 Ecole Polytechnique Federale De Lausanne Parametric joint-coding of audio sources
US7573912B2 (en) * 2005-02-22 2009-08-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. Near-transparent or transparent multi-channel encoder/decoder scheme

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
FALLER C ET AL.Binaural Cue Coding -Part II: Schemes and Applications.《IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING》.2003,第11卷(第6期),520-531.
FALLER C ET AL.Binaural Cue Coding-Part II: Schemes and Applications.《IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING》.2003,第11卷(第6期),520-531. *
HERRE J ET AL.MP3 Surround: Efficient and Compatible Coding of Multi Channel Audio.《AUDIO ENGINEERING SOCIETY CONVENTION PAPER》.2004,1-14. *

Also Published As

Publication number Publication date
EP1866913A1 (en) 2007-12-19
KR20070116174A (ko) 2007-12-06
ES2313646T3 (es) 2009-03-01
KR101346120B1 (ko) 2014-01-02
WO2006103586A1 (en) 2006-10-05
EP1866913B1 (en) 2008-08-27
DE602006002501D1 (de) 2008-10-09
JP2008535015A (ja) 2008-08-28
MX2007011995A (es) 2007-12-07
KR20130079627A (ko) 2013-07-10
ATE406651T1 (de) 2008-09-15
US7840411B2 (en) 2010-11-23
CN101151658A (zh) 2008-03-26
BRPI0608756B1 (pt) 2019-06-04
BRPI0608756A2 (pt) 2011-03-15
JP5106383B2 (ja) 2012-12-26
CN101151660A (zh) 2008-03-26
CN101151660B (zh) 2011-10-19
US20100153118A1 (en) 2010-06-17

Similar Documents

Publication Publication Date Title
CN101151658B (zh) 多声道音频编码和解码方法、编码器和解码器
US10433091B2 (en) Compatible multi-channel coding-decoding
US9361896B2 (en) Temporal and spatial shaping of multi-channel audio signal
RU2367033C2 (ru) Многоканальное иерархическое аудиокодирование с компактной дополнительной информацией
KR101271069B1 (ko) 다중채널 오디오 인코더 및 디코더와, 인코딩 및 디코딩 방법
AU2005204715B2 (en) Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal
CN101406073B (zh) 用于多声道音频重构中的信号成形的增强的方法
JP2008527431A (ja) 空間音声のパラメトリック符号化のためのコンパクトなサイド情報

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant