CN107112020B - 音频信号的参数化混合 - Google Patents
音频信号的参数化混合 Download PDFInfo
- Publication number
- CN107112020B CN107112020B CN201580059156.XA CN201580059156A CN107112020B CN 107112020 B CN107112020 B CN 107112020B CN 201580059156 A CN201580059156 A CN 201580059156A CN 107112020 B CN107112020 B CN 107112020B
- Authority
- CN
- China
- Prior art keywords
- channel
- signal
- channels
- additional
- downmix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 402
- 238000000034 method Methods 0.000 claims description 115
- 239000011159 matrix material Substances 0.000 claims description 98
- 238000012545 processing Methods 0.000 claims description 18
- 230000011664 signaling Effects 0.000 claims description 11
- 230000004044 response Effects 0.000 claims description 6
- 238000005192 partition Methods 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 abstract description 14
- 238000013507 mapping Methods 0.000 description 19
- 238000009877 rendering Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 14
- 238000004590 computer program Methods 0.000 description 12
- 238000013139 quantization Methods 0.000 description 12
- 230000005540 biological transmission Effects 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 7
- 239000000203 mixture Substances 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 239000000654 additive Substances 0.000 description 3
- 230000000996 additive effect Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000004321 preservation Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/01—Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/03—Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/03—Application of parametric coding in stereophonic audio systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Mathematical Physics (AREA)
- Stereophonic System (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
在编码部分(100)中,下混部分(110)形成分别作为M声道音频信号的第一组声道和第二组声道(401,402)的线性组合的下混信号的第一声道和第二声道(L1,L2);并且分析部分(120)确定用于参数化重构音频信号的上混参数(αLU)、以及混合参数。在解码部分(1200)中,去相关部分(1210)基于下混信号来输出去相关信号(D);并且混合部分(1220)基于混合参数或上混参数来确定混合系数,并且根据混合系数形成作为下混信号和去相关信号的线性组合的K声道输出信号输出信号的声道分别近似于音频信号的K组声道(501‑502,1301‑1303)的线性组合。所述K组构成音频信号的与第一组和第二组不同的划分,并且,2≤K<M。
Description
技术领域
本文中所公开的本发明总体上涉及音频信号的编码和解码,特别地涉及基于相关联的元数据来对下混信号的声道进行混合。
背景技术
包括多个扩音器的音频回放***常用于再现多声道音频信号表示的音频场景,其中,多声道音频信号的各个声道在各自的扩音器上被回放。多声道音频信号可能例如已经经由多个声学换能器被录制,或者可能已经由音频创作设备产生。在许多情况下,用于将音频信号发送到回放设备的带宽是有限的,和/或计算机存储器或便携式存储装置中的用于存储音频信号的空间是有限的。存在用于对音频信号进行参数化译码(coding)以便减小所需带宽或储存器的音频译码***。在编码器端,这些***通常将多声道音频信号下混为下混信号(其通常是单声道(一声道)或立体声(两声道)下混),并且通过比如电平差和互相关性的参数来提取描述声道的性质的副信息。下混和副信息然后被编码并且被发送到解码器端。在解码器端,在副信息的参数的控制下从下混重构、即近似多声道音频信号。
鉴于可用于回放多声道音频内容的广泛范围的不同类型的装置和***(包括新兴出现的针对终端用户家用的部分),需要新的替代方式来对多声道音频内容进行高效编码,以便减小带宽要求和/或存储所需的存储器大小,有助于解码器端的多声道音频信号的重构,和/或提高在解码器端重构的多声道音频信号的保真度。还需要有助于编码多声道音频内容在不同类型的扬声器***(包括具有比原始多声道音频内容中存在的声道数量少的扬声器的***)上的回放。
附图说明
在下文中,将参照附图来更详细地描述示例实施例,其中:
图1是根据示例实施例的用于将M声道信号编码为两声道下混信号和相关联的元数据的编码部分的广义框图;
图2是根据示例实施例的包括图1中所描绘的编码部分的音频编码***的广义框图;
图3是根据示例实施例的用于将M声道音频信号编码为两声道下混信号和相关联的元数据的音频编码方法的流程图;
图4-6例示说明根据示例实施例的将11.1声道(或7.1+4声道或7.1.4声道)音频信号划分为由相应下混声道表示的多组声道的替代方式;
图7是根据示例实施例的用于基于两声道下混信号和相关联的上混参数来提供两声道输出信号的解码部分的广义框图;
图8是根据示例实施例的包括图7中所描绘的解码部分的音频解码***的广义框图;
图9是根据示例实施例的用于基于两声道下混信号和相关联的混合参数来提供两声道输出信号的解码部分的广义框图;
图10是根据示例实施例的用于基于两声道下混信号和相关联的元数据来提供两声道输出信号的音频解码方法的流程图;
图11示意性地例示说明根据示例实施例的计算机可读介质;
图12是根据示例实施例的用于基于两声道下混信号和相关联的上混参数来提供K声道输出信号的解码部分的广义框图;
图13-14例示说明根据示例实施例的将11.1声道(或7.1+4声道或7.1.4声道)音频信号划分为多组声道的替代方式;以及
图15-16例示说明根据示例实施例的将13.1声道(或9.1+4声道或9.1.4声道)音频信号划分为多组声道的替代方式。
所有的图都是示意性的,并且一般仅示出为了阐明本发明所必需的部分,而其他部分则可以被省略或者仅被建议。
具体实施方式
如本文中所使用的,音频信号可以是独立的音频信号、视听信号或多媒体信号的音频部分、或与元数据组合的这些中的任何一个。
如本文中所使用的,声道是与预定义的/固定的空间位置/方位或未定义的空间位置(比如“左”或“右”)相关联的音频信号。
I.概述——解码器端
根据第一方面,示例实施例提出了音频解码***、音频解码方法以及相关联的计算机程序产品。所提出的根据第一方面的解码***、方法和计算机程序产品一般可以共享相同的特征和优点。
根据示例实施例,提供了一种包括接收两声道下混信号的音频解码方法。下混信号与元数据相关联,该元数据包括用于基于下混信号来参数化重构M声道音频信号的上混参数,其中,M≥4。下混信号的第一声道对应于M声道音频信号的第一组一个或多个声道的线性组合,下混信号的第二声道对应于M声道音频信号的第二组一个或多个声道的线性组合。第一组和第二组构成M声道音频信号的M个声道的划分。音频解码方法进一步包括:接收元数据的至少一部分;基于下混信号的至少一个声道来产生去相关信号;基于接收的元数据来确定混合系数集合;并且根据混合系数按照下混信号和去相关信号的线性组合来形成两声道输出信号。混合系数被确定为使得输出信号的第一声道近似于M声道音频信号的第三组一个或多个声道的线性组合,并且使得输出信号的第二声道近似于M声道音频信号的第四组一个或多个声道的线性组合。混合系数还被确定为使得第三组和第四组构成M声道音频信号的M个声道的划分,并且使得第三组和第四组都包括第一组中的至少一个声道。
M声道音频信号已经被编码为两声道下混信号和用于参数化重构M声道音频信号的上混参数。当在编码器端对M声道音频信号进行编码时,可以选择例如用于有助于从下混信号重构M声道音频信号、用于提高从下混信号重构的M声道音频信号的保真度、和/或用于提高下混信号的译码效率的译码格式。可以通过选择第一组和第二组并且按照相应组中的声道的相应线性组合形成下混信号的声道来执行该译码格式选择。
发明人已经认识到,尽管所选译码格式可以有助于从下混信号重构M声道音频信号,但是下混信号本身可能不适合于使用特定的两扬声器配置进行回放。与M声道音频信号划分为第三组和第四组的不同划分相对应的输出信号可能比下混信号更适合于特定的两声道回放设置。基于下混信号和接收的元数据提供输出信号因此可以提高收听者感知的两声道回放质量,和/或提高两声道回放对于由M声道音频信号表示的声场的保真度。
发明人已经进一步认识到,代替首先从下混信号重构M声道音频信号、然后产生M声道音频信号的替代的两声道表示(例如,通过相加混合),由输出信号提供的替代的两声道表示可以通过利用M声道音频信号的一些声道在该两个两声道表示中被类似地一起分组的事实从下混信号和接收的元数据更高效地产生。按照下混信号和去相关信号的线性组合形成输出信号可以例如降低解码器端的计算复杂度,和/或减少用于获得M声道音频信号的替代的两声道表示的组件或处理步骤的数量。
下混信号的第一声道可能例如已经例如在编码器端被形成为第一组一个或多个声道的线性组合。类似地,下混信号的第二声道可能例如已经例如在编码器端被形成为第二组一个或多个声道的线性组合。
M声道音频信号的声道可以例如形成共同表示声场的更大量的声道的子集。
将意识到,因为第三组和第四组都包括第一组中的至少一个声道,所以第三组和第四组提供的划分不同于第一组和第二组提供的划分。
去相关信号用来增加收听者感知的下混信号的音频内容的维度。产生去相关信号可以例如包括将线性滤波器应用于下混信号的一个或多个声道。
形成输出信号可以例如包括:将混合系数中的至少一些应用于下混信号的声道,并且将混合系数中的至少一些应用于去相关信号的一个或多个声道。
在示例实施例中,接收的元数据可以包括上混参数,并且可以通过对上混参数进行处理、例如通过对上混参数执行数学运算(例如,包括算术运算)来确定混合系数。上混参数通常已经在编码器端被确定,并且与下混信号一起被提供以用于在解码器端参数化重构M声道音频信号。上混参数携带关于M声道音频信号的信息,该信息可以用于基于下混信号来提供输出信号。在解码器端基于上混参数确定混合系数减少了对在编码器端产生附加元数据的需要,并且使得可以减少从编码器端发送的数据。
在示例实施例中,接收的元数据可以包括不同于上混参数的混合参数。在本示例实施例中,可以基于接收的元数据、从而基于混合参数来确定混合系数。混合参数可能已经在编码器端被确定,并且被发送到解码器端以用于有助于混合系数的确定。而且,使用混合参数确定混合系数使得可以从编码器端控制混合系数。因为原始M声道音频信号在编码器端是可获得的,所以混合参数可以例如在编码器端被调谐以便提高作为M声道音频信号的两声道表示的两声道输出信号的保真度。混合参数可以例如是混合系数本身,或者混合参数可以提供混合系数的更紧凑的表示。可以例如通过例如根据预定义规则对混合参数进行处理来确定混合系数。混合参数可以例如包括三个可独立赋值的参数。
在示例实施例中,可以独立于上混参数的任何值确定混合系数,这使得可以独立于上混参数对混合系数进行调谐,并且使得可以提高作为M声道音频信号的两声道表示的两声道输出信号的保真度。
在示例实施例中,可以适用的是,M=5,即,M声道音频信号可以是五声道音频信号。本示例实施例的音频解码方法可以例如用于目前设立的5.1音频格式之一的五个常规声道,或者用于11.1多声道音频信号中的左手或右手侧的五个声道。可替代地,可以适用的是,M=4,或M≥6。
在示例实施例中,控制M声道音频信号的声道对线性组合中的与下混信号的声道相对应的一个线性组合的贡献的每个增益可以与用于控制M声道音频信号的声道对线性组合中的由输出信号的声道近似的一个线性组合的贡献的增益是一致的。在本示例实施例中这些增益一致的事实使得可以简化基于下混信号的输出信号的提供。具体地说,可以减少用于基于下混信号来近似第三组和第四组的线性组合的去相关声道的数量。
不同增益可以例如用于M声道音频信号的不同声道。
在第一个例子中,所有增益都可以具有值1。在第一个例子中,下混信号的第一声道和第二声道可以分别对应于第一组和第二组的非加权和,并且输出信号的第一声道和第二声道可以分别近似于第三组和第四组的非加权和。
在第二个例子中,增益中的至少一个可以具有不同于1的值。在第二个例子中,下混信号的第一声道和第二声道可以分别对应于第一组和第二组的加权和,并且输出信号的第一声道和第二声道可以分别近似于第三组和第四组的加权和。
在示例实施例中,解码方法可以进一步包括:接收表示下混信号和元数据的位流;并且从该位流提取下混信号和接收的元数据的部分。换句话说,接收的用于确定混合系数的元数据可能首先已经被从位流提取。包括上混参数的所有元数据可以例如被从位流提取。在替代例子中,只有确定混合系数所必需的元数据可以被从位流提取,并且进一步的元数据的提取可以例如被禁止。
在示例实施例中,去相关信号可以是单声道信号,并且可以通过将至多一个的去相关信号声道包括到下混信号和去相关信号的线性组合中、即包括到从其获得输出信号的线性组合中来形成输出信号。发明人已经认识到,不需要为了提供两声道输出信号而重构M声道音频信号,并且因为整个M声道音频信号不需要被重构,所以可以使去相关信号声道的数量减少。
在示例实施例中,混合系数可以被确定为使得输出信号的两个声道接收来自去相关信号的相等幅度(例如,相等振幅)的贡献。去相关信号对输出信号的相应声道的贡献可以具有相反的符号。换句话说,混合系数可以被确定为使得控制去相关信号的声道对输出信号的第一声道的贡献的混合系数和控制去相关信号的同一个声道对输出信号的第二声道的贡献的混合系数的和具有值0。
在本示例实施例中,来源于去相关信号的音频内容(即,用于增加下混信号的维度的音频内容)的量(例如,振幅)可以例如在输出信号的两个声道中是相等的。
在示例实施例中,形成输出信号可以相当于从三个声道投射到两个声道,即,从下混信号的两个声道和一个去相关信号声道投射到输出信号的两个声道。例如,输出信号可以作为下混信号和去相关信号的线性组合被直接获得,而无需首先重构M声道音频信号的全部M个声道。
在示例实施例中,混合系数可以被确定为使得控制下混信号的第一声道对输出信号的第一声道的贡献的混合系数和控制下混信号的第一声道对输出信号的第二声道的贡献的混合系数的和具有值1。具体地说,混合系数中的一个混合系数可以从上混参数推导得到(例如,如本公开的其他部分中所解释的,被作为确切值发送,或者可以在对紧凑表示执行计算之后从上混参数获得),其他混合系数则可以通过要求两个混合系数的和等于1来容易地计算得到。
另外地或可替代地,混合系数可以被确定为使得控制下混信号的第二声道对输出信号的第一声道的贡献的混合系数和控制下混信号的第二声道对输出信号的第二声道的贡献的混合系数的和具有值1。
在示例实施例中,第一组可以由两个或三个声道组成。下混信号的与两个或三个声道的线性组合相对应(而不是与四个或更多个声道的线性组合相对应)的声道可以增大由解码器执行所有M个声道的参数化重构而重构的M声道音频信号的保真度。本示例实施例的解码方法可以与这样的译码格式兼容。
在示例实施例中,M声道音频信号可以包括表示M声道音频信号的回放环境中的不同水平方向的三个声道、以及表示该回放环境中的与这三个声道的方向垂直分离的方向的两个声道。换句话说,M声道音频信号可以包括意图用于供位于与收听者(或收听者的耳朵)基本上相同高度处的音频源回放的和/或基本上水平地传播的三个声道、以及意图用于供位于其他高度处的音频源回放的和/或(基本上)非水平地传播的两个声道。这两个声道可以例如表示高架方向。
在示例实施例中,第一组可以由表示M声道音频信号的回放环境中的不同水平方向的三个声道组成,第二组可以由表示回放环境中的与这三个声道的方向垂直分离的方向的两个声道组成。本示例实施例中的由第一组和第二组提供的M声道音频信号的垂直划分可以增大由解码器执行所有M个声道的参数化重构而重构的M声道音频信号的保真度,例如,在垂直维度对于M声道音频信号表示的声场的总体印象重要的情况下。本示例实施例的解码方法可以与提供该垂直划分的译码格式兼容。
在示例实施例中,第三组和第四组中的一组可以包括表示回放环境中的与所述三个声道的方向垂直分离的方向的所述两个声道这两者。可替代地,第三组和第四组均可以包括表示回放环境中的与所述三个声道的方向垂直分离的方向的所述两个声道中的一个,即,第三组和第四组可以包括这两个声道中的各一个。
在示例实施例中,可以通过对下混信号的声道的线性组合进行处理(例如,包括将线性滤波器应用于下混信号声道的声道的线性组合)来获得去相关信号。可替代地,可以基于下混信号的声道中的至多一个声道、例如通过对下混信号的声道进行处理(例如,包括应用线性滤波器)来获得去相关信号。如果例如第二组声道由单个声道组成并且下混信号的第二声道对应于该单个声道,则可以例如通过仅对下混信号的第一声道进行处理来获得去相关信号。
在示例实施例中,第一组可以由N个声道组成,其中,N≥3,并且第一组可以通过以下方式可重构为下混信号的第一声道和(N-1)声道去相关信号的线性组合,即,将第一类型的上混系数(在本文中被称为干式上混系数)应用于下混信号的第一声道,并且将第二类型的上混系数(在本文中被称为湿式上混系数)应用于(N-1)声道去相关信号的声道。在本示例实施例中,接收的元数据可以包括第一类型的上混参数(在本文中被称为干式上混参数)和第二类型的上混参数(在本文中被称为湿式上混参数)。确定混合系数可以包括:基于干式上混参数来确定干式上混系数;基于接收的湿式上混参数并且在知道具有比接收的湿式上混参数的数量多的元素的中间矩阵属于预定义矩阵类的情况下填充该中间矩阵;通过将中间矩阵乘以预定义矩阵来获得湿式上混系数,其中,湿式上混系数对应于从该乘法得到的矩阵,并且包括比中间矩阵中的元素的数量多的系数;并且对干式上混系数和湿式上混系数进行处理。
在本示例实施例中,用于重构第一组声道的湿式上混系数的数量大于接收的湿式上混参数的数量。通过利用预定义矩阵和预定义矩阵类的获悉来从接收的湿式上混参数获得湿式上混系数,可以使参数化重构第一组声道所需的信息量减少,使得可以减少与下混信号一起从编码器端发送的元数据的量。通过使参数化重构所需的数据量减少,可以减小发送M声道音频信号的参数化表示所需的带宽和/或存储这样的表示所需的存储器大小。
(N-1)声道去相关信号可以基于下混信号的第一声道而产生,并且用来增加收听者感知的重构的第一组声道的内容的维度。
预定义矩阵类可以与至少一些矩阵元素的对于该类中的所有矩阵都有效的已知性质(比如一些矩阵元素之间的某些关系、或一些矩阵元素为零)相关联。这些性质的获悉使得可以基于比中间矩阵中的矩阵元素的总数少的湿式上混参数来填充中间矩阵。解码器端至少获悉它基于较少的湿式上混参数计算所有矩阵元素所需的元素的性质以及这些元素之间的关系。
如何确定和利用预定义矩阵和预定义矩阵类在美国临时专利申请No.61/974,544中第16页第15行到第20页第2行有更详细的描述;该申请第一位指名的发明人:LarsVillemoes;提交日:2014年4月3日。具体参见其中的关于预定义矩阵的例子的方程(9)。
在示例实施例中,接收的元数据可以包括N(N-1)/2个湿式上混参数。在本示例实施例中,填充中间矩阵可以包括基于接收的N(N-1)/2个湿式上混参数并且在知道中间矩阵属于预定义矩阵类的情况下获得(N-1)2个矩阵元素的值。这可以包括将湿式上混参数的值立即作为矩阵元素***或者以适合的方式对湿式上混参数进行处理以推导得到矩阵元素的值。在本示例实施例中,预定义矩阵可以包括N(N-1)个元素,并且湿式上混系数集合可以包括N(N-1)个系数。例如,接收的元数据可以包括至多N(N-1)/2个的可独立赋值的湿式上混参数,和/或湿式上混参数的数量可以不超过用于重构第一组声道的湿式上混系数的数量的一半。
在示例实施例中,接收的元数据可以包括(N-1)个干式上混参数。在本示例实施例中,干式上混系数可以包括N个系数,并且可以基于接收的(N-1)个干式上混参数并且基于干式上混系数之间的预定义关系来确定干式上混系数。例如,接收的元数据可以包括至多(N-1)个的可独立赋值的干式上混参数。
在示例实施例中,预定义矩阵类可以是以下中的一个:下三角或上三角矩阵,其中,该类中的所有矩阵的已知性质包括预定义矩阵元素为零;对称矩阵,其中,该类中的所有矩阵的已知性质包括预定义矩阵元素(在主对角线的两边)是相等的;以及正交矩阵和对角矩阵的乘积,其中,该类中的所有矩阵的已知性质包括预定义矩阵元素之间的已知关系。换句话说,预定义矩阵类可以是下三角矩阵类、上三角矩阵类、对称矩阵类、或正交矩阵和对角矩阵的乘积的类。上面的每个类的共同性质是其维度小于矩阵元素总数。
在示例实施例中,解码方法可以进一步包括:接收指示M声道音频信号的至少两种译码格式中的(所选的)一种译码格式的信令,译码格式对应于M声道音频信号的声道划分为与下混信号的声道相关联的相应第一组和第二组的相应不同划分。在本示例实施例中,第三组和第四组可以是预定义的,并且混合系数可以被确定为使得M声道音频信号划分为由输出信号的声道近似的第三组和第四组声道的单个划分对于所述至少两种译码格式被保持(即,对于所述至少两种译码格式是共同的)。
在本示例实施例中,可以例如基于指示的译码格式以及基于下混信号的至少一个声道来确定去相关信号。
在本示例实施例中,所述至少两种不同的译码格式可能已经在编码器端在确定下混信号和元数据时被利用,并且解码方法可以通过调整混合系数、可选地还调整去相关信号来对译码格式之间的差异进行处理。在检测到从第一译码格式切换到第二译码格式的情况下,解码方法可以例如包括执行从与第一译码格式相关联的混合参数到与第二译码格式相关联的混合参数的插值。
在示例实施例中,解码方法可以进一步包括:响应于指示特定译码格式的信令,使下混信号作为输出信号通过。在本示例实施例中,特定译码格式可以对应于M声道音频信号的声道的与第三组和第四组定义的划分一致的划分。在本示例实施例中,下混信号的声道提供的划分可以与输出信号的声道将提供的划分一致,并且可能不需要对下混信号进行处理。下混信号因此可以被作为输出信号通过。
在示例实施例中,解码方法可以包括:响应于指示特定译码格式的信令,抑制去相关信号对输出信号的贡献。在本示例实施例中,特定译码格式可以对应于M声道音频信号的声道的与第三组和第四组定义的划分一致的划分。在本示例实施例中,下混信号的声道提供的划分可以与输出信号的声道将提供的划分一致,并且可能不需要去相关。
在示例实施例中,在第一译码格式中,第一组可以由表示M声道音频信号的回放环境中的不同水平方向的三个声道组成,第二组声道可以由表示回放环境中的与这三个声道的方向垂直分离的方向的两个声道组成。在第二译码格式中,第一组和第二组均可以包括这两个声道中的一个。
根据示例实施例,提供了一种音频解码***,该音频解码***包括被配置为接收两声道下混信号的解码部分。下混信号与元数据相关联,该元数据包括用于基于下混信号来参数化重构M声道音频信号的上混参数,其中,M≥4。下混信号的第一声道对应于M声道音频信号的第一组一个或多个声道的线性组合,下混信号的第二声道对应于M声道音频信号的第二组一个或多个声道的线性组合。第一组和第二组构成M声道音频信号的M个声道的划分。解码部分被进一步配置为:接收元数据的至少一部分;并且基于下混信号和接收的元数据来提供两声道输出信号。解码部分包括去相关部分,该去相关部分被配置为:接收下混信号的至少一个声道,并且基于其来输出去相关信号。解码部分进一步包括混合部分,该混合部分被配置为:基于接收的元数据来确定混合系数集合;并且根据混合系数按照下混信号和去相关信号的线性组合来形成输出信号。混合部分被配置为:确定混合系数,以使得输出信号的第一声道近似于M声道音频信号的第三组一个或多个声道的线性组合,并且使得输出信号的第二声道近似于M声道音频信号的第四组一个或多个声道的线性组合。混合部分被进一步配置为:确定混合系数,以使得第三组和第四组构成M声道音频信号的M个声道的划分,并且使得第三组和第四组都包括第一组中的至少一个声道。
在示例实施例中,音频解码***可以进一步包括附加解码部分,该附加解码部分被配置为接收附加两声道下混信号。附加下混信号可以与附加元数据相关联,该附加元数据包括用于基于附加下混信号来参数化重构附加M声道音频信号的附加上混参数。附加下混信号的第一声道可以对应于附加M声道音频信号的第一组一个或多个声道的线性组合,附加下混信号的第二声道可以对应于附加M声道音频信号的第二组一个或多个声道的线性组合。附加M声道音频信号的第一组和第二组声道可以构成附加M声道音频信号的M个声道的划分。附加解码部分可以被进一步配置为:接收附加元数据的至少一部分;并且基于附加下混信号和接收的附加元数据来提供附加两声道输出信号。附加解码部分可以包括附加去相关部分,该附加去相关部分被配置为:接收附加下混信号的至少一个声道,并且基于其来输出附加去相关信号。附加解码部分可以进一步包括附加混合部分,该附加混合部分被配置为:基于接收的附加元数据来确定附加混合系数集合;并且根据附加混合系数按照附加下混信号和附加去相关信号的线性组合来形成附加输出信号。附加混合部分可以被配置为:确定混合系数,以使得附加输出信号的第一声道近似于附加M声道音频信号的第三组一个或多个声道的线性组合,并且使得附加输出信号的第二声道近似于附加M声道音频信号的第四组一个或多个声道的线性组合。附加混合部分可以被进一步配置为:确定附加混合系数,以使得附加M声道音频信号的第三组和第四组声道构成附加M声道音频信号的M个声道的划分,并且使得附加M声道音频信号的第三组和第四组信号都包括附加M声道音频信号的第一组声道中的至少一个声道。
在本示例实施例中,附加解码部分、附加去相关部分和附加混合部分可以例如分别在功能上等同于(或被类似地配置为)解码部分、去相关部分和混合部分。可替代地,附加解码部分、附加去相关部分和附加混合部分中的至少一个可以例如被配置为执行与解码部分、去相关部分和混合部分的对应部分执行的计算和/或插值不同类型的至少一种计算和/或插值。
在本示例实施例中,附加解码部分、附加去相关部分和附加混合部分可以例如可独立于解码部分、去相关部分和混合部分进行操作。
在示例实施例中,解码***可以进一步包括解复用器,该解复用器被配置为从位流提取:下混信号、元数据的所述至少一部分以及分开译码的音频声道。解码***可以进一步包括单声道解码部分,该单声道解码部分可操作来对分开译码的音频声道进行解码。分开译码的音频声道可以例如通过使用感知音频编解码器(比如Dolby Digital或MPEG AAC)被编码在位流中,并且单声道解码部分可以例如包括用于对分开译码的音频声道进行解码的核心解码器。单声道解码部分可以例如可独立于解码部分进行操作来对分开译码的音频声道进行解码。
根据示例实施例,提供了一种计算机程序产品,该计算机程序产品包括具有用于执行第一方面的方法中的任何一种方法的指令的计算机可读介质。
根据上述第一方面的音频解码***、方法和计算机程序产品的示例实施例,输出信号可以是K声道信号,其中,2≤K<M,而不是两声道信号,并且输出信号的K个声道可以对应于M声道音频信号划分为K组的划分,而不是输出信号的两个声道对应于M声道音频信号划分为两组的划分。
更具体地说,根据示例实施例,提供了一种音频解码方法,该音频解码方法包括接收两声道下混信号。下混信号与元数据相关联,该元数据包括用于基于下混信号来参数化重构M声道音频信号的上混参数,其中,M≥4。下混信号的第一声道对应于M声道音频信号的第一组一个或多个声道的线性组合,下混信号的第二声道对应于M声道音频信号的第二组一个或多个声道的线性组合。第一组和第二组构成M声道音频信号的M个声道的划分。音频解码方法可以进一步包括:接收元数据的至少一部分;基于下混信号的至少一个声道来产生去相关信号;基于接收的元数据来确定混合系数集合;并且根据混合系数按照下混信号和去相关信号的线性组合来形成K声道输出信号,其中,2≤K<M。混合系数可以被确定为使得输出信号的K个声道中的每个声道近似于M声道音频信号的一组一个或多个声道的线性组合(并且输出信号的K个声道中的每个声道因此对应于M声道音频信号的一组一个或多个声道),与输出信号的相应声道相对应的组构成M声道音频信号的M个声道划分为K组一个或多个声道的划分,并且所述K组中的至少两个组包括第一组中的至少一个声道。
M声道音频信号已经被编码为两声道下混信号和用于参数化重构M声道音频信号的上混参数。当在编码器端对M声道音频信号进行编码时,可以选择例如用于有助于从下混信号重构M声道音频信号、用于提高从下混信号重构的M声道音频信号的保真度、和/或用于提高下混信号的译码效率的译码格式。可以通过选择第一组和第二组并且将下混信号的声道形成为相应组中的声道的相应线性组合来执行该译码格式选择。
发明人已经认识到,尽管所选译码格式可以有助于从下混信号重构M声道音频信号,但是下混信号本身可能不适合于使用特定的K扬声器配置进行回放。与M声道音频信号划分为K组的划分相对应的K声道输出信号可能比下混信号更适合于特定的K声道回放设置。基于下混信号和接收的元数据提供输出信号因此可以提高收听者感知的K声道回放质量,和/或提高K声道回放对于由M声道音频信号表示的声场的保真度。
发明人已经进一步认识到,代替首先从下混信号重构M声道音频信号、然后产生M声道音频信号的K声道表示(例如,通过相加混合),由输出信号提供的K声道表示可以通过利用M声道音频信号的一些声道在下混信号提供的两声道表示和将被提供的K声道表示中被类似地一起分组的事实被从下混信号和接收的元数据更高效地产生。将输出信号形成为下混信号和去相关信号的线性组合可以例如降低解码器端的计算复杂度,和/或减少用于获得M声道音频信号的K声道表示的组件或处理步骤的数量。
构成M声道音频信号的声道的划分的K个组意味着,所述K个组是不相交的,并且一起包括M声道音频信号的所有声道。
形成K声道输出信号可以例如包括:将混合系数中的至少一些应用于下混信号的声道,并且将混合系数中的至少一些应用于去相关信号的一个或多个声道。
下混信号的第一声道和第二声道可以例如分别对应于第一组一个或多个声道和第二组一个或多个声道中的声道的(加权或非加权)和。
输出信号的K个声道可以例如分别近似于所述K组一个或多个声道中的声道的(加权或非加权)和。
在一些示例实施例中,K=2,K=3,或K=4。
在一些示例实施例中,M=5,或M=6。
在示例实施例中,去相关信号可以是两声道信号,并且可以通过将至多两个的去相关信号声道包括到下混信号和去相关信号的线性组合中、即包括到从其获得输出信号的线性组合中来形成输出信号。发明人已经认识到,不需要为了提供两声道输出信号而重构M声道音频信号,并且因为整个M声道音频信号不需要被重构,所以可以使去相关信号声道的数量减少。
在示例实施例中,K=3,并且形成输出信号可以相当于从四个声道投射到三个声道,即,从下混信号的两个声道和两个去相关信号声道投射到输出信号的三个声道。例如,输出信号可以作为下混信号和去相关信号的线性组合被直接获得,而无需首先重构M声道音频信号的全部M个声道。
在示例实施例中,混合系数可以被确定为使得输出信号的一对声道接收来自去相关信号的声道的相等幅度(例如,相等振幅)的贡献。去相关信号的这个声道对该对声道中的相应声道的贡献可以具有相反的符号。换句话说,混合系数可以被确定为使得控制去相关信号的声道对输出信号的(例如,第一)声道的贡献的混合系数和控制去相关信号的同一个声道对输出信号的另一个(例如,第二)声道的贡献的混合系数的和具有值0。K声道输出信号可以例如包括不接收来自去相关信号的特定声道的任何贡献的一个或多个声道。
在示例实施例中,混合系数可以被确定为使得控制下混信号的第一声道对输出信号的(例如,第一)声道的贡献的混合系数和控制下混信号的第一声道对输出信号的另一个(例如,第二)声道的贡献的混合系数的和具有值1。具体地说,混合系数中的一个混合系数可以例如可从上混参数推导得到(例如,如本公开的其他部分中所解释的,被作为确切值发送,或者可以在对紧凑表示执行计算之后从上混参数获得),其他混合系数则可以通过要求两个混合系数的和等于1来容易地计算得到。K声道输出信号可以例如包括不接收来自下混信号的第一声道的任何贡献的一个或多个声道。
在示例实施例中,混合系数可以被确定为使得控制下混信号的第二声道对输出信号的(例如,第一)声道的贡献的混合系数和控制下混信号的第二声道对输出信号的另一个(例如,第二)声道的贡献的混合系数的和具有值1。K声道输出信号可以例如包括不接收来自下混信号的第二声道的任何贡献的一个或多个声道。
在示例实施例中,所述方法可以包括接收指示M声道音频信号的至少两种译码格式中的(所选的)一种译码格式的信令。译码格式可以对应于M声道音频信号的声道划分为与下混信号的声道相关联的相应第一组和第二组的相应不同划分。K个组可以是预定义的。混合系数可以被确定为使得M声道音频信号划分为由输出信号的声道近似的K组声道的单个划分对于所述至少两种译码格式被保持(即,对于所述至少两种译码格式是共同的)。
在示例实施例中,去相关信号可以包括两个声道。可以基于下混信号的第一声道、例如通过仅对下混信号的第一声道进行处理来获得去相关信号的第一声道。可以基于下混信号的第二声道、例如通过仅对下混信号的第二声道进行处理来获得去相关信号的第二声道。
II.概述——编码器端
根据第二方面,示例实施例提出了音频编码***以及音频编码方法和相关联的计算机程序产品。所提出的根据第二方面的编码***、方法和计算机程序产品一般可以共享相同的特征和优点。而且,上面针对根据第一方面的解码***、方法和计算机程序产品的特征呈现的优点对于根据第二方面的编码***、方法和计算机程序产品的对应特征一般可以是有效的。
根据示例实施例,提供了一种音频编码方法,该音频编码方法包括:接收M声道音频信号,其中,M≥4;并且基于M声道音频信号来计算两声道下混信号。下混信号的第一声道被形成为M声道音频信号的第一组一个或多个声道的线性组合,下混信号的第二声道被形成为M声道音频信号的第二组一个或多个声道的线性组合。第一组和第二组构成M声道音频信号的M个声道的划分。编码方法进一步包括:确定用于从下混信号参数化重构M声道音频信号的上混参数;并且确定用于基于下混信号来获得两声道输出信号的混合参数,其中,输出信号的第一声道近似于M声道音频信号的第三组一个或多个声道的线性组合,并且其中,输出信号的第二声道近似于M声道音频信号的第四组一个或多个声道的线性组合。第三组和第四组构成M声道音频信号的M个声道的划分,并且第三组和第四组都包括第一组中的至少一个声道。编码方法进一步包括:输出下混信号和元数据以用于联合存储或发送,其中,元数据包括上混参数和混合参数。
下混信号的声道对应于M声道音频信号的M个声道划分为第一组和第二组的划分,并且可以例如提供M声道音频信号的位高效的两声道表示和/或使得可以高保真度地参数化重构M声道音频信号的两声道表示。
发明人已经认识到,尽管所用的两声道表示可以有助于从下混信号重构M声道音频信号,但是下混信号本身可能不适合于使用特定的两扬声器配置进行回放。与下混信号和上混参数一起输出的混合参数使得可以基于下混信号来获得两声道输出信号。与M声道音频信号划分为第三组声道和第四组声道的不同划分相对应的输出信号可能比下混信号更适合于特定的两声道回放设置。基于下混信号和混合参数提供输出信号因此可以提高收听者感知的两声道回放质量,和/或提高两声道回放对于由M声道音频信号表示的声场的保真度。
下混信号的第一声道可以例如被形成为第一组中的声道的和,或者被形成为其缩放。换句话说,下混信号的第一声道可以例如被形成为第一组中的声道的和(即,来自相应声道的音频内容的和,例如通过每个采样地或每个变换系数地进行相加混合而形成的),或者被形成为这样的和的重新缩放的版本(例如,通过对声道进行求和并且将该和乘以重新缩放因子而获得的版本)。类似地,下混信号的第二声道可以例如被形成为第二组中的声道的和,或者被形成为其缩放。输出信号的第一声道可以例如近似于第三组的声道的和或者其缩放,输出信号的第二声道可以例如近似于第四组的声道的和或者其缩放。
例如,M声道音频信号可以是五声道音频信号。音频编码方法可以例如用于目前设立的5.1音频格式之一的五个常规声道,或者用于11.1多声道音频信号中的左手或右手侧的五个声道。可替代地,可以适用的是,M=4,或M≥6。
在示例实施例中,混合参数可以控制下混信号和去相关信号对输出信号的相应贡献。混合参数中的至少一些可以在使得输出信号的声道分别成为第一组声道和第二组声道的线性组合(或和)的协方差保持近似的混合参数之中通过最小化来自去相关信号的贡献来确定。来自去相关信号的贡献可以例如在该贡献的信号能量或振幅最小的意义上被最小化。
输出信号的第一声道将近似于的第三组的线性组合以及输出信号的第二声道将近似于的第四组的线性组合可以例如对应于具有第一协方差矩阵的两声道音频信号。输出信号的声道分别是第一组声道和第二组声道的线性组合的协方差保持近似可以例如对应于输出信号的协方差矩阵与第一协方差矩阵一致(或至少基本上一致)。
在协方差保持近似之中,来自去相关信号的贡献的大小(例如,能量或振幅)降低可以指示收听者在回放期间感知的近似的保真度增大。利用使来自去相关信号的贡献降低的混合参数可以提高作为M声道音频信号的两声道表示的输出信号的保真度。
在示例实施例中,第一组声道可以由N个声道组成,其中,N≥3,并且上混参数中的至少一些可以适合于从下混信号的第一声道以及基于下混信号的第一声道确定的(N-1)声道去相关信号参数化重构第一组声道。在本示例实施例中,确定上混参数可以包括:确定第一类型的上混系数(被称为干式上混系数)的集合,以便定义近似于第一组声道的下混信号的第一声道的线性映射;并且基于接收的第一组声道的协方差和通过下混信号的第一声道的线性映射近似的第一组声道的协方差之间的差值来确定中间矩阵。当乘以预定义矩阵时,中间矩阵可以对应于第二类型的上混系数(被称为湿式上混系数)的集合,该湿式上混系数集合定义作为第一组声道的参数化重构的一部分的、去相关信号的线性映射。该湿式上混系数集合可以包括比中间矩阵中的元素的数量多的系数。在本示例实施例中,上混参数可以包括干式上混系数集合可被从其推导得到的第一类型的上混参数(被称为干式上混参数)以及第二类型的上混参数(被称为湿式上混参数),在假定中间矩阵属于预定义矩阵类的情况下第二类型的上混参数唯一地定义中间矩阵。中间矩阵可以具有比湿式上混参数的数量多的元素。
在本示例实施例中,解码器端的第一组声道的参数化重构副本包括:作为一个贡献的、通过下混信号的第一声道的线性映射形成的干式上混信号;以及作为进一步贡献的、通过去相关信号的线性映射形成的湿式上混信号。干式上混系数集合定义下混信号的第一声道的线性映射,湿式上混系数集合定义去相关信号的线性映射。通过输出比湿式上混系数的数量少的并且湿式上混系数可从其基于预定义矩阵和预定义矩阵类推导得到的湿式上混参数,可以使发送到解码器端以使得能够重构M声道音频信号的信息量减少。通过使参数化重构所需的数据量减少,可以使发送M声道音频信号的参数化表示所需的带宽和/或存储这样的表示所需的存储器大小减小。
中间矩阵可以例如被确定为使得通过去相关信号的线性映射获得的信号的协方差补充通过下混信号的第一声道的线性映射近似的第一组声道的协方差。
如何确定和利用预定义矩阵和预定义矩阵类在美国临时专利申请No.61/974,544中第16页第15行到第20页第2行被更详细地描述;该申请第一位指名的发明人:LarsVillemoes;提交日:2014年4月3日。具体参见其中的关于预定义矩阵的例子的方程(9)。
在示例实施例中,确定中间矩阵可以包括:确定中间矩阵以使得通过去相关信号的线性映射(由湿式上混系数集合定义)获得的信号的协方差近似于接收的第一组声道的协方差和通过下混信号的第一声道的线性映射近似的第一组声道的协方差之间的差值或者与该差值基本上一致。换句话说,中间矩阵可以被确定为使得如下这样的第一组声道的重构副本完全地或至少近似地恢复接收的第一组声道的协方差,该第一组声道的重构副本是作为通过下混信号的第一声道的线性映射形成的干式上混信号和通过去相关信号的线性映射形成的湿式上混信号的和而获得的。
在示例实施例中,湿式上混参数可以包括至多N(N-1)/2个的可独立赋值的湿式上混参数。在本示例实施例中,中间矩阵可以具有(N-1)2个矩阵元素,并且在假定中间矩阵属于预定义矩阵类的情况下可以由湿式上混参数唯一地定义。在本示例实施例中,湿式上混系数集合可以包括N(N-1)个系数。
在示例实施例中,干式上混系数集合可以包括N个系数。在本示例实施例中,干式上混参数可以包括至多N-1个的干式上混参数,并且干式上混系数集合可以通过使用预定义规则从N-1个干式上混参数推导得到。
在示例实施例中,确定的干式上混系数集合可以定义与第一组声道的最小均方差近似相对应的下混信号的第一声道的线性映射,即,在下混信号的第一声道的线性映射集合之中,确定的干式上混系数集合可以定义在最小均方的意义上最佳地近似于第一组声道的线性映射。
在示例实施例中,编码方法可以进一步包括选择至少两种译码格式中的一种译码格式,其中,译码格式对应于M声道音频信号的声道划分为与下混信号的声道相关联的相应第一组和第二组的相应不同划分。下混信号的第一声道和第二声道可以根据所选译码格式分别被形成为M声道音频信号的第一组一个或多个声道和第二组一个或多个声道的线性组合。可以基于所选译码格式来确定上混参数和混合参数。编码方法可以进一步包括提供指示所选译码格式的信令。该信令可以例如被输出以用于与下混信号和元数据一起联合存储和/或发送。
基于下混信号和上混参数重构的M声道音频信号可以是以下信号的和:通过将干式上混系数应用于下混信号而形成的干式上混信号;以及通过将湿式上混系数应用于基于下混信号确定的去相关信号而形成的湿式上混信号。译码格式的选择可以例如基于针对各译码格式的、接收的M声道音频信号的协方差和通过干式上混信号近似的M声道音频信号的协方差之间的差值来做出。译码格式的选择可以例如基于用于各译码格式的湿式上混系数、例如基于用于各译码格式的湿式上混系数的各平方和来做出。所选的译码格式可以例如与各译码格式的平方和中的最小一个平方和相关联。
根据示例实施例,提供了一种音频编码***,该音频编码***包括编码部分,该编码部分被配置为:将M声道音频信号编码为两声道下混信号和相关联的元数据,其中,M≥4,并且输出下混信号和元数据以用于联合存储或发送。编码部分包括下混部分,该下混部分被配置为基于M声道音频信号来计算下混信号。下混信号的第一声道被形成为M声道音频信号的第一组一个或多个声道的线性组合,下混信号的第二声道被形成为M声道音频信号的第二组一个或多个声道的线性组合。第一组和第二组构成M声道音频信号的M个声道的划分。编码部分进一步包括分析部分,该分析部分被配置为确定:用于从下混信号参数化重构M声道音频信号的上混参数;以及用于基于下混信号来获得两声道输出信号的混合参数。输出信号的第一声道近似于M声道音频信号的第三组一个或多个声道的线性组合,输出信号的第二声道近似于M声道音频信号的第四组一个或多个声道的线性组合。第三组和第四组构成M声道音频信号的M个声道的划分。第三组和第四组都包括第一组的至少一个声道。元数据包括上混参数和混合参数。
根据示例实施例,提供了一种计算机程序产品,该计算机程序产品包括具有用于执行第二方面的方法中的任何一种方法的指令的计算机可读介质。
根据上述第二方面的音频编码***、方法和计算机程序产品的示例实施例,输出信号可以是K声道信号,其中,2≤K<M,而不是两声道信号,并且输出信号的K个声道可以对应于M声道音频信号划分为K个组的划分,而不是输出信号的两个声道对应于M声道音频信号划分为两个组的划分。
更具体地说,根据示例实施例,提供了一种音频编码方法,该音频解码方法包括:接收M声道音频信号,其中,M≥4;并且基于M声道音频信号来计算两声道下混信号。下混信号的第一声道被形成为M声道音频信号的第一组一个或多个声道的线性组合,下混信号的第二声道被形成为M声道音频信号的第二组一个或多个声道的线性组合。第一组和第二组构成M声道音频信号的M个声道的划分。编码方法可以进一步包括:确定用于从下混信号参数化重构M声道音频信号的上混参数;并且确定用于基于下混信号来获得K声道输出信号的混合参数,其中,2≤K<M,输出信号的所述K个声道中的每个近似于M声道音频信号的一组一个或多个声道的线性组合。与输出信号的相应声道相对应的组可以构成M声道音频信号的M个声道划分为K组一个或多个声道的划分,并且所述K组中的至少两个组包括第一组中的至少一个声道。所述编码方法可以进一步包括输出下混信号和元数据以用于联合存储或发送,其中,元数据包括上混参数和混合参数。
在示例实施例中,混合参数可以控制下混信号和去相关信号对输出信号的相应贡献。混合参数中的至少一些可以在使得输出信号的声道成为相应K组声道的一个或多个声道的线性组合(或和)的协方差保持近似的混合参数之中通过最小化来自去相关信号的贡献来确定。来自去相关信号的贡献可以例如在该贡献的信号能量或振幅最小的意义上被最小化。
输出信号的K个声道将近似于的K组声道的线性组合可以例如对应于具有第一协方差矩阵的K声道音频信号。输出信号的声道分别是K组声道的声道的线性组合的协方差保持近似可以例如对应于输出信号的协方差矩阵与第一协方差矩阵一致(或至少基本上一致)。
在协方差保持近似之中,来自去相关信号的贡献的大小(例如,能量或振幅)降低可以指示收听者在回放期间感知的近似的保真度增大。利用使来自去相关信号的贡献降低的混合参数可以提高作为M声道音频信号的K声道表示的输出信号的保真度。
III.概述——计算机可读介质
根据第三方面,示例实施例提出了计算机可读介质。上面针对根据第一方面和/或第二方面的***、方法和计算机程序产品的特征呈现的优点对于根据第三方面的计算机可读介质的对应特征一般可以是有效的。
根据示例实施例,提供了一种数据载体,该数据载体表示:两声道下混信号;以及使得可以基于下混信号来参数化重构M声道音频信号的上混参数,其中,M≥4。下混信号的第一声道对应于M声道音频信号的第一组一个或多个声道的线性组合,下混信号的第二声道对应于M声道音频信号的第二组一个或多个声道的线性组合。第一组和第二组构成M声道音频信号的M个声道的划分。数据载体进一步表示使得可以基于下混信号来提供两声道输出信号的混合参数。输出信号的第一声道近似于M声道音频信号的第三组一个或多个声道的线性组合,输出信号的第二声道近似于M声道音频信号的第四组一个或多个声道的线性组合。第三组和第四组构成M声道音频信号的M个声道的划分。第三组和第四组都包括第一组中的至少一个声道。
在示例实施例中,数据载体表示的数据可以被布置在时间帧中,并且可以被分层为使得对于给定时间帧,用于该时间帧的下混信号和相关联的混合参数可以独立于相关联的上混参数被提取。例如,数据载体可以被分层为使得用于该时间帧的下混信号和相关联的混合参数可以在不提取和/或访问相关联的上混参数的情况下被提取。根据上述的第三方面的计算机可读介质(或数据载体)的示例实施例,输出信号可以是K声道信号,其中,2≤K<M,而不是两声道信号,并且输出信号的K个声道可以对应于M声道音频信号划分为K组的划分,而不是输出信号的两个声道对应于M声道音频信号划分为两组的划分。
更具体地说,根据示例实施例,提供了一种计算机可读介质(或数据载体),该计算机可读介质表示:两声道下混信号;以及使得可以基于下混信号来参数化重构M声道音频信号的上混参数,其中,M≥4。下混信号的第一声道对应于M声道音频信号的第一组一个或多个声道的线性组合,下混信号的第二声道对应于M声道音频信号的第二组一个或多个声道的线性组合。第一组和第二组构成M声道音频信号的M个声道的划分。数据载体可以进一步表示使得可以基于下混信号来提供K声道输出信号的混合参数,其中,2≤K<M。输出信号的每个声道可以近似于M声道音频信号的一组一个或多个声道的线性组合(例如,加权或非加权和)。与输出信号的相应声道相对应的组可以构成M声道音频信号的M个声道划分为K组一个或多个声道的划分。K组中的至少两个组可以包括第一组中的至少一个声道。
进一步的示例实施例在从属权利要求中被定义。应注意,示例实施例包括特征的所有组合,即使特征被记载在相互不同的权利要求中。
IV.示例实施例
图4-6例示说明将11.1声道音频信号划分为多组声道以用于将11.1声道音频信号参数化编码为5.1声道音频信号或者用于在包括五个扩音器和一个超低音的扬声器***处回放11.1声道音频信号的替代方式。
11.1声道音频信号包括声道L(左)、LS(左侧)、LB(左后)、TFL(左前上部)、TBL(左右上部)、R(右)、RS(右侧)、RB(右后)、TFR(右前上部)、TBR(右后上部)、C(中心)以及LFE(低频效果)。五个声道L、LS、LB、TFL和TBL形成表示11.1声道音频信号的回放环境中的左半空间的五声道音频信号。三个声道L、LS和LB表示回放环境中的不同的水平方向,两个声道TFL和TBL表示与三个声道L、LS和LB的方向垂直分离的方向。两个声道TFL和TBL可以例如意图用于在顶部扬声器中回放。类似地,五个声道R、RS、RB、TFR和TBR形成表示回放环境的右半空间的附加五声道音频信号,三个声道R、RS和RB表示回放环境中的不同的水平方向,两个声道TFR和TBR表示与这三个声道R、RS和RB的方向垂直分离的方向。
为了将11.1声道音频信号表示为5.1声道音频信号,可以将声道L、LS、LB、TFL、TBL、R、RS、RB、TFR、TBR、C和LFE的集合划分为由相应下混声道和相关联元数据表示的多组声道。五声道音频信号L、LS、LB、TFL、TBL可以由两声道下混信号L1、L2和相关联的元数据表示,而附加五声道音频信号R、RS、RB、TFR、TBR可以由附加两声道下混信号R1、R2和相关联的元数据表示。声道C和LFE在11.1声道音频信号的5.1声道表示中也可以保持为单独的声道。
图4例示说明第一译码格式F1,在该格式中,五声道音频信号L、LS、LB、TFL、TBL被划分为第一组401声道L、LS、LB和第二组402声道TFL、TBL,并且附加五声道音频信号R、RS、RB、TFR、TBR被划分为附加第一组403声道R、RS、RB和附加第二组404声道TFR、TBR。在第一译码格式F1中,第一组声道401由两声道下混信号的第一声道L1表示,第二组声道402由两声道下混信号的第二声道L2表示。下混信号的第一声道L1可以如下地对应于第一组401声道的和:
L1-L+LS+LB
并且下混信号的第二声道L2可以如下地对应于第二组402声道的和:
L2-TFL+TBL
在一些示例实施例中,可以在求和之前对声道中的一些或全部进行重新缩放,以使得下混信号的第一声道L1可以对应于根据L1=c1L+c2LS+c3LB的第一组401声道的线性组合,并且下混信号的第二声道L2可以对应于根据L2=c4TFL+c5TBL的第二组402声道的线性组合。增益c2、c3、c4、c5可以例如是一致的,而增益c1可以例如具有不同的值;例如,c1可以对应于根本不重新缩放。例如,可以使用值c1=1和然而,只要应用于用于第一译码格式F1的各声道L、LS、LB、TFL、TBL的增益c1、c2、c3、c4、c5与应用于下面参照图5和图6描述的其他译码格式F2和F3中的这些声道的增益一致,这些增益就不会影响下述计算。因此,下面对于声道L、LS、LB、TFL、TBL推导的方程和近似也适用于这些声道的重新缩放的版本c1L、c2LS、c3LB、c4TFL、c5TBL。另一方面,如果在不同译码格式中利用不同增益,则下面执行的计算中的至少一些可能必须被修改;例如,为了提供更忠实的近似,可以考虑包括附加去相关器的选择。
类似地,附加第一组声道403由附加下混信号的第一声道R1表示,附加第二组404声道由附加下混信号的第二声道R2表示。
第一译码格式F1提供用于表示顶部声道TFL、TBL、TFR和TBR的专用下混声道L2和R2。第一译码格式F1的使用因此可以使得在例如回放环境中的垂直维度对于11.1声道音频信号的总体印象重要的情况下可以以相对较高的保真度参数化重构11.1声道音频信号。
图5例示说明第二译码格式F2,在该格式中,五声道音频信号L、LS、LB、TFL、TBL被划分为由相应声道L1和L2表示的第三组501声道和第四组502声道,其中,声道L1和L2对应于各组声道(例如,利用与第一译码格式F1中的增益相同的增益c1、c2、c3、c4、c5进行重新缩放)的和。类似地,附加五声道音频信号R、RS、RB、TFR、TBR被划分为由相应声道R1和R2表示的附加第三组503声道和第四组504声道。
第二译码格式F2没有提供用于表示顶部声道TFL、TBL、TFR和TBR的专用下混声道,而是可以使得例如在回放环境中的垂直维度对于11.1声道音频信号的总体印象不重要的情况下可以以相对较高的保真度参数化重构11.1声道音频信号。第二译码格式F2也可以比第一译码格式F1更适合于5.1声道回放。
图6例示说明第三译码格式F3,在该格式中,五声道音频信号L、LS、LB、TFL、TBL被划分为由下混信号的相应声道L1和L2表示的第五组601声道和第六组602声道,其中,L1和L2对应于各组声道(例如,利用与第一译码格式F1中的增益相同的增益c1、c2、c3、c4、c5进行重新缩放)的和。类似地,附加五声道音频信号R、RS、RB、TFR、TBR被划分为由相应声道R1和R2表示的附加第五组603声道和第六组604声道。
在第三译码格式F3中,四个声道LS、LB、TFL、TBL由第二声道L2表示。尽管11.1声道音频信号的高保真度参数化重构在第三译码格式F3中可能比在其他译码格式中更困难,但是第三译码格式F3可以例如用于5.1声道回放。
发明人已经认识到,与根据译码格式F1、F2、F3中的一种译码格式的11.1声道音频信号的5.1声道表示相关联的元数据可以用于产生根据译码格式F1、F2、F3中的另一种译码格式的5.1声道表示,而无需首先重构原始11.1声道信号。表示11.1声道音频信号的左半平面的五声道信号L、LS、LB、TFL、TBL和表示右半平面的附加五声道信号R、RS、RB、TFR、TBR可以被类似地处理。
假定三个声道x1、x2、x3已经根据m1=x1+x2+x3被求和以形成下混声道m1,并且x1和x2+x3将被重构。所有三个声道x1、x2、x3可以通过利用在编码器端确定的上混参数ci(1≤i≤3)和pij(1≤i≤3,1≤j≤2)以及独立的去相关器D1和D2从下混声道m1被重构为:
假定所用上混参数满足c1+c2+c3=1和对于k=1,2,p1k+p2k+p3k=0,则信号x1和x2+x3可以被重构为:
该公式可以被表达为:
如上所述,方程(2)可以用于基于符合第一译码格式F1的信号来产生符合第三译码格式F3的信号。
声道x4和x5通过利用去相关器D3以及满足d1+d2=1和q1+q2=0的上混参数可以被重构为:
基于方程(1)和(3),信号x1+x4和x2+x3+x5可以被重构为:
并且被重构为
其中,来自两个去相关器D1和D3(即,保持其输入信号的能量的类型的去相关器)的贡献已经用来自单个去相关器D1(即,保持其输入信号的能量的类型的去相关器)的贡献近似。该近似可以与非常小的保真度感知损失相关联,在下混声道m1、m2是无关的以及值a=p1和b=q1用于权重a和b的情况下尤其如此。在编码器端根据其产生下混信号m1、m2的译码格式可能例如已经被选择以试图使下混声道m1、m2之间的相关性保持低。如下所述,方程(4)可以用于基于符合第一译码格式F1的信号来产生符合第二译码格式F2的信号。
方程(4)的结构可以可选地被修改为:
其中,增益因子g=(a2+b2)1/2用于调整去相关器D1的输入信号的功率。增益因子的其他值也可以被利用,比如g=(a2+b2)1/v,其中,0<v<1。
如果第一译码格式F1用于提供11.1声道信号的参数化表示,并且期望第二译码格式F2在解码器端用于音频内容的渲染,则在左侧和右侧两侧应用方程(4)的近似并且用波浪符指示左侧量(输出信号的四个声道)中的一些的近似本质,得到:
其中,根据第二译码格式F2,
其中,SL=D(aLL1+bLL2)且SR=D(aRR1+bRR2),,其中,c1,L、d1,L、aL、bL和c1,R、d1,R、aR、bR分别是从方程(4)得到的参数c1、d1、a、b的左声道版本和右声道版本,并且其中,D表示去相关算子。因此,可以在实际上不必重构11.1声道音频信号的情况下基于用于参数化重构11.1声道音频信号的上混参数从第一译码格式F1获得第二译码格式F2的近似。
如果第一译码格式F1用于提供11.1声道信号的参数化表示,并且期望第三译码格式F3在解码器端用于音频内容的渲染,则在左侧和右侧两侧应用方程(2)的近似并且指示左侧量中的一些的近似本质,得到:
其中,按照第三译码格式F3,
其中,c1,L、p1,L和c1,R、p1,R分别是方程(2)的参数c1和p1的左声道版本和右声道版本,并且其中,D表示去相关算子。因此,可以在实际上不必重构11.1声道音频信号的情况下基于用于参数化重构11.1声道音频信号的上混参数从第一译码格式F1获得第三译码格式F3的近似。
如果第二译码格式F2用于提供11.1声道信号的参数化表示,并且期望第一译码格式F1在解码器端用于音频内容的渲染,则与方程(5)和(6)中呈现的那些关系类似的关系可以使用相同的构思被推导得到。
如果第三译码格式F3用于提供11.1声道信号的参数化表示,并且期望第一译码格式F1或第二译码格式F2在解码器端用于音频内容的渲染,则上述构思中的至少一些可以被利用。然而,因为声道表示的第六组602声道包括四个声道LS、LB、TFL、TBL,所以多于一个的去相关声道可以例如用于左手侧(对于右手侧是类似的),而仅表示声道L的另一个声道可以例如不被作为去相关器的输入包括在内。
如上所述,用于从5.2声道参数化表示(符合译码格式F1、F2、和F3中的一种译码格式)参数化重构11.1声道音频信号的上混参数可以用于获得11.1声道音频信号的替代5.1声道表示(符合译码格式F1、F2、和F3中的任何一种译码格式)。在其他示例实施例中,可以基于在编码器端特别针对该目的确定的混合参数来获得替代的5.1声道表示。现在将描述确定这样的参数的一种方式。
给定由四个音频信号u1、u2、u3、u4形成的两个音频信号y1=u1+u2和y2=u3+u4,可以获得两个音频信号z1=u1+u3和z2=u2+u4的近似。可以根据以下方程按照最小平方估计从y1和y2估计差值z1-z2:
z1-z2=αy1+βy2+r,
其中,误差信号r正交于y1和y2两者。利用z1+z2=y1+y2,于是可以推导出:
为了得出恢复信号z1和z2的正确的协方差结构的近似,可以用相同功率的、例如形式为γD(y1+y2)的去相关信号取代误差信号r,其中,D表示去相关,并且其中,参数γ被调整以保持信号功率。利用方程(7)的不同参数化,近似可以被表达为:
如果第一译码格式F1用于提供11.1声道信号的参数化表示,并且期望第二译码格式F2在解码器端用于音频内容的渲染,则应用方程(8)的近似,其中在左手侧z1=L+TFL、z2=LS+LB+TBL、y1=L+LS+LB和y2=TFL+TBL,在右手侧z1=R+TFR、z2=RS+RB+TBR、y1=R+RS+RB和y2=TFR+TBR,并且用波浪符指示左侧量中的一些的近似本质,得到:
其中,按照第一译码格式F1,
其中,rLD(L1+L2)且rR=D(R1+R2),其中,cL、dL、γL和cR、dR、γR分别是从方程(8)得到的参数c、d、γ的左声道版本和右声道版本,并且其中,D表示去相关。因此,可以基于混合参数cL、dL、γL、cR、dR和γR从第一译码格式F1获得第二译码格式F2的近似,这些混合参数例如是在编码器端针对该目的确定的,并且与下混信号一起被发送到解码器端。混合参数的使用使得从编码器端进行的控制可以增大。因为原始11.1声道音频信号在编码器端是可用的,所以混合参数可以例如在编码器端被调谐以便增大第二译码格式F2的近似的保真度。
类似地,可以基于类似的混合参数从第一译码格式F1获得第三译码格式F3的近似。第一译码格式F1和第三译码格式F3的类似近似也可以从第二译码格式F2获得。
在方程(9)中可以看出,控制下混信号的第一声道L1对输出信号的第一声道的贡献的混合系数cL和控制下混信号的第一声道L1对输出信号的第二声道的贡献的混合系数1-cL的和具有值1。对应关系也适用于方程(5)和(6)。
图1是根据示例实施例的用于将M声道信号编码为两声道下混信号和相关联的元数据的编码部分100的广义框图。
M声道音频信号在本文中是以参照图4描述的五声道信号L、LS、LB、TFL、TBL为例说明的,下混信号是以根据参照图4描述的第一译码格式F1计算的第一声道L1和第二声道L2为例说明的。可以设想编码部分100根据参照图4至图6描述的译码格式中的任何一种译码格式来计算下混信号的示例实施例。还可以设想编码部分100基于M声道音频信号来计算下混信号的示例实施例,其中,M≥4。具体地说,将意识到,对于M=4或M≥6的示例实施例,可以执行与上述那些计算和近似类似的并且引出方程(5)、(6)和(9)的计算和近似。
编码部分100包括下混部分110和分析部分120。下混部分110通过按照五声道音频信号的第一组401声道的线性组合(例如,按照和)形成下混信号的第一声道L1并且按照五声道音频信号的第二组402声道的线性组合(例如,按照和)形成下混信号的第二声道L2来基于五声道音频信号计算下混信号。第一组401和第二组402构成五声道音频信号的五个声道L、LS、LB、TFL、TBL的划分。分析部分120确定用于在参数化解码器中从下混信号参数化重构五声道音频信号的上混参数αLU。分析部分120还确定用于基于下混信号来获得两声道输出信号的混合参数αLM。
在本示例实施例中,输出信号是根据参照图5描述的第二译码格式F2的五声道音频信号的两声道表示。然而,还可以设想输出信号表示根据参照图4至图6描述的译码格式中的任何一种译码格式的五声道音频信号的示例实施例。
输出信号的第一声道近似于五声道音频信号的第三组501声道的线性组合(例如,和),输出信号的第二声道近似于五声道音频信号的第四组502声道的线性组合(例如,和)。第三组501和第四组502构成五声道音频信号的五个声道L、LS、LB、TFL、TBL的与由第一组401声道和第二组402声道提供的划分不同的划分。具体地说,第三组501包括第一组401中的声道L,而第四组502包括第一组401中的声道LS和LB。
编码部分100将用于联合存储和/或发送的下混信号L1、L2和相关联的元数据输出到解码器端。元数据包括上混参数αLU和混合参数αLM。混合参数αLM可以携带用于利用方程(9)来基于下混信号L1、L2获得输出信号的足够的信息。混合参数αLM可以例如包括参数cL、dL、γL或者甚至方程(9)中的最左侧的矩阵的所有元素。
图2是根据示例实施例的包括参照图1描述的编码部分100的音频编码***200的广义框图。在本示例实施例中,例如由一个或多个声学换能器201录制的或由音频创作设备201产生的音频内容以参照图4至图6描述的11.1声道音频信号的形式被提供。正交镜像滤波器(QMF)分析部分202将五声道音频信号L、LS、LB、TFL和TBL逐个时间段地变换到QMF域中以供编码部分100以时间/频率片段的形式对五声道音频进行处理。音频编码***200包括附加编码部分203,该附加编码部分203类似于编码部分100,并且适于将附加五声道音频信号R、RS、RB、TFR和TBR编码为附加两声道下混信号R1、R2和相关联的元数据,该元数据包括附加上混参数αRU和附加混合参数αRM。附加混合参数αRM可以例如包括方程(9)的参数cR、dR、γR。QMF分析部分202还将附加五声道音频信号R、RS、RB、TFR和TBR变换到QMF域中以供附加编码部分203进行处理。编码部分100输出的下混信号L1、L2被QMF合成部分204从QMF域变换回去,并且被变换部分205变换到修正离散余弦变换(MDCT)域中。量化部分206和207分别对上混参数αLU和混合参数αLM进行量化。例如,可以利用步长大小为0.1或0.2(无量纲)的均匀量化,之后接着再进行哈夫曼译码形式的熵译码。步长大小为0.2的较粗略的量化可以例如被采用以节省发送带宽,并且步长大小为0.1的较精细的量化可以例如被采用以提高解码器端的重构的保真度。类似地,附加编码部分203输出的附加下混信号被R1、R2被QMF合成部分208从QMF域变换回去,并且被变换部分209变换到MDCT域中。量化部分210和211分别对附加上混参数αRU和附加混合参数αRM进行量化。声道C和LFE也被相应的变换部分214和215变换到MDCT域中。MDCT变换的下混信号和声道以及量化的元数据然后被复用器216组合到位流B中,以用于发送到解码器端。音频编码***200还可以包括核心编码器(图2中未示出),该核心编码器被配置为在下混信号以及声道C和LFE被提供给复用器216之前,使用感知音频编解码器(比如Dolby Digital或MPEG AAC)对下混信号L1、L2、附加下混信号R1、R2以及声道C和LFE进行编码。裁剪增益,例如对应于-8.7dB,可以例如在形成位流B之前被应用于下混信号L1、L2、附加下混信号R1、R2以及声道C。
图3是根据示例实施例的由音频编码***200执行的音频编码方法300的流程图。音频编码方法300包括:接收310五声道音频信号L、LS、LB、TFL和TBL;基于五声道音频信号来计算320两声道下混信号L1、L2;确定330上混参数αLU;确定340混合参数αLM;并且输出350下混信号和元数据以用于联合存储和/或发送,其中,元数据包括上混参数αLU和混合参数αLM。
在本示例实施例中,下混信号L1、L2是参照图1描述的编码部分100输出的下混信号L1、L2,并且与编码部分100输出的上混参数αLU和混合参数αLM两者相关联。如参照图1和图4所描述的,上混参数αLU适于基于下混信号L1、L2来参数化重构五声道音频信号L、LS、LB、TFL和TBL。然而,还可以设想上混参数αLU适于参数化重构M声道音频信号的实施例,其中,M=4,或M≥6。
在本示例实施例中,下混信号的第一声道L1对应于五声道音频信号的第一组401声道的线性组合(例如,和),下混信号的第二声道L2对应于五声道音频信号的第二组402声道的线性组合(例如,和)。第一组401和第二组402构成五声道音频信号的五个声道L、LS、LB、TFL和TBL的划分。
在本示例实施例中,解码部分700接收两声道下混信号L1、L2和上混参数αLU,并且基于下混信号L1、L2和上混参数αLU来提供两声道输出信号解码部分700包括去相关部分710和混合部分720。去相关部分710接收下混信号L1、L2,并且基于此并且根据上混参数(参看方程(4)和(5))输出单声道去相关信号D。混合部分720基于上混参数αLU来确定混合系数集合,并且根据混合系数按照上混信号L1、L2和去相关信号D的线性组合来形成输出信号换句话说,混合部分720执行从三个声道到两个声道的投射。
在本示例实施例中,解码部分700被配置为根据参照图5描述的第二译码格式F2来提供输出信号因此根据方程(5)来形成输出信号换句话说,混合系数对应于方程(5)的最左侧的矩阵中的元素,并且可以由混合部分基于上混参数αLU确定。
因此,混合部分720确定混合系数以使得输出信号的第一声道近似于五声道音频信号L、LS、LB、TFL、TBL的第三组501声道的线性组合(例如,和),并且使得输出信号的第二声道近似于五声道音频信号L、LS、LB、TFL、TBL的第四组声道的线性组合(例如,和)。如参照图5所描述的,第三组501和第四组502构成五声道音频信号的五个声道信号L、LS、LB、TFL、TBL的划分,并且第三组501和第四组502都包括第一组401声道中的至少一个声道。
在一些示例实施例中,用于从下混信号L1、L2和去相关信号参数化重构五声道音频信号L、LS、LB、TFL、TBL的系数可以由包括比用于参数化重构的实际系数的数量少的参数的紧凑形式的上混参数αLU表示。在这样的实施例中,实际系数可以在解码器端基于所用的特定紧凑形式的获悉而被推导得到。
图8是根据示例实施例的包括参照图7描述的解码部分700的音频解码***800的广义框图。
接收部分801(例如,包括解复用器)接收从参照图2描述的音频编码***200发送的位流B,并且从位流B提取下混信号L1、L2和相关联的上混参数αLU、附加下混信号R1、R2和相关联的附加上混参数αRU、以及声道C和LFE。
尽管混合参数αLM和附加混合参数αRM在位流B中可以是可获得的,但是在本示例实施例中,这些参数不被音频解码***800所用。换句话说,本示例实施例的音频解码***800与这样的混合参数不可以从其提取的位流兼容。下面将参照图9来进一步描述利用混合参数αLM的解码部分。
在下混信号L1、L2、附加下混信号R1、R2和/或声道C和LFE通过使用感知音频编解码器(比如Dolby Digital、MPEG AAC或其开发)被编码在位流B中的情况下,音频解码***800可以包括核心解码器(在图8中未示出),该核心解码器被配置为当相应的信号和声道被从位流B提取时对这些信号和声道进行解码。
变换部分802通过执行逆MDCT来对下混信号L1、L2进行变换,QMF分析部分803将下混信号L1、L2变换到QMF域中以供解码部分700以时间/频率片段的形式对下混信号L1、L2进行处理。反量化部分804在将上混参数αLU供给解码部分700之前对上混参数αLU进行反量化,例如,从熵译码格式反量化。如参照图2所描述的,可能已经使用两个不同的步长大小中的一个(例如,0.1或0.2)执行量化。所用的实际步长大小可以是预定义的,或者可以从编码器端用信号通知音频解码***800,例如,经由位流B。
在本示例实施例中,音频解码***800包括与解码部分700类似的附加解码部分805。附加解码部分805被配置为接收参照图2和图4描述的附加两声道下混信号R1、R2以及附加元数据,该附加元数据包括用于基于附加下混信号R1、R2来参数化重构附加五声道音频信号R、RS、RB、TFR、TBR的附加上混参数αRU。附加解码部分805被配置为基于下混信号和附加上混参数αRU来提供附加两声道输出信号 附加输出信号提供符合参照图5描述的第二译码格式F2的附加五声道音频信号R、RS、RB、TFR、TBR的表示。
变换部分806通过执行逆MDCT来对附加下混信号R1、R2进行变换,QMF分析部分807将附加下混信号R1、R2变换到QMF域中以供附加解码部分805以时间/频率片段的形式对附加下混信号R1、R2进行处理。反量化部分808在将附加上混参数αRU供给附加解码部分805之前对附加上混参数αRU进行反量化,例如从熵译码格式反量化。
在裁剪增益已经在编码器端被应用于下混信号L1、L2、附加下混信号R1、R2以及声道C的示例实施例中,对应的增益,例如,对应于8.7dB,可以在音频解码***800中被应用于这些信号以补偿裁剪增益。
在参照图8描述的示例实施例中,分别由解码部分700和附加解码部分805输出的输出信号和附加输出信号在与声道C和LFE一起被作为音频解码***800的输出提供以供在包括例如五个扬声器和超低音的多扬声器***812上回放之前,被QMF分析部分811从QMF域变换回来。变换部分809、810在这些声道被包括在音频解码***800的输出中之前通过执行逆MDCT来将声道C和LFE变换到时域中。
声道C和LFE可以例如从位流B以分开译码的形式提取,并且解码***800可以例如包括单声道解码部分(图8中未示出),该单声道解码部分被配置为对相应的分开译码的声道进行解码。单声道解码部分可以例如包括用于对使用感知音频编解码器(比如DolbyDigital、MPEG AAC或其开发)编码的音频内容进行解码的核心解码器。
图9是根据示例实施例的替代解码部分900的广义框图。解码部分900类似于参照图7描述的解码部分700,除了解码部分900利用参照图1描述的编码部分100提供的上混参数αLM、而不是也是由编码部分100提供的上混参数αLU之外。
类似于解码部分700,解码部分900包括去相关部分910和混合部分920。去相关部分910被配置为接收参照图1描述的编码部分100提供的下混信号L1、L2,并且基于下混信号L1、L2来输出单声道去相关信号D。混合部分920基于混合参数αLM来确定混合系数集合,并且根据混合系数按照下混信号L1、L2和去相关信号D的线性组合来形成输出信号混合部分920独立于上混参数αLU确定混合参数,并且通过执行从三个声道到两个声道的投射来形成输出信号
在本示例实施例中,解码部分900被配置为根据参照图5描述的第二译码格式F2来提供输出信号因此根据方程(9)来形成输出信号换句话说,接收的混合参数αLM可以包括方程(9)的最左侧的矩阵中的参数cL、dL、γL,并且混合参数αLM可能已经在编码器端被如关于方程(9)所描述的那样确定。因此,混合部分920确定混合系数以使得输出信号的第一声道近似于参照图4至图6描述的五声道音频信号L、LS、LB、TFL、TBL的第三组501声道的线性组合(例如,和),并且使得输出信号的第二声道近似于五声道音频信号L、LS、LB、TFL、TBL的第四组502声道的线性组合(例如,和)。
下混信号L1、L2和混合参数αLM可以例如从参照图2描述的音频编码***200输出的位流B提取。也被编码在位流B中的上混参数αLU可以不被本示例实施例的解码部分900所用,因此无需从位流B提取。
图10是根据示例实施例的用于基于两声道下混信号和相关联的上混参数来提供两声道输出信号的音频解码方法1000的流程图。解码方法1000可以例如由参照图8描述的音频解码***800执行。
解码方法1000包括接收1010与元数据相关联的两声道下混信号,该元数据包括用于基于下混信号来参数化重构参照图4至图6描述的五声道音频信号L、LS、LB、TFL、TBL的上混参数。下混信号可以例如是参照图1描述的下混信号L1、L2,并且可以符合参照图4描述的第一译码格式F1。解码方法1000进一步包括接收1020元数据中的至少一些。接收的元数据可以例如包括参照图1描述的上混参数αLU和/或混合参数αLM。解码方法1000进一步包括:基于下混信号的至少一个声道来产生1040去相关信号;基于接收的元数据来确定1050混合系数集合;并且根据混合系数按照下混信号和去相关信号的线性组合来形成1060两声道输出信号。两声道输出信号可以例如是参照图7和图8描述的两声道输出信号并且可以符合参照图5描述的第二译码格式F2。换句话说,混合系数可以被确定为使得:输出信号的第一声道近似于第三组501声道的线性组合,并且输出信号的第二声道近似于第四组502声道的线性组合。
解码方法1000可以可选地包括:接收1030指示接收的下混信号L1、L2符合分别参照图4和图5描述的第一译码格式F1和第二译码格式F2中的一种译码格式的信令。第三组501和第四组502可以是预定义的,并且混合系数可以被确定为使得五声道音频信号L、LS、LB、TFL、TBL划分为由输出信号的声道近似于的第三组501和第四组502声道的单个划分对于接收的下混信号的两种可能的译码格式F1、F2被保持。解码方法1000可以可选地包括响应于指示接收的下混信号符合第二译码格式F2的信令,使下混信号L1、L2作为输出信号通过1070(和/或抑制去相关信号对输出信号的贡献),这是因为从此以后,接收的下混信号L1、L2的译码格式与输出信号中将提供的译码格式是一致的。
图11示意性地例示说明根据示例实施例的计算机可读介质1100。计算机可读介质1100表示:参照图1和图4描述的两声道下混信号L1、L2;参照图1描述的上混参数αLU,其使得可以基于下混信号L1、L2来参数化重构五声道音频信号L、LS、LB、TFL、TBL;以及参照图1描述的混合参数αLM。
将意识到,尽管参照图1描述的编码部分100被配置为根据第一译码格式F1来对11.1声道音频信号进行编码并且提供用于提供符合第二译码格式F2的输出信号的混合参数αLM,但是如下的类似的编码部分可以被提供,该编码部分被配置为根据译码格式F1、F2、F3中的任何一种译码格式对11.1声道音频信号进行编码并且提供用于提供符合译码格式F1、F2、F3中的任何一种译码格式的输出信号的混合参数。
还将意识到,尽管参照图7和图9描述的解码部分700、900被配置为基于符合第一译码格式F1的下混信号来提供符合第二译码格式F2的输出信号,但是如下的类似的解码部分可以被提供,该节目部分被配置为基于符合译码格式F1、F2、F3中的任何一种译码格式的下混信号来提供符合译码格式F1、F2、F3中的任何一种译码格式的输出信号。
因为参照图6描述的第六组602声道包括四个声道,所以将意识到基于符合第三译码格式F3的下混信号来提供符合第一译码格式F1或第二译码格式F2的输出信号可以例如包括:利用多于一个的去相关声道;和/或利用下混信号的声道中的至多一个作为去相关部分的输入。
将意识到,尽管上述例子已经就参照图4至图6描述的11.1声道音频信号进行了表述,但是可以设想如下编码***和解码***,这些编码***和解码***分别包括任何数量的编码部分或解码部分,并且可以被配置为对包括任何数量的M声道音频信号的音频信号进行处理。
图12是根据示例实施例的用于基于两声道下混信号L1、L2和相关联的元数据来提供K声道输出信号的解码部分1200的广义框图。解码部分1200类似于参照图7描述的解码部分700,除了解码部分1200提供K声道输出信号(其中,2≤K<M)、而不是2声道输出信号之外。
更具体地说,解码部分1200被配置为接收与元数据相关联的两声道下混信号L1、L2,该元数据包括用于基于下混信号L1、L2来参数化重构M声道音频信号的上混参数αLU,其中,M≥4。下混信号L1、L2的第一声道L1对应于M声道音频信号的第一组(例如,参照图4描述的第一组401)一个或多个声道的线性组合(或和)。下混信号L1、L2的第二声道L2对应于M声道音频信号的第二组(例如,参照图4秒速的第二组402)一个或多个声道的线性组合(或和)。第一组和第二组构成M声道音频信号的M个声道的划分。换句话说,第一组和第二组是不相交的,并且共同包括M声道音频信号的所有声道。
解码部分120被配置为:接收元数据(例如,包括上混参数αLU)的至少一部分;并且基于下混信号L1、L2和接收的元数据来提供K声道输出信号解码部分1200包括去相关部分1210,该去相关部分1210被配置为接收下混信号L1、L2的至少一个声道并且基于此输出去相关信号D。解码部分1200进一步包括混合部分1220,该混合部分1220被配置为:基于接收的元数据来确定混合系数集合;并且根据混合系数按照下混信号L1、L2和去相关信号D的线性组合来形成输出信号混合部分1220被配置为:确定混合系数,以使得输出信号的K个声道中的每个近似于M声道音频信号的一组一个或多个声道的线性组合。混合系数被确定为使得与输出信号的相应声道相对应的组构成M声道音频信号的M个声道划分为K组一个或多个声道的划分,并且使得这些K组中的至少两个组包括M声道信号的第一组声道(即,与下混信号的第一声道L1相对应的组)中的至少一个声道。
去相关信号D可以例如是单声道信号。如图12所指示的,去相关信号D可以例如是两声道信号。在一些示例实施例中,去相关信号D可以包括多于两个的声道。
M声道信号可以例如是参照图4描述的五声道信号L、LS、LB、TFL、TBL,下混信号L1、L2可以例如是根据参照图4-6描述的译码格式F1、F2、F3中的任何一种译码格式的五声道信号L、LS、LB、TFL、TBL的两声道表示。
参照图8描述的音频解码***800可以例如包括参照图12描述的类型的一个或多个解码部分1200,而不是解码部分700和805,并且多扬声器***812可以例如包括参照图8描述的多于五个的扩音器和超低音。
音频解码***800可以例如适于执行与参照图10描述的音频解码方法1000类似的音频解码方法,除了K声道输出信号、而不是两声道输出信号被提供之外。
下面将参照图12-16来描述解码部分1200和音频解码***800的示例实施例。
类似于图4-6,图12-13例示说明将11.1声道音频信号划分为多组一个或多个声道的替代方式。
为了将11.1声道(或7.1+4声道或7.1.4声道)音频信号表示为7.1声道(或5.1+2声道或5.1.2声道)音频信号,可以将声道L、LS、LB、TFL、TBL、R、RS、RB、TFR、TBR、C和LFE的集合划分为相应声道表示的多组声道。五声道音频信号L、LS、LB、TFL、TBL可以由三声道信号L1、L2、L3表示,而附加五声道音频信号R、RS、RB、TFR、TBR可以由附加三声道信号R1、R2、R3表示。声道C和LFE在11.1声道音频信号的7.1声道表示中也可以保持为单独的声道。
图13例示说明提供11.1声道音频信号的7.1声道表示的第四译码格式F4。在第四译码格式F4中,五声道音频信号L、LS、LB、TFL、TBL被划分为仅包括声道L的第一组1301声道、包括声道LS、LB的第二组1302声道以及包括声道TFL、TBL的第三组1303声道。三声道信号L1、L2、L3的声道L1、L2、L3对应于各组1301、1302、1303声道的线性组合(例如,加权和或非加权和)。类似地,附加五声道音频信号R、RS、RB、TFR、TBR被划分为包括声道R的附加第一组1304、包括声道RS、RB的附加第二组1305以及包括声道TFR、TBR的附加第三组1306。附加三声道信号R1、R2、R3的声道R1、R2、R3对应于各附加组1304、1305、1306声道的线性组合(例如,加权和或非加权和)。
发明人已经认识到,与根据第一译码格式F1、第二译码格式F2和第三译码格式F3中的一种译码格式的11.1声道音频信号的5.1声道表示相关联的元数据可以用于产生根据第四译码格式F4的7.1声道表示,而无需首先重构原始11.1声道信号。五声道信号L、LS、LB、TFL、TBL表示11.1声道的左半平面,附加五声道信号R、RS、RB、TFR、TBR表示右半平面,并且可以被类似地处理。
回想,两个声道x4和x5是可通过使用方程(3)从和m2=x4+x5重构的。
如果第二译码格式F2用于提供11.1声道信号的参数化表示,并且期望第四译码格式F4在解码器端用于音频内容的7.1声道渲染,则方程(1)给出的近似可以用以下各项被应用一次:
x1=TBL,x2=LS,x3=LB
并且用以下各项被应用一次:
x1=TBR,x2=RS,x3=RB
并且方程(3)给出的近似可以用以下各项被应用一次:
x4=L,x5=TFL
并且用以下各项被应用一次:
x4=R,x5=TFR
用波浪符指示左侧量(输出信号的六个声道)中的一些的近似本质,方程(1)和(3)的这样的应用得到:
其中,
并且其中,根据第四译码格式F4,
在上面的矩阵A中,参数c1,L、p1,L和c1,R、p1,R分别是方程(1)的上混参数c1和p1的左声道版本和右声道版本,参数d1,L、q1,L和d1,R、q1,R分别是方程(3)的上混参数d1和q1的左声道版本和右声道版本,并且D表示去相关算子。因此,可以基于用于参数化重构11.1声道音频信号的上混参数(例如,参照图1和图2描述的上混参数αLU、αRU)从第二译码格式F2获得第四译码格式F4的近似,而实际上不必重构11.1声道音频信号。
参照图12描述的解码部分1200的两个实例(其中,K=3,M=5以及两声道去相关信号D)可以提供近似于第四译码格式F4的三声道信号L1、L2、L3和R1、R2、R3的三声道输出信号和更具体地说,解码部分1200的混合部分1220可以根据方程(10)的矩阵A来基于上混参数确定混合系数。与参照图8描述的音频解码***800类似的音频解码***可以利用两个这样的解码部分1200来提供11.1音频信号的用于7.1声道回放的7.1声道表示。
如果第一译码格式F1用于提供11.1声道信号的参数化表示,并且期望第四译码格式F4在解码器端用于音频内容的渲染,则方程(1)给出的近似于可以用以下各项被应用一次:
x1=L,x2=LS,x3=LB,
并且用以下各项被应用一次:
x1=R,x2=RS,x3=RB
用波浪符指示左侧量(输出信号的六个声道)中的一些的近似本质,方程(1)的这样的应用得到:
其中,根据第四译码格式F4,
在上面的方程(11)中,参数c1,L、p1,L和c1,R、p1,R分别是方程(1)的上混参数c1和p1的左声道版本和右声道版本,并且D表示去相关算子。因此,可以基于用于参数化重构11.1声道音频信号的上混参数从第一译码格式F1获得第四译码格式F4的近似,而在实际上不必重构11.1声道音频信号。
参照图12描述的解码部分1200的两个实例(其中,K=3和M=5)可以提供近似于第四译码格式F4的三声道信号L1、L2、L3和R1、R2、R3的三声道输出信号和更具体地说,解码部分的混合部分1220可以根据方程(11)来基于上混参数确定混合系数。与参照图8描述的音频解码***800类似的音频解码***可以利用两个这样的解码部分1200来提供11.1音频信号的用于7.1声道回放的7.1声道表示。
在方程(11)中可以看出,实际上只需要两个去相关声道。尽管去相关声道D(L2)和D(R2)对于从第一译码格式F1提供第四译码格式F4是不需要的,但是这样的去相关器可以例如无论如何都保持运行(或保持起作用),以使得去相关器的缓冲器/存储器保持更新并且在下混信号的译码格式变为例如第二译码格式F2的情况下可用。回想,当从第二译码格式F2提供第四译码格式F4时利用了四个去相关声道(参见方程(10)和相关联的矩阵A)。
如果第三译码格式F3用于提供11.1声道信号的参数化表示,并且期望第四译码格式F4在解码器端用于音频内容的渲染,则与方程(10)和(11)中呈现的那些关系类似的关系可以使用相同的构思推导得到。与参照图8描述的音频解码***800类似的音频解码***可以利用两个解码部分1200来根据第四译码格式F4提供11.1音频信号的7.1声道表示。
为了将11.1声道音频信号表示为9.1声道(或5.1+4声道或5.1.4声道)音频信号,可以将声道L、LS、LB、TFL、TBL、R、RS、RB、TFR、TBR、C和LFE的集合划分为由相应声道表示的多组声道。五声道音频信号L、LS、LB、TFL、TBL可以由四声道信号L1、L2、L3、L4表示,而附加五声道音频信号R、RS、RB、TFR、TBR可以由附加四声道信号R1、R2、R3、R4表示。声道C和LFE在11.1声道音频信号的9.1声道表示中也可以保持为单独的声道。
图14例示说明提供11.1声道音频信号的9.1声道表示的第五译码格式F5。在第五译码格式中,五声道音频信号L、LS、LB、TFL、TBL被划分为仅包括声道L的第一组1401声道、包括声道LS、LB的第二组1402声道、仅包括声道TFL的第三组1403声道以及包括声道TBL的第四组1404声道。四声道信号L1、L2、L3、L4的声道L1、L2、L3、L4对应于相应的组1401、1402、1403、1404一个或多个声道的线性组合(例如,加权和或非加权和)。类似地,附加五声道音频信号R、RS、RB、TFR、TBR被划分为包括声道R的附加第一组1405、包括声道RS、RB的附加第二组1406、包括声道TFR的附加第三组1407以及包括声道TBR的附加第四组1408。附加四声道信号R1、R2、R3、R4的声道R1、R2、R3、R4对应于相应的附加组1405、1406、1407、1408一个或多个声道的线性组合(例如,加权和或非加权和)。
发明人已经认识到,与根据译码格式F1、F2和F3中的一种译码格式的11.1声道音频信号的5.1声道表示相关联的元数据可以用于产生根据第四译码格式F4的9.1声道表示,而无需首先重构原始11.1声道信号。表示11.1声道的左半平面的五声道信号L、LS、LB、TFL、TBL以及表示右半平面的附加五声道信号R、RS、RB、TFR、TBR可以被类似地处理。
如果第二译码格式F2用于提供11.1声道信号的参数化表示,并且期望第五译码格式F5在解码器端用于音频内容的声道渲染,则方程(1)给出的近似可以用以下各项被应用一次:
x1=TBL,x2=LS,x3=LB
并且用以下各项被应用一次:
x1=TBR,x2=RS,x3=RB
并且方程(3)给出的近似可以用以下各项被应用一次:
x4=L,x5=TFL
并且用以下各项应用一次:
x4=R,x5=TFR。
用波浪符指示左侧量(输出信号的八个声道)中的一些的近似本质,方程(1)和(3)的这样的应用得到:
其中,
并且其中,根据第五译码格式,
在上面的矩阵A中,参数c1,L、p1,L和c1,R、p1,R分别是方程(1)的上混参数c1和p1的左声道版本和右声道版本,参数d1,L、q1,L和d1,R、q1,R分别是方程(3)的上混参数d1和q1的左声道版本和右声道版本,并且D表示去相关算子。因此,可以基于用于参数化重构11.1声道音频信号的上混参数从第二译码格式F2获得第五译码格式F5的近似,而在实际上不必重构11.1声道音频信号。
参照图12描述的解码部分1200的两个实例(其中,K=4,M=5以及两声道去相关信号D)可以提供近似于第五译码格式F5的四声道信号L1、L2、L3、L4和R1、R2、R3、R4的四声道输出信号 和更具体地说,解码部分的混合部分1220可以根据方程(12)基于上混参数来确定混合系数。与参照图8描述的音频解码***800类似的音频解码***可以利用两个这样的解码部分1200来提供11.1音频信号的用于9.1声道回放的9.1声道表示。
如果第一译码格式F1或第三译码格式F3用于提供11.1声道信号的参数化表示,并且期望第五译码格式F5在解码器端用于音频内容的渲染,则与方程(12)中呈现的关系类似的关系可以使用相同的构思推导得到。
图15-16分别例示说明将13.1声道(或9.1+4声道或9.1.4声道)音频信号划分为多组声道以用于将13.1声道音频信号表示为5.1声道音频信号和7.1声道信号的替代方式。
13.1声道音频信号包括声道LW(左宽)、LSCRN(左屏幕)、LS(左侧)、LB(左后)、TFL(左前上部)、TBL(左后上部)、RW(右宽)、RSCRN(右屏幕)、RS(右侧)、RB(右后)、TFR(右前上部)、TBR(右后上部)、C(中心)以及LFE(低频效果)。六个声道LW、LSCRN、LS、LB、TFL和TBL形成表示13.1声道音频信号的回放环境中的左半空间的六声道音频信号。四个声道LW、LSCRN、LS和LB表示回放环境中的不同的水平方向,两个声道TFL和TBL表示与四个声道LW、LSCRN、LS和LB的方向垂直分离的方向。两个声道TFL和TBL可以例如意图用于在顶部扬声器中回放。类似地,六个声道RW、RSCRN、RS、RB、TFR和TBR形成表示回放环境中的右半空间的六声道音频信号,四个声道RW、RSCRN、RS和RB表示回放环境中的不同的水平方向,两个声道TFR和TBR表示与四个声道RW、RSCRN、RS和RB的方向垂直分离的方向。
图15例示说明第六译码格式F6,在该格式中,六声道音频信号LW、LSCRN、LS、LB、TFL、TBL被划分为第一组1501声道LW、LSCRN、TFL和第二组1502声道LS、LB、TBL,并且附加六声道音频信号RW、RSCRN、RS、RB、TFR、TBR被划分为附加第一组1503声道RW、RSCRN、TFR和附加第二组1504声道RS、RB、TBR。两声道下混信号L1、L2的声道L1、L2对应于相应组1501、1502声道的线性组合(例如,加权和或非加权和)。类似地,附加两声道下混信号R1、R2的声道R1、R2对应于相应组1503、1504声道的线性组合(例如,加权和或非加权和)。
图16例示说明第七译码格式F7,在该格式中,六声道音频信号LW、LSCRN、LS、LB、TFL、TBL被划分为第一组1601声道LW、LSCRN、第二组1602声道LS、LB以及第三组1603声道TFL、TBL,并且附加六声道音频信号RW、RSCRN、RS、RB、TFR、TBR被划分为附加第一组1604声道RW、RSCRN、附加第二组1605声道RS、RB以及附加第三组1606声道TFR、TBR。三个声道L1、L2、L3对应于相应组1601、1602、1603声道的线性组合(例如,加权和或非加权和)。类似地,三个附加声道R1、R2、R3对应于相应的附加组1604、1605、1606声道的线性组合(例如,加权和或非加权和)。
发明人已经认识到,与根据第六译码格式F6的13.1声道音频信号的5.1声道表示相关联的元数据可以用于产生根据第七译码格式F7的7.1声道表示,而无需首先重构原始13.1声道信号。表示13.1声道音频信号的左半平面的六声道信号LW、LSCRN、LS、LB、TFL、TBL和表示右半平面的附加六声道信号RW、RSCRN、RS、RB、TFR、TBR可以被类似地处理。
回想,两个声道x4和x5是可通过使用方程(3)从和m2=x4+x5重构的。
如果第六译码格式F6用于提供13.1声道信号的参数化表示,并且期望第七译码格式F7在解码器端用于音频内容的7.1声道(或5.1+2声道或5.1.2声道)渲染,则方程(1)给出的近似可以被应用四次,用以下各项被应用一次:
x1=TBL,x2=LS,x3=LB
用以下各项被应用一次:
x1=TBR,x2=RS,x3=RB
用以下各项被应用一次:
x1=TFL,x2=LW,x3=LSCRN
用以下各项被应用一次:
x1=TFR,x2=RW,x3=RSCRN
用波浪符指示左侧量(输出信号的六个声道)中的一些的近似本质,方程(1)的这样的应用得到:
其中,
并且其中,根据第七译码格式F7,
在上面的矩阵A中,参数c1,L、p1,L和c′1,L、p′1,L是对于左侧从方程(1)得到的上混参数c1和p1的两个不同实例,参数c1,R、p1,R和c′1,R、p′1,R是对于右侧从方程(1)得到的上混参数c1和p1的两个不同实例,并且D表示去相关算子。因此,可以基于用于参数化重构13.1声道音频信号的上混参数从第六译码格式F6获得第七译码格式F7的近似,而在实际上不必重构13.1声道音频信号。
参照图12描述的解码部分1200的两个实例(其中,K=3,M=6以及两声道去相关信号D)可以基于在编码器端根据第六译码格式F6产生的两声道下混信号来提供近似于第七译码格式F7的三声道信号L1、L2、L3和R1、R2、R3的三声道输出信号和更具体地说,解码部分1200的混合部分1220可以根据方程(13)的矩阵A基于上混参数来确定混合系数。与参照图8描述的音频解码***800类似的音频解码***可以利用两个这样的解码部分1200来提供13.1音频信号的用于7.1声道回放的7.1声道表示。
在方程(10)-(13)(以及相关联的矩阵A)中可以看出,如果输出信号的两个声道(例如,方程(11)中的声道和)接收来自同一个去相关声道(例如,方程(11)中的D(L1))的贡献,则这两个贡献具有相等的幅度,但是相反的符号(例如,由方程(11)中的混合系数p1,L和-p1,L指示)。
在方程(10)-(13)(以及相关联的矩阵A)中可以看出,如果输出信号的两个声道(例如,方程(11)中的声道和)接收来自同一个下混声道(例如,方程(11)中的L1)的贡献,则控制这两个贡献的两个混合系数(例如,方程(11)中的混合系数c1,L和1-c1,L)的和具有值1。
如上面参照图12-16描述的,解码部分1200可以基于两声道下混信号L1、L2和上混参数αLU来提供K声道输出信号上混参数αLU可以适于参数化重构原始M声道音频信号,并且解码部分1200的混合部分1220可以能够基于上混参数αLU来计算合适的混合参数以用于提供K声道输出信号而无需重构M声道音频信号。
例如,解码部分1200可以被与上面参照图9描述的解码部分900类似地配置。
例如,解码部分1200可以接收混合参数αLM,混合参数αLM为方程(10)-(13)所示的混合矩阵(即,被表示为A的矩阵)中的一个或多个混合矩阵的元素(或混合系数)的形式。在这样的例子中,可能不需要解码部分1200计算方程(10)-(13)中的混合矩阵中的任何元素。
可以设想如下这样的示例实施例,其中参照图1描述的分析部分120(以及类似地参照图2描述的附加分析部分203)确定混合参数αLM,混合参数αLM用于基于下混信号L1、L2来获得K声道输出信号,其中,2≤K<M。混合参数αLM可以例如以方程(10)-(13)的混合矩阵(即,被表示为A的矩阵)中的一个或多个混合矩阵的元素(或混合系数)的形式提供。
可以例如提供多个混合系数αLM集合,其中,各混合系数αLM集合意图用于在解码器端进行不同类型的渲染。例如,上面参照图2描述的音频编码***200可以提供位流B,在位流B中,提供原始11.1声道音频信号的5.1下混表示,并且可以提供混合系数αLM集合来用于5.1声道渲染(根据第一、第二和/或第三译码格式F1、F2、F3)、用于7.1声道渲染(根据第四译码格式F4)和/或用于9.1声道渲染(根据第五译码格式F5)。
参照图3描述的音频编码方法300可以例如包括确定340混合参数αLM,混合参数αLM用于基于下混信号L1、L2来获得K声道输出信号,其中,2≤K<M。
可以设想如下这样的示例实施例,其中参照图11描述的计算机可读介质1100表示:两声道下混信号(例如,参照图1和图4描述的两声道下混信号L1、L2);上混参数(例如,参照图1描述的上混参数αLU),其使得可以基于下混信号来参数化重构M声道音频信号(例如,五声道音频信号L、LS、LB、TFL、TBL);以及混合参数αLM,其使得可以基于下混信号来提供K声道输出信号。如上所述,M≥4且2≤K<M。
将意识到,尽管上述例子已经就其中M=5和M=4个声道的原始音频信号以及其中K=2、K=3和K=4个声道的输出信号进行了表述,但是对于满足M≥4和2≤K<M的任何M和K,可以设想类似的编码***(和编码部分)以及解码***(和解码部分)。
V.等同、扩展、替代及其他
即使本公开描述和描绘了特定示例实施例,本发明也不限于这些特定例子。在不脱离仅由所附权利要求限定的本发明的范围的情况下,可以对上面的示例实施例进行修改和变化。
在权利要求中,词语“包括”不排除其他元件或步骤,并且“一”或“一个”不排除多个。某些措施被记载在相互不同的从属权利要求中的事实并不表明这些措施的组合不能被有利地使用。权利要求中出现的任何引用符号不应被理解为限制它们的范围。
上面公开的装置和方法可以实现为软件、固件、硬件或它们的组合。在硬件实现中,在上面的描述中提到的功能单元之间的任务划分不一定对应于物理单元的划分;相反,一个物理组件可以具有多个功能,并且一个任务可以由几个物理组件合作以分布式方式执行。某些组件或所有组件可以实现为数字处理器、信号处理器或微处理器的软件,或者可以实现为硬件或专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域技术人员众所周知的,术语计算机存储介质包括以用于存储信息(比如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光学盘储存器、磁盒、磁带、磁盘储存器或其他磁性存储装置、或可以用于存储期望信息并且可以被计算机存取的任何其他的介质。此外,技术人员众所周知的是,通信介质通常将计算机可读指令、数据结构、程序模块或其他数据包含在调制数据信号(比如载波或其他传输机制)中,并且包括任何信息递送介质。
VI.例子列表
1.一种音频解码方法(100),包括:
接收(1010)接收与元数据相关联的两声道下混信号(L1、L2),所述元数据包括用于基于下混信号来参数化重构M声道音频信号(L、LS、LB、TFL、TBL)的上混参数(αLU),其中,M≥4,其中,下混信号的第一(L1)声道对应于M声道音频信号的第一组(401)一个或多个声道的线性组合,其中,下混信号的第二声道(L2)对应于M声道音频信号的第二组(402)一个或多个声道的线性组合,并且其中,第一组和第二组构成M声道音频信号的M个声道的划分;
接收(1020)所述元数据的至少一部分;
基于下混信号的至少一个声道来产生(1040)去相关信号(D);
基于接收的元数据来确定(1050)混合系数集合;并且
其中,混合系数被确定为使得:
第三组和第四组构成M声道音频信号的M个声道的划分;并且
第三组和第四组都包括所述第一组中的至少一个声道。
2.根据例子1所述的音频解码方法,其中,接收的元数据包括上混参数,并且其中,通过对上混参数进行处理来确定混合系数。
3.根据例子1所述的音频解码方法,其中,接收的元数据包括不同于上混参数的混合参数(αLM)。
4.根据例子3所述的音频解码方法,其中,独立于上混参数的任何值确定混合系数。
5.根据前述例子中任一项所述的音频解码方法,其中,M=5。
6.根据前述例子中任一项所述的音频解码方法,其中,控制M声道音频信号的声道对线性组合中的与下混信号的声道相对应的一个线性组合的贡献的每个增益与M声道音频信号的所述声道对线性组合中的由输出信号的声道近似的一个线性组合的贡献的增益是一致的。
7.根据前述例子中任一项所述的音频解码方法,进一步包括接收表示下混信号和元数据的位流(B)的初始步骤,
其中,下混信号和所述接收的元数据是从所述位流提取的。
8.根据前述例子中任一项所述的音频解码方法,其中,所述去相关信号是单声道信号,并且其中,通过将至多一个去相关信号声道包括到下混信号和去相关信号的所述线性组合中来形成所述输出信号。
9.根据例子8所述的音频解码方法,其中,所述混合系数被确定为使得输出信号的两个声道接收来自去相关信号的相等幅度的贡献,去相关信号对输出信号的相应声道的贡献具有相反符号。
10.根据例子8-9中任一项所述的音频解码方法,其中,形成输出信号相当于从三个声道到两个声道的投射。
11.根据前述例子中任一项所述的音频解码方法,其中,所述混合系数被确定为使得控制下混信号的第一声道对输出信号的第一声道的贡献的混合系数和控制下混信号的第一声道对输出信号的第二声道的贡献的混合系数的和具有值1。
12.根据前述例子中任一项所述的音频解码方法,其中,所述第一组由两个或三个声道组成。
13.根据前述例子中任一项所述的音频解码方法,其中,所述M声道音频信号包括表示M声道音频信号的回放环境中的不同水平方向的三个声道(L、LS、LB)、以及表示所述回放环境中的与所述三个声道的方向垂直分离的方向的两个声道(TFL、TBL)。
14.根据例子13所述的音频解码方法,其中,所述第一组由所述三个声道组成,并且其中,所述第二组由所述两个声道组成。
15.根据例子14所述的音频解码方法,其中,所述第三组和第四组中的一个包括所述两个声道两者。
16.根据例子14所述的音频解码方法,其中,所述第三组和第四组均包括所述两个声道中的一个。
17.根据前述例子中任一项所述的音频解码方法,其中,通过对下混信号的声道的线性组合进行处理来获得去相关信号。
18.根据例子1-15中任一项所述的音频解码方法,其中,基于下混信号的至多一个声道来获得去相关信号。
19.根据例子1-2和5-18中任一项所述的音频解码方法,其中,所述第一组由N个声道组成,其中,N≥3,其中,所述第一组可通过以下方式重构为下混信号的所述第一声道和(N-1)声道去相关信号的线性组合,即,将干式上混系数应用于下混信号的第一声道,并且将湿式上混系数应用于(N-1)声道去相关信号的声道,其中,接收的元数据包括干式上混参数和湿式上混参数,并且其中,确定混合系数包括:
基于干式上混参数来确定干式上混系数;
基于接收的湿式上混参数并且在知道具有比接收的湿式上混参数的数量多的元素的中间矩阵属于预定义矩阵类的情况下填充中间矩阵;
通过将中间矩阵乘以预定义矩阵来获得湿式上混系数,其中,湿式上混系数对应于从乘法得到的矩阵,并且包括比中间矩阵中的元素的数量多的系数;并且
对干式上混系数和湿式上混系数进行处理。
20.根据前述例子中任一项所述的音频解码方法,进一步包括:
接收指示M声道音频信号的至少两种译码格式(F1、F2、F3)中的一种译码格式的信令(1030),译码格式对应于M声道音频信号的声道划分为与下混信号的声道相关联的相应第一组和第二组的相应不同划分,
其中,所述第三组和第四组是预定义的,并且其中,混合系数被确定为使得M声道音频信号划分为由输出信号的声道近似的所述第三组和第四组声道的单个划分对于所述至少两种译码格式被保持。
21.根据例子20所述的音频解码方法,进一步包括:
响应于指示特定译码格式(F2)的所述信令,使下混信号作为所述输出信号通过(1070),所述特定译码格式对应于M声道音频信号的声道的与所述第三组和第四组定义的划分一致的划分。
22.根据例子20所述的音频解码方法,进一步包括:
响应于指示特定译码格式的所述信令,抑制去相关信号对所述输出信号的贡献,所述特定译码格式对应于M声道音频信号的声道的与所述第三组和第四组定义的划分一致的划分。
23.根据例子20-22中任一项所述的音频解码方法,其中,
在第一译码格式(F1)中,所述第一组由表示M声道音频信号的回放环境中的不同水平方向的三个声道(L、LS、LB)组成,并且所述第二组由表示所述回放环境中的与所述三个声道的方向垂直分离的方向的两个声道(TFL、TBL)组成;并且
在第二译码格式(F2)中,所述第一组和第二组均包括所述两个声道中的一个。
24.一种音频解码***(800),包括解码部分(700),被配置为:
接收与元数据相关联的两声道下混信号(L1、L2),所述元数据包括用于基于下混信号来参数化重构M声道音频信号(L、LS、LB、TFL、TBL)的上混参数(αLU),其中,M≥4,其中,下混信号的第一(L1)声道对应于M声道音频信号的第一组(401)一个或多个声道的线性组合,其中,下混信号的第二声道(L2)对应于M声道音频信号的第二组(402)一个或多个声道(TFL,TFB)的线性组合,并且其中,第一组和第二组构成M声道音频信号的M个声道的划分;
接收所述元数据的至少一部分;
所述解码部分包括:
去相关部分(710),所述去相关部分(710)被配置为接收下混信号的至少一个声道并且基于其来输出去相关信号(D);以及
混合部分(720),所述混合部分(720)被配置为:
基于接收的元数据来确定混合系数集合;并且
根据混合系数按照下混信号和去相关信号的线性组合来形成
输出信号,
其中,所述混合部分被配置为确定混合系数以使得:
第三组和第四组构成M声道音频信号的M个声道的划分;并且
第三组和第四组都包括所述第一组的至少一个声道。
25.根据例子24所述的音频解码***,进一步包括附加解码部分(805),所述附加解码部分(805)被配置为:
接收与附加元数据相关联的附加两声道下混信号(R1、R2),所述附加元数据包括用于基于附加下混信号来参数化重构附加M声道音频信号(R、RS、RB、TFR、TBR)的附加上混参数(αRU),其中,附加下混信号的第一声道(R1)对应于附加M声道音频信号的第一组(403)一个或多个声道的线性组合,其中,附加下混信号的第二声道(R2)对应于附加M声道音频信号的第二组(403)一个或多个声道的线性组合,并且其中,附加M声道音频信号的第一组和第二组声道构成附加M声道音频信号的M个声道的划分;
接收附加元数据的至少一部分;并且
所述附加解码部分包括:
附加去相关部分,所述附加去相关部分被配置为:接收附加下混信号的至少一个声道,并且基于其来输出附加去相关信号;以及
附加混合部分,所述附加混合部分被配置为:
基于接收的附加元数据来确定附加混合系数集合;并且
根据附加混合系数按照附加下混信号和附加去相关信号的线性组合来形成附加输出信号,
其中,所述附加混合部分被配置为确定附加混合系数以使得:
附加M声道音频信号的第三组和第四组声道构成附加M声道音频信号的M个声道的划分;并且
附加M声道音频信号的第三组和第四组信号都包括附加M声道音频信号的所述第一组声道中的至少一个声道。
26.根据例子24-25中任一项所述的解码***,进一步包括:
解复用器(801),所述解复用器(801)被配置为从位流(B)提取下混信号、所述接收的元数据以及分开译码的音频声道(C);以及
单声道解码部分,所述单声道解码部分可操作来对所述分开译码的音频声道进行解码。
27.一种音频编码方法(300),包括:
接收(310)M声道音频信号(L、LS、LB、TFL、TBL),其中,M≥4;
基于M声道下混信号来计算(320)两声道下混信号(L1、L2),下混信号的第一声道(L1)被形成为M声道音频信号的第一组(401)一个或多个声道的线性组合,并且下混信号的第二声道(L2)被形成为M声道音频信号的第二组(402)一个或多个声道的线性组合,其中,第一组和第二组构成M声道音频信号的M个声道的划分;
确定(330)用于从下混信号参数化重构M声道音频信号的上混参数(αLU);
确定(340)用于基于下混信号来获得两声道输出信号的混合参数,其中,输出信号的第一声道近似于M声道音频信号的第三组(501)一个或多个声道的线性组合,其中,输出信号的第二声道近似于M声道音频信号的第四组(502)一个或多个声道的线性组合,其中,第三组和第四组构成M声道音频信号的M个声道的划分,并且其中,第三组和第四组都包括所述第一组中的至少一个声道;并且
输出(350)下混信号和元数据以用于联合存储或发送,其中,元数据包括上混参数和混合参数。
28.根据例子27所述的音频编码方法,其中,混合参数控制下混信号和去相关信号对输出信号的相应贡献,其中,在使得输出信号的声道分别成为第一组声道和第二组声道的所述线性组合的协方差保持近似的混合参数之中通过最小化来自去相关信号的贡献来确定混合参数中的至少一些。
29.根据例子27-28中任一项所述的音频编码方法,其中,所述第一组由N个声道组成,其中,N≥3,其中,上混参数中的至少一些适合于从下混信号的所述第一声道以及基于下混信号的所述第一声道确定的(N-1)声道去相关信号参数化重构所述第一组,其中,确定上混参数包括:
确定干式上混系数集合,以便定义近似于所述第一组的下混信号的所述第一声道的线性映射;并且
基于接收的所述第一组的协方差和通过下混信号的所述第一声道的线性映射近似的所述第一组的协方差之间的差值来确定中间矩阵,其中,中间矩阵当被乘以预定义矩阵时对应于湿式上混系数集合,所述湿式上混系数集合定义作为所述第一组的参数化重构的一部分的、所述去相关信号的线性映射,其中,所述湿式上混系数集合包括比中间矩阵中的元素的数量多的系数,
其中,所述上混参数包括干式上混参数以及湿式上混参数,干式上混系数集合能够从所述干式上混参数推导得到,在假定中间矩阵属于预定义矩阵类的情况下所述湿式上混参数唯一地定义中间矩阵,其中,中间矩阵具有比所述湿式上混参数的数量多的元素。
30.根据例子27-29中任一项所述的音频编码方法,进一步包括:
选择至少两种译码格式(F1、F2、F3)中的一种译码格式,所述译码格式对应于M声道音频信号的声道划分为与下混信号的声道相关联的相应第一组和第二组的相应不同划分,
其中,下混信号的第一声道和第二声道根据所选译码格式分别被形成为M声道音频信号的第一组一个或多个声道和第二组一个或多个声道的线性组合,并且其中,基于所选译码格式来确定上混参数和混合参数;
所述方法进一步包括:
提供指示所选译码格式的信令。
31.一种音频编码***(200),包括编码部分(100),被配置为:将M声道音频信号(L、LS、LB、TFL、TBL)编码为两声道下混信号(L1、L2)和相关联的元数据,其中,M≥4,并且输出下混信号和元数据以用于联合存储或发送,所述编码部分包括:
下混部分(110),所述下混部分(110)被配置为基于M声道音频信号来计算下混信号,下混信号的第一声道(L1)被形成为M声道音频信号的第一组(401)一个或多个声道的线性组合,下混信号的第二声道(L2)被形成为M声道音频信号的第二组(402)一个或多个声道的线性组合,其中,第一组和第二组构成M声道音频信号的M个声道的划分;以及
分析部分(120),分析部分(120)被配置为确定:
上混参数(αLU),所述上混参数(αLU)用于从下混信号参数化重构M声道音频信号;以及
混合参数(αLM),所述混合参数(αLM)用于基于下混信号来获得两声道输出信号其中,输出信号的第一声道近似于M声道音频信号的第三组(501)一个或多个声道的线性组合,其中,输出信号的第二声道近似于M声道音频信号的第四组(502)一个或多个声道的线性组合,其中,第三组和第四组构成M声道音频信号的M个声道的划分,并且其中,第三组和第四组都包括第一组中的至少一个声道,
其中,元数据包括上混参数和混合参数。
32.一种计算机程序产品,所述计算机程序产品包括具有用于执行例子1-23和27-30中任一个的方法的指令的计算机可读介质。
33.一种计算机可读介质(1100),所述计算机可读介质(1100)表示:
两声道下混信号(L1、L2);
上混参数(αLU),所述上混参数(αLU)使得可以基于下混信号来参数化重构M声道音频信号(L、LS、LB、TFL、TBL),其中,M≥4,其中,下混信号的第一声道(L1)对应于M声道音频信号的第一组(401)一个或多个声道的线性组合,其中,下混信号的第二声道(L2)对应于M声道音频信号的第二组(402)一个或多个声道的线性组合,并且其中,第一组和第二组构成M声道音频信号的M个声道的划分;以及
混合参数(αLM),所述混合参数(αLM)使得可以基于下混信号来提供两声道输出信号其中,输出信号的第一声道近似于M声道音频信号的第三组(501)一个或多个声道的线性组合,其中,输出信号的第二声道近似于M声道音频信号的第四组(502)一个或多个声道的线性组合,其中,第三组和第四组构成M声道音频信号的M个声道的划分,并且其中,第三组和第四组都包括所述第一组中的至少一个声道。
34.根据例子33所述的计算机可读介质,其中,数据载体表示的数据被布置在时间帧中,并且被分层为使得对于给定时间帧,针对该时间帧的下混信号和相关联的混合参数能够独立于相关联的上混参数被提取。
Claims (34)
1.一种音频解码方法(1000),包括:
接收(1010)与元数据相关联的两声道下混信号(L1、L2),所述元数据包括用于基于下混信号来参数化重构M声道音频信号(L、LS、LB、TFL、TBL)的上混参数(αLU),其中,M≥4;
接收(1020)所述元数据的至少一部分;
基于下混信号的至少一个声道来产生(1040)去相关信号(D);
基于接收的元数据来确定(1050)混合系数集合;并且
其中,混合系数被确定为使得控制下混信号的第一声道对输出信号的声道的贡献的混合系数和控制下混信号的第一声道对输出信号的另一个声道的贡献的混合系数的和具有值1,
其中,如果下混信号根据第一译码格式(F1)来表示M声道音频信号,在第一译码格式中
下混信号的第一声道(L1)对应于M声道音频信号的第一组(401)一个或多个声道的某一线性组合;
下混信号的第二声道(L2)对应于M声道音频信号的第二组(402)一个或多个声道的某一线性组合;
该第一组和该第二组构成M声道音频信号的M个声道的某一划分,
则K声道输出信号根据第二译码格式(F2,F4)来表示M声道音频信号,在第二译码格式中,
输出信号的K个声道中的每个声道近似于M声道音频信号的一组一个或多个声道的线性组合;
与输出信号的相应声道相对应的组构成M声道音频信号的M个声道划分为K组(501-502、1301-1303)一个或多个声道的划分;并且
所述K组中的至少两组包括所述第一组中的至少一个声道。
2.根据权利要求1所述的音频解码方法,其中,K=2。
3.根据权利要求1所述的音频解码方法,其中,K=3或K=4。
4.根据权利要求1所述的音频解码方法,其中,所述接收的元数据包括上混参数,并且其中,通过对上混参数进行处理来确定混合系数。
5.根据权利要求1所述的音频解码方法,其中,所述接收的元数据包括不同于上混参数的混合参数(αLM)。
6.根据权利要求5所述的音频解码方法,其中,独立于上混参数的任何值确定混合系数。
7.根据权利要求1所述的音频解码方法,其中,M=5或M=6。
8.根据权利要求1所述的音频解码方法,其中,
在第一译码格式中,M声道音频信号的每一个声道与控制该声道对线性组合中的与下混信号的声道对应的一个线性组合的贡献的非零增益相关联;
在第二译码格式中,M声道音频信号的每一个声道与控制该声道对线性组合中的由输出信号的声道近似的一个线性组合的贡献的非零增益相关联;并且
对于M声道音频信号的每个声道,第一译码格式中的与声道相关联的非零增益和第二译码格式中的与声道相关联的非零增益是一致的。
9.根据权利要求1所述的音频解码方法,进一步包括接收表示下混信号和元数据的位流(B)的初始步骤,
其中,下混信号和所述接收的元数据是从所述位流提取的。
10.根据权利要求1所述的音频解码方法,其中,所述去相关信号是单声道信号,并且其中,通过将至多一个去相关信号声道包括到下混信号和去相关信号的所述线性组合中来形成所述输出信号。
11.根据权利要求10所述的音频解码方法,其中,K=2,并且其中,形成输出信号相当于从三个声道投射到两个声道。
12.根据权利要求1所述的音频解码方法,其中,所述去相关信号是两声道信号,并且其中,通过将至多两个去相关信号声道包括到下混信号和去相关信号的所述线性组合中来形成所述输出信号。
13.根据权利要求12所述的音频解码方法,其中,K=3,并且其中,形成输出信号相当于从四个声道投射到三个声道。
14.根据权利要求1所述的音频解码方法,其中,所述混合系数被确定为使得输出信号的一对声道接收来自去相关信号的声道的相等幅度的贡献,所述去相关信号的所述声道对该对声道中的相应声道的贡献具有相反符号。
15.根据权利要求1所述的音频解码方法,其中,所述第一组由两个或三个声道组成。
16.根据权利要求1所述的音频解码方法,其中,所述M声道音频信号包括表示M声道音频信号的回放环境中的不同水平方向的三个声道(L、LS、LB)、以及表示所述回放环境中的与所述三个声道的方向垂直分离的方向的两个声道(TFL、TBL)。
17.根据权利要求16所述的音频解码方法,其中,所述第一组由所述三个声道组成,并且其中,所述第二组由表示所述回放环境中的与所述三个声道的方向垂直分离的方向的所述两个声道组成。
18.根据权利要求17所述的音频解码方法,其中,K=2,并且其中,所述K组中的一个组包括表示所述回放环境中的与所述三个声道的方向垂直分离的方向的所述两个声道两者。
19.根据权利要求17所述的音频解码方法,其中,表示所述回放环境中的与所述三个声道的方向垂直分离的方向的所述两个声道包括在所述K组中的不同组中。
20.根据权利要求1所述的音频解码方法,其中,所述M声道音频信号包括表示M声道音频信号的回放环境中的不同水平方向的四个声道(LSCRN、LW、LS、LB)、以及表示所述回放环境中的与所述四个声道的方向垂直分离的方向的两个声道(TFL、TBL)。
21.根据权利要求16-17和19-20中任一项所述的音频解码方法,其中,所述K组中的一个组包括表示所述回放环境中的与所述三个声道的方向垂直分离的方向的所述两个声道两者。
22.根据权利要求中1-20任一项所述的音频解码方法,其中,通过对下混信号的声道的线性组合进行处理来获得去相关信号。
23.根据权利要求1-20中任一项所述的音频解码方法,其中,基于下混信号的至多一个声道来获得去相关信号。
24.根据权利要求1-20中任一项所述的音频解码方法,其中,所述去相关信号包括两个声道,所述去相关信号的第一声道是基于下混信号的第一声道获得的,并且所述去相关信号的第二声道是基于下混信号的第二声道获得的。
25.根据权利要求1-4和7-20中任一项所述的音频解码方法,其中,所述第一组由N个声道组成,其中,N≥3,其中,所述第一组能够通过以下方式被重构为下混信号的所述第一声道和(N-1)声道去相关信号的线性组合:将干式上混系数应用于下混信号的所述第一声道并且将湿式上混系数应用于(N-1)声道去相关信号的声道,其中,接收的元数据包括干式上混参数和湿式上混参数,并且其中,确定混合系数包括:
基于干式上混参数来确定干式上混系数;
基于接收的湿式上混参数并且在知道具有比接收的湿式上混参数的数量多的元素的中间矩阵属于预定义矩阵类的情况下填充所述中间矩阵;
通过将中间矩阵乘以预定义矩阵来获得湿式上混系数,其中,湿式上混系数对应于从所述乘法得到的矩阵,并且包括比中间矩阵中的元素的数量多的系数;并且
对干式上混系数和湿式上混系数进行处理。
26.根据权利要求1-20中任一项所述的音频解码方法,进一步包括:
接收指示M声道音频信号的至少两种译码格式(F1、F2、F3)中的一种译码格式的信令(1030),译码格式对应于M声道音频信号的声道划分为与下混信号的声道相关联的相应第一组和第二组的相应不同划分,
其中,所述K组是预定义的,并且其中,混合系数被确定为使得M声道音频信号划分为由输出信号的声道近似的所述K组声道的划分对于所述至少两种译码格式是共同的。
27.根据权利要求26所述的音频解码方法,其中,K=2,所述音频解码方法进一步包括:
响应于所述信令指示特定译码格式(F2),使下混信号作为所述输出信号通过(1070),所述特定译码格式对应于M声道音频信号的声道的与所述K组定义的划分一致的划分。
28.根据权利要求26所述的音频解码方法,其中,K=2,所述音频解码方法进一步包括:
响应于所述信令指示特定译码格式,抑制去相关信号对所述输出信号的贡献,所述特定译码格式对应于M声道音频信号的声道的与所述K组定义的划分一致的划分。
29.根据权利要求26所述的音频解码方法,其中:
在所述至少两种译码格式中的第一译码格式(F1)中,所述第一组由表示M声道音频信号的回放环境中的不同水平方向的三个声道(L、LS、LB)组成,并且所述第二组由表示所述回放环境中的与所述三个声道的方向垂直分离的方向的两个声道(TFL、TBL)组成;并且
在所述至少两种译码格式中的第二译码格式(F2)中,所述第一组和第二组均包括表示所述回放环境中的与所述三个声道的方向垂直分离的方向的所述两个声道中的一个。
30.一种音频解码***(800),包括解码部分(700、1200),被配置为:
接收与元数据相关联的两声道下混信号(L1、L2),所述元数据包括用于基于下混信号来参数化重构M声道音频信号(L、LS、LB、TFL、TBL)的上混参数(αLU),其中,M≥4;
接收所述元数据的至少一部分;
所述解码部分包括:
去相关部分(710、1210),所述去相关部分(710、1210)被配置为接收下混信号的至少一个声道并且基于其来输出去相关信号(D);以及
混合部分(720、1220),所述混合部分(720、1220)被配置为:
基于接收的元数据来确定混合系数集合;并且
根据混合系数形成作为下混信号和去相关信号的线性组合的输出信号,
其中,所述混合部分被配置为确定混合系数以使得控制下混信号的第一声道对输出信号的声道的贡献的混合系数和控制下混信号的第一声道对输出信号的另一个声道的贡献的混合系数的和具有值1,
其中,如果下混信号根据第一译码格式(F1)来表示M声道音频信号,在第一译码格式中
下混信号的第一声道(L1)对应于M声道音频信号的第一组(401)一个或多个声道的某一线性组合;
下混信号的第二声道(L2)对应于M声道音频信号的第二组(402)一个或多个声道的某一线性组合;
该第一组和该第二组构成M声道音频信号的M个声道的某一划分,
则K声道输出信号根据第二译码格式(F2,F4)来表示M声道音频信号,在第二译码格式中,
输出信号的K个声道中的每个声道近似于M声道音频信号的一组一个或多个声道的线性组合;
与输出信号的相应声道相对应的组构成M声道音频信号的M个声道划分为K组(501-502、1301-1303)一个或多个声道的划分;并且
所述K组中的至少两组包括所述第一组中的至少一个声道。
31.根据权利要求30所述的音频解码***,进一步包括附加解码部分(805),所述附加解码部分(805)被配置为:
接收与附加元数据相关联的附加两声道下混信号(R1、R2),所述附加元数据包括用于基于附加下混信号来参数化重构附加M声道音频信号(R、RS、RB、TFR、TBR)的附加上混参数(αRU);
接收附加元数据的至少一部分;并且
所述附加解码部分包括:
附加去相关部分,所述附加去相关部分被配置为接收附加下混信号的至少一个声道,并且基于其来输出附加去相关信号;以及
附加混合部分,所述附加混合部分被配置为:
基于接收的附加元数据来确定附加混合系数集合;并且
根据附加混合系数形成作为附加下混信号和附加去相关信号的线性组合的附加输出信号,
其中,所述附加混合部分被配置为确定附加混合系数以使得控制附加下混信号的第一声道对附加输出信号的声道的贡献的混合系数和控制附加下混信号的第一声道对附加输出信号的另一个声道的贡献的混合系数的和具有值1,
其中,如果附加下混信号根据第三译码格式来表示附加M声道音频信号,在第三译码格式中
附加下混信号的第一声道(R1)对应于附加M声道音频信号的第一组(403)一个或多个声道的线性组合;
附加下混信号的第二声道(R2)对应于附加M声道音频信号的第二组(404)一个或多个声道的线性组合;
附加M声道音频信号的该第一组和该第二组声道构成附加M声道音频信号的M个声道的划分,
则附加K声道输出信号根据第四译码格式来表示附加M声道音频信号,在第四译码格式中,
附加输出信号的K个声道中的每个声道近似于附加M声道音频信号的一组一个或多个声道的线性组合;
与附加输出信号的相应声道相对应的组构成附加M声道音频信号的M个声道划分为K组(503-504、1304-1306)一个或多个声道的划分;并且
附加M声道音频信号的K组一个或多个声道中的至少两组包括附加M声道音频信号的所述第一组声道中的至少一个声道。
32.根据权利要求30-31中任一项所述的音频解码***,进一步包括:
解复用器(801),所述解复用器(801)被配置为从位流(B)提取下混信号、所述接收的元数据以及分开译码的音频声道(C);以及
单声道解码部分,所述单声道解码部分能够操作来对分开译码的音频声道进行解码。
33.一种设备,包括:
一个或多个处理器,以及
一个或多个存储装置,在存储装置上存储有程序指令,所述程序指令在由处理器执行时使得处理器执行根据权利要求1-29中任一项所述的方法。
34.一种包括用于执行根据权利要求1-29中任一项所述的方法的部件的装置。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201462073462P | 2014-10-31 | 2014-10-31 | |
US62/073,462 | 2014-10-31 | ||
US201562167711P | 2015-05-28 | 2015-05-28 | |
US62/167,711 | 2015-05-28 | ||
PCT/EP2015/075022 WO2016066705A1 (en) | 2014-10-31 | 2015-10-28 | Parametric mixing of audio signals |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107112020A CN107112020A (zh) | 2017-08-29 |
CN107112020B true CN107112020B (zh) | 2021-01-22 |
Family
ID=54364338
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201580059156.XA Active CN107112020B (zh) | 2014-10-31 | 2015-10-28 | 音频信号的参数化混合 |
Country Status (39)
Country | Link |
---|---|
US (1) | US9930465B2 (zh) |
EP (1) | EP3213322B1 (zh) |
JP (1) | JP6686015B2 (zh) |
KR (1) | KR102501969B1 (zh) |
CN (1) | CN107112020B (zh) |
AU (1) | AU2015340622B2 (zh) |
CA (1) | CA2965731C (zh) |
CL (1) | CL2017001037A1 (zh) |
CO (1) | CO2017004283A2 (zh) |
CY (1) | CY1121917T1 (zh) |
DK (1) | DK3213322T3 (zh) |
EA (1) | EA034250B1 (zh) |
EC (1) | ECSP17023702A (zh) |
ES (1) | ES2732668T3 (zh) |
GE (1) | GEP20196960B (zh) |
GT (1) | GT201700088A (zh) |
HK (1) | HK1243547B (zh) |
HR (1) | HRP20191107T1 (zh) |
HU (1) | HUE044368T2 (zh) |
IL (1) | IL251789B (zh) |
LT (1) | LT3213322T (zh) |
ME (1) | ME03453B (zh) |
MX (1) | MX364405B (zh) |
MY (1) | MY190174A (zh) |
PE (1) | PE20170759A1 (zh) |
PH (1) | PH12017500723B1 (zh) |
PL (1) | PL3213322T3 (zh) |
PT (1) | PT3213322T (zh) |
RS (1) | RS58874B1 (zh) |
SA (1) | SA517381440B1 (zh) |
SG (1) | SG11201703263PA (zh) |
SI (1) | SI3213322T1 (zh) |
SV (1) | SV2017005431A (zh) |
TN (1) | TN2017000143A1 (zh) |
TW (1) | TWI587286B (zh) |
UA (1) | UA123388C2 (zh) |
UY (1) | UY36378A (zh) |
WO (1) | WO2016066705A1 (zh) |
ZA (1) | ZA201702647B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016066743A1 (en) * | 2014-10-31 | 2016-05-06 | Dolby International Ab | Parametric encoding and decoding of multichannel audio signals |
WO2016172254A1 (en) | 2015-04-21 | 2016-10-27 | Dolby Laboratories Licensing Corporation | Spatial audio signal manipulation |
AU2020210549B2 (en) * | 2019-01-21 | 2023-03-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding a spatial audio representation or apparatus and method for decoding an encoded audio signal using transport metadata and related computer programs |
US11523239B2 (en) * | 2019-07-22 | 2022-12-06 | Hisense Visual Technology Co., Ltd. | Display apparatus and method for processing audio |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101044551A (zh) * | 2004-10-20 | 2007-09-26 | 弗劳恩霍夫应用研究促进协会 | 用于双声道提示编码方案和类似方案的单通道整形 |
EP2214161A1 (en) * | 2009-01-28 | 2010-08-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and computer program for upmixing a downmix audio signal |
CN102099854A (zh) * | 2008-07-15 | 2011-06-15 | Lg电子株式会社 | 处理音频信号的方法和装置 |
CN102334158A (zh) * | 2009-01-28 | 2012-01-25 | 弗劳恩霍夫应用研究促进协会 | 用于把下混音频信号向上混合的向上混合器、方法与计算机程序 |
WO2014126689A1 (en) * | 2013-02-14 | 2014-08-21 | Dolby Laboratories Licensing Corporation | Methods for controlling the inter-channel coherence of upmixed audio signals |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060106620A1 (en) | 2004-10-28 | 2006-05-18 | Thompson Jeffrey K | Audio spatial environment down-mixer |
SE0402649D0 (sv) * | 2004-11-02 | 2004-11-02 | Coding Tech Ab | Advanced methods of creating orthogonal signals |
EP1825713B1 (en) | 2004-11-22 | 2012-10-17 | Bang & Olufsen A/S | A method and apparatus for multichannel upmixing and downmixing |
WO2006079086A2 (en) | 2005-01-24 | 2006-07-27 | Thx, Ltd. | Ambient and direct surround sound system |
TWI313857B (en) * | 2005-04-12 | 2009-08-21 | Coding Tech Ab | Apparatus for generating a parameter representation of a multi-channel signal and method for representing multi-channel audio signals |
EP1829424B1 (en) * | 2005-04-15 | 2009-01-21 | Dolby Sweden AB | Temporal envelope shaping of decorrelated signals |
CN101410891A (zh) * | 2006-02-03 | 2009-04-15 | 韩国电子通信研究院 | 使用空间线索控制多目标或多声道音频信号的渲染的方法和装置 |
US7965848B2 (en) | 2006-03-29 | 2011-06-21 | Dolby International Ab | Reduced number of channels decoding |
MY145497A (en) | 2006-10-16 | 2012-02-29 | Dolby Sweden Ab | Enhanced coding and parameter representation of multichannel downmixed object coding |
KR101111520B1 (ko) | 2006-12-07 | 2012-05-24 | 엘지전자 주식회사 | 오디오 처리 방법 및 장치 |
US8908873B2 (en) | 2007-03-21 | 2014-12-09 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Method and apparatus for conversion between multi-channel audio formats |
ES2452348T3 (es) * | 2007-04-26 | 2014-04-01 | Dolby International Ab | Aparato y procedimiento para sintetizar una señal de salida |
WO2009049895A1 (en) * | 2007-10-17 | 2009-04-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio coding using downmix |
EP2249334A1 (en) * | 2009-05-08 | 2010-11-10 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio format transcoder |
MY154641A (en) | 2009-11-20 | 2015-07-15 | Fraunhofer Ges Forschung | Apparatus for providing an upmix signal representation on the basis of the downmix signal representation, apparatus for providing a bitstream representing a multi-channel audio signal, methods, computer programs and bitstream representing a multi-channel audio signal using a linear cimbination parameter |
CN103748629B (zh) | 2012-07-02 | 2017-04-05 | 索尼公司 | 解码装置和方法、编码装置和方法以及程序 |
MX342150B (es) | 2012-07-09 | 2016-09-15 | Koninklijke Philips Nv | Codificacion y decodificacion de señales de audio. |
KR102381216B1 (ko) | 2013-10-21 | 2022-04-08 | 돌비 인터네셔널 에이비 | 오디오 신호들의 파라메트릭 재구성 |
-
2015
- 2015-10-13 TW TW104133508A patent/TWI587286B/zh active
- 2015-10-28 MX MX2017005409A patent/MX364405B/es active IP Right Grant
- 2015-10-28 PL PL15787573T patent/PL3213322T3/pl unknown
- 2015-10-28 JP JP2017522828A patent/JP6686015B2/ja active Active
- 2015-10-28 RS RS20190769A patent/RS58874B1/sr unknown
- 2015-10-28 HU HUE15787573 patent/HUE044368T2/hu unknown
- 2015-10-28 US US15/522,255 patent/US9930465B2/en active Active
- 2015-10-28 CN CN201580059156.XA patent/CN107112020B/zh active Active
- 2015-10-28 AU AU2015340622A patent/AU2015340622B2/en active Active
- 2015-10-28 SI SI201530795T patent/SI3213322T1/sl unknown
- 2015-10-28 EP EP15787573.3A patent/EP3213322B1/en active Active
- 2015-10-28 KR KR1020177011883A patent/KR102501969B1/ko active IP Right Grant
- 2015-10-28 DK DK15787573.3T patent/DK3213322T3/da active
- 2015-10-28 TN TN2017000143A patent/TN2017000143A1/en unknown
- 2015-10-28 UA UAA201704246A patent/UA123388C2/uk unknown
- 2015-10-28 SG SG11201703263PA patent/SG11201703263PA/en unknown
- 2015-10-28 EA EA201790753A patent/EA034250B1/ru unknown
- 2015-10-28 CA CA2965731A patent/CA2965731C/en active Active
- 2015-10-28 WO PCT/EP2015/075022 patent/WO2016066705A1/en active Application Filing
- 2015-10-28 ME MEP-2019-170A patent/ME03453B/me unknown
- 2015-10-28 ES ES15787573T patent/ES2732668T3/es active Active
- 2015-10-28 LT LTEP15787573.3T patent/LT3213322T/lt unknown
- 2015-10-28 MY MYPI2017701447A patent/MY190174A/en unknown
- 2015-10-28 GE GEAP201514481A patent/GEP20196960B/en unknown
- 2015-10-28 PE PE2017000726A patent/PE20170759A1/es unknown
- 2015-10-28 PT PT15787573T patent/PT3213322T/pt unknown
- 2015-10-30 UY UY0001036378A patent/UY36378A/es active IP Right Grant
-
2017
- 2017-04-12 ZA ZA2017/02647A patent/ZA201702647B/en unknown
- 2017-04-19 IL IL251789A patent/IL251789B/en active IP Right Grant
- 2017-04-20 PH PH12017500723A patent/PH12017500723B1/en unknown
- 2017-04-26 CL CL2017001037A patent/CL2017001037A1/es unknown
- 2017-04-27 GT GT201700088A patent/GT201700088A/es unknown
- 2017-04-27 CO CONC2017/0004283A patent/CO2017004283A2/es unknown
- 2017-04-28 SV SV2017005431A patent/SV2017005431A/es unknown
- 2017-04-30 SA SA517381440A patent/SA517381440B1/ar unknown
- 2017-05-03 EC ECIEPI201723702A patent/ECSP17023702A/es unknown
-
2018
- 2018-02-27 HK HK18102845.3A patent/HK1243547B/zh unknown
-
2019
- 2019-06-18 HR HRP20191107TT patent/HRP20191107T1/hr unknown
- 2019-06-27 CY CY20191100677T patent/CY1121917T1/el unknown
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101044551A (zh) * | 2004-10-20 | 2007-09-26 | 弗劳恩霍夫应用研究促进协会 | 用于双声道提示编码方案和类似方案的单通道整形 |
CN102099854A (zh) * | 2008-07-15 | 2011-06-15 | Lg电子株式会社 | 处理音频信号的方法和装置 |
EP2214161A1 (en) * | 2009-01-28 | 2010-08-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and computer program for upmixing a downmix audio signal |
CN102334158A (zh) * | 2009-01-28 | 2012-01-25 | 弗劳恩霍夫应用研究促进协会 | 用于把下混音频信号向上混合的向上混合器、方法与计算机程序 |
WO2014126689A1 (en) * | 2013-02-14 | 2014-08-21 | Dolby Laboratories Licensing Corporation | Methods for controlling the inter-channel coherence of upmixed audio signals |
Non-Patent Citations (1)
Title |
---|
MPEG Surround—The ISO/MPEG Standard forEfficient and Compatible Multichannel Audio Coding;Jurgen Herre等;《J. Audio Eng. Soc.》;20081130;第56卷(第11期);第1、3.2.1—3.2.3小节 * |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11769516B2 (en) | Parametric reconstruction of audio signals | |
JP5185340B2 (ja) | マルチチャネルオーディオ信号を表示するための装置と方法 | |
CN107112020B (zh) | 音频信号的参数化混合 | |
NZ731194B2 (en) | Parametric mixing of audio signals |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |