CN110223701B - 用于从缩混信号产生音频输出信号的解码器和方法 - Google Patents

用于从缩混信号产生音频输出信号的解码器和方法 Download PDF

Info

Publication number
CN110223701B
CN110223701B CN201910433878.7A CN201910433878A CN110223701B CN 110223701 B CN110223701 B CN 110223701B CN 201910433878 A CN201910433878 A CN 201910433878A CN 110223701 B CN110223701 B CN 110223701B
Authority
CN
China
Prior art keywords
downmix
threshold
channels
signal
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910433878.7A
Other languages
English (en)
Other versions
CN110223701A (zh
Inventor
托尔斯滕·卡斯特纳
于尔根·赫勒
莱昂·特伦提夫
奥利弗·赫尔穆特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority to CN201910433878.7A priority Critical patent/CN110223701B/zh
Publication of CN110223701A publication Critical patent/CN110223701A/zh
Application granted granted Critical
Publication of CN110223701B publication Critical patent/CN110223701B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • G10L13/07Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/007Two-channel systems in which the audio signals are in digital form
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • H04S5/02Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation  of the pseudo four-channel type, e.g. in which rear channel signals are derived from two-channel stereo signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明涉及一种用于从缩混信号产生音频输出信号的解码器和方法。提供了一种用于从包括一个或更多个缩混声道的缩混信号产生包括一个或更多个音频输出声道的音频输出信号的解码器。缩混信号编码两个或更多个音频对象信号。解码器包括阈值确定器(110),用于根据两个或更多个音频对象信号中的至少一个的信号能量和/或噪声能量和/或者根据一个或更多个缩混声道中的至少一个的信号能量和/或噪声能量确定阈值。此外,解码器包括处理单元(120),用于根据阈值从一个或更多个缩混声道产生一个或更多个音频输出声道。

Description

用于从缩混信号产生音频输出信号的解码器和方法
本申请为于2015年4月2日提交、申请号为201380051915.9、发明名称为“用于多声道缩混/上混情况的通用空间音频对象编码参数化概念的解码器和方法”的中国专利申请的分案申请。所述母案申请的国际申请日为2013年8月5日,国际申请号为PCT/EP2013/066405。
技术领域
本发明涉及一种用于多声道缩混/上混情况的通用空间音频对象编码参数化概念的设备和方法。
背景技术
在现代数字音频***中,允许在接收方侧对所传输的内容进行与音频对象相关的修改是主要趋势。这些修改包括在经由空间分布的扬声器进行多声道播放的情况下对专用音频对象的空间重定位和/或音频信号的所选择部分的增益修改。这可以通过将音频内容的不同部分分别传送到不同的扬声器来实现。
换言之,在音频处理、音频传输以及音频存储领域中,越来越期望允许对面向对象的音频内容播放进行用户交互,并且还需要利用多声道播放的扩展可能性以单独地渲染(render)音频内容或者部分音频内容,以便改进听觉感受。由此,多声道音频内容的使用为用户带来显著的改进。例如,可以获得三维听觉感受,这在娱乐应用中带来了改进的用户满意度。然而,多声道音频内容在专业环境中,例如在电话会议应用中,同样是有用的,因为可以通过使用多声道音频播放来改进讲话者的清晰度。为音乐作品的听众提供了另一个可能的应用,以单独调整诸如人声部分或者不同乐器的不同部分(也称为“音频对象”)或音轨的播放电平和/或空间位置。用户可以出于个人品味的原因、出于从音乐作品中更容易地改编一个或更多个部分的原因、出于教学目的、卡拉OK、排练等的原因而进行这种调整。
对例如以脉冲编码调制(PCM)数据或者甚至是压缩音频格式的形式的全数字多声道或多对象音频内容的直接的离散传输要求非常高的比特率。然而,以高比特率效率的方式来传输和存储音频数据也是理想的。因此,为了避免由多声道/多对象应用引起的过度资源负荷,人们乐于在音频质量与比特率要求之间接受合理的折衷。
近来,在音频编码领域中,由例如运动图像专家组(MPEG)等提出了用于对多声道/多对象音频信号的比特率高效的传输/存储的参数化技术。一个示例是作为面向声道的方法[MPS、BCC]的MPEG环绕声(MPS),或者作为面向对象的方法[JSC、SAOC、SAOC1、SAOC2]的MPEG空间音频对象编码(SAOC)。另一种面向对象的方法称为“知情源分离”[ISS1、ISS2、ISS3、ISS4、ISS5、ISS6]。这些技术旨在基于对声道/对象以及附加的辅助信息(sideinformation)的缩混来重建期望的输出音频场景或者期望的音频源对象,其中辅助信息描述所传输的/存储的音频场景和/或音频场景中的音频源对象。
以时间-频率选择方式来完成对这样的***中的声道/对象相关的辅助信息的估计和应用。因此,这样的***采用时间-频率变换,诸如离散傅里叶变换(DFT)、短时间傅里叶变换(STFT)或者如正交镜像滤波器(QMF)组的滤波器组等。在图2中,使用MPEG SAOC的示例来描绘这样的***的基本原理。
在STFT的情况下,时间维度由时间块的数量来表示,而频谱维度通过频谱系数(“频率点”(“bin”))的数量来捕获。在QMF的情况下,时间维度由时隙的数量来表示,而频谱维度通过子频带的数量来捕获。如果通过随后应用的第二滤波器级来改进QMF的频谱分辨率,则整个滤波器组称为混合QMF,并且高分辨率子频带称为混合子频带。
如上文提及,在SAOC中,一般的处理是以时间-频率选择性的方式来执行的,并且可以在每个频带内被描述如下,如图2中所示:
-作为编码器处理的一部分,使用由元素d1,1…dN,P构成的缩混矩阵将N个输入音频对象信号s1…sN混缩成P个声道x1…xP,另外,编码器提取描述输入音频对象的特性的辅助信息(辅助信息估计器(SIE)模块)。针对MPEG SAOC,对象功率w.r.t的彼此关系是这种辅助信息的最基本的形式。
-缩混信号和辅助信息被传输/存储。为此,例如使用诸如MPEG-1/2Layer II或者III(aka.mp3)、MPEG-2/4增强音频编码(AAC)等的众所周知的感知音频编码器可以将缩混音频信号压缩。
-在接收端,解码器在概念上试图使用所传输的辅助信息来从(经解码的)缩混信号中恢复原始的对象信号(“对象分离”)。然后,在图2中,使用由系数r1,1…rN,M描述的渲染矩阵来将这些近似的对象信号混合到由M个音频输出声道/>表示的目标场景中。在极端情况下,期望的目标场景可以是混合音中的仅一个源信号的渲染(源分离方案),但是也可以是由所传输的对象组成的其他任意声学场景。例如,输出可以是单声道、2声道立体声或者5.1多声道目标场景。
在音频编码领域中增加的可用存储/带宽以及正在进行的改进允许用户从稳定增加的多声道音频制作的选择中进行选择。多声道5.1音频格式已经是DVD和蓝光制作中的标准。具有甚至更多音频传输声道的新的音频格式如MPEG-H 3D音频出现在人们面前,这给终端用户提供了高度沉浸感的音频体验。
目前参数化的音频对象编码方案被限制在最多两个缩混声道。他们仅可以在一定程度上应用于多声道混合音,例如仅应用于两个所选择的缩混声道。这样,严重地限制了这些编码方案提供给用户以将音频场景调整到他/她自己的偏好的灵活性,例如,关于改变体育评论员和体育广播中的氛围的音频电平。
此外,当前的音频对象编码方案在编码器侧的混合处理中仅提供了有限的可变性。混合处理限于音频对象的时变混合,而不可能进行频变混合。
因此如果可以提供用于音频对象编码的改进的概念则是非常有益的。
发明内容
本发明的目的在于提供用于音频对象编码的改进的概念。
提供了一种用于从包括一个或更多个缩混声道的缩混信号产生包括一个或更多个音频输出声道的音频输出信号的解码器。缩混信号将两个或更多个音频对象信号编码。解码器包括阈值确定器,用于根据两个或更多个音频对象信号中的至少一个的信号能量和/或噪声能量、和/或者根据一个或更多个缩混声道中的至少一个的信号能量和/或噪声能量来确定阈值。此外,解码器包括处理单元,用于根据阈值从一个或更多个缩混声道产生一个或更多个音频输出声道。
根据一个实施方式,缩混信号可以包括两个或更多个缩混声道,并且阈值确定器可以被配置成根据两个或更多个缩混声道中的每个缩混声道的噪声能量来确定阈值。
在一个实施方式中,阈值确定器可以被配置成根据两个或更多个缩混声道中的所有噪声能量的总和来确定阈值。
根据一个实施方式,缩混信号可以编码两个或更多个音频对象信号,并且阈值确定器可以被配置成根据两个或更多个音频对象信号中的、具有两个或更多个音频对象信号中的最大信号能量的音频对象信号的信号能量来确定阈值。
在一个实施方式中,缩混信号可以包括两个或更多个缩混声道,并且阈值确定器可以被配置成根据两个或更多个缩混声道中的所有噪声能量的总和确定阈值。
根据一个实施方式,缩混信号能够针对多个时间-频率片(tile)中的每个时间-频率片编码两个或更多个音频对象信号。阈值确定器可以被配置成根据两个或更多个音频对象信号中的至少一个的信号能量或噪声能量、或者根据一个或更多个缩混声道中的至少一个的信号能量或噪声能量来确定多个时间-频率片中的每个时间-频率片的阈值,其中多个时间-频率片中的第一时间-频率片的第一阈值可以与多个时间-频率片中的第二时间-频率片的阈值不同。处理单元可以被配置成针对多个时间-频率片的中每个时间-频率片、根据针对所述时间-频率片的阈值而从一个或更多个缩混声道产生一个或更多个音频输出声道的每个音频输出声道的声道值。
在一个实施方式中,解码器可以被配置成根据下面的公式确定以分贝为单位的阈值T:
T[dB]=Enoise[dB]-Eref[dB]-Z或者根据以下公式确定阈值T
T[dB]=Enoise[dB]-Eref[dB]
其中T[dB]表示以分贝为单位的阈值,其中Enoise[dB]表示在两个或更多个缩混声道中以分贝为单位的所有噪声能量的总和,其中Eref[dB]表示以分贝为单位的音频对象信号之一的信号能量,并且其中Z作为数值而表示附加参数。在一个替代实施方式中,Enoise[dB]表示将两个或更多个缩混声道中以分贝为单位的所有噪声能量的总和除以缩混声道的数量。
根据一个实施方式,解码器可以被配置成根据下面的公式确定阈值T:
或者根据以下公式确定阈值T
其中T表示阈值,其中Enoise表示两个或更多个缩混声道中的所有噪声能量的总和,其中Eref表示音频对象信号之一的信号能量,并且其中Z作为数值而表示附加参数。在一个替代实施方式中,:Enoise[dB]表示将两个或更多个缩混声道中的所有噪声能量的总和除以缩混声道的数量。
根据一个实施方式,处理单元可以被配置成根据两个或更多个音频对象信号的对象协方差矩阵(E)、根据用于缩混两个或更多个音频对象信号以获得两个或更多个缩混声道的缩混矩阵(D)以及根据阈值,从一个或更多个缩混声道产生一个或更多个音频输出声道。
在一个实施方式中,处理单元被配置成通过在用于对缩混声道互相关矩阵Q求逆的函数中应用阈值,来从一个或更多个缩混声道产生一个或更多个音频输出声道,其中Q为被定义为:Q=DED*,其中D是用于缩混两个或更多个音频对象信号以获得一个或更多个缩混声道的缩混矩阵,其中E是两个或更多个音频对象信号的对象协方差矩阵。
例如,处理单元可以被配置成通过计算缩混声道互相关矩阵Q的特征值或者通过计算缩混声道互相关矩阵Q的奇异值,来从一个或更多个缩混声道产生一个或更多个音频输出声道。
例如,处理单元可以被配置成通过将缩混声道互相关矩阵Q的特征值中的最大特征值与阈值相乘以获得相对阈值,来从一个或更多个缩混声道产生一个或更多个音频输出声道。
例如,处理单元可以被配置成通过产生经修正的矩阵来从一个或更多个缩混声道产生一个或更多个音频输出声道。处理单元可以被配置成仅根据缩混声道互相关矩阵Q的如下特征向量产生经修正的矩阵:该特征向量具有缩混声道互相关矩阵Q的特征值中的、大于或等于所述相对阈值的特征值。此外,处理单元可以被配置成执行经修正的矩阵的矩阵求逆以获得逆矩阵。此外,处理单元可以被配置成在一个或更多个缩混声道上应用逆矩阵以产生一个或更多个音频输出声道。
此外,提供了一种用于从包括一个或更多个缩混声道的缩混信号产生包括一个或更多个音频输出声道的音频输出信号的方法。缩混信号编码两个或更多个音频对象信号。解码器包括:
-根据两个或更多个音频对象信号中的至少一个的信号能量或噪声能量或者根据一个或更多个缩混声道中的至少一个的信号能量或噪声能量来确定阈值,以及
-根据阈值从一个或更多个缩混声道产生一个或更多个音频输出声道。
此外,提供了一种包括计算机程序的计算机可读介质,当该计算机程序在计算机或信号处理器上被执行时,用于实施上述方法。
附图说明
在下文中,将参照附图更具体地描述本发明的实施方式,其中:
图1示出了根据一个实施方式的用于产生包括一个或更多个音频输出声道的音频输出信号的解码器;
图2是示出了使用MPEG SAOC的示例的这样的***的原理的SAOC***概览;
图3示出了G-SAOC参数化上混概念的概览;以及
图4示出了一般的缩混/上混概念。
具体实施方式
在描述本发明的实施方式之前,提供了现有技术的SAOC***的更多背景。
图2示出了SAOC编码器10和SAOC解码器12的整体布置。SAOC编码器10接收作为输入的N个对象,即音频信号S1至SN,。特别地,编码器10包括缩混器16,缩混器16接收音频信号S1至SN并且将其缩混成缩混信号18。可替代地,可以从外部提供缩混(“艺术缩混”)并且***对附加的辅助信息进行估计以使提供的缩混与计算的缩混匹配。在图2中,示出的缩混信号为P声道信号。这样,可得到任何单声道(P=1)、立体声(P=2)或者多声道(P>2)缩混信号配置。
在立体声缩混的情况下,缩混信号18的声道用L0和R0来表示,在单声道缩混的情况下,缩混信号18的声道简单地用L0来表示。为了使SAOC解码器12能够对个体对象s1至sN进行恢复,辅助信息估计器17为SAOC解码器12提供包括SAOC参数的辅助信息。例如,在立体声缩混的情况下,SAOC参数包括对象电平差(OLD)、对象间相关性(IOC)(对象间互相关参数)、缩混增益值(DMG)以及缩混声道电平差(DCLD)。包括SAOC参数的辅助信息20连同缩混信号18一起形成由SAOC解码器12接收的SAOC输出数据流。
SAOC解码器12包括接收缩混信号18以及辅助信息20的上混合器,以便将音频信号和/>恢复并且渲染到任何用户选择的声道集合/>至/>上,其中上述渲染由输入到SAOC解码器12中的渲染信息26规定。
可以将音频信号s1至sN按诸如时域或频域的任何编码域输入到编码器10中。在音频信号s1至sN按诸如PCM编码的时域馈入到编码器10的情况下,编码器10可以使用诸如混合QMF组的滤波器组,以便将信号转换到频域中,在频域中,以特定滤波器组分辨率将音频信号表示在与不同频谱部分相关联的若干个子频带中。在音频信号s1至sN已经按编码器10所期望的表示的情况下,则音频信号s1至sN不必执行频谱分解。
混合处理中更多的灵活性允许最优地利用信号对象特性。可以产生关于所认知的品质而针对解码器侧的参数化分离进行优化的混缩。
实施方式对任意数量的缩混/上混声道的SAOC方案的参数化部分进行扩展。下图提供了通用空间音频对象编码(G-SAOC)参数化上混概念的概述:
图3示出了G-SAOC参数化上混概念的概览。可以实现对参数化重建的音频对象的完全灵活的后混合(post-mixing)(渲染)。
尤其,图3示出了音频解码器310、对象分离器320和渲染器330。
我们考虑下述通用标记:
x -输入音频对象信号 (Nobj大小的)
y -缩混音频信号 (Ndmx大小的)
z -渲染的输出场景信号 (Nupmix大小的)
D -缩混矩阵 (NobjⅹNdmx大小的)
R -渲染矩阵 (NobjⅹNupmix大小的)
G-参数化上混矩阵(NdmxⅹNupmix大小的)
E-对象协方差矩阵(NobjⅹNobj大小的)
所有引入的矩阵都(通常)是时变和频变的。
在下文中,提供了参数化上混的本构关系。
首先,参照图4提供了一般的缩混/上混概念。特别地,图4示出了一般的缩混/上混概念,其中图4示出了模型化上混***(左)和参数化上混***(右)。
更特别地,图4示出了渲染单元410、缩混单元421和参数化上混单元422。
理想(模型化的)渲染的输出场景信号z被定义为,参见图(左):
Rx=z. (1)
缩混音频信号y被确定为,参见图4(右):
Dx=y. (2)
用于参数化输出场景信号重建的本构关系(应用于缩混音频信号)可以被表示为,参见图4(右):
Gy=z. (3)
根据式(1)和(2),参数化上混矩阵可以被定义为缩混矩阵和渲染矩阵的如下函数G=G(D,R):
G=RED*(DED*)-1. (4)
在下文中,考虑改进根据实施方式的参数化源估计的稳定性。
MPEG SAOC内的参数化分离方案基于混合音中对源的最小均方(LMS)估计。LMS估计涉及对参数化描述的缩混声道协方差矩阵Q=DED*的求逆。矩阵求逆的算法通常对病态矩阵敏感。对这样的矩阵求逆能够在渲染的输出场景中引起称为人为(artifacts)的不自然的声音。当前在MPEG SAOC中的试探性确定的固定阈值T避免了这个问题。尽管通过该方法避免了失真,但因而无法在解码器侧实现足够的可能的分离性能。
图1示出了根据实施方式的一种用于从包括一个或更多个缩混声道的缩混信号产生包括一个或更多个音频输出声道的音频输出信号的解码器。缩混信号对两个或更多个音频对象信号编码。
解码器包括用于根据两个或更多个音频对象信号中的至少一个的信号能量和/或噪声能量和/或者根据一个或更多个缩混声道中的至少一个的信号能量和/或噪声能量确定阈值的阈值确定器110。
此外,解码器包括用于根据阈值从一个或更多个缩混声道产生一个或更多个音频输出声道的处理单元120。
与现有技术相反,阈值确定器110根据经编码的两个或更多个音频对象信号或者一个或更多个缩混声道的信号能量或噪声能量确定阈值。在实施方式中,当一个或更多个缩混声道和/或一个或更多个音频对象信号值的信号能量和噪声能量变化时,阈值也变化,例如,从时刻到时刻,从时间-频率片到时间-频率片。
实施方式提供了用于矩阵求逆的适应性阈值方法以实现在解码器侧的音频对象的改进的参数化分离。一般来说,分离性能会更好但不会少于当前使用在MPEG SAOC中的、对Q矩阵求逆的算法中利用的固定阈值方案。
阈值T动态地适应于每个被处理的时间-频率片的数据的精度。因此改进了分离性能并且避免了由对病态矩阵求逆引起的渲染的输出场景中的失真。
根据一个实施方式,缩混信号可以包括两个或更多个缩混声道,并且阈值确定器110可以被配置成根据两个或更多个缩混声道的每个的噪声能量确定阈值。
在一个实施方式中,阈值确定器110可以被配置成根据两个或更多个缩混声道中的所有噪声能量的总和确定阈值。
根据一个实施方式,缩混信号可以编码两个或更多个音频对象信号,并且阈值确定器110可以被配置成根据两个或更多个音频对象信号中的、具有两个或更多个音频对象信号中的最大信号能量的音频对象信号的信号能量来确定阈值。
在一个实施方式中,缩混信号可以包括两个或更多个缩混声道,并且阈值确定器110可以被配置成根据两个或更多个缩混声道中的所有噪声能量的总和确定阈值。
根据一个实施方式,缩混信号可以针对多个时间-频率片的每个时间-频率片编码两个或更多个音频对象信号。阈值确定器110可以被配置成根据两个或更多个音频对象信号中的至少一个的信号能量或噪声能量或者根据一个或更多个缩混声道的至少一个的信号能量或噪声能量确定多个时间-频率片的每个时间-频率片的阈值,其中多个时间-频率片的第一时间-频率片的第一阈值可能与多个时间-频率片的第二时间-频率片的阈值不同。处理单元120可以被配置成针对多个时间-频率片的每个时间-频率片根据所述时间-频率片的阈值从一个或更多个缩混声道产生一个或更多个音频输出声道的每个的声道值。
根据一个实施方式,解码器可以被配置成根据以下公式确定阈值T
或者根据以下公式确定阈值T
其中T表示阈值,其中Enoise表示两个或更多个缩混声道中所有噪声能量的总和,其中Eref表示音频对象信号中的一个的信号能量,并且其中Z作为数值而表示附加参数。在一个替代实施方式中,Enoise表示将两个或更多个缩混声道中的所有噪声能量的总和除以缩混声道的数量。
在一个实施方式中,解码器可以被配置成根据以下公式确定以分贝为单位的阈值T:
T[dB]=Enoise[dB]-Eref[dB]-Z或者根据以下公式确定阈值T
T[dB]=Enoise[dB]-Eref[dB]
其中T[dB]表示以分贝为单位的阈值,其中Enoise[dB]表示两个或更多个缩混声道中以分贝为单位的所有噪声能量的总和,其中Eref[dB]表示以分贝为单位的音频对象信号之一的信号能量,并且其中Z作为数值而表示附加参数。在一个替代实施方式中,Enoise[dB]表示将两个或更多个缩混声道中以分贝为单位的所有噪声能量的总和除以缩混声道的数量。
特别地,可以通过下式给出针对每个时间-频率片的阈值的粗略估计:
T[dB]=Enoise[dB]-Eref[dB]-Z (5)
Enoise可以表示噪声本底水平,例如,缩混声道中的所有噪声能量的总和。可以通过音频数据的分辨率定义噪声本底,例如,由声道的PCM编码引起的噪声本底。另一种可能是在缩混被压缩的情况下考虑编码噪声。针对这样的情况,可以增加由编码算法引起的噪声本底。在一个替代实施方式中,Enoise[dB]表示将两个或更多个缩混声道中以分贝为单位的所有噪声能量的总和除以缩混声道的数量。
Eref可以表示参考信号能量。在最简单的形式中,其可以是最强音频对象的能量:
Eref=max(E). (6)
Z可以表示惩罚因子以应付影响分离分辨率的附加参数,例如,缩混声道的数量和源对象数量的差异。分离性能随着音频对象的数量的增加而下降。此外,还可以包括关于分离的参数化辅助信息的量化的影响。
在一个实施方式中,处理单元120被配置成根据两个或更多个音频对象信号的对象协方差矩阵E,根据用于缩混两个或更多个音频对象信号以获得两个或更多个缩混声道的缩混矩阵D,以及根据阈值从一个或更多个缩混声道产生一个或更多个音频输出声道。
根据一个实施方式,为了根据阈值从一个或更多个缩混声道产生一个或更多个音频输出声道,处理单元120可以被配置成按如下进行:
按求逆参数化估计的缩混声道互相关矩阵Q的功能在解码器侧应用阈值(其可以被称为“分离-分辨率阈值”)。
计算Q的奇异值和Q的特征值。
取最大特征值并与阈值T相乘,以获得相对阈值。
除了该最大特征值外的所有特征值与这个相对阈值相比较并且在它们更小的情况下被省略。
随后,在经修正的矩阵上执行矩阵求逆,其中,经修正的矩阵例如可以是由减少的向量的集合定义的矩阵。应当注意,针对除了最高特征值以外的所有特征值都被省略的情况,如果特征值较低,则应将最高特征值设定为噪声本底水平。
例如,处理单元120可以被配置成通过产生经修正的矩阵从一个或更多个缩混声道产生一个或更多个音频输出声道。可以仅根据缩混声道互相关矩阵Q的如下特征向量产生经修正的矩阵:其具有缩混声道互相关矩阵Q的特征值中的大于或等于所述相对阈值的特征值。处理单元120可以被配置成执行对经修正的矩阵的矩阵求逆以获得逆矩阵。随后,处理单元120可以被配置成在一个或更多个缩混声道上应用上述逆矩阵以产生一个或更多个音频输出声道。例如,以如将矩阵积DED*的逆矩阵应用在缩混声道上的多个方式中的一个,逆矩阵可以被应用在一个或更多个缩混声道上(参见,例如[SAOC],特别参见例如:ISO/IEC,“MPEG audio technologies–Part 2:Spatial Audio Object Coding(SAOC),”ISO/IEC JTC1/SC29/WG11(MPEG)International Standard 23003-2:2010,特别参见章节“SAOCProcessing”,更具体地参见子章节“Transcoding modes”和子章节“Decoding modes”)。
可以用于估计阈值T的参数可以在编码器侧被确定并被嵌入参数化辅助信息中,或者在解码器侧被直接估计。
可以在编码器侧使用简化版本的阈值估计器以在解码器侧表示源估计中的潜在不稳定性。在其最简单的形式中,忽略所有噪声项,可以计算缩混矩阵的范数,其表示用于在解码器侧对源信号进行参数化估计的可用缩混声道的全部潜能不能被利用。在混合处理期间,可以使用这样的指标以避免混合对源信号的估计关键的矩阵。
关于对象协方差矩阵的参数化,人们能够看到:基于本构关系(4)描述的参数化上混方法对对象协方差矩阵E的非对角线实体的符号具有不变性。这产生对表示对象间相关性的值更加有效(相比SAOC)的参数化(量化和编码)的可能性。
关于表示缩混矩阵的信息的传输,通常,音频输入和缩混信号x、y与协方差矩阵E一起在编码器侧确定。将音频缩混信号y的编码表示和描述协方差矩阵E的信息向解码器侧传输(经由比特流的有效载荷)。设定渲染矩阵R并且在解码器侧可用。
可以使用以下原理方法确定(在编码器处)和获得(在解码器处)表示缩混矩阵D的信息(应用在编码器并且用作解码器)。
缩混矩阵D可以:
-被设定和应用(在编码器处)并且经由比特流有效载荷明确地传输(向解码器)其量子化和编码表示。
-被分配和应用(在编码器处)并且通过使用存储的查找表(即预定的缩混矩阵的集合)被恢复(在解码器处)。
-被分配和应用(在编码器处)并且根据特定的算法或方法(例如,特别加权(weighted)和向可用的缩混声道有序等距布置(ordered equidistant placement)音频对象)被恢复(在解码器处)。
-被估计和应用(在编码器处)并且通过使用允许对输入音频对象进行“灵活混合”的特定优化标准(即用于在解码器侧对音频对象的参数化估计进行优化的缩混矩阵的产生)被恢复(在解码器处)。例如,编码器依据特别的信号特性重建,如协方差、信号间相关性或者改进/确保参数化上混算法的数值稳定性,以使参数化上混更有效的方式产生缩混矩阵。
提供的实施方式可以被应用在任意数量的缩混/上混声道上。其可以与任何当前和未来的音频格式相结合。
创造性方法的灵活性允许绕过未改变的声道以减少计算复杂性,减少比特流有效载荷/减少的数据量。
提供了一种用于编码的音频编码器、方法或计算机程序。此外,提供了一种用于解码的音频解码器、方法或计算机程序。此外,提供了一种编码信号。
尽管在上下文中已经描述了设备的一些方面,显然这些方面还表示相应方法的描述,其中模块或器件与方法步骤或方法步骤的特征相对应。类似地,在上下文中描述的方法步骤的方面也表示相应设备的相应的模块或项目或特征的描述。
创造性的分解信号可以被存储在数字存储介质上或可以在传输介质例如无线传输介质或诸如英特网的有线传输介质上传输。
根据某些实施要求,本发明的实施方式可以以硬件或软件实施。可以通过使用其上存储有电子可读控制信号的数字存储介质例如软盘、DVD、CD、ROM、PROM、EPROM、EEPROM或FLASH存储器来执行上述实施,数字存储介质配合(或能够配合)可编程计算机***,使得各自的方法被执行。
根据本发明的一些实施方式包括具有电子可读控制信号的非临时性数据载体,电子可读控制信号能够配合可编程计算机***,使得执行本文描述的方法之一。
通常,本发明的实施方式可以实施为具有程序代码的计算机程序产品,当计算机程序产品在计算机上运行时,程序代码可操作用于执行上述方法之一。程序代码例如可以被存储在机器可读载体上。
其他实施方式包括存储在机器可读载体上的、用于执行本文描述的上述方法之一的计算机程序。
因此换言之,创造性方法的一个实施方式是计算机程序,当计算机程序在计算机上运行时,计算机程序具有用于执行本文描述的上述方法之一的程序代码。
因此,创造性方法的另一实施方式是包括记录在其上的用于执行本文描述的上述方法之一的计算机程序的数据载体(或数字存储介质,或计算机可读介质)。
因此,创造性方法的另一实施方式是表示用于执行本文描述的上述方法之一的计算机程序的数据流或信号序列。数据流或信号序列例如可以被配置成例如经由英特网、经由数据通信连接被传送。
另一实施方式包括处理装置,例如计算机,或可编程逻辑器件,被配置成或适于执行本文描述的方法之一。
另一实施方式包括具有安装在其上的、用于执行本文描述的方法之一的计算机程序的计算机。
在一些实施方式中,可编程逻辑器件(例如,现场可编程门阵列)可以被用于执行本文描述的方法的一些或所有功能。在一些实施方式中,现场可编程门阵列可以与微处理器配合以便执行本文描述的方法之一。通常,上述方法优选由任何硬件设备执行。
以上描述的实施方式仅仅用于说明本发明的原理。应当理解,本文描述的细节和布置的修改和变型对于本领域其他技术人员而言将是明显的。因此,意在仅由接下来的专利权利要求的范围所限制,而不由借助本文实施方式的解释和说明所呈现的具体细节所限制。
参考文献[MPS]ISO/IEC 23003-1:2007,MPEG-D(MPEG audio technologies),Part 1:MPEG Surround,2007.
[BCC]C.Faller and F.Baumgarte,“Binaural Cue Coding-Part II:Schemesand applications,”IEEE Trans.on Speech and Audio Proc.,vol.11,no.6,Nov.2003
[JSC]C.Faller,“Parametric Joint-Coding of Audio Sources”,120th AESConvention,Paris,2006
[SAOC1]J.Herre,S.Disch,J.Hilpert,O.Hellmuth:"From SAC To SAOC-RecentDevelopments in Parametric Coding of Spatial Audio",22nd Regional UK AESConference,Cambridge,UK,April 2007
[SAOC2]J.B.Resch,C.Falch,O.Hellmuth,J.Hilpert,A./>L.Terentiev,J.Breebaart,J.Koppens,E.Schuijers and W.Oomen:"Spatial AudioObject Coding(SAOC)–The Upcoming MPEG Standard on Parametric Object BasedAudio Coding",124th AES Convention,Amsterdam 2008
[SAOC]ISO/IEC,“MPEG audio technologies–Part 2:Spatial Audio ObjectCoding(SAOC),”ISO/IEC JTC1/SC29/WG11(MPEG)International Standard 23003-2.
[ISS1]M.Parvaix and L.Girin:“Informed Source Separation ofunderdetermined instantaneous Stereo Mixtures using Source Index Embedding”,IEEE ICASSP,2010
[ISS2]M.Parvaix,L.Girin,J.-M.Brossier:“Awatermarking-based method forinformed source separation of audio signals with a single sensor”,IEEETransactions on Audio,Speech and Language Processing,2010
[ISS3]A.Liutkus and J.Pinel and R.Badeau and L.Girin and G.Richard:“Informed source separation through spectrogram coding and data embedding”,Signal Processing Journal,2011
[ISS4]A.Ozerov,A.Liutkus,R.Badeau,G.Richard:“Informed sourceseparation:source coding meets source separation”,IEEE Workshop onApplications of Signal Processing to Audio and Acoustics,2011
[ISS5]Shuhua Zhang and Laurent Girin:“An Informed Source SeparationSystem for Speech Signals”,INTERSPEECH,2011
[ISS6]L.Girin and J.Pinel:“Informed Audio Source Separation fromCompressed Linear Stereo Mixtures”,AES 42nd International Conference:SemanticAudio,2011
关于包括以上实施例的实施方式,还公开下述的技术方案:
项目1.一种用于从包括两个或更多个缩混声道的缩混信号产生包括一个或更多个音频输出声道的音频输出信号的解码器,其中,所述缩混信号编码两个或更多个音频对象信号,其中,所述解码器包括:
阈值确定器(110),用于根据所述两个或更多个音频对象信号中的至少一个的信号能量或噪声能量、或者根据所述一个或更多个缩混声道中的至少一个的信号能量或噪声能量来确定阈值,以及
处理单元(120),用于根据所述阈值从所述一个或更多个缩混声道产生所述一个或更多个音频输出声道。
项目2.根据项目1所述的解码器,其中,所述阈值确定器(110)被配置成根据所述两个或更多个缩混声道中的每个缩混声道的噪声能量来确定所述阈值。
项目3.根据项目2所述的解码器,其中,所述阈值确定器(110)被配置成根据所述两个或更多个缩混声道中的所有噪声能量的总和来确定所述阈值。
项目4.根据前述项目之一所述的解码器,其中,所述阈值确定器(110)被配置成根据所述两个或更多个音频对象信号中的、具有所述两个或更多个音频对象信号中的最大信号能量的音频对象信号的信号能量来确定所述阈值。
项目5.根据前述项目之一所述的解码器,其中,所述阈值确定器(110)被配置成根据所述两个或更多个缩混声道中的所有噪声能量的总和来确定所述阈值。
项目6.根据前述项目之一所述的解码器,
其中,所述缩混信号针对多个时间-频率片中的每个时间-频率片来编码所述两个或更多个音频对象信号,
其中,所述阈值确定器(110)被配置成根据所述两个或更多个音频对象信号中的至少一个的信号能量或噪声能量、或者根据所述一个或更多个缩混声道的至少一个的信号能量或噪声能量来确定针对所述多个时间-频率片中的每个时间-频率片的阈值,其中,所述多个时间-频率片中的第一时间-频率片的第一阈值与所述多个时间-频率片中的第二时间-频率片的阈值不同,以及
其中,所述处理单元(120)被配置成针对所述多个时间-频率片中的每个时间-频率片、根据所述时间-频率片的阈值而从所述一个或更多个缩混声道产生所述一个或更多个音频输出声道中的每个音频输出声道的声道值。
项目7.根据前述项目之一所述的解码器,其中,所述解码器被配置成根据以下公式确定以分贝为单位的所述阈值T
T[dB]=Enoise[dB]-Eref[dB]-Z或者根据以下公式确定所述阈值T
T[dB]=Enoise[dB]-Eref[dB],
其中,T[dB]表示以分贝为单位的所述阈值,
其中,Enoise[dB]表示所述两个或更多个缩混声道中以分贝为单位的所有噪声能量的总和,或者Enoise[dB]表示将所述两个或更多个缩混声道中以分贝为单位的所有噪声能量的总和除以所述两个或更多个缩混声道的数量,
其中,Eref[dB]表示以分贝为单位的所述音频对象信号之一的信号能量,以及
其中,Z表示作为数值的附加参数。
项目8.根据项目1至6之一所述的解码器,其中,所述解码器被配置成根据以下公式确定所述阈值T
或者根据以下公式确定所述阈值T
其中,T表示所述阈值,
其中,Enoise表示所述两个或更多个缩混声道中所有噪声能量的总和,或者Enoise[dB]表示将所述两个或更多个缩混声道中以分贝为单位的所有噪声能量的总和除以所述两个或更多个缩混声道的数量,
其中,Eref表示所述音频对象信号之一的信号能量,以及
其中,Z表示作为数值的附加参数。
项目9.根据前述项目之一所述的设备,其中,所述处理单元(120)被配置成根据所述两个或更多个音频对象信号的对象协方差矩阵(E)、根据用于缩混所述两个或更多个音频对象信号以获得所述两个或更多个缩混声道的缩混矩阵(D)以及根据所述阈值,从所述一个或更多个缩混声道产生所述一个或更多个音频输出声道。
项目10.根据项目9所述的设备,其中,所述处理单元(120)被配置成通过在用于对缩混声道互相关矩阵Q求逆的函数中应用所述阈值,来从所述一个或更多个缩混声道产生所述一个或更多个音频输出声道,
其中,Q被定义为Q=DED*
其中,D是用于缩混所述两个或更多个音频对象信号以获得所述两个或更多个缩混声道的所述缩混矩阵,以及
其中,E是所述两个或更多个音频对象信号的对象协方差矩阵。
项目11.根据项目10所述的设备,其中,所述处理单元(120)被配置成通过计算所述缩混声道互相关矩阵Q的特征值或者通过计算所述缩混声道互相关矩阵Q的奇异值,来从所述一个或更多个缩混声道产生所述一个或更多个音频输出声道。
项目12.根据项目10或11所述的设备,其中,所述处理单元(120)被配置成通过将所述缩混声道互相关矩阵Q的特征值中的最大特征值与所述阈值相乘以获得相对阈值,来从所述一个或更多个缩混声道产生所述一个或更多个音频输出声道。
项目13.根据项目12所述的设备,
其中,所述处理单元(120)被配置成通过产生经修正的矩阵来从所述一个或更多个缩混声道产生所述一个或更多个音频输出声道,
其中,所述处理单元(120)被配置成仅根据所述缩混声道互相关矩阵Q的如下特征向量来产生所述经修正的矩阵:所述特征向量具有所述缩混声道互相关矩阵Q的特征值中的、大于或等于所述经修正的阈值的特征值,
其中,所述处理单元(120)被配置成执行所述经修正的矩阵的矩阵求逆以获得逆矩阵,以及
其中,所述处理单元(120)被配置成在一个或更多个所述缩混声道上应用所述逆矩阵以产生所述一个或更多个音频输出声道。
项目14.一种用于从包括两个或更多个缩混声道的缩混信号产生包括一个或更多个音频输出声道的音频输出信号的方法,其中,所述缩混信号编码两个或更多个音频对象信号,其中,所述解码器包括:
根据所述两个或更多个音频对象信号中的至少一个的信号能量或噪声能量、或者根据所述一个或更多个缩混声道中的至少一个的信号能量或噪声能量来确定阈值,以及
根据所述阈值从所述一个或更多个缩混声道产生所述一个或更多个音频输出声道。
项目15.一种计算机程序,当所述计算机程序在计算机或信号处理器上被执行时,用于实现根据项目14所述的方法。

Claims (15)

1.一种用于从包括两个或更多个缩混声道的缩混信号产生包括一个或更多个音频输出声道的音频输出信号的解码器,其中,所述缩混信号编码两个或更多个音频对象信号,其中,所述解码器包括:
阈值确定器(110),用于根据所述两个或更多个音频对象信号中的至少一个的信号能量或噪声能量、或者根据所述一个或更多个缩混声道中的至少一个的信号能量或噪声能量来确定阈值,以及
处理单元(120),用于根据所述阈值从所述一个或更多个缩混声道产生所述一个或更多个音频输出声道,
其中,所述处理单元(120)被配置成通过在用于对缩混声道互相关矩阵Q求逆的函数中应用所述阈值,来从所述一个或更多个缩混声道产生所述一个或更多个音频输出声道,
其中,所述处理单元(120)被配置成通过计算所述缩混声道互相关矩阵Q的特征值来从所述一个或更多个缩混声道产生所述一个或更多个音频输出声道。
2.根据权利要求1所述的解码器,其中,所述阈值确定器(110)被配置成根据所述两个或更多个缩混声道中的每个缩混声道的噪声能量来确定所述阈值。
3.根据权利要求2所述的解码器,其中,所述阈值确定器(110)被配置成根据所述两个或更多个缩混声道中的所有噪声能量的总和来确定所述阈值。
4.根据权利要求1所述的解码器,其中,所述阈值确定器(110)被配置成根据所述两个或更多个音频对象信号中的、具有所述两个或更多个音频对象信号中的最大信号能量的音频对象信号的信号能量来确定所述阈值。
5.根据权利要求1所述的解码器,其中,所述阈值确定器(110)被配置成根据所述两个或更多个缩混声道中的所有噪声能量的总和来确定所述阈值。
6.根据权利要求1所述的解码器,
其中,所述缩混信号针对多个时间-频率片中的每个时间-频率片来编码所述两个或更多个音频对象信号,
其中,所述阈值确定器(110)被配置成根据所述两个或更多个音频对象信号中的至少一个的信号能量或噪声能量、或者根据所述一个或更多个缩混声道中的至少一个的信号能量或噪声能量来确定针对所述多个时间-频率片中的每个时间-频率片的阈值,其中,所述多个时间-频率片中的第一时间-频率片的第一阈值与所述多个时间-频率片中的第二时间-频率片的阈值不同,以及
其中,所述处理单元(120)被配置成针对所述多个时间-频率片中的每个时间-频率片、根据所述时间-频率片的阈值而从所述一个或更多个缩混声道产生所述一个或更多个音频输出声道中的每个音频输出声道的声道值。
7.根据权利要求1所述的解码器,其中,所述解码器被配置成根据以下公式确定以分贝为单位的所述阈值T
T[dB]=Enoise[dB]-Eref[dB]-Z或者根据以下公式确定所述阈值T
T[dB]=Enoise[dB]-Eref[dB],
其中,T[dB]表示以分贝为单位的所述阈值,
其中,=Enoise[dB]表示所述两个或更多个缩混声道中以分贝为单位的所有噪声能量的总和,或者Enoise[dB]表示将所述两个或更多个缩混声道中以分贝为单位的所有噪声能量的总和除以所述两个或更多个缩混声道的数量,
其中,Eref[dB]表示以分贝为单位的所述音频对象信号之一的信号能量,以及
其中,Z表示作为数值的附加参数。
8.根据权利要求1所述的解码器,其中,所述解码器被配置成根据以下公式确定所述阈值T
或者根据以下公式确定所述阈值T
其中,T表示所述阈值,
其中,Enoise表示所述两个或更多个缩混声道中所有噪声能量的总和,或者Enoise[dB]表示将所述两个或更多个缩混声道中以分贝为单位的所有噪声能量的总和除以所述两个或更多个缩混声道的数量,
其中,Eref表示所述音频对象信号之一的信号能量,以及
其中,Z表示作为数值的附加参数。
9.根据权利要求1所述的解码器,其中,所述处理单元(120)被配置成根据所述两个或更多个音频对象信号的对象协方差矩阵(E)、根据用于缩混所述两个或更多个音频对象信号以获得所述两个或更多个缩混声道的缩混矩阵(D)以及根据所述阈值,从所述一个或更多个缩混声道产生所述一个或更多个音频输出声道。
10.根据权利要求9所述的解码器,其中,所述处理单元(120)被配置成通过在用于对所述缩混声道互相关矩阵Q求逆的函数中应用所述阈值,来从所述一个或更多个缩混声道产生所述一个或更多个音频输出声道,
其中,Q被定义为Q=DED*
其中,D是用于缩混所述两个或更多个音频对象信号以获得所述一个或更多个缩混声道的所述缩混矩阵,以及
其中,E是所述两个或更多个音频对象信号的对象协方差矩阵。
11.根据权利要求10所述的解码器,其中,所述处理单元(120)被配置成通过计算所述缩混声道互相关矩阵Q的特征值或者通过计算所述缩混声道互相关矩阵Q的奇异值,来从所述一个或更多个缩混声道产生所述一个或更多个音频输出声道。
12.根据权利要求10所述的解码器,其中,所述处理单元(120)被配置成通过将所述缩混声道互相关矩阵Q的特征值中的最大特征值与所述阈值相乘以获得相对阈值,来从所述一个或更多个缩混声道产生所述一个或更多个音频输出声道。
13.根据权利要求12所述的解码器,
其中,所述处理单元(120)被配置成通过产生经修正的矩阵来从所述一个或更多个缩混声道产生所述一个或更多个音频输出声道,
其中,所述处理单元(120)被配置成仅根据所述缩混声道互相关矩阵Q的如下特征向量来产生所述经修正的矩阵:所述特征向量具有所述缩混声道互相关矩阵Q的特征值中的、大于或等于所述经修正的阈值的特征值,
其中,所述处理单元(120)被配置成执行所述经修正的矩阵的矩阵求逆以获得逆矩阵,以及
其中,所述处理单元(120)被配置成在所述缩混声道中的一个或更多个上应用所述逆矩阵以产生所述一个或更多个音频输出声道。
14.一种用于从包括两个或更多个缩混声道的缩混信号产生包括一个或更多个音频输出声道的音频输出信号的方法,其中,所述缩混信号编码两个或更多个音频对象信号,其中,所述方法包括:
根据所述两个或更多个音频对象信号中的至少一个的信号能量或噪声能量、或者根据所述一个或更多个缩混声道中的至少一个的信号能量或噪声能量来确定阈值,以及
根据所述阈值从所述一个或更多个缩混声道产生所述一个或更多个音频输出声道,
其中,通过在用于对缩混声道互相关矩阵Q求逆的函数中应用所述阈值,来执行从所述一个或更多个缩混声道产生所述一个或更多个音频输出声道,
其中,通过计算所述缩混声道互相关矩阵Q的特征值来执行从所述一个或更多个缩混声道产生所述一个或更多个音频输出声道。
15.一种包括计算机程序的计算机可读介质,当所述计算机程序在计算机或信号处理器上被执行时,用于实现根据权利要求14所述的方法。
CN201910433878.7A 2012-08-03 2013-08-05 用于从缩混信号产生音频输出信号的解码器和方法 Active CN110223701B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910433878.7A CN110223701B (zh) 2012-08-03 2013-08-05 用于从缩混信号产生音频输出信号的解码器和方法

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201261679404P 2012-08-03 2012-08-03
US61/679,404 2012-08-03
CN201910433878.7A CN110223701B (zh) 2012-08-03 2013-08-05 用于从缩混信号产生音频输出信号的解码器和方法
CN201380051915.9A CN104885150B (zh) 2012-08-03 2013-08-05 用于多声道缩混/上混情况的通用空间音频对象编码参数化概念的解码器和方法
PCT/EP2013/066405 WO2014020182A2 (en) 2012-08-03 2013-08-05 Decoder and method for a generalized spatial-audio-object-coding parametric concept for multichannel downmix/upmix cases

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201380051915.9A Division CN104885150B (zh) 2012-08-03 2013-08-05 用于多声道缩混/上混情况的通用空间音频对象编码参数化概念的解码器和方法

Publications (2)

Publication Number Publication Date
CN110223701A CN110223701A (zh) 2019-09-10
CN110223701B true CN110223701B (zh) 2024-04-09

Family

ID=49150906

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201910433878.7A Active CN110223701B (zh) 2012-08-03 2013-08-05 用于从缩混信号产生音频输出信号的解码器和方法
CN201380051915.9A Active CN104885150B (zh) 2012-08-03 2013-08-05 用于多声道缩混/上混情况的通用空间音频对象编码参数化概念的解码器和方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201380051915.9A Active CN104885150B (zh) 2012-08-03 2013-08-05 用于多声道缩混/上混情况的通用空间音频对象编码参数化概念的解码器和方法

Country Status (18)

Country Link
US (1) US10096325B2 (zh)
EP (1) EP2880654B1 (zh)
JP (1) JP6133422B2 (zh)
KR (1) KR101657916B1 (zh)
CN (2) CN110223701B (zh)
AU (2) AU2013298463A1 (zh)
BR (1) BR112015002228B1 (zh)
CA (1) CA2880028C (zh)
ES (1) ES2649739T3 (zh)
HK (1) HK1210863A1 (zh)
MX (1) MX350690B (zh)
MY (1) MY176410A (zh)
PL (1) PL2880654T3 (zh)
PT (1) PT2880654T (zh)
RU (1) RU2628195C2 (zh)
SG (1) SG11201500783SA (zh)
WO (1) WO2014020182A2 (zh)
ZA (1) ZA201501383B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2980801A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals
US9774974B2 (en) 2014-09-24 2017-09-26 Electronics And Telecommunications Research Institute Audio metadata providing apparatus and method, and multichannel audio data playback apparatus and method to support dynamic format conversion
KR102076022B1 (ko) * 2015-04-30 2020-02-11 후아웨이 테크놀러지 컴퍼니 리미티드 오디오 신호 처리 장치 및 방법
CN107211229B (zh) * 2015-04-30 2019-04-05 华为技术有限公司 音频信号处理装置和方法
GB2548614A (en) * 2016-03-24 2017-09-27 Nokia Technologies Oy Methods, apparatus and computer programs for noise reduction
EP3324406A1 (en) 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a variable threshold
WO2020102156A1 (en) * 2018-11-13 2020-05-22 Dolby Laboratories Licensing Corporation Representing spatial audio by means of an audio signal and associated metadata
GB2580057A (en) * 2018-12-20 2020-07-15 Nokia Technologies Oy Apparatus, methods and computer programs for controlling noise reduction
CN109814406B (zh) * 2019-01-24 2021-12-24 成都戴瑞斯智控科技有限公司 一种轨道模型电控仿真***的数据处理方法及解码器架构
EP4005235A1 (en) 2019-07-30 2022-06-01 Dolby Laboratories Licensing Corporation Dynamics processing across devices with differing playback capabilities
US11968268B2 (en) 2019-07-30 2024-04-23 Dolby Laboratories Licensing Corporation Coordination of audio devices

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4669120A (en) * 1983-07-08 1987-05-26 Nec Corporation Low bit-rate speech coding with decision of a location of each exciting pulse of a train concurrently with optimum amplitudes of pulses
WO2000023986A1 (en) * 1998-10-22 2000-04-27 Washington University Method and apparatus for a tunable high-resolution spectral estimator
EP1164578A2 (en) * 1995-10-26 2001-12-19 Sony Corporation Speech decoding method and apparatus
WO2003092260A2 (en) * 2002-04-23 2003-11-06 Realnetworks, Inc. Method and apparatus for preserving matrix surround information in encoded audio/video
WO2005031707A1 (en) * 2003-10-01 2005-04-07 Siemens Aktiengesellschaft Speech coding method applying echo cancellation by modifying the codebook
CN1930914A (zh) * 2004-03-04 2007-03-14 艾格瑞***有限公司 参数多声道编码***中基于频率的音频声道编码
RU2008112226A (ru) * 2005-08-30 2009-10-10 ЭлДжи ЭЛЕКТРОНИКС ИНК. (KR) Способ кодирования и декодирования аудиосигнала и устройство для его осуществления
WO2009125046A1 (en) * 2008-04-11 2009-10-15 Nokia Corporation Processing of signals
CN101597021A (zh) * 2008-06-05 2009-12-09 弗劳恩霍夫应用研究促进协会 构造基片的器件层的方法
CN101689368A (zh) * 2007-03-30 2010-03-31 韩国电子通信研究院 对具有多声道的多对象音频信号进行编码和解码的设备和方法
EP2214162A1 (en) * 2009-01-28 2010-08-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Upmixer, method and computer program for upmixing a downmix audio signal
EP2218447A1 (en) * 2008-11-04 2010-08-18 PharmaSol GmbH Compositions containing lipid micro- or nanoparticles for the enhancement of the dermal action of solid particles
CN101952885A (zh) * 2008-02-14 2011-01-19 弗劳恩霍夫应用研究促进协会 用于同步多声道扩展数据与音频信号以及用于处理音频信号的装置和方法
CN101971249A (zh) * 2008-02-14 2011-02-09 弗劳恩霍夫应用研究促进协会 用于计算音频信号的指纹、用于同步、以及用于表征测试音频信号的装置和方法
WO2011048094A1 (en) * 2009-10-20 2011-04-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-mode audio codec and celp coding adapted therefore
CN102077276A (zh) * 2008-06-26 2011-05-25 法国电信公司 多声道音频信号的空间合成
CN102122508A (zh) * 2004-07-14 2011-07-13 皇家飞利浦电子股份有限公司 方法、装置、编码器设备、译码器设备和音频***

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7720230B2 (en) * 2004-10-20 2010-05-18 Agere Systems, Inc. Individual channel shaping for BCC schemes and the like
EP1853092B1 (en) * 2006-05-04 2011-10-05 LG Electronics, Inc. Enhancing stereo audio with remix capability
US8515759B2 (en) * 2007-04-26 2013-08-20 Dolby International Ab Apparatus and method for synthesizing an output signal
EP2254110B1 (en) 2008-03-19 2014-04-30 Panasonic Corporation Stereo signal encoding device, stereo signal decoding device and methods for them
CN102037507B (zh) 2008-05-23 2013-02-06 皇家飞利浦电子股份有限公司 参数立体声上混合设备、参数立体声译码器、参数立体声下混合设备、参数立体声编码器
EP2146344B1 (en) * 2008-07-17 2016-07-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding/decoding scheme having a switchable bypass
EP2154911A1 (en) * 2008-08-13 2010-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. An apparatus for determining a spatial output multi-channel audio signal
EP2175670A1 (en) * 2008-10-07 2010-04-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Binaural rendering of a multi-channel audio signal
MX2011011399A (es) * 2008-10-17 2012-06-27 Univ Friedrich Alexander Er Aparato para suministrar uno o más parámetros ajustados para un suministro de una representación de señal de mezcla ascendente sobre la base de una representación de señal de mezcla descendete, decodificador de señal de audio, transcodificador de señal de audio, codificador de señal de audio, flujo de bits de audio, método y programa de computación que utiliza información paramétrica relacionada con el objeto.
ES2733878T3 (es) * 2008-12-15 2019-12-03 Orange Codificación mejorada de señales de audio digitales multicanales
US8817991B2 (en) * 2008-12-15 2014-08-26 Orange Advanced encoding of multi-channel digital audio signals
KR101485462B1 (ko) * 2009-01-16 2015-01-22 삼성전자주식회사 후방향 오디오 채널의 적응적 리마스터링 장치 및 방법
CN101533641B (zh) * 2009-04-20 2011-07-20 华为技术有限公司 对多声道信号的声道延迟参数进行修正的方法和装置
TWI443646B (zh) * 2010-02-18 2014-07-01 Dolby Lab Licensing Corp 音訊解碼器及使用有效降混之解碼方法
CN102243876B (zh) * 2010-05-12 2013-08-07 华为技术有限公司 预测残差信号的量化编码方法及装置

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4669120A (en) * 1983-07-08 1987-05-26 Nec Corporation Low bit-rate speech coding with decision of a location of each exciting pulse of a train concurrently with optimum amplitudes of pulses
EP1164578A2 (en) * 1995-10-26 2001-12-19 Sony Corporation Speech decoding method and apparatus
WO2000023986A1 (en) * 1998-10-22 2000-04-27 Washington University Method and apparatus for a tunable high-resolution spectral estimator
WO2003092260A2 (en) * 2002-04-23 2003-11-06 Realnetworks, Inc. Method and apparatus for preserving matrix surround information in encoded audio/video
WO2005031707A1 (en) * 2003-10-01 2005-04-07 Siemens Aktiengesellschaft Speech coding method applying echo cancellation by modifying the codebook
CN1930914A (zh) * 2004-03-04 2007-03-14 艾格瑞***有限公司 参数多声道编码***中基于频率的音频声道编码
CN102122508A (zh) * 2004-07-14 2011-07-13 皇家飞利浦电子股份有限公司 方法、装置、编码器设备、译码器设备和音频***
RU2008112226A (ru) * 2005-08-30 2009-10-10 ЭлДжи ЭЛЕКТРОНИКС ИНК. (KR) Способ кодирования и декодирования аудиосигнала и устройство для его осуществления
CN101689368A (zh) * 2007-03-30 2010-03-31 韩国电子通信研究院 对具有多声道的多对象音频信号进行编码和解码的设备和方法
CN101952885A (zh) * 2008-02-14 2011-01-19 弗劳恩霍夫应用研究促进协会 用于同步多声道扩展数据与音频信号以及用于处理音频信号的装置和方法
CN101971249A (zh) * 2008-02-14 2011-02-09 弗劳恩霍夫应用研究促进协会 用于计算音频信号的指纹、用于同步、以及用于表征测试音频信号的装置和方法
WO2009125046A1 (en) * 2008-04-11 2009-10-15 Nokia Corporation Processing of signals
CN101597021A (zh) * 2008-06-05 2009-12-09 弗劳恩霍夫应用研究促进协会 构造基片的器件层的方法
CN102077276A (zh) * 2008-06-26 2011-05-25 法国电信公司 多声道音频信号的空间合成
EP2218447A1 (en) * 2008-11-04 2010-08-18 PharmaSol GmbH Compositions containing lipid micro- or nanoparticles for the enhancement of the dermal action of solid particles
EP2214162A1 (en) * 2009-01-28 2010-08-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Upmixer, method and computer program for upmixing a downmix audio signal
WO2011048094A1 (en) * 2009-10-20 2011-04-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-mode audio codec and celp coding adapted therefore

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
相干声学编码***——用于DTS多声道数字音频***;胡泽,等;《北京广播学院学报》;20021231;第21-33,42页 *

Also Published As

Publication number Publication date
SG11201500783SA (en) 2015-02-27
WO2014020182A3 (en) 2014-05-30
KR101657916B1 (ko) 2016-09-19
EP2880654A2 (en) 2015-06-10
BR112015002228B1 (pt) 2021-12-14
CA2880028C (en) 2019-04-30
AU2013298463A1 (en) 2015-02-19
RU2015107202A (ru) 2016-09-27
CN104885150B (zh) 2019-06-28
JP6133422B2 (ja) 2017-05-24
ES2649739T3 (es) 2018-01-15
RU2628195C2 (ru) 2017-08-15
CN104885150A (zh) 2015-09-02
JP2015528926A (ja) 2015-10-01
AU2016234987B2 (en) 2018-07-05
HK1210863A1 (zh) 2016-05-06
EP2880654B1 (en) 2017-09-13
PT2880654T (pt) 2017-12-07
PL2880654T3 (pl) 2018-03-30
BR112015002228A2 (pt) 2019-10-15
MX350690B (es) 2017-09-13
US20150142427A1 (en) 2015-05-21
MX2015001396A (es) 2015-05-11
MY176410A (en) 2020-08-06
ZA201501383B (en) 2016-08-31
US10096325B2 (en) 2018-10-09
CA2880028A1 (en) 2014-02-06
CN110223701A (zh) 2019-09-10
KR20150032734A (ko) 2015-03-27
WO2014020182A2 (en) 2014-02-06
AU2016234987A1 (en) 2016-10-20

Similar Documents

Publication Publication Date Title
CN110223701B (zh) 用于从缩混信号产生音频输出信号的解码器和方法
EP2483887B1 (en) Mpeg-saoc audio signal decoder, method for providing an upmix signal representation using mpeg-saoc decoding and computer program using a time/frequency-dependent common inter-object-correlation parameter value
US20080040103A1 (en) Temporal envelope shaping for spatial audio coding using frequency domain wiener filtering
KR101785187B1 (ko) 객체 특정 시간/주파수 분해능들을 이용한 혼합 신호로부터의 오디오 객체 분리
US10176812B2 (en) Decoder and method for multi-instance spatial-audio-object-coding employing a parametric concept for multichannel downmix/upmix cases
US10497375B2 (en) Apparatus and methods for adapting audio information in spatial audio object coding
KR20160029842A (ko) 변형된 출력 신호를 얻기 위해 인코딩된 오디오 신호를 디코딩하기 위한 장치 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant