CN105409247B - 用于音频信号处理的多声道直接-周围分解的装置及方法 - Google Patents
用于音频信号处理的多声道直接-周围分解的装置及方法 Download PDFInfo
- Publication number
- CN105409247B CN105409247B CN201380076335.5A CN201380076335A CN105409247B CN 105409247 B CN105409247 B CN 105409247B CN 201380076335 A CN201380076335 A CN 201380076335A CN 105409247 B CN105409247 B CN 105409247B
- Authority
- CN
- China
- Prior art keywords
- spectral density
- power spectral
- channel signals
- audio input
- input channel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 55
- 238000012545 processing Methods 0.000 title description 24
- 230000005236 sound signal Effects 0.000 title description 20
- 238000000354 decomposition reaction Methods 0.000 title description 16
- 230000003595 spectral effect Effects 0.000 claims abstract description 146
- 239000011159 matrix material Substances 0.000 claims description 79
- 238000004590 computer program Methods 0.000 claims description 14
- 238000004458 analytical method Methods 0.000 claims description 12
- 230000015572 biosynthetic process Effects 0.000 claims description 8
- 238000003786 synthesis reaction Methods 0.000 claims description 8
- 239000013598 vector Substances 0.000 claims description 6
- 230000001419 dependent effect Effects 0.000 claims description 5
- 230000007704 transition Effects 0.000 claims description 5
- 239000000654 additive Substances 0.000 claims description 4
- 230000000996 additive effect Effects 0.000 claims description 4
- 239000000758 substrate Substances 0.000 claims 2
- 230000001131 transforming effect Effects 0.000 claims 2
- 239000000306 component Substances 0.000 description 56
- 238000013459 approach Methods 0.000 description 6
- 238000001914 filtration Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000000926 separation method Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000000875 corresponding effect Effects 0.000 description 4
- 239000000203 mixture Substances 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 238000012216 screening Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 230000001052 transient effect Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 108010076504 Protein Sorting Signals Proteins 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000003321 amplification Effects 0.000 description 2
- 230000002238 attenuated effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000001427 coherent effect Effects 0.000 description 2
- 230000001276 controlling effect Effects 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000005314 correlation function Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 240000004752 Laburnum anagyroides Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000008358 core component Substances 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 210000000613 ear canal Anatomy 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000007654 immersion Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/028—Voice signal separating using properties of sound source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/02—Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/01—Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Mathematical Physics (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Algebra (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Stereophonic System (AREA)
- Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
Abstract
提供一种用于根据两个或更多个音频输入声道信号生成一个或多个音频输出声道信号的装置。两个或更多个音频输入声道信号中的每个包含直接信号部分及周围信号部分。该装置包含用于通过估计第一功率谱密度信息并通过估计第二功率谱密度信息来确定滤波器的滤波器确定单元(110)。此外,该装置包含用于通过将该滤波器应用于两个或更多个音频输入声道信号来生成一个或多个音频输出声道信号的信号处理器(120)。第一功率谱密度信息指示关于两个或更多个音频输入声道信号的功率谱密度信息,并且第二功率谱密度信息指示关于两个或更多个音频输入声道信号的周围信号部分的功率谱密度信息。或者,第一功率谱密度信息指示关于两个或更多个音频输入声道信号的功率谱密度信息,并且第二功率谱密度信息指示关于两个或更多个音频输入声道信号的直接信号部分的功率谱密度信息。或者,第一功率谱密度信息指示关于两个或更多个音频输入声道信号的直接信号部分的功率谱密度信息,并且第二功率谱密度信息指示关于两个或更多个音频输入声道信号的周围信号部分的功率谱密度信息。
Description
技术领域
本发明涉及用于音频信号处理的多声道直接-周围分解的装置及方法。
背景技术
音频信号处理变成愈来愈重要。在此领域中,将声音信号分离成直接声音信号及周围声音信号起到重要作用。
一般而言,声音由直接声与周围(或漫射)声的混合物组成。直接声由音源发出,例如乐器、歌手或扬声器,并且以最短可能路径到达接收器,例如收听者的耳道口或麦克风。
当收听直接声时感知为来自音源方向。用于定位及用于其它空间声音特性的相关听觉线索为双耳间电平差、双耳间时差及双耳间同调(interaural coherence)。造成相同的双耳间电平差及双耳间时差的直接声波被感知为来自相同方向。在无漫射声存在的情况下,到达左耳及右耳或任何其它多种传感器的信号为同调。
相反地,周围声由许多间隔音源或声音反射边界发出促成相同周围声。当声波到达室内壁面时,其部分被反射,并且在室内的全部反射的迭置(又称混迭)是周围声的杰作。其它实施例为听众声(例如掌声)、环境声(例如雨声)、及其它背景声(例如嘈杂人声)。周围声感知为漫射性,无法定位,并且由收听者造成包封印象(“浸没于声音内”)。当使用多个间隔传感器捕捉周围声场时,记录的信号至少部分为非同调。
声音后现及再现的各项应用可从音频信号分解成直接信号成分及周围信号成分获益。此种信号处理的主要挑战是针对任意数的输入声道信号及针对全部可能的输入信号特性,达成高度分离同时维持高音质。直接-周围分解(DAD)亦即音频信号分解成直接信号成分及周围信号成分许可信号成分的分开再现或修正,例如是音频信号的上混所期望的。
术语上混是指给定具有N声道的输入信号,产生具有P声道的信号的过程,其中,P>N。其主要应用在使用具有比较输入信号中可用的声道更多声道的环绕声设置以再现音频信号。通过使用改进信号处理算法再现内容,使收听者能够使用该多声道声音再现设置的全部可用声道。此种处理可将输入信号分解成有意义的信号成分(例如基于在立体影像中觉察的位置、直接声相较于周围声、单一乐器)或分解成此等信号成分衰减或加强的信号。
两个上混构思是广为人知的。
1.经引导上混:具有额外信息引导上混过程的上混。额外信息可以特定方式“编码”于该输入信号或可另行存储。
2.未经引导上混:没有任何额外信息,输出信号排它地得自音频输入信号。
就直接信号及周围信号的定位而言,改进上混法可进一步分类。可区分为“直接/周围法”及“频带内”办法。以直接/周围为基础的技术的核心成分是提取周围信号(其馈至例如多声道环绕声设置的后方声道或高度声道)。利用后方声道或高度声道再现周围信号引起收听者的包封印象(“浸没于声音内”)。此外,根据直接音源在立体全景中的觉察位置,直接音源可分散在前方声道。相反地,“频带内”办法针对将全部声音(直接声及周围声)使用全部可用的扬声器环绕该收听者定位。
将音频信号分解成直接信号及周围信号也许可例如通过缩放或滤波而分开修正周围声或直接声。一项使用情况是已经使用过高量周围声记录的音乐表演记录处理。另一项使用情况是制造音频(例如用于电影声音或音乐),其中,在不同位置记录的及因而具有不同周围声特性的音频信号被组合。
在任何情况下,此种信号处理的要求针对任意数目的输入声道信号及针对全部可能的输入信号特性达成高度分离同时维持高音质。
先前技术针对DAD或衰减或增强直接信号成分或周围信号成分曾经提出多个办法,简短综述如下。
已知的构思系涉及语音信号的处理,目标针对从麦克风记录中去除非期望的背景噪声。
衰减来自具有两个输入声道的语音记录的混响的方法描述于[1]中。通过衰减输入信号中的不相关(或漫射)信号成分可减少混响信号成分。处理时在时频域中实现,使得子带信号系利用频谱加权法处理。实数值加权因子使用功率谱密度(PSD)计算
φxx(m,k)=E{X(m,k)X*(m,k)} (1)
φyy(m,k)=E{Y(m,k)Y*(m,k)} (2)
φxy(m,k)=E{X(m,k)Y*(m,k)} (3)
其中,X(m,k)及Y(m,k)表示时域输入信号xt[n]及yt[n]的时频域表示型态,E{·}为预期运算,并且X*为X的复共轭。
原作者指出当与φxy(m,k)成正比时,例如当使用权值等于标准化交叉相关函数(或同调函数)时,不同的频谱加权函数为可行。
根据相似的理论基础,[2]描述的方法使用频谱加权(具有在频带计算的从标准化交叉相关函数获得的权重)来提取周围信号,参考式(4)(或原作者用词“声道间短时间同调函数”)。比较[1]的差异为替代衰减漫射件号成分,直接信号成分使用(1-ρ(m,k))的单调稳定函数的该等频谱权重来衰减。
使用多声道Wiener滤波,分解应用于具有二声道之输入信号的之上混应用已经描述于[3]。处理在时频域完成。输入信号系经模型化为周围信号与一个活性直接音源(每个频带)的混合物,其中,一个声道的直接信号限于为第二声道中的直接信号成分的缩放拷贝,亦即幅值筛选(panning)。筛选系数及直接信号及周围信号的功率使用标准化交叉相关及二声道的输入信号功率估计。直接输出信号及周围输出信号系从输入信号与实数值加权系数的组合得出。施加额外后缩放使得输出信号的功率等于估计量。
[4]中描述的方法根据周围功率估值而使用频谱加权提取周围信号。周围功率为估值,根据的假设包括二声道的直接信号成分为全然相关,周围声道信号彼此及与直接信号不相关,及二声道的周围功率为相等。
用于根据指向性音频编码(DirAC)的立体声信号的上混方法描述于[5]。DirAC针对到达方向、漫射性及一声场频谱的分析及再现。为了立体声输入信号的上混,仿真输入信号的无回声B-格式记录。
使用适应性滤波算法从立体声音提取不相关混迭的方法,旨在利用最小均方(LMS)算法,使用其它声道信号预测一个声道信号中的直接信号成分描述于[6]。接着从输入信号中减去估计得的直接信号而得到周围信号。本办法的理论基础为预测只针对相关信号有用,预测误差类似不相关信号。基于LMS原理的各种适应性滤波算法存在并且可行,例如LMS或标准化LMS(NLMS)算法。
针对具有多于两个声道的输入信号的分解,一种方法描述于[7],其中,多声道信号首先下混以获得2-声道立体声信号,并且随后应用[3]中呈示的用于处理立体声输入信号的方法。
针对单声道信号的处理,[8]描述的方法使用频谱加权提取周围信号,其中,频谱权重使用特征提取及监督学习计算。
另一种针对上混应用从单声道记录提取周围信号的方法从该输入信号的时频域表示与其压缩版本间的差获得时频域表示,较佳地使用非负矩阵因式分解来计算[9]。
已经产生混迭信号的混迭***的幅值转移函数的估计,提取与改变音频信号中的混迭信号成分的方法描述于[10]。信号成分的频域表示的幅值的估计利用递归过滤获得且可经修正。
发明内容
本发明的目的是提供用于音频信号处理的多声道直接-周围分解的改良构思。本发明的目的通过如权利要求1所述的装置、通过权利要求14所述的方法、及通过权利要求15所述的计算机程序加以解决。
提出一种用于根据两个或更多个音频输入声道信号生成一个或多个音频输出声道信号的装置。两个或更多个音频输入声道信号的每一个包含直接信号部分及周围信号部分。该装置包含用于通过估计第一功率谱密度信息及通过估计第二功率谱密度信息而确定一滤波器的滤波器确定单元。此外,该装置包含用于通过将该滤波器应用于两个或更多个音频输入声道信号来生成一个或多个音频输出声道信号的信号处理器。第一功率谱密度信息指示关于两个或更多个音频输入声道信号的功率谱密度信息,并且第二功率谱密度信息指示关于两个或更多个音频输入声道信号的周围信号部分的功率谱密度信息。或者第一功率谱密度信息指示关于两个或更多个音频输入声道信号的功率谱密度信息,并且第二功率谱密度信息指示关于两个或更多个音频输入声道信号的直接信号部分的功率谱密度信息。或者第一功率谱密度信息指示关于两个或更多个音频输入声道信号的直接信号部分的功率谱密度信息,并且第二功率谱密度信息指示关于两个或更多个音频输入声道信号的周围信号部分的功率谱密度信息。
实施例提出用于将音频输入信号分解成直接信号成分及周围信号成分的构思,其可应用于声音后现及再现。此种声音处理的主要挑战是针对任意数目的输入声道信号及针对全部可能的输入信号特性达成高度分离同时维持高音质。所提出的构思基于时频域的多声道信号处理,结果导致就均方差意义上的限制最佳解,及例如经历估计期望信号失真的限制,或残差干涉减少的限制。
提出用于将音频输入信号分解成直接信号成分及周围信号成分的实施例。此外,将提出计算周围信号成分的滤波器的导算,并且此外,描述滤波器的应用实施例。
若干实施例涉及遵照直接/周围办法的未经引导的上混,输入信号具有多于一个声道。
至于所描述分解的设想应用,关注于计算具有与输入信号等数声道的输出信号。针对此项应用,实施例就分离及音质而言提供极佳结果,原因在于其能够因应直接信号在输入声道间有时间延迟的直接信号。与其它构思相反,例如[3]提出的构思,实施例并不假设输入信号中的直接声仅通过缩放筛选(幅值筛选),同时也在各声道的直接信号间导入差异。
此外,与只能处理有一或二个声道的输入信号的先前技术的全部其它构思相反(参见上文),实施例能够在具有任意数声道的输入信号上操作。
实施例的其它优点是控制参数的使用、周围PSD矩阵的估计、及滤波器的进一步修正,容后详述。
有些实施例针对全部输入声音物体提供一致的周围声。当输入信号分解成直接及周围声时,有些实施例运用适当音频信号处理调适周围声特性,其它实施例利用人工混响及其它人工周围声来替代周围信号成分。
根据实施例,该装置可进一步包含分析滤波器组,其被配置为将两个或更多个音频输入声道信号从时域变换成时频域。该滤波器确定单元可被配置为根据以时频域表示的音频输入声道信号,通过估计该第一功率谱密度信息及该第二功率谱密度信息来确定该滤波器。该信号处理器可被配置为通过将该滤波器应用于以时频域表示的两个或更多个音频输入声道信号上来生成以时频域表示的一个或多个音频输出声道信号。此外,该装置可进一步包含合成滤波器组,其被配置为将以时频域表示的一个或多个音频输出声道信号从时频域变换成时域。
再者,提出一种根据两个或更多个音频输入声道信号生成一个或多个音频输出声道信号的方法。两个或更多个音频输入声道信号的每一个包含直接信号部分及周围信号部分。该方法包含:
-通过估计第一功率谱密度信息及通过估计第二功率谱密度信息来确定滤波器。以及
-通过将该滤波器应用于两个或更多个音频输入声道信号来生成一个或多个音频输出声道信号。
第一功率谱密度信息指示关于两个或更多个音频输入声道信号的功率谱密度信息,并且第二功率谱密度信息指示关于两个或更多个音频输入声道信号的周围信号部分的功率谱密度信息。或第一功率谱密度信息指示关于两个或更多个音频输入声道信号的功率谱密度信息,并且第二功率谱密度信息指示关于两个或更多个音频输入声道信号的直接信号部分的功率谱密度信息。或第一功率谱密度信息指示关于两个或更多个音频输入声道信号的直接信号部分的功率谱密度信息,并且二功率谱密度信息指示关于两个或更多个音频输入声道信号的周围信号部分的功率谱密度信息。
再者,提出当在计算机或信号处理器上执行时用于实施前述方法的一种计算机程序。
附图说明
下文中,将参考附图更加详细地描述本发明的实施例,其中:
图1示出了根据实施例的根据两个或更多个音频输入声道信号生成一个或多个音频输出声道信号的装置,
图2示出了根据实施例的古典音乐的5-声道记录的分解的输入及输出信号,具有输入信号(左栏)、周围输出信号(中栏)、及直接输出信号(右栏),
图3描绘了根据实施例的使用周围信号估计及直接信号估计的分解的基本概述,
图4示出了根据实施例的使用直接信号估计的分解的基本概述,
图5示出了根据实施例的使用周围信号估计的分解的基本概述,
图6a示出了另一实施例的装置,其中该装置进一步包含分析滤波器组及合成滤波器组,及
图6b描绘了根据又一实施例的装置,示出了直接信号成分的提取,其中,方块AFB为N个分析滤波器组(每个声道各一个)的集合,并且其中方块SFB为合成滤波器组的集合。
具体实施方式
图1示出了根据实施例的根据两个或更多个音频输入声道信号生成一个或多个音频输出声道信号的装置。两个或更多个音频输入声道信号中的每个包含直接信号部分及周围信号部分。
该装置包含通过估计第一功率谱密度信息及通过估计第二功率谱密度信息来确定一滤波器的滤波器确定单元110。
此外,该装置包含通过将该滤波器应用于两个或更多个音频输入声道信号来生成一个或多个音频输出声道信号的信号处理器120。
第一功率谱密度信息指示关于两个或更多个音频输入声道信号的功率谱密度信息,并且第二功率谱密度信息指示关于两个或更多个音频输入声道信号的周围信号部分上的功率谱密度信息。
或者,第一功率谱密度信息指示关于两个或更多个音频输入声道信号的功率谱密度信息,并且第二功率谱密度信息指示关于两个或更多个音频输入声道信号的直接信号部分的功率谱密度信息。
或者,第一功率谱密度信息指示关于两个或更多个音频输入声道信号的直接信号部分的功率谱密度信息,并且第二功率谱密度信息指示关于两个或更多个音频输入声道信号的周围信号部分的功率谱密度信息。
描述实施例提供将音频输入信号分解成直接信号成分及周围信号成分的构思可应用声音后现及再现。此种信号处理的主要挑战为针对任意数目的输入声道信号及针对全部可能的输入信号特性达成高度分离,同时维持高音质。所提供的实施例基于在时频域内的多声道信号处理,并提供在均方差方面的最佳解,表示估计期望信号的失真有限或残差干涉的减少。
首先,描述本发明的实施例基于其的发明构思。
假设接收N个输入声道信号yt[n]:
yt[n]=[y1[n]…yN[n]]T. (5)
例如,N≥2。所提供的构思的目的是将输入声道信号y1[n]...yN[n](=[yi[n]]T)分解成表示为dt[n]=[d1[n]...dN[n]]T的N个直接信号成分及/或表示为at[n]=[a1[n]...aN[n]]T的N个周围信号成分。处理可施用于全部输入声道,或输入信号声道被划分成分开处理的声道子集。
根据实施例,直接信号成分d1[n],...,dN[n]中之一或多个及/或周围信号成分a1[n],...,aN[n]中之一或多个应从两个或更多个输入声道信号y1[n],...,yN[n]估计以获得直接信号成分d1[n],...,dN[n]及/或周围信号成分a1[n],...,aN[n]中的一个或多个估计作为一个或多个输出声道信号。
针对N=5,所提供的若干实施例的输出的一实施例描绘于图2。一个或多个音频输
出声道信号 通过独立地估
计直接信号成分及周围信号成分获得,如图3描绘。可替代地,针对两个信号(dt[n]或at[n])
中的一个的估值(或)被求出,而另一信号从输入信号减去第一结果获得。图4使
出了首先估计直接信号成分dt[n],并通过从输入信号减去直接信号推导出周围信号成分at
[n]的处理。同理,首先推导周围信号成分的估计,如图5的方块图所示。
依据实施例,处理例如可在时频域进行。输入音频信号的时频域表示例如可利用滤波器组(分析滤波器组)获得,例如短时间傅里叶变换(STFT)。
在图6a的实施例中,分析滤波器组605被配置为将两个或更多个音频输入声道信号从时域变换成时频域。滤波器确定单元110被配置为根据以时频域表示的音频输入声道信号,通过估计第一功率谱密度信息及第二功率谱密度信息而确定该滤波器。信号处理器120被配置为通过将该滤波器应用于以时频域表示的两个或更多个音频输入声道信号而生成以时频域表示的一个或多个音频输出声道信号。合成滤波器组625被配置为将以时频域表示的一个或多个音频输出声道信号从时频域变换成时域。
时频域表示包括某个数目的子带信号,其随着时间演进。相邻的子带选择性地可线性组合成较宽的子带信号以减低计算复杂度。输入信号的各个子带分开处理,容后详述。时域输出信号通过应用滤波器组的反处理(亦即合成滤波器组)获得。全部信号皆假设具有零平均值,时频域信号可模型化为复随机变量。
后文中将提供定义及假设。
下列定义用于修订方法的全文说明中:具有N个声道的多声道输入信号的时频域表示给定为
y(m,k)=[Y1(m,k)Y2(m,k)…YN(m,k)]T, (6)
具有时间指数m及子带指数k,k=1…K,且假设为直接信号成分d(m,k)与周围信号成分a(m,k)的加法混合物,亦即
y(m,k)=d(m,k)+a(m,k), (7)
具有
d(m,k)=[D1(m,k)D2(m,k)…DN(m,k)]T (8)
a(m,k)=[A1(m,k)A2(m,k)…AN(m,k)]T, (9)
其中,Di(m,k)表示第i个声道的直接成分而Ai(m,k)表示周围成分。
直接-周围分解的目的是估计d(m,k)及a(m,k)。输出信号使用滤波器矩阵HD(m,k)或HA(m,k)或二者计算。滤波器矩阵具有N×N的大小且为复数值,或者在若干实施例中,例如可为实数值。直接信号成分及周围信号成分的N声道信号的估值得自
可替代地,可使用仅一个滤波器矩阵,及图4示出的减法分别可表示为
其中,I为N×N大小的身分矩阵,或分别如图5所示。
在前文中,式(10)至(15),y(m,k)指示两个或更多个音频输入声道信号,指示音频输入声道信号的周围信号部分的估计,及指示直接信号部分的估计。及/或或及/或中的一个或多个向量成分可为一个或多个音频输出声道信号。
式(10)、(11)、(12)、(13)、(14)及(15)中的一个、部分或全部可由图1及图6a的信号处理器120以将图1及图6a的滤波器应用于音频输入声道信号上。图1及图6a的滤波器例如可为HD(m,k)、HA(m,k)、 [I-HD(m,k)]或[I-HA(m,k)]。但在其它实施例中,由滤波器确定单元110所确定的且由信号处理器120所采用的滤波器可能不是矩阵而为另一种滤波器。举例言之,在其它实施例中,该滤波器可包含定义该滤波器的一个或多个向量。在又一实施例中,该滤波器可包含定义该滤波器的多个系数。
滤波器矩阵从后述信号统计的估值计算。
更具体地,滤波器确定单元110被配置为通过估计第一功率谱密度(PSD)信息及第二PSD信息确定该滤波器。
定义:
其中,E{·}为预期操作数及X*表示X的共轭复数。对于i=j,获得PSD,及对于i≠j,获得交叉PSD。
y(m,k)、d(m,k)及a(m,k)的协方差矩阵为
Φy(m,k)=E{y(m,k)yH(m,k)} (17)
Φd(m,k)=E{d(m,k)dH(m,k)} (18)
Φa(m,k)=E{a(m,k)aH(m,k)}. (19)
协方差矩阵Φy(m,k)、Φd(m,k)及Φa(m,k)在主对角线上包含针对全部声道的PSD的估值,而非对角线元素为各个声道信号的交叉PSD估值。因此,矩阵Φy(m,k)、Φd(m,k)及Φa(m,k)各自表示功率谱密度信息的估计。
在式(17)至(19)中,Φy(m,k)指示关于两个或更多个音频输入声道信号的功率谱密度信息。Φd(m,k)指示关于两个或更多个音频输入声道信号的直接信号成分的功率谱密度信息。Φa(m,k)指示关于两个或更多个音频输入声道信号的周围信号成分的功率谱密度信息。
式(17)、(18)及(19)的矩阵Φy(m,k)、Φd(m,k)及Φa(m,k)各自可视为功率谱密度信息。但须注意在其它实施例中,第一及第二功率谱密度信息并非矩阵,反而可以任何其它合宜形式表示。举例言之,依据实施例,第一及第二功率谱密度信息可表示为一个或多个向量。在又一实施例中,第一及第二功率谱密度信息可表示为多个系数。
假设
●Di(m,k)与Ai(m,k)彼此为不相关:
●Ai(m,k)与Aj(m,k)彼此为不相关:
●全部声道中的周围功率相等:
结果保有Φy(m,k)=Φd(m,k)+Φa(m,k), (20)
Φa(m,k)=ΦA(m,k)IN×N, (21)
由于式(20)的结果,接着当确定矩阵Φy(m,k)、Φd(m,k)及Φa(m,k)中的两个矩阵时,则矩阵中的第三个立即可得。至于又一结果,接着只确定下述即足:
-关于两个或更多个音频输入声道信号上的功率谱密度信息,及关于两个或更多个音频输入声道信号的周围信号部分的功率谱密度信息,或
-两个或更多个音频输入声道信号的功率谱密度信息,及两个或更多个音频输入声道信号的直接信号部分的功率谱密度信息,或
-两个或更多个音频输入声道信号的直接信号部分的功率谱密度信息,及两个或更多个音频输入声道信号的周围信号部分的功率谱密度信息,
原因在于第三功率谱密度信息(尚未经估计)从三种功率谱密度信息的关系变得即刻显然易知,例如通过式(20)或通过三种功率谱密度信息(完整输入信号的PSD、周围成分的PSD、及直接成分的PSD)的关系的任何其它改写,此时三种PSD信息并非表示为矩阵,反而是以另一种合宜表示获得,例如呈一个或多个向量,或例如呈多个系数等。
为了评估所修订方法的效能,定义下列信号:
●直接信号失真:
qd(m,k)=[I-HD(m,k)]Hd(m,k),
●残差周围信号:
●周围信号失真:
qa(m,k)=[I-HA(m,k)]Ha(m,k),
●残差直接信号:
后文中,根据图4及根据图5描述滤波器矩阵的偏差如下。为了获得更佳可读性,舍弃子带指数及时间指数。
首先,描述直接信号成分估计的实施例。
所修订方法的理论基础为计算滤波器使得残差周围信号ra为最小化,同时限制直接信号失真qd。者导致限制优化问题
HD(βi)=[Φd+βiΦa]-1Φd. (23)
用于计算第i声道的直接输出信号的滤波器等于
hD,i(βi)=[Φd+βiΦa]-1Φdui. (24)
其中,ui为在第i个位置具有1的长度为N的零向量。参数βi许可残差周围信号减低与周围信号失真间的折衷。针对图4描绘的***,直接输出信号中较低残差周围电平结果导致周围输出信号中较高的周围电平。较小直接信号失真结果导致周围输出信号中直接信号成分较佳的衰减。时间及频率相依性参数βi可针对各个声道分开设定,且可通过输入信号或因而得出的信号来控制;容后详述。
须注意通过将限制最佳问题公式化为如下可获得类似解
须注意Φd为序数一的陈述只是假设。无论实际上此假设是否为真,本发明的实施例采用上式(26)、(27)及(28),即便实际上Φd的确切结果为Φd非为序数一的情况也是如此。在此等情况下,即使Φd为序数一的假设在实际上不是真,本发明的实施例也可获得良好结果。
后文中,描述周围信号成分的估计。
所修订方法的理论基础为计算滤波器使得残差直接信号rd为最小化,同时限制周围信号失真qa。这导致限制优化问题
HA(βi)=[βiΦd+Φa]-1Φa, (30)
用于计算第i声道的周围输出信号的滤波器等于
hA,i(βi)=[βiΦd+Φa]-1Φaui. (31)
后文中,实施例以实现本发明的构思的细节提供。
为了确定功率谱密度信息,例如音频输入声道信号的PSD矩阵Φy可使用短时间移动平均或递归平均直接估计。周围PSD矩阵Φa例如可如下述估计。直接PSD矩阵Φd然后可使用式(20)求出。
后文中,再度假设各个子带中(单一直接音源)一次不多于一个直接音源为作用态(active),并且结果Φd为序数一。
须注意不多于一个的直接音源为作用态并且Φd为序数一的陈述只是假设。无论实际上此等假设是否为真,本发明的实施例采用下式,更明确言之式(32)及(33),即便其中,实际上不多于一个直接音源为作用态并且即便实际上,Φd的确切结果使得Φd不是序数一的情况下也是如此。在此等情况下,本发明的实施例也可提供良好结果,即使实际上不多于一个的直接音源为作用态并且Φd为序数一的假设不是真也是如此。
因此,假设不多于一个的直接音源为作用态,并且Φd为序数一,式(23)可被写成
式(33)提供式(22)的该限制优化问题的解。
在上式(32)及(33)中,Φa -1为Φa的逆矩阵。显然Φa -1也指示关于两个或更多个音频输入声道信号的周围信号部分的功率谱密度信息。
为了确定HD(βi),必须确定Φa -1及Φa。当得知Φa时,能够立刻确定Φa -1。λ根据式(27)及(28)定义,当得知Φa -1及Φa时可得知λ值。除了确定Φa -1、Φa及λ之外,必须选定βi的适合值。
再者,式(33)可改写(参考式(20)),使得:
并且因此使得只须确定关于音频输入声道信号的PSD信息Φy及关于音频输入声道信号的直接信号部分的PSD信息Φd。
此外,式(33)可改写(参考式(20)),使得:
并且因此使得只须确定关于音频输入声道信号的周围信号部分的PSD信息Φa -1及关于音频输入声道信号的直接信号部分的PSD信息Φd。
此外,式(33)可经改写使得:
并且因此使得确定HA(βi)。
式(33c)给式(29)的限制优化问题提供解。
同理,式(33a)及(33b)可改写为:
或改写为:
须注意通过确定HD(βi),滤波器HA(βi)立刻可得知为:HA(βi)=IN×N-HD(βi)。
此外,须注意通过确定HA(βi),滤波器HD(βi)立刻可得知为:HD(βi)=IN×N-HA(βi)。
如前文陈述,为了确定HD(βi),例如根据式(33),可确定Φy及Φd:
音频信号的PSD矩阵Φy(m,k)例如可通过使用递归平均直接估计
Φy(m,k)=(1-α)y(m,k)yH(m,k)+αΦy(m-1,k), (34a)
其中,α为确定积分时间的滤波系数,或
例如通过使用短时间移动加权平均
Φy(m,k)=b0·y(m,k)yH(m,k)+b1·y(m-1,k)yH(m-1,k)
+b2·y(m-2,k)yH(m-2,k)+...+bL·y(m-L,k)yH(m-L,k) (34b)
其中,L为例如用于PSD的计算的过去值的数目,并且b0…bL为例如于[01]的范围(例如0≤滤波系数≤1)的滤波系数,或
现在描述依据实施例估计周围PSD矩阵Φa。
该周围PSD矩阵Φa由下式给定
其中,参数g控制周围功率量,及0<g<1。
虽然tr{Φy}可使用例如式(34a)的递归积分或使用例如式(34b)的短时间移动加权平均直接计算,但tr{Φd}估计为
可替代地,通过选择两个输入声道信号并且只针对一对信号声道估计可对N>2计算PSD当应用本程序至多于一对输入声道信号并组合其结果(例如通过求估值的总平均)时可获得更准确结果。通过先验地利用有关具有类似周围功率的声道,例如通过分开地估计5.1记录的全部前声道及全部后声道中的周围功率,可选定子集。
此外,须注意从式(20)及(35),接着
依据若干实施例,Φd通过确定(例如根据式(35),或式(36)或根据式(37)至(40))及通过采用式(35a)以获得关于音频输入声道信号的周围信号部分的功率谱密度信息而予确定。然后,例如通过采用式(33a)可确定HD(βi)。
后文中,考虑参数βi的选择。
βi为折衷参数。折衷参数βi为一数字。
在若干实施例中,只确定一个折衷参数βi其针对全部音频输入声道信号为有效,并且此折衷参数然后被考虑为音频输入声道信号的折衷信息。
在其它实施例中,针对两个或更多个音频输入声道信号各自确定一个折衷参数βi,并且然后,音频输入声道信号的两个或更多个折衷参数一起形成折衷信息。
在进一步实施例中,折衷信息可不表示为一参数,反而以不同种适当形式表示。
如前记,参数βi允许周围信号减低与直接信号失真间的折衷。如图6b所示,其可选择为常数或信号相关的。
图6b示出根据又一实施例的装置。该装置包含分析滤波器组605用于将音频输入声道信号yt[n]从时域变换成时频域。此外,该装置包含合成滤波器组625用于将一个或多个音频输出声道信号(例如音频输入声道信号的估计直接信号成分)从时频域变换成时域。
多个K个β确定单元1111、…、11K1(“计算β”)确定参数βi。此外,多个K个子滤波器确定单元1112、…、11K2确定子滤波器根据特定实施例,多个β确定单元1111、…、11K1及多个子滤波器确定单元1112、…、11K2一起形成图1及图6a的滤波器确定单元110。根据特定实施例,多个子滤波器一起形成图1及图6a的滤波器。
此外,图6b示出多个信号子处理器121、…、12K,其中各个信号子处理器121、…、12K被配置为将子滤波器中的一个应用至音频输入声道信号以获得音频输出声道信号中的一个。根据特定实施例,多个信号子处理器121、…、12K一起形成图1及图6a的信号处理器。
后文中,描述利用信号分析来控制参数βi的不同使用情况。
首先,考虑过渡信号(transient signal)。
根据实施例,滤波器确定单元110被配置为根据过渡是否存在于两个或更多个音频输入声道信号中的至少一个中来确定折衷信息(βi,βj)。
输入PSD矩阵的估计对静态信号的效果最佳。另一方面,过渡输入信号的分解可能导致过渡信号成分泄漏至周围输出信号中。就非静态或过渡存在机率的程度而言,利用信号分析控制βi,使得当信号包含过渡时βi为较小,而当应用滤波器HD(βi)时持久部分为较大:结果导致更为一致的输出信号。就非静态或过渡存在机率的程度而言,利用信号分析控制βi,使得当信号包含过渡时βi为较大,而当应用滤波器HA(βi)时持久部分为较小:结果导致更为一致的输出信号。
现在考虑非期望周围信号。
在实施例中,滤波器确定单元110被配置为根据加性噪声是否存在于至少一个信号声道(两个或更多个音频输入声道信号中的一个通过其传输)中来确定折衷信息(βi,βj)。
所提出的方法分解输入信号而与周围信号成分的本质无关。当输入信号已经通过噪声信号声道传输时,有利地地估计非期望的加性噪声存在的机率并控制βi使得输出DAR(直接对周围比)增加。
现在描述控制输出信号的电平。
为了控制输出信号的电平,可针对第i声道分开设定βi。计算第i声道的周围输出信号的滤波器通过式(31)给定。
针对任意两个声道,给定βi可计算βi使得在第i及第j输出声道的残差周围信号ra,i及ra,j的PSD为相等,亦即
或
(ui-hD,i(βi))HΦa(ui-hD,i(βi))
=(uj-hD,j(βj))HΦa(uj-hD,j(βj)). (42)
现在考虑使用筛选信息。
对两个输入声道的情况,筛选信息定量每个子带两个声道间的电平差。可应用筛选信息以控制βi来控制感知的输出信号宽度。
后文中,考虑等化输出周围声道信号。
所描述的处理并不确保全部输出周围声道信号具有相等子带功率。为了确保全部输出周围声道信号具有相等子带功率,针对使用前述滤波器HD的实施例,滤波器系如后文描述修正。周围输出信号的协方差矩阵(在主对角线上包含各个声道的自动-PSD)可获得为
其中,G为对角矩阵,其在主对角线上的元素为
针对使用前述滤波器HA的实施例,周围输出信号的协方差矩阵(在主对角线上的包含各个声道的自动-PSD)可获得为
虽然已经在装置的背景下描述了若干方面,但显然这些方面也表示对应方法的描述,其中,方块或装置对应于方法步骤或方法步骤的特征。同理,在方法步骤的背景下描述的方面也表示对应装置的对应方块或项目或特征的描述。
本发明的已分解信号可存储于数字储存媒体上,或可在传输媒体(诸如无线传输媒体或有线传输媒体,诸如因特网)上传输。
根据特定实施要求,本发明的实施例可以以硬件或软件实施。该实施可使用具有存储于其上的可电子读取控制信号的数字存储媒体执行,例如软盘、DVD、CD、ROM、PROM、EPROM、EEPROM、或闪存,其与可编程计算机***协作(或能够协作)以执行相应方法。
根据本发明的若干实施例包含一种具有可电子读取控制信号的非瞬时数据载体,其能够与可编程计算机***协作,使得执行本文描述的方法中的一个。
一般而言,本发明的实施例可实施为具有程序代码的计算机程序产品,当该计算机程序产品在计算机上运行时该程序代码可操作为执行方法中的一种。程序代码例如可存储于机器可读取载体上。
其它实施例包含存储于机器可读取载体上的用于执行方法中的一种的计算机程序。
因此,换言之,本发明方法的实施例为计算机程序,其具有用于当该计算机程序在计算机上运行时执行方法中的一种的程序代码。
本发明方法的又一实施例因而为数据载体(或数字储存媒体,或计算机可读取媒体)包含用于执行本文描述的方法中的一个的计算机程序。
本发明方法的又一实施例因而为一种表示用于执行本文描述的方法中的一种的计算机程序的数据流或信号序列。该数据流或信号序列例如可被配置为通过数据通信连接(例如通过因特网)传送。
又一实施例包含被配置为或适配为执行本文描述的方法中的一个的处理构件,例如计算机或可编程逻辑设备。
又一实施例包含计算机具有安装在其上的用于执行本文描述的方法中的一种的计算机程序。
在若干实施例中,可编程逻辑设备(例如现场可编程门阵列)可用于执行本文描述的方法的部分或全部功能。在若干实施例中,现场可编程门阵列可与微处理器协作以执行本文描述的方法中的一种。一般而言,这些方法优选地通过任何硬件装置来执行。
前述实施例仅为了说明本发明的原理。应理解,本文描述的布置和细节的修改和变化对于本领域技术人员而言将是显而易见的。因此,意图本发明的范围仅受待审权利要求的范围所限而不受通过本文中实施方式的描述和说明呈现的具体细节的限制。
参考文献
[1]J.B.Allen,D.A.Berkeley,和J.Blauert,"Multimicrophone signal-processing technique to remove room reverberation from speech signals",J.Acoust.Soc.Am.,vol.62,1977.
[2]C.Avendano和J.-M.Jot,"A frequency-domain approach to multi-channelupmix”,J.Audio Eng.Soc.,vol.52,2004.
[3]C.Faller,"Multiple-loudspeaker playback of stereo signals",J.AudioEng.Soc.,vol.54,2006.
[4]J.Merimaa,M.Goodwin,和J.-M.Jot,"Correlation-based ambienceextraction from stereo recordings”,in Proc.of the AES 123rd Conv.,2007.
[5]Ville Pulkki,"Directional audio coding in spatial soundreproduction and stereo upmixing",in Proc.of the AES 28th Int.Conf.,2006.
[6]J.Usher和J.Benesty,"Enhancement of spatial sound quality:A newreverberation-extraction audio upmixer",IEEE Tram.on Audio,Speech.andLanguage Processing,vol.l5,pp.2141-2150,2007.
[7]A.Walther和C.Faller,"Direct-ambient decomposition and upmix ofsurround sound signals",in Proc.of IEEE WASPAA,2011.
[8]C.Uhle,J.Herre,S.Geyersberger,F.Ridderbusch,A.Walter;和O.Moser,"Apparatus and method for extracting an ambient signal in an:apparatus andmethod for obtaining weighting coefficients for extracting an ambient signaland computer program",美国专利申请2009/0080666,2009.
[9]C.Uhle,J.Herre,A.Walther,O.Hellmuth,和C.Janssen,"Apparatus andmethod for generating an ambient signal from an audio signal,apparatus andmethod for deriving a multi-channel audio signal from an audio signal andcomputer program",美国专利申请2010/0030563,2010.
[10]G.Soulodre,"System for extracting and changing the reverberantcontent of an audio input signal",美国专利8,036,767,授权日期:2011年10月11日。
Claims (14)
1.一种用于根据两个或更多个音频输入声道信号生成一个或多个音频输出声道信号的装置,其中,所述两个或更多个音频输入声道信号的每一个包含直接信号部分及周围信号部分,其中,所述装置包含:
滤波器确定单元(110),被配置为通过估计第一功率谱密度信息并通过估计第二功率谱密度信息来计算一滤波器,其中,所述滤波器取决于所述第一功率谱密度信息并且取决于所述第二功率谱密度信息,其中,所述滤波器确定单元(110)被配置为根据所述两个或更多个音频输入声道信号中的至少一个通过估计所述第一功率谱密度信息、通过估计所述第二功率谱密度信息、并通过确定折衷信息(βi,βj)来计算所述滤波器,以及
信号处理器(120),被配置为通过将所述滤波器应用于所述两个或更多个音频输入声道信号来确定所述一个或多个音频输出声道信号,其中,所述一个或多个音频输出声道信号取决于所述滤波器,
其中,所述第一功率谱密度信息指示关于所述两个或更多个音频输入声道信号的功率谱密度信息,并且所述第二功率谱密度信息指示关于所述两个或更多个音频输入声道信号的周围信号部分的功率谱密度信息,或者
其中,所述第一功率谱密度信息指示关于所述两个或更多个音频输入声道信号的功率谱密度信息,并且所述第二功率谱密度信息指示关于所述两个或更多个音频输入声道信号的直接信号部分的功率谱密度信息,或者
其中,所述第一功率谱密度信息指示关于所述两个或更多个音频输入声道信号的所述直接信号部分的功率谱密度信息,并且所述第二功率谱密度信息指示关于所述两个或更多个音频输入声道信号的所述周围信号部分的功率谱密度信息。
2.根据权利要求1所述的装置,
其中,所述装置进一步包含用于将所述两个或更多个音频输入声道信号从时域变换到时频域的分析滤波器组(605),
其中,所述滤波器确定单元(110)被配置为通过根据以所述时频域表示的所述音频输入声道信号估计所述第一功率谱密度信息和所述第二功率谱密度信息来确定所述滤波器,
其中,所述信号处理器(120)被配置为通过将所述滤波器应用于以所述时频域表示的所述两个或更多个音频输入声道信号来生成以所述时频域表示的所述一个或多个音频输出声道信号,并且
其中,所述装置进一步包含用于将以所述时频域表示的所述一个或多个音频输出声道信号从所述时频域变换成所述时域的合成滤波器组(625)。
3.根据权利要求1所述的装置,其中,所述滤波器确定单元(110)被配置为根据一过渡是否存在于所述两个或更多个音频输入声道信号中的至少一个中来确定所述折衷信息(βi,βj)。
4.根据权利要求1所述的装置,其中,所述滤波器确定单元(110)被配置为根据加性噪声是否存在于至少一个信号声道中来确定所述折衷信息(βi,βj),所述两个或更多个音频输入声道信号中的一个通过所述至少一个信号声道来传输。
5.根据权利要求1所述的装置,
其中,所述滤波器确定单元(110)被配置为根据第一矩阵(Φy)来确定关于所述两个或更多个音频输入声道信号的功率谱密度信息,所述第一矩阵(Φy)在所述第一矩阵(Φy)的主对角线上包含对所述两个或更多个音频输入声道信号中的每个声道信号的功率谱密度的估计,并且所述滤波器确定单元(110)被配置为根据第二矩阵(Φa)或根据所述第二矩阵(Φa)的逆矩阵(Φa -1)来确定关于所述两个或更多个音频输入声道信号的所述周围信号部分的功率谱密度信息,所述第二矩阵(Φa)在所述第二矩阵(Φa)的主对角线上包含对所述两个或更多个音频输入声道信号中的每个声道信号的所述周围信号部分的功率谱密度的估计,或者
其中,所述滤波器确定单元(110)被配置为根据所述第一矩阵(Φy)来确定关于所述两个或更多个音频输入声道信号的功率谱密度信息,并且被配置为根据第三矩阵(Φd)或根据所述第三矩阵(Φd)的逆矩阵(Φd -1)来确定关于所述两个或更多个音频输入声道信号的所述直接信号部分的功率谱密度信息,所述第三矩阵(Φd)在所述第三矩阵(Φd)的主对角线上包含对所述两个或更多个音频输入声道信号中的每个声道信号的所述直接信号部分的功率谱密度的估计,或者
其中,所述滤波器确定单元(110)被配置为根据所述第二矩阵(Φa)或根据所述第二矩阵(Φa)的逆矩阵(Φa -1)来确定关于所述两个或更多个音频输入声道信号的所述周围信号部分的功率谱密度信息,并且被配置为根据所述第三矩阵(Φd)或根据所述第三矩阵(Φd)的逆矩阵(Φd -1)来确定关于所述两个或更多个音频输入声道信号的所述直接信号部分的功率谱密度信息。
6.根据权利要求5所述的装置,
其中,所述滤波器确定单元(110)被配置为确定所述第一矩阵(Φy)以确定关于所述两个或更多个音频输入声道信号的功率谱密度信息,并且被配置为确定所述二矩阵(Φa)或所述第二矩阵(Φa)的逆矩阵(Φa -1)以确定关于所述两个或更多个音频输入声道信号的所述周围信号部分的功率谱密度信息,或者
其中,所述滤波器确定单元(110)被配置为确定所述第一矩阵(Φy)以确定关于所述两个或更多个音频输入声道信号的功率谱密度信息,并且被配置为确定所述第三矩阵(Φd)或所述第三矩阵(Φd)的逆矩阵(Φd -1)以确定关于所述两个或更多个音频输入声道信号的所述直接信号部分的功率谱密度信息;或者
其中,所述滤波器确定单元(110)被配置为确定所述第二矩阵(Φa)或所述第二矩阵(Φa)的逆矩阵(Φa -1),以确定关于所述两个或更多个音频输入声道信号的周围信号部分的功率谱密度信息,并且被配置为确定所述第三矩阵(Φd)或所述第三矩阵(Φd)的逆矩阵(Φd -1),以确定关于所述两个或更多个音频输入声道信号的所述直接信号部分的功率谱密度信息。
8.根据权利要求1所述的装置,其中,所述滤波器确定单元(110)被配置为针对所述两个或更多个音频输入声道信号中的每一个确定折衷参数(βi,βj)作为所述折衷信息(βi,βj),其中,所述音频输入声道信号中的每一个的所述折衷参数(βi,βj)取决于所述音频输入声道信号。
13.一种用于根据两个或更多个音频输入声道信号生成一个或多个音频输出声道信号的方法,其中,所述两个或更多个音频输入声道信号中的每一个包含直接信号部分及周围信号部分,其中,所述方法包含:
通过估计第一功率谱密度信息并通过估计第二功率谱密度信息来计算一滤波器,其中,所述滤波器取决于所述第一功率谱密度信息并且取决于所述第二功率谱密度信息,其中,根据所述两个或更多个音频输入声道信号中的至少一个通过估计所述第一功率谱密度信息、通过估计所述第二功率谱密度信息、并通过确定折衷信息(βi,βj)来计算所述滤波器,以及
通过将所述滤波器应用于所述两个或更多个音频输入声道信号来生成所述一个或多个音频输出声道信号,其中,所述一个或多个音频输出声道信号取决于所述滤波器,
其中,所述第一功率谱密度信息指示关于所述两个或更多个音频输入声道信号的功率谱密度信息,并且所述第二功率谱密度信息指示关于所述两个或更多个音频输入声道信号的周围信号部分的功率谱密度信息,或者
其中,所述第一功率谱密度信息指示关于所述两个或更多个音频输入声道信号的功率谱密度信息,并且所述第二功率谱密度信息指示关于所述两个或更多个音频输入声道信号的直接信号部分的功率谱密度信息,或者
其中,所述第一功率谱密度信息指示关于所述两个或更多个音频输入声道信号的所述直接信号部分的功率谱密度信息,并且所述第二功率谱密度信息指示关于所述两个或更多个音频输入声道信号的所述周围信号部分的功率谱密度信息。
14.一种计算机可读介质,包括计算机程序,当所述计算机程序在计算机或处理器上执行时用于实施如权利要求13所述的方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201361772708P | 2013-03-05 | 2013-03-05 | |
US61/772,708 | 2013-03-05 | ||
PCT/EP2013/072170 WO2014135235A1 (en) | 2013-03-05 | 2013-10-23 | Apparatus and method for multichannel direct-ambient decomposition for audio signal processing |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105409247A CN105409247A (zh) | 2016-03-16 |
CN105409247B true CN105409247B (zh) | 2020-12-29 |
Family
ID=49552336
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201380076335.5A Active CN105409247B (zh) | 2013-03-05 | 2013-10-23 | 用于音频信号处理的多声道直接-周围分解的装置及方法 |
Country Status (18)
Country | Link |
---|---|
US (1) | US10395660B2 (zh) |
EP (1) | EP2965540B1 (zh) |
JP (2) | JP6385376B2 (zh) |
KR (1) | KR101984115B1 (zh) |
CN (1) | CN105409247B (zh) |
AR (1) | AR095026A1 (zh) |
AU (1) | AU2013380608B2 (zh) |
BR (1) | BR112015021520B1 (zh) |
CA (1) | CA2903900C (zh) |
ES (1) | ES2742853T3 (zh) |
HK (1) | HK1219378A1 (zh) |
MX (1) | MX354633B (zh) |
MY (1) | MY179136A (zh) |
PL (1) | PL2965540T3 (zh) |
RU (1) | RU2650026C2 (zh) |
SG (1) | SG11201507066PA (zh) |
TW (1) | TWI639347B (zh) |
WO (1) | WO2014135235A1 (zh) |
Families Citing this family (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
MX354633B (es) | 2013-03-05 | 2018-03-14 | Fraunhofer Ges Forschung | Aparato y metodo para la descomposicion directa-ambiental de multicanal para el procesamiento de señales de audio. |
US9769586B2 (en) | 2013-05-29 | 2017-09-19 | Qualcomm Incorporated | Performing order reduction with respect to higher order ambisonic coefficients |
US9466305B2 (en) | 2013-05-29 | 2016-10-11 | Qualcomm Incorporated | Performing positional analysis to code spherical harmonic coefficients |
US9489955B2 (en) | 2014-01-30 | 2016-11-08 | Qualcomm Incorporated | Indicating frame parameter reusability for coding vectors |
US9922656B2 (en) | 2014-01-30 | 2018-03-20 | Qualcomm Incorporated | Transitioning of ambient higher-order ambisonic coefficients |
US9620137B2 (en) | 2014-05-16 | 2017-04-11 | Qualcomm Incorporated | Determining between scalar and vector quantization in higher order ambisonic coefficients |
US9852737B2 (en) | 2014-05-16 | 2017-12-26 | Qualcomm Incorporated | Coding vectors decomposed from higher-order ambisonics audio signals |
US10770087B2 (en) | 2014-05-16 | 2020-09-08 | Qualcomm Incorporated | Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals |
US9747910B2 (en) | 2014-09-26 | 2017-08-29 | Qualcomm Incorporated | Switching between predictive and non-predictive quantization techniques in a higher order ambisonics (HOA) framework |
CN105992120B (zh) | 2015-02-09 | 2019-12-31 | 杜比实验室特许公司 | 音频信号的上混音 |
EP3067885A1 (en) | 2015-03-09 | 2016-09-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding or decoding a multi-channel signal |
EP3257270B1 (en) | 2015-03-27 | 2019-02-06 | Fraunhofer Gesellschaft zur Förderung der Angewand | Apparatus and method for processing stereo signals for reproduction in cars to achieve individual three-dimensional sound by frontal loudspeakers |
CN106297813A (zh) | 2015-05-28 | 2017-01-04 | 杜比实验室特许公司 | 分离的音频分析和处理 |
EP3357259B1 (en) | 2015-09-30 | 2020-09-23 | Dolby International AB | Method and apparatus for generating 3d audio content from two-channel stereo content |
US9930466B2 (en) * | 2015-12-21 | 2018-03-27 | Thomson Licensing | Method and apparatus for processing audio content |
TWI584274B (zh) * | 2016-02-02 | 2017-05-21 | 美律實業股份有限公司 | 具逆相位衰減特性之共腔體式背箱設計揚聲器系統的音源訊號處理方法及其裝置 |
CN106412792B (zh) * | 2016-09-05 | 2018-10-30 | 上海艺瓣文化传播有限公司 | 对原立体声文件重新进行空间化处理并合成的***及方法 |
GB201716522D0 (en) * | 2017-10-09 | 2017-11-22 | Nokia Technologies Oy | Audio signal rendering |
SG11202004430YA (en) | 2017-11-17 | 2020-06-29 | Fraunhofer Ges Forschung | Apparatus and method for encoding or decoding directional audio coding parameters using different time/frequency resolutions |
EP3518562A1 (en) | 2018-01-29 | 2019-07-31 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio signal processor, system and methods distributing an ambient signal to a plurality of ambient signal channels |
EP3573058B1 (en) * | 2018-05-23 | 2021-02-24 | Harman Becker Automotive Systems GmbH | Dry sound and ambient sound separation |
US11205435B2 (en) | 2018-08-17 | 2021-12-21 | Dts, Inc. | Spatial audio signal encoder |
US10796704B2 (en) | 2018-08-17 | 2020-10-06 | Dts, Inc. | Spatial audio signal decoder |
CN109036455B (zh) * | 2018-09-17 | 2020-11-06 | 中科上声(苏州)电子有限公司 | 直达声与背景声提取方法、扬声器***及其声重放方法 |
EP3671739A1 (en) * | 2018-12-21 | 2020-06-24 | FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. | Apparatus and method for source separation using an estimation and control of sound quality |
WO2020247033A1 (en) * | 2019-06-06 | 2020-12-10 | Dts, Inc. | Hybrid spatial audio decoder |
DE102020108958A1 (de) | 2020-03-31 | 2021-09-30 | Harman Becker Automotive Systems Gmbh | Verfahren zum Darbieten eines ersten Audiosignals während der Darbietung eines zweiten Audiosignals |
WO2023170756A1 (ja) * | 2022-03-07 | 2023-09-14 | ヤマハ株式会社 | 音響処理方法、音響処理システムおよびプログラム |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009522942A (ja) * | 2006-01-05 | 2009-06-11 | オーディエンス,インコーポレイテッド | 発話改善のためにマイク間レベル差を用いるシステム及び方法 |
CN101636783A (zh) * | 2007-03-16 | 2010-01-27 | 松下电器产业株式会社 | 声音分析装置、声音分析方法、声音分析程序及***集成电路 |
CN102792374A (zh) * | 2010-03-08 | 2012-11-21 | 杜比实验室特许公司 | 多通道音频中语音相关通道的缩放回避的方法和*** |
CN102859590A (zh) * | 2010-02-24 | 2013-01-02 | 弗劳恩霍夫应用研究促进协会 | 产生增强下混频信号的装置、产生增强下混频信号的方法以及计算机程序 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8036767B2 (en) | 2006-09-20 | 2011-10-11 | Harman International Industries, Incorporated | System for extracting and changing the reverberant content of an audio input signal |
DE102006050068B4 (de) * | 2006-10-24 | 2010-11-11 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Erzeugen eines Umgebungssignals aus einem Audiosignal, Vorrichtung und Verfahren zum Ableiten eines Mehrkanal-Audiosignals aus einem Audiosignal und Computerprogramm |
US8588427B2 (en) * | 2007-09-26 | 2013-11-19 | Frauhnhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for extracting an ambient signal in an apparatus and method for obtaining weighting coefficients for extracting an ambient signal and computer program |
DE102007048973B4 (de) * | 2007-10-12 | 2010-11-18 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals mit einer Sprachsignalverarbeitung |
MX354633B (es) | 2013-03-05 | 2018-03-14 | Fraunhofer Ges Forschung | Aparato y metodo para la descomposicion directa-ambiental de multicanal para el procesamiento de señales de audio. |
-
2013
- 2013-10-23 MX MX2015011570A patent/MX354633B/es active IP Right Grant
- 2013-10-23 MY MYPI2015002192A patent/MY179136A/en unknown
- 2013-10-23 PL PL13788708T patent/PL2965540T3/pl unknown
- 2013-10-23 SG SG11201507066PA patent/SG11201507066PA/en unknown
- 2013-10-23 ES ES13788708T patent/ES2742853T3/es active Active
- 2013-10-23 CA CA2903900A patent/CA2903900C/en active Active
- 2013-10-23 WO PCT/EP2013/072170 patent/WO2014135235A1/en active Application Filing
- 2013-10-23 RU RU2015141871A patent/RU2650026C2/ru active
- 2013-10-23 JP JP2015560567A patent/JP6385376B2/ja active Active
- 2013-10-23 BR BR112015021520-3A patent/BR112015021520B1/pt active IP Right Grant
- 2013-10-23 CN CN201380076335.5A patent/CN105409247B/zh active Active
- 2013-10-23 AU AU2013380608A patent/AU2013380608B2/en active Active
- 2013-10-23 EP EP13788708.9A patent/EP2965540B1/en active Active
- 2013-10-23 KR KR1020157027285A patent/KR101984115B1/ko active IP Right Grant
-
2014
- 2014-02-10 TW TW103104240A patent/TWI639347B/zh active
- 2014-03-05 AR ARP140100724A patent/AR095026A1/es active IP Right Grant
-
2015
- 2015-09-04 US US14/846,660 patent/US10395660B2/en active Active
-
2016
- 2016-06-23 HK HK16107293.1A patent/HK1219378A1/zh unknown
-
2017
- 2017-11-02 JP JP2017212311A patent/JP6637014B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009522942A (ja) * | 2006-01-05 | 2009-06-11 | オーディエンス,インコーポレイテッド | 発話改善のためにマイク間レベル差を用いるシステム及び方法 |
CN101636783A (zh) * | 2007-03-16 | 2010-01-27 | 松下电器产业株式会社 | 声音分析装置、声音分析方法、声音分析程序及***集成电路 |
CN102859590A (zh) * | 2010-02-24 | 2013-01-02 | 弗劳恩霍夫应用研究促进协会 | 产生增强下混频信号的装置、产生增强下混频信号的方法以及计算机程序 |
CN102792374A (zh) * | 2010-03-08 | 2012-11-21 | 杜比实验室特许公司 | 多通道音频中语音相关通道的缩放回避的方法和*** |
Non-Patent Citations (2)
Title |
---|
Direct-ambient decomposition and upmix of surround signals;ANDREAS WALTHER等;《IEEE》;20111016;全文 * |
Microphone array post-filter for diffuse noise field;IAIN A MCCOWN等;《IEEE》;20020513;全文 * |
Also Published As
Publication number | Publication date |
---|---|
US10395660B2 (en) | 2019-08-27 |
JP2016513814A (ja) | 2016-05-16 |
AR095026A1 (es) | 2015-09-16 |
SG11201507066PA (en) | 2015-10-29 |
JP6385376B2 (ja) | 2018-09-05 |
US20150380002A1 (en) | 2015-12-31 |
TW201444383A (zh) | 2014-11-16 |
KR20150132223A (ko) | 2015-11-25 |
BR112015021520A2 (pt) | 2017-08-22 |
TWI639347B (zh) | 2018-10-21 |
CA2903900A1 (en) | 2014-09-12 |
MY179136A (en) | 2020-10-28 |
WO2014135235A1 (en) | 2014-09-12 |
AU2013380608A1 (en) | 2015-10-29 |
JP2018036666A (ja) | 2018-03-08 |
RU2015141871A (ru) | 2017-04-07 |
PL2965540T3 (pl) | 2019-11-29 |
CA2903900C (en) | 2018-06-05 |
AU2013380608B2 (en) | 2017-04-20 |
EP2965540A1 (en) | 2016-01-13 |
JP6637014B2 (ja) | 2020-01-29 |
CN105409247A (zh) | 2016-03-16 |
MX2015011570A (es) | 2015-12-09 |
HK1219378A1 (zh) | 2017-03-31 |
BR112015021520B1 (pt) | 2021-07-13 |
KR101984115B1 (ko) | 2019-05-31 |
EP2965540B1 (en) | 2019-05-22 |
RU2650026C2 (ru) | 2018-04-06 |
ES2742853T3 (es) | 2020-02-17 |
MX354633B (es) | 2018-03-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105409247B (zh) | 用于音频信号处理的多声道直接-周围分解的装置及方法 | |
US8588427B2 (en) | Apparatus and method for extracting an ambient signal in an apparatus and method for obtaining weighting coefficients for extracting an ambient signal and computer program | |
US8731209B2 (en) | Device and method for generating a multi-channel signal including speech signal processing | |
AU2015295518B2 (en) | Apparatus and method for enhancing an audio signal, sound enhancing system | |
KR20090042856A (ko) | 오디오 신호로부터 주위 신호를 생성하는 장치 및 방법, 오디오 신호로부터 멀티-채널 오디오 신호를 도출하는 장치및 방법, 그리고 컴퓨터 프로그램 | |
MX2013013058A (es) | Aparato y metodo para generar una señal de salida que emplea un descomponedor. | |
EP2544466A1 (en) | Method and apparatus for decomposing a stereo recording using frequency-domain processing employing a spectral subtractor | |
Tsilfidis et al. | Binaural dereverberation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |