CN102770913B - 稀疏音频 - Google Patents
稀疏音频 Download PDFInfo
- Publication number
- CN102770913B CN102770913B CN200980163468.XA CN200980163468A CN102770913B CN 102770913 B CN102770913 B CN 102770913B CN 200980163468 A CN200980163468 A CN 200980163468A CN 102770913 B CN102770913 B CN 102770913B
- Authority
- CN
- China
- Prior art keywords
- sparse
- audio signal
- signal
- audio
- sampling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005236 sound signal Effects 0.000 claims abstract description 146
- 238000005070 sampling Methods 0.000 claims abstract description 69
- 238000000034 method Methods 0.000 claims abstract description 56
- 230000008569 process Effects 0.000 claims abstract description 16
- 239000011159 matrix material Substances 0.000 claims description 79
- 230000009466 transformation Effects 0.000 claims description 26
- 238000006243 chemical reaction Methods 0.000 claims description 20
- 230000009467 reduction Effects 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 description 19
- 230000006835 compression Effects 0.000 description 6
- 238000007906 compression Methods 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 6
- 230000000875 corresponding effect Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000005457 optimization Methods 0.000 description 4
- 238000005259 measurement Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 239000007795 chemical reaction product Substances 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000011002 quantification Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 241001234523 Velamen Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Mathematical Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
一种方法,包括:采样在第一速率接收到的音频以产生第一音频信号;变换该第一音频信号到稀疏域以产生稀疏音频信号;再采样该稀疏音频信号以产生再采样稀疏音频信号;以及提供该再采样稀疏音频信号,其中移除精确音频再现所需的带宽但保留空间音频编码所需的带宽;和/或一种方法,包括:接收第一通道的第一稀疏音频信号;接收第二通道的第二稀疏音频信号;以及处理第一稀疏音频信号和第二稀疏音频信号以产生一个或多个通道间空间音频参数。
Description
技术领域
本发明的实施例涉及稀疏音频。特别是本发明的实施例涉及用于空间音频编码以及尤其是空间音频参数的产生使用稀疏音频。
背景技术
最近开发的诸如双耳线索编码(binaural cue coding,BCC)的参数音频编码方法,使得多通道且环绕的(空间的)音频编码以及表示成为可能。用于空间音频的编码的参数方法的一般目标是将原始音频表示为包含减少的音频通道数量的缩混(downmix)信号(例如表示为单音通道或表示为双通道(立体声)的总和信号)连同描述在原始信号的通道之间关系的关联的空间音频参数一起以使得具有与原始信号的空间图像相类似的空间图像的信号重建成为可能。这种类型的编码方案允许具有高音频质量的多通道信号非常有效的压缩。
空间音频参数例如可包括描述通道间电平(level)差、通道间时间差以及在一个或多个通道对之间的和/或在一个或多个频带中的通道间相干(coherence)的参数。另外,进一步的或可选的例如到达方向的空间音频参数可另外用于或替换讨论过的通道间参数。
通常,空间音频编码及对单音或立体声的相应缩混需要可靠的电平及时间差估计或等效值。输入通道的时间差的估计是在低频处的主要空间音频参数。
常规的通道间分析机制可能需要高运算负载,尤其是当采用高音频采样速率(48kHz或甚至更高)时。由于大量的信号数据,基于互相关(crosscorrelation)的通道间时间差估计机制在运算上是代价非常高的。
此外,如果利用分布式传感器网络捕获音频并且在网络的中心服务器执行空间音频编码,那么在传感器和服务器之间的每个数据通道可能需要显著的传输带宽。
通过仅仅减少音频采样率而不丢失在后续处理阶段中所需的信息来减少带宽是不可能的。
发明内容
为了生成使得高质量的重建和再现成为可能的缩混信号,需要高音频采样率(尼奎斯特(Nyquist)定理)。由于这会显著影响音频再现的质量,因此不能降低音频采样率。
发明者已经意识到尽管为了生成缩混信号需要高音频采样率,当无需重建输入音频的实际波形以执行空间音频编码时无需执行空间音频编码。
由在多通道空间音频编码中的每个通道捕获的音频内容,就本性而言非常相关,如同输入通道被期望彼此相关一样,因为它们只是从不同角度基本上观察相同的音频源和相同的音频图像。在不丢失在空间音频图像中的很多精确度或细节下,可限制由每个传感器传输到服务器的数据量。
通过使用已采样音频的稀疏表示和仅处理在稀疏域中的引入(incoming)数据样本的子集,可降低在传感器和服务器之间的数据通道中的信息速率。因此,音频信号需要在适于稀疏表示的域中传输。
根据本发明的各种(但并非所有)实施例,提供一种方法,包括:采样在第一速率(rate)接收到的音频以产生第一音频信号;变换该第一音频信号到稀疏域以产生稀疏音频信号;再采样该稀疏音频信号以产生再采样稀疏音频信号;并且提供该再采样稀疏音频信号,其中移除精确音频再现所需的带宽但保留空间音频编码所需的带宽。
根据本发明的各种(但并非所有)实施例,提供一种设备,包括:用于采样在第一速率接收到的音频以产生第一音频信号的装置;用于变换该第一音频信号到稀疏域以产生稀疏音频信号的装置;用于再采样该稀疏音频信号以产生再采样稀疏音频信号的装置;以及用于提供该再采样稀疏音频信号的装置,其中到稀疏域的变换移除精确音频再现所需的带宽但保留空间音频编码所需的带宽。
根据本发明的各种(但并非所有)实施例,提供一种设备,包括:至少一个处理器;和至少一个包含计算机程序代码的存储器,该至少一个存储器和计算机程序代码配置为与该至少一个处理器一起使得该设备执行:变换第一音频信号到稀疏域以产生稀疏音频信号;采样该稀疏音频信号以产生已采样的稀疏音频信号;其中到稀疏域的变换移除精确音频再现所需的带宽但保留空间音频编码所需的带宽。
根据本发明的各种(但并非所有)实施例,提供一种方法,包括:接收第一通道的第一稀疏音频信号;接收第二通道的第二稀疏音频信号;并且处理第一稀疏音频信号和第二稀疏音频信号以产生一个或多个通道间空间音频参数。
根据本发明的各种(但并非所有)实施例,提供一种设备,包括:用于接收第一通道的第一稀疏音频信号的装置;用于接收第二通道的第二稀疏音频信号的装置;以及用于处理第一稀疏音频信号和第二稀疏音频信号以产生一个或多个通道间空间音频参数的装置。
根据本发明的各种(但并非所有)实施例,提供一种设备,包括:至少一个处理器;和至少一个包含计算机程序代码的存储器,该至少一个存储器和计算机程序代码配置为与该至少一个处理器一起使得该设备执行:处理接收到的第一稀疏音频信号和接收到的第二稀疏音频信号以产生一个或多个通道间空间音频参数。
根据本发明的各种(但并非所有)实施例,提供一种方法,包括:采样在第一速率接收到的音频以产生第一音频信号;变换该第一音频信号到稀疏域以产生稀疏音频信号;再采样该稀疏音频信号以产生再采样稀疏音频信号;并且提供该再采样稀疏音频信号,其中移除精确音频再现所需的带宽但保留该接收到的音频分析所需的带宽。
这降低了空间编码多通道空间音频信号的复杂性。
在某些实施例中,减少为空间音频编码提供数据所需的在传感器与服务器之间的数据通道的带宽。
根据本发明的各种(但并非所有)实施例,提供一种方法,包括:采样在第一速率接收到的音频以产生第一音频信号;变换该第一音频信号到稀疏域以产生稀疏音频信号;再采样该稀疏音频信号以产生再采样稀疏音频信号;并且提供该再采样稀疏音频信号,其中移除精确音频再现所需的带宽但保留接收到的音频分析所需的带宽。
该分析例如可确定接收到的音频的基频(fundamental frequency)和/或确定通道间参数。
附图说明
为了本发明实施例的各种示例的更好的理解,现在将仅以示例的方式参考附图,其中:
图1示意性地例示传感器设备;
图2示意性地例示包括多个传感器设备和一个服务器设备的***;
图3示意性地例示服务器设备的一个示例;
图4示意性地例示服务器设备的另一个示例;
图5示意性地例示适合于在传感器设备和/或服务器设备中使用的控制器的示例。
具体实施方式
最近开发的诸如双耳线索编码(BCC)的参数音频编码方法,使得多通道且环绕的(空间的)音频编码以及表示成为可能。用于空间音频的编码的参数方法的一般目标是将原始音频表示为包含减少的音频通道数量的缩混信号(例如表示为单声通道的或表示为双通道(立体声)的总和信号),与描述在原始信号通道之间的关系相关联的空间音频参数一起以使具有与原始信号的图像相类似的空间图像的信号重建成为可能。这种类型的编码方案允许具有高音频质量的非常有效的多通道信号压缩。
空间音频参数例如可包括描述通道间电平差、通道间时间差以及在一个或多个通道对之间和/或一个或多个频带之间的通道间相干的参数。这些空间音频参数中的一些可选择地表示为例如到达方向。
图1示意性地例示传感器设备10。传感器设备10在功能上阐述为一系列块,每个块表示不同的功能。
在采样块4处,将接收到的音频(压力波)3以第一速率采样以产生第一音频信号5。例如是麦克风的换能器将音频3变换成电子信号。该电子信号接下来以第一速率(例如以48kHz)采样以产生第一音频信号5。这个块可以是常规的。
接下来在变换块6处,将第一音频信号5变换到稀疏域以产生稀疏音频信号7。
然后在再采样块8处,将稀疏音频信号7再采样以产生再采样稀疏音频信号9。接下来为进一步处理提供再采样稀疏音频信号9。
在该示例中,到稀疏域的变换保留表征空间音频的电平/幅度信息以及再采样在稀疏域中保留足够的带宽以使得通道间电平差(inter-channellevel difference,ILD)的后续产生能够作为已编码的空间音频参数。
在该示例中,到稀疏域的变换保留表征空间音频的时间信息以及再采样在稀疏域中保留足够的带宽以使得通道间时间差(inter-channel timedifference,ITD)的后续产生能够作为已编码的空间音频参数。
到稀疏域的变换以及再采样可保留足够信息以使得在来自不同通道的音频信号之间的相关成为可能。这可使得通道间相干线索(inter-channelcoherence cue,ICC)的后续产生能够作为已编码的空间音频参数。
接下来再采样稀疏音频信号9提供在如图2中所示出的用于在传感器设备10中或到远程服务器设备20进一步处理。
图2示意性地例示包括多个传感器设备10和中心或服务器设备20的分布式传感器***或者网络22。在该示例中存在两个传感器设备10,其分别标记为第一传感器设备10A和第二传感器设备10B。这些传感器设备与参考图1中描述的传感器设备10相类似。
第一数据通道24A用于从第一传感器设备10A到服务器22的通信。第一数据通道24A可以是有线的或无线的。第一再采样稀疏音频信号9A可经由第一数据通道24A由第一传感器设备10A提供给服务器设备20用于进一步处理(见图3及4)。
第二数据通道24B用于从第二传感器设备10B到服务器22的通信。第二数据通道24B可以是有线的或无线的。第二再采样稀疏音频信号9B可经由第二数据通道24B由第二传感器设备10B提供给服务器设备20用于进一步处理(见图3及4)。
空间音频处理(例如音频分析或音频编码)在中心服务器设备20处执行。中心服务器设备20在第一数据通道24A中接收第一通道的第一稀疏音频信号9A并且在第二数据通道24B中接收第二通道的第二稀疏音频信号9B。中心服务器设备20处理第一稀疏音频信号9A和第二稀疏音频信号9B以产生一个或多个通道间空间音频参数15。
服务器设备20还保持在第一稀疏音频信号9A和第二稀疏音频信号9B之间的同步。这例如可通过保持在中心设备20和多个远程传感器设备10之间的同步达到。存在用于达到此目的的已知***。作为示例,服务器设备可作为主机(Master)运行并且传感器设备可作为与主机时钟同步(例如以蓝牙实现)的从机(Slave)运行。
如在图1中所示的传感器设备10处执行的过程移除精确音频再现所需的带宽,但保留空间音频分析和/或解码所需的带宽。
到稀疏域的变换和再采样可导致信息丢失以致不能从稀疏音频信号7精确再现第一音频信号5(且由此的音频3)。
第一详细实施例
可将变换块6与再采样块认为是一个组合以执行压缩采样。
在一个实施例中,使f(n)为表示通过用在其中x(n)=Ψf(n)的变换块6中的n×n的变换矩阵Ψ变换第一音频信号5(x(n))得到的稀疏音频信号7的向量。变换矩阵Ψ可使诸如离散傅里叶变换(DFT)的傅里叶相关的变换成为可能。这样稀疏音频信号7在变换域中将音频3表示为变换系数f的向量。
在变换域中的数据表示f是稀疏的,这样仅使用数据表示f的子集就使得空间音频编码成为可能而不需要音频再现,第一音频信号5稍后能充分完好地重建。在稀疏域中信号f的有效带宽如此低以致少量的样本就足以在将空间音频情景编码成空间音频参数所需的细节级别重建输入信号x(n)。
在再采样块8处,由m个值组成的稀疏音频信号7的子集通过如下具有由行向量组成的m×n的传感矩阵得到。
k=1,...,m. (1)
如果例如传感矩阵仅包含狄拉克δ(Dirac delta)函数,测量的向量y将只包含f的采样值。可选择地,传感矩阵可选取m个随机系数或只是变换域向量f的m个第一系数。传感矩阵有无限的可能性。它还可以是具有随机系数的复数值矩阵。
在该实施例中,变换块6根据定义的变换模型(例如变换矩阵Ψ)执行信号处理,并且再采样块8根据定义的采样模型(例如传感矩阵)执行信号处理。
如图3所示,中心服务器设备20在第一数据通道24A中接收第一通道的第一稀疏音频信号9A并且在第二数据通道24B中接收第二通道的第二稀疏音频信号9B。中心服务器设备处理第一稀疏音频信号9A和第二稀疏音频信号9B以产生一个或多个通道间空间音频参数15。
存在至少两种不同的方法利用再采样音频信号9(y)重建或估计第一音频信号的输入信号5(x(n))以产生一个或多个通道间空间音频参数15。
第一重建方法
由于在传感器设备10中使用定义的变换模型和定义的采样模型,在信号处理期间服务器设备20可使用该模型。
回溯到图2,定义变换模型的参数可沿着数据通道24提供给服务器设备20和/或定义采样模型的参数可沿着数据通道24提供给服务器设备20。服务器设备20是再采样稀疏音频信号9的目的地。可选地定义变换模型和/或采样模型的参数可预先确定并存储在服务器设备20上。
在该示例中,服务器设备20求解数值模型来估计第一通道的第一音频信号并且求解数值模型来估计第二通道的第二音频信号。接下来它处理第一音频信号和第二音频信号以产生一个或多个通道间空间音频参数。
回溯到图3,第一数值模型12A可利用变换模型(例如变换矩阵Ψ)、采样模型(例如传感矩阵)和接收到的第一稀疏音频信号9A(例如y)建模第一通道的第一音频信号(例如x(n))。
例如,原始音频信号向量x(n)可在已知的块12A中重建或估计。由n个自由变量和m个方程组成的重建任务可应用如下的数值优化方法执行
条件为k=1,...,m. (2)
也就是说,从匹配测量到的数据向量的所有可能的有效数据向量中选择具有最低l1范数的那个。
回溯到图3,第二数字模型12B可利用变换模型(例如变换矩阵Ψ)、采样模型(例如传感矩阵)和接收到的第二稀疏音频信号9B(例如y)建模第二通道的第一音频信号(例如x(n))。
对不同的通道可使用相同或不同的变换模型(例如变换矩阵Ψ)和采样模型(例如感应矩阵)。
例如,原始音频信号向量x(n)可在已知的块12B中重建或估计。由n个自由变量和m个方程组成的重建任务可应用如下的数值优化方法执行。
条件为k=1,...,m. (3)
也就是说,从匹配测量到的数据向量的所有可能的有效数据向量中选择具有最低l1范数的那个。
然后将第一通道和第二通道的重建的音频信号向量s(n)在块14中处理以产生一个或多个空间音频参数。
可将通道间电平差(ILD)ΔL估计为,
在其中和分别是时间域的左(第一)和右(第二)通道信号。在其它实施例中,可在子带(subband)的基础上计算通道间电平差(ILD)。
通道间时间差(ITD),例如在两个输入音频通道间的延迟可如下确定,
τ=arg maxd{Φ(k,d)} (5)
在其中Φ(d,k)正常化相关
在其它实施例中,可在子带的基础上计算通道间时间差(ITD)。
第二重建方法
参考图4,当处理第一稀疏音频信号9A和第二稀疏音频信号9B时服务器设备20可选择地可使用零化滤波器(annihilating filter)的方法以产生一个或多个通道间空间音频参数15。在执行零化滤波器的方法之前可执行迭代降噪(iterative denoising)。
在一个实施例中,零化滤波器的方法在块17中执行,依次序将每个通道对及结果组合以产生该通道对的通道间空间音频参数。
在该示例中,服务器设备20使用第一通道(其例如可以是变换系数的子集)的第一稀疏音频信号9A以产生第一通道Toeplitz矩阵。接下来确定第一通道Toeplitz矩阵的第一零化矩阵。然后确定第一零化矩阵的根,并且使用该根估计第一通道的参数。
服务器设备20使用第二通道的第二稀疏音频信号以产生第二通道Toeplitz矩阵。接下来确定第二通道Toeplitz矩阵的第二零化矩阵。然后确定第二零化矩阵的根并且使用该根估计第二通道的参数。最后服务器设备20使用估计的第一通道的参数和估计的第二通道的参数确定一个或多个通道间空间音频参数。
如果使用迭代降噪,那么在确定第一通道Toeplitz矩阵的零化矩阵之前在块18中迭代降噪第一通道Toeplitz矩阵,并且在确定第二通道Toeplitz矩阵的零化矩阵之前迭代降噪第二通道Toeplitz矩阵。
更详细地,通过使用从接收到的稀疏音频信号9中获得的变换系数及其复数共轭y-m=y* m形成一个m×(m+1)的Toeplitz矩阵来引导数据重建。因此,为了重建需要2m+1个系数。
在该示例中,变换模型(例如变换矩阵Ψ)是随机复数值矩阵,或例如是DFT变换矩阵,并且采样模型(例如传感矩阵)选择最初的m+1个变换系数。
给定DFT的复数域系数或随机系数变换具有关于稀疏输入数据的系数的位置和幅度的嵌入知识。因此,当输入数据是稀疏的时,期望Toeplitz矩阵包含足够信息以重建空间音频编码的数据。
实际上,复数域矩阵包含关于在变换域中复数指数的结合的信息。这些指数代表在稀疏输入数据f中非零系数的位置。基本上,该指数作为在Toeplitz矩阵H中的共振频率(resonant frequency)出现。找到给定指数的最方便的方法是恰好在消去复数变换的共振频率的位置上应用具有零点的零化多项式(Annihilating polynomial)。也就是说,任务是找到多项式 以使
H*A(z)=0 (7)
现在,当等式(7)有效时,多项式A(z)的根uk包含关于复数矩阵H的共振频率的信息。零化滤波器系数可例如使用奇异值分解(singularvalued decomposition,SVD)方法并且找出求解等式(7)的特征向量(eigenvector)确定。SVD分解写为H=U∑V*,在其中U是m×m酉矩阵,∑是在对角线上包含m个非负特征值的m×(m+1)对角矩阵,并且V*是包含相应的特征向量的复共轭(m+1)×(m+1)矩阵。正如我们所指出的,矩阵H为m×(m+1)阶,并且因此矩阵的秩(至多)是m。因此,最小的特征值是零并且在矩阵V*中的相应特征向量提供求解方程(1)的零化滤波器系数。
一旦确立多项式A(z),程式的m个根被解出以找到在输入数据f中的非零系数的位置nk。剩下的任务是找到用于重建的非零系数的相应幅度ck。具有零化滤波器的根和位置以及最先的m+1个变换系数yk,m个幅度可利用根据如下的范德蒙(Vandermonde)***的m个方程确定。
在利用如上所述的数值优化方法的重建方法与上面所提及的零化滤波器的方法之间的区别在于后者仅当输入数据具有有限数量的非零系数时是适用的。使用具有l1范数的数值优化,可以重建更多的复杂信号。
零化滤波器途径对在向量yk中的噪声非常敏感。因此,该方法可与降噪算法结合以改善性能。在这种情况下,压缩采样需要多于m+1个系数以重建由m个非零系数组成的稀疏信号。
零化滤波器的迭代降噪
利用接收到的变换系数构建的m×(m+1)矩阵H按照定义是Toeplitz矩阵。尽管如此,压缩采样系数可具有差的信噪比(signal to noise ratio,SNR),例如由于变换系数的量化。在这种情况下,压缩采样可提供具有p+1(p+1>m+1)个系数的解码器。
降噪算法利用将预定数量的最小特征值设置为零并强制得到的矩阵输出到Toeplitz格式的迭代方法对Toeplitz矩阵降噪。
更详细地,该方法首先构建p×(p+1)矩阵H=U∑V*的SVD分解,将最小的p-m个特征值设为零,建立新的对角矩阵∑new并重建矩阵Hnew=U∑newV*。在特征值操作后得到的矩阵Hnew可不必再是Toeplitz形式。因此,通过计算在实际对角线(例如主对角线)上面和下面的对角线上的系数的平均值,强制其为Toeplitz形式。得到的降噪矩阵则再次被SVD分解。该迭代直到符合预定标准时才执行。作为示例,该迭代可直到最小的p-m个特征值为零或接近零(例如,具有低于预定阈值的绝对值)时才执行。作为另一个示例,该迭代可直到第(m+1)个特征值比第m个特征值小预定余量或阈值才执行。
一旦降噪迭代完成,零化滤波器方法可应用于寻找稀疏输入数据f的稀疏系数的位置和幅度。应当注意到m+1个变换系数yk需要从降噪的Toeplitz矩阵Hnew中重新得到。
在另一实施例中,零化滤波器方法对于每个通道对并行地执行。在该实施例中,形成一个通道间零化滤波器。
在该实施例中,服务器设备20利用第一通道的第一稀疏音频信号9A并且利用第二通道的第二稀疏音频信号9B以产生通道间Toeplitz矩阵。接下来确定通道间Toeplitz矩阵的通道间零化矩阵。然后确定通道间零化矩阵的根并利用这些根直接估计通道间空间音频参数(通道间延迟和通道间电平差)。
通过把第一通道的第一稀疏音频信号或第二通道的第二稀疏音频信号中的一个的每个参数除以第一通道的第一稀疏音频信号和第二通道的第二稀疏音频信号中的另一个的各个参数生成通道间Toeplitz矩阵的系数。
从每个输入通道具有m+1或更多变换域系数的通道间可由如下首先构建矩阵H生成。
在其中系数hk=y1,k/y2,k代表通道间模型,并且利用来自第一和第二通道的输入来确定。在通常情况下,零化多项式的根代表由多于一个系数组成的通道间模型。尽管如此,利用上面描述的通过将所有而非最初的特征值设为零的迭代降噪算法,通道间模型的重建可仅收敛到一个非零系数uk。系数nk代表通道间延迟,并且相应的幅度ck代表通道间电平差。零化滤波器A(z)仍然具有m+1个根,但只有一个非零系数ck。现在,相应于给定的非零幅度系数的延迟系数nk代表通道间延迟。
传感器设备的第二详细实施例
在时间n的音频通道j的第一音频信号5的样本可表示为xj(n)。
在时间n的音频通道j的历史过去样本可表示为xj(n-k),在其中k>0。
在时间n的音频通道j的预测样本可表示为yj(n)。
根据音频通道的历史,变换模型代表音频通道j的预测样本yj(n)。变换模型可以是自回归(autoregressive,AR)模型、滑动均值(moving average,MA)模型或自回归滑动均值(ARMA)模型等。根据相同音频通道j的历史,通道内的变换模型代表音频通道j的预测样本yj(n)。根据不同音频通道的历史,通道间的变换模型代表音频通道j的预测样本yj(n)。
作为一个示例,L阶第一通道内变换模型H1代表作为输入信号x1的样本的加权线性组合的预测样本z1。信号x1包括来自第一输入音频通道的第一音频信号5的样本并且预测样本z1代表第一输入音频通道的预测样本。
总和表示随时间的积分。剩余信号由从实际信号(例如y1(n)=x1(n)-z1(n))中减去预测信号产生。
作为示例,L阶的第一通道间变换模型H1可代表作为输入信号x1的样本的加权线性组合的预测样本z2。信号x1包括来自第一输入音频通道的第一音频信号5的样本以及预测样本z2代表第二输入音频通道的预测样本。
总和表示随时间的积分。剩余信号由从实际信号y2(n)=x2(n)-z2(n)中减去预测信号产生。
每个输入通道的变换模型可在逐帧的基础上确定。模型阶数可以在变量上基于输入信号特征和可用运算能力。
剩余信号是短时谱(short term spectral)剩余信号。其可被认为是稀疏脉冲序列。
再采样包括利用傅里叶相关变换的信号处理。利用DFT或复数随机变换矩阵变换剩余信号,并且从每个通道中提取m+1个变换系数。最先的m+1个系数yi(n)可在将它们在数据通道24上提供给服务器设备20之前进一步量化。
图5示意性地例示适合于在传感器设备和/或服务器设备中使用的控制器的示例。
控制器30可使用启动硬件功能的指令实现,例如,通过使用在通用或专用处理器中可执行的计算机程序指令,该计算机程序指令可存储在计算机可读存储介质(磁盘、存储器等)上来由这样的处理器执行。
处理器32配置为从存储器34读取或写入到存储器34。处理器32还可包括数据和/或命令由处理器32输出所经由的输出端口和数据和/或命令输入到处理器32所经由的输入端口。
存储器34存储包括计算机程序指令的计算机程序36,该指令当被载入处理器32时控制容纳控制器30的设备的操作。计算机程序指令36提供使得设备能够完成在图1到4中任意一个所示方法的逻辑和例程。通过读取存储器34,处理器32能够载入并执行计算机程序36。
该计算机程序可经由任何合适的交付机制(delivery mechanism)37到达控制器30。交付机制37例如可以是计算机可读存储介质、计算机程序产品、存储器装置、录音装置、有形体现计算机程序36的制品。交付机制可以是配置为可靠地传递计算机程序36的信号。控制器30可传播或传输作为计算机数据信号的计算机程序36。
尽管将存储器34示为单一部件,但可将它实现为一个或多个分离部件,一些或所有该分离部件可以是集成的/可移除的和/或可提供永久/半永久/动态/缓存的存储器。
对“计算机可读存储介质”、“计算机程序产品”、“有形体现的计算机程序”等,或“控制器”、“计算机”、“处理器”等的引用,应理解为不仅包含具有诸如单/多处理器体系结构和时序(冯·诺依曼)/并行体系结构的不同体系结构的计算机,还包含诸如现场可编程门阵列(FPGA)、专用集成电路(ASIC)、数字处理装置和其它装置的专门电路。对计算机程序、指令、编码等的引用,应理解为包含可编程处理器或固件的软件,例如不管是处理器指令、固定功能装置、门阵列还是可编程逻辑装置等的的配置设置的硬件装置的可编程内容。
在此使用的“模块”指的是排除将由终端生产商或用户添加的某些部分/部件的单元或设备。传感器设备10可以是模块或终端产品。服务器设备20可以是模块或终端产品。
图1到4所示出的块可表示在方法中的步骤和/或在计算机程序中的代码片段。对块的特定顺序的图示无需暗示存在该块的必需或优选的顺序并且块的顺序和排列是多种多样的。此外,可能省略了一些步骤。
尽管关于各种示例已经在上述章节中描述了本发明的实施例,还应意识到在不偏离所声称的本发明的范围下能够做出对给定示例的修改。
在前述说明中描述的特征可用于明确描述的组合之外的组合。
尽管关于某些特征描述了功能,但是那些功能可由不管描述过与否的其它特征实现。
尽管关于某些实施例描述了特征,但是那些特征可出现在不管描述过与否的其它实施例中。
当在前述说明书中着力于关注被认为具有特别重要性的本发明的那些特征时,应当理解申请人要求关于在上文中提及和/或在附图中示出的是否在其上作出特别强调的任何可专利的特征或特征组合的保护。
Claims (14)
1.一种用于产生空间音频参数的方法,包括:
采样在第一速率接收到的音频以产生第一通道的第一音频信号;
采样在第一速率接收到的音频以产生第二通道的第二音频信号;
变换所述第一和第二音频信号到稀疏域以分别产生所述第一和第二通道的稀疏音频信号;
再采样所述稀疏音频信号以分别产生所述第一和第二通道的再采样稀疏音频信号以提供所述再采样稀疏音频信号,从而移除精确音频再现所需的带宽但是保留空间音频编码所需的带宽;
将所述第一和第二通道的所述再采样稀疏音频信号提供给服务器设备;以及
在所述服务器设备中执行所述第一和第二通道的所述再采样稀疏音频信号的空间音频处理以产生一个或多个通道间空间音频参数。
2.如权利要求1所述的方法,其中到所述稀疏域的变换包括信号处理,在其中剩余信号从所述音频信号中作为所述稀疏音频信号产生。
3.如权利要求1或2所述的方法,其中到所述稀疏域的变换包括使用通道内的自回归模型的信号处理。
4.如权利要求1或2所述的方法,其中在所述稀疏域中的再采样包括根据定义的模型的信号处理以及将定义所述模型的参数提供给所述再采样稀疏音频信号的目的地。
5.如权利要求1或2所述的方法,其中到所述稀疏域的变换包括根据定义的模型的信号处理以及将定义所述模型的参数提供给所述再采样稀疏音频信号的目的地。
6.如权利要求1或2所述的方法,进一步包括:
求解第一数值模型以估计所述第一通道的第一音频信号,所述第一数值模型利用变换模型、采样模型和所述第一通道的再采样稀疏音频信号建模所述第一音频信号;
求解第二数值模型以估计所述第二通道的第二音频信号,所述第二数值模型利用变换模型、采样模型和所述第二通道的再采样稀疏音频信号建模所述第二音频信号;以及
处理所述第一音频信号和所述第二音频信号以产生一个或多个通道间空间音频参数。
7.如权利要求1或2所述的方法,其中处理所述第一和第二通道的再采样稀疏音频信号以产生一个或多个通道间空间音频参数使用零化滤波器方法来确定各个再采样稀疏音频信号中的非零系数的位置和幅度。
8.如权利要求7所述的方法,进一步包括在执行所述零化滤波器方法之前执行迭代降噪。
9.如权利要求1或2所述的方法,包括:
使用所述第一通道的所述再采样稀疏音频信号以产生第一通道Toeplitz矩阵;
确定所述第一通道Toeplitz矩阵的第一零化矩阵;
确定所述第一零化矩阵的根;
使用所述根估计所述第一通道的参数;
使用所述第二通道的所述再采样稀疏音频信号以产生第二通道Toeplitz矩阵;
确定所述第二通道Toeplitz矩阵的第二零化矩阵;
确定所述第二零化矩阵的根;
使用所述根估计所述第二通道的参数;以及
使用所述第一通道的估计的参数和所述第二通道的估计的参数确定一个或多个通道间空间音频参数。
10.如权利要求9所述的方法,包括:在确定所述第一通道Toeplitz矩阵的零化矩阵之前对所述第一通道Toeplitz矩阵迭代降噪,并且在确定所述第二通道Toeplitz矩阵的零化矩阵之前对所述第二通道Toeplitz矩阵迭代降噪。
11.如权利要求1或2所述的方法,包括:
使用所述第一通道的所述再采样稀疏音频信号以及使用所述第二通道的所述再采样稀疏音频信号以产生通道间Toeplitz矩阵;
确定所述通道间Toeplitz矩阵的通道间零化矩阵;
确定所述通道间零化矩阵的根;以及
使用所述根估计通道间空间音频参数。
12.如权利要求11所述的方法,包括:通过将所述第一通道的所述再采样稀疏音频信号或所述第二通道的所述再采样稀疏音频信号中的一个的每个参数除以所述第一通道的所述再采样稀疏音频信号和所述第二通道的所述再采样稀疏音频信号的另一个的各个参数创建所述通道间Toeplitz矩阵的系数。
13.一种用于产生空间音频参数的***,包括:
用于采样在第一速率接收到的音频以产生第一通道的第一音频信号的装置;
用于采样在第一速率接收到的音频以产生第二通道的第二音频信号的装置;
用于变换所述第一和第二音频信号到稀疏域以分别产生所述第一和第二通道的稀疏音频信号的装置;
用于再采样所述稀疏音频信号以分别产生所述第一和第二通道的再采样稀疏音频信号以提供所述再采样稀疏音频信号的装置,从而移除精确音频再现所需的带宽但保留空间音频编码所需的带宽;
用于将所述第一和第二通道的所述再采样稀疏音频信号提供给服务器设备的装置;以及
用于在所述服务器设备中执行所述第一和第二通道的所述再采样稀疏音频信号的空间音频处理以产生一个或多个通道间空间音频参数的装置。
14.如权利要求13所述的***,包括用于执行权利要求2至12中任一项所述的方法的装置。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/EP2009/067903 WO2011076285A1 (en) | 2009-12-23 | 2009-12-23 | Sparse audio |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102770913A CN102770913A (zh) | 2012-11-07 |
CN102770913B true CN102770913B (zh) | 2015-10-07 |
Family
ID=42173302
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200980163468.XA Active CN102770913B (zh) | 2009-12-23 | 2009-12-23 | 稀疏音频 |
Country Status (4)
Country | Link |
---|---|
US (1) | US9042560B2 (zh) |
EP (1) | EP2517201B1 (zh) |
CN (1) | CN102770913B (zh) |
WO (1) | WO2011076285A1 (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120316886A1 (en) * | 2011-06-08 | 2012-12-13 | Ramin Pishehvar | Sparse coding using object exttraction |
CN103280221B (zh) * | 2013-05-09 | 2015-07-29 | 北京大学 | 一种基于基追踪的音频无损压缩编码、解码方法及*** |
US9436974B2 (en) | 2014-02-24 | 2016-09-06 | Vencore Labs, Inc. | Method and apparatus to recover scene data using re-sampling compressive sensing |
EP3149971B1 (en) * | 2014-05-30 | 2018-08-29 | Qualcomm Incorporated | Obtaining sparseness information for higher order ambisonic audio renderers |
CN104484557B (zh) * | 2014-12-02 | 2017-05-03 | 宁波大学 | 一种基于稀疏自回归模型建模的多频信号去噪方法 |
FR3049084B1 (fr) * | 2016-03-15 | 2022-11-11 | Fraunhofer Ges Forschung | Dispositif de codage pour le traitement d'un signal d'entree et dispositif de decodage pour le traitement d'un signal code |
GB2574239A (en) * | 2018-05-31 | 2019-12-04 | Nokia Technologies Oy | Signalling of spatial audio parameters |
KR102294639B1 (ko) * | 2019-07-16 | 2021-08-27 | 한양대학교 산학협력단 | 다중 디코더를 이용한 심화 신경망 기반의 비-자동회귀 음성 합성 방법 및 시스템 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101118747A (zh) * | 2003-12-19 | 2008-02-06 | 艾利森电话股份有限公司 | 保真度优化的预回声抑制编码 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6370502B1 (en) * | 1999-05-27 | 2002-04-09 | America Online, Inc. | Method and system for reduction of quantization-induced block-discontinuities and general purpose audio codec |
US7116787B2 (en) | 2001-05-04 | 2006-10-03 | Agere Systems Inc. | Perceptual synthesis of auditory scenes |
US7196641B2 (en) * | 2005-04-26 | 2007-03-27 | Gen Dow Huang | System and method for audio data compression and decompression using discrete wavelet transform (DWT) |
ES2741963T3 (es) * | 2008-07-11 | 2020-02-12 | Fraunhofer Ges Forschung | Codificadores de señal de audio, métodos para codificar una señal de audio y programas informáticos |
US8787501B2 (en) * | 2009-01-14 | 2014-07-22 | Qualcomm Incorporated | Distributed sensing of signals linked by sparse filtering |
GB2470059A (en) | 2009-05-08 | 2010-11-10 | Nokia Corp | Multi-channel audio processing using an inter-channel prediction model to form an inter-channel parameter |
CN102656627B (zh) | 2009-12-16 | 2014-04-30 | 诺基亚公司 | 多信道音频处理方法和装置 |
-
2009
- 2009-12-23 WO PCT/EP2009/067903 patent/WO2011076285A1/en active Application Filing
- 2009-12-23 EP EP09802147.0A patent/EP2517201B1/en active Active
- 2009-12-23 CN CN200980163468.XA patent/CN102770913B/zh active Active
- 2009-12-23 US US13/517,956 patent/US9042560B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101118747A (zh) * | 2003-12-19 | 2008-02-06 | 艾利森电话股份有限公司 | 保真度优化的预回声抑制编码 |
Non-Patent Citations (6)
Title |
---|
An Introduction To Compressive Sampling;Emmanuel J. Candès el al.;《IEEE SIGNAL PROCESSING MAGAZINE》;20080331;21-30 * |
Christof Faller et al..Binaural Cue Coding—Part II: Schemes and Applications.《IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING》.2003,第11卷(第6期),520-531. * |
COMPRESSED SENSING OF AUDIO SIGNALS USING MULTIPLE SENSORS;Anthony Griffin et al.;《16th European Signal Processing Conference (EUSIPCO 2008)》;20080829;1-5 * |
ENCODING THE SINUSOIDAL MODEL OF AN AUDIO SIGNAL USING COMPRESSED SENSING;Anthony Griffin et al.;《IEEE International Conference on ultimedia and Expo, 2009. ICME 2009.》;20090703;1-4 * |
Exploiting signal sparseness for reduced-rate sampling;Dave Mesecher et al.;《IEEE Long Island Systems, Applications and Technology Conference, 2009. LISAT "09.》;20090501;1-6 * |
Lossless Audio Coding Using Adaptive Multichannel Prediction;Tilman Liebchen;《 Audio Engineering Society,the 113th Convention》;20021008;1-7 * |
Also Published As
Publication number | Publication date |
---|---|
EP2517201A1 (en) | 2012-10-31 |
WO2011076285A1 (en) | 2011-06-30 |
EP2517201B1 (en) | 2015-11-04 |
CN102770913A (zh) | 2012-11-07 |
US20120314877A1 (en) | 2012-12-13 |
US9042560B2 (en) | 2015-05-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102770913B (zh) | 稀疏音频 | |
CN1781338B (zh) | 基于复指数调制的滤波器组的高级处理和自适应时间信号传送方法 | |
EP2834814B1 (en) | Method for determining an encoding parameter for a multi-channel audio signal and multi-channel audio encoder | |
CN103229234B (zh) | 音频编码装置、方法以及音频解码装置、方法 | |
CN101548555B (zh) | 用于隐藏多通道布置的一条或多条通道中的信息失落的方法 | |
Mimilakis et al. | A recurrent encoder-decoder approach with skip-filtering connections for monaural singing voice separation | |
CN102612711B (zh) | 信号处理方法、信息处理装置 | |
CA2553784A1 (en) | Improved coding techniques using estimated spectral magnitude and phase derived from mdct coefficients | |
CN101882441A (zh) | 利用复调制滤波器组的高效滤波 | |
CN103650537A (zh) | 采用分解器产生输出信号的装置和方法 | |
CN101180675A (zh) | 多通道信号的预测编码 | |
CN100578618C (zh) | 一种解码方法及装置 | |
US9767846B2 (en) | Systems and methods for analyzing audio characteristics and generating a uniform soundtrack from multiple sources | |
CN104995675A (zh) | 音频帧丢失隐藏 | |
CN105103230A (zh) | 信号处理装置、信号处理方法、信号处理程序 | |
CN111179920B (zh) | 一种端到端远场语音识别方法及*** | |
CN106033671B (zh) | 确定声道间时间差参数的方法和装置 | |
JP7380835B2 (ja) | 音信号ダウンミックス方法、音信号符号化方法、音信号ダウンミックス装置、音信号符号化装置、プログラム及び記録媒体 | |
EP3618069B1 (en) | Audio coding method and related apparatus | |
EP3293735A1 (en) | Method for encoding signals, method for separating signals in a mixture, corresponding computer program products, devices and bitstream | |
CN105765652A (zh) | 用于生成下混音信号的构思 | |
US20110051938A1 (en) | Method and apparatus for encoding and decoding stereo audio | |
RU2495504C1 (ru) | Способ снижения скорости передачи низкоскоростных вокодеров с линейным предсказанием | |
CN106463122A (zh) | 突发帧错误处理 | |
KR101527441B1 (ko) | 음원 분리 장치 및 그 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C41 | Transfer of patent application or patent right or utility model | ||
TR01 | Transfer of patent right |
Effective date of registration: 20151222 Address after: Espoo, Finland Patentee after: Technology Co., Ltd. of Nokia Address before: Espoo, Finland Patentee before: Nokia Oyj |