CN104919523A - 临界采样滤波器组中的基于模型的预测 - Google Patents

临界采样滤波器组中的基于模型的预测 Download PDF

Info

Publication number
CN104919523A
CN104919523A CN201480004153.1A CN201480004153A CN104919523A CN 104919523 A CN104919523 A CN 104919523A CN 201480004153 A CN201480004153 A CN 201480004153A CN 104919523 A CN104919523 A CN 104919523A
Authority
CN
China
Prior art keywords
signal
subband
model
sampling
look
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201480004153.1A
Other languages
English (en)
Other versions
CN104919523B (zh
Inventor
L·维尔莫斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby International AB
Original Assignee
Dolby International AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby International AB filed Critical Dolby International AB
Priority to CN201710814654.1A priority Critical patent/CN107452392B/zh
Publication of CN104919523A publication Critical patent/CN104919523A/zh
Application granted granted Critical
Publication of CN104919523B publication Critical patent/CN104919523B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/093Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using sinusoidal excitation models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/30Circuit design
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/30Circuit design
    • G06F30/32Circuit design at the digital level
    • G06F30/327Logic synthesis; Behaviour synthesis, e.g. mapping logic, HDL to netlist, high-level language to RTL or netlist
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • G10L19/265Pre-filtering, e.g. high frequency emphasis prior to encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/08Probabilistic or stochastic CAD
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • G10L21/0388Details of processing therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Geometry (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Magnetic Resonance Imaging Apparatus (AREA)
  • Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)
  • Measurement Of Radiation (AREA)
  • Design And Manufacture Of Integrated Circuits (AREA)

Abstract

本文件涉及音频源编码***。特别地,本文件涉及与滤波器组结合使用线性预测的音频源编码***。描述了用于估计音频信号的第一子带中的第一子带信号的第一采样(615)的方法。使用分析滤波器组(612)确定音频信号的第一子带信号,分析滤波器组(612)包括分别提供音频信号的多个子带中的多个子带信号的多个分析滤波器。该方法包括:确定信号模型的模型参数(613);基于信号模型、基于模型参数(613)并且基于分析滤波器组(612),确定预测系数,该预测系数将应用于从第一子带信号推导的第一解码子带信号的先前采样(614);其中,所述先前采样(614)的时隙在第一采样(615)的时隙之前;并且通过将所述预测系数应用于所述先前采样(614)来确定第一采样(615)的估计。

Description

临界采样滤波器组中的基于模型的预测
技术领域
本文件涉及音频源编码***。特别地,本文件涉及与滤波器组结合使用线性预测的音频源编码***。
背景技术
在用于音频信号的源编码的***中应用两个重要的信号处理工具,即,临界采样滤波器组和线性预测。临界采样滤波器组(例如,基于修正离散余弦变换MDCT的滤波器组)使得能够直接访问时间-频率表示,其中可以利用感知不相干性和信号冗余性。线性预测使得能够对音频信号,特别是语音信号进行高效的源建模。这两个工具的结合,即,在滤波器组的子带中使用预测,主要用于高位率音频编码。对于低位率编码,在子带中进行预测的挑战是,保持用于预测器的描述的成本(即,位率)低。另一挑战是,控制子带预测器所获得的预测误差信号的所导致的噪声成形。
关于以位高效的方式对子带预测器的描述进行编码的挑战,可能的途径是,从音频信号的先前解码的部分估计预测器,从而完全避免预测器描述的成本。如果可以从音频信号的先前解码的部分确定预测器,则可以在不需要将预测器描述从编码器发送到解码器的情况下,在编码器处以及在解码器处确定预测器。该方案被称为向后自适应预测方案。然而,当编码的音频信号的位率降低时,向后自适应预测方案通常显著地劣化。子带预测器的高效编码的替代的或附加的途径是,识别更自然的预测器描述,例如,利用待编码音频信号的固有结构的描述。例如,低位率语音编码通常应用向前自适应方案,该方案基于短期预测器(利用短期相关性)和长时预测器(利用由于语音信号的基本音高(underlying pitch)而导致的长期相关性)的紧凑表示。
关于控制预测误差信号的噪声成形的挑战,观察到,虽然预测器的噪声成形可以在子带内部被很好地控制,但是编码器的最终输出的音频信号通常表现出混叠伪像(除了表现出基本上平坦的频谱噪声形状的音频信号之外)。
子带预测器的重要情况是具有重叠窗口的滤波器组中的长期预测的实现。长期预测器通常利用周期性的和近周期性的音频信号(诸如表现出固有音高的语音信号)的冗余性,并且可以用单个或少数预测参数描述。长期预测器可以在连续时间内通过反映音频信号的周期性的延迟来定义。当该延迟与滤波器组窗口的长度相比大时,长期预测器可以在离散时域中通过平移(shift)或分数延迟来实现,并且可以被转换回子带域中的因果预测器。这样的长期预测器通常没有表现出混叠伪像,但是对于用于从时域转换到频域的附加滤波器组操作的需要引起计算复杂度的显著提高。此外,在时域中确定延迟并且将延迟转换到子带预测器中的方法不适用于待编码音频信号的周期堪比或小于滤波器组窗口大小的情况。
本文件解决以上提及的子带预测的缺点。特别地,本文件描述使得可以对子带预测器进行位率高效的描述和/或使得可以减小由子带预测器引起的混叠伪像的方法和***。特别地,本文件中描述的方法和***使得能够实现低位率的使用子带预测的音频编码器,这些音频编码器使得混叠伪像的水平降低。
发明内容
本文件描述改进在临界采样滤波器组的子带域中利用预测的音频源编码的质量的方法和***。这些方法和***可以使用子带预测器的紧凑描述,其中,该描述是基于信号模型的。可替代地或者附加地,这些方法和***可以直接在子带域中使用预测器的高效实现。可替代地或者附加地,这些方法和***可以使用如本文件中所描述的交叉子带预测器项来使得可以减小混叠伪像。
如本文件中所概述的,子带预测器的紧凑描述可以包括正弦曲线的频率、周期信号的周期、刚硬弦线的振动所遇到的轻微非谐波的频谱、和/或用于多音信号的多个音高。已经表明,对于长期预测器的情况,周期信号模型为一系列滞后参数(或延迟)提供高质量因果预测器,该系列滞后参数包括比滤波器组的窗口大小短和/或长的值。这意味着,周期信号模型可以用于以高效的方式实现长期子带预测器。提供从基于正弦模型的预测到任意延迟的逼近的无缝转变。子带域中的预测器的直接实现使得能够明确地访问所生成的量化失真的感知特性。此外,子带域中的预测器的实现使得能够访问诸如预测增益的数值属性和预测器对参数的依赖性。例如,基于信号模型的分析可以揭示,预测增益只有在所考虑的子带的子集中是显著的,并且作为被选择用于传输的参数的函数的、预测器系数的变化对于参数格式的设计以及高效的编码算法可以是有帮助的。而且,与依赖于在时域和子带域两者中操作的算法的使用的预测器实现相比,计算复杂度可以显著地降低。特别地,本文件中所描述的方法和***可以用于在子带域中直接实现子带预测,而不需要在时域中确定和应用预测器(例如,长期延迟)。
与带内预测器(其仅依赖于带内预测)相比,子带预测器中的交叉子带项的使用使得能够显著地改进频域噪声整形特性。通过这样做,可以减小混叠伪像,从而使得能够将子带预测用于相对低位率的音频编码***。
根据一方面,描述了一种用于估计音频信号的第一子带的第一采样的方法。音频信号的第一子带可能已经使用分析滤波器组确定,所述分析滤波器组包括从音频信号分别提供多个子带中的多个子带信号的多个分析滤波器。时域音频信号可以被提交给分析滤波器组,从而得到多个子带中的多个子带信号。所述多个子带中的每个通常覆盖音频信号的不同频率范围,从而提供对于音频信号的不同频率分量的访问。所述多个子带可以具有相等的或均匀的子带间隔。第一子带对应于分析滤波器组所提供的多个子带之一。
分析滤波器组可以具有各种特性。包括多个合成滤波器的合成滤波器组可以具有类似的或相同的特性。对于分析滤波器组和分析滤波器描述的特性也可适用于合成滤波器组和合成滤波器的特性。通常,分析滤波器组和合成滤波器组的结合使得可以完美地重构音频信号。分析滤波器组的分析滤波器可以相对于彼此是平移不变(shiftinvariant)的。可替代地或者附加地,分析滤波器组的分析滤波器可以包括共用窗口函数。特别地,分析滤波器组的分析滤波器可以包括共用窗口函数的不同调制版本。在实施例中,使用余弦函数对共用窗口函数进行调制,从而得到余弦调制的分析滤波器组。特别地,分析滤波器组可以包括(或者可以对应于)以下中的一个或多个:MDCT、QMF和/或ELT变换。共用窗口函数可以具有有限的持续时间K。共用窗口函数的持续时间可以为使得子带信号的随后的采样使用时域音频信号的重叠分段而被确定。就这点而论,分析滤波器组可以包括重叠变换。分析滤波器组的分析滤波器可以形成正交和/或标准正交基础。作为进一步的特性,分析滤波器组可以对应于临界采样滤波器组。特别地,所述多个子带信号的采样的数量可以对应于时域音频信号的采样的数量。
所述方法可以包括确定信号模型的模型参数。应指出,可以使用多个模型参数来描述信号模型。就这点而论,所述方法可以包括确定信号模型的所述多个模型参数。可以从所接收的包括或者指示模型参数和预测误差信号的位流提取模型参数。可替代地,可以通过例如使用均方差方法(例如,逐帧地)使信号模型拟合音频信号来确定模型参数。
信号模型可以包括一个或多个正弦模型分量。在这样的情况下,模型参数可以指示所述一个或多个正弦模型分量的一个或多个频率。举例来说,模型参数可以指示多正弦信号模型的基本频率Ω,其中,多正弦信号包括与基本频率Ω的倍数qΩ相应的频率处的正弦模型分量。就这点而论,多正弦信号模型可以包括周期信号分量,其中,周期信号分量包括多个正弦分量,并且其中,所述多个正弦分量具有是基本频率Ω的倍数的频率。如本文件中将示出的,这样的周期信号分量可以用于在时域中对延迟进行建模(用于例如长期预测器)。信号模型可以包括指示信号模型相对于周期信号模型的平移和/或偏差的一个或多个模型参数。平移和/或偏差可以指示周期信号模型的多个正弦分量的频率相对于基本频率Ω的各个倍数qΩ的偏差。
信号模型可以包括多个周期信号分量。可以使用一个或多个模型参数来描述每个周期信号分量。模型参数可以指示所述多个周期信号分量的多个基本频率Ω01,…,ΩM-1。可替代地或者附加地,可以用预先确定的和/或可调整的松弛参数(其可以是模型参数之一)来描述信号模型。松弛参数可以被配置为使周期信号分量的线状谱平坦或平滑。在本文件的实施例部分中描述信号模型和相关联的模型参数的特定例子。
模型参数可以被确定为使得求平方的预测误差信号的均值减小(例如,最小)。可以基于第一采样和第一采样的估计之间的差异来确定预测误差信号。特别地,可以基于第一子带信号的多个随后的第一采样并且基于相应的多个估计的第一采样来确定求平方的预测误差信号的均值。特别地,在文件中提出了使用用一个或多个模型参数描述的信号模型来对音频信号或者至少音频信号的第一子带信号进行建模。模型参数用于确定线性预测器的一个或多个预测系数,所述线性预测器确定第一估计子带信号。第一子带信号和第一估计子带信号之间的差异得到预测误差子带信号。所述一个或多个模型参数可以被确定为使得求平方的预测误差子带信号的均值减小(例如,最小)。
所述方法还可以包括确定将应用于从第一子带信号推导的第一解码子带信号的先前采样的预测系数。特别地,可以通过将预测误差信号(的量化版本)添加到第一子带信号的相应采样来确定所述先前采样。第一解码子带信号可以与第一子带信号相同(例如,在无损编码器的情况下)。所述先前采样的时隙通常在第一采样的时隙之前。特别地,所述方法可以包括确定递归(有限脉冲响应)预测滤波器的一个或多个预测系数,所述递归预测滤波器被配置为从一个或多个先前采样确定第一子带信号的第一采样。
可以基于信号模型、基于模型参数并且基于分析滤波器组来确定所述一个或多个预测系数。特别地,可以基于信号模型和分析滤波器组的分析评估来确定预测系数。信号模型和分析滤波器组的分析评估可以导致查找表和/或分析函数的确定。就这点而论,可以使用查找表和/或分析函数来确定预测系数,其中,查找表和/或分析函数可以预先基于信号模型并且基于分析滤波器组而确定。查找表和/或分析函数可以提供作为从模型参数推导的参数的函数的预测系数。从模型参数推导的参数可以例如是模型参数,或者可以使用预先确定函数从模型参数获得。就这点而论,可以以计算高效的方式使用预先确定的查找表和/或分析函数来确定所述一个或多个预测系数,所述预先确定的查找表和/或分析函数(仅)根据(仅)从所述一个或多个模型参数推导的一个或多个参数提供所述一个或多个预测系数。因此,预测系数的确定可以缩减至查找表内的条目的简单查找。如以上所指示的,分析滤波器组可以包括或者可以表现出调制结构。作为这样的调制结构的结果,观察到,所述一个或多个预测系数的绝对值与第一子带的索引号无关。这意味着,对于多个子带的索引号,查找表和/或分析函数可以是平移不变的(除符号值之外)。在这样的情况下,可以通过以相对于所述多个子带中的一个子带的相对方式表达模型参数来推导从模型参数推导的参数,即,被输入到查找表和/或分析函数以便确定预测系数的参数。
如以上所概述的,模型参数可以指示多正弦信号模型(例如,周期信号模型)的基本频率Ω。在这样的情况下,确定预测系数可以包括确定位于第一子带内的、基本频率Ω的倍数。如果基本频率Ω的倍数位于第一子带内,则可以确定基本频率Ω的倍数相对于第一子带的中心频率的相对偏移。特别地,可以确定最接近第一子带的中心频率的基本频率Ω的倍数的相对偏移。查找表和/或分析函数可以被预先确定为使得查找表和/或分析函数提供作为相对于子带的中心频率的可能的相对偏移的函数(例如,如本文件中所描述的,作为规范化频率f的函数和/或作为平移参数Θ的函数)的预测系数。就这点而论,可以基于查找表和/或基于分析函数、使用所确定的相对偏移来确定预测系数。预先确定的查找表可以包括关于有限数量的可能的相对偏移的有限数量的条目。在这样的情况下,在从查找表查找预测系数之前,可以将所确定的相对偏移取整为所述有限数量的可能的相对偏移中的最接近的可能的相对偏移。
另一方面,如果没有基本频率Ω的倍数位于第一子带内,或者说,在第一子带周围的扩展频率范围内,则可以将预测系数设置为零。在这样的情况下,第一采样的估计也可以是零。
确定预测系数可以包括基于模型参数选择多个查找表之一。举例来说,模型参数可以指示周期信号模型的基本频率Ω。周期信号模型的基本频率Ω对应于周期信号模型的周期性T。在本文件中示出,在周期性T相对较小的情况下,周期信号模型朝向单正弦模型收敛。此外,在本文件中示出,在周期性T相对较大的情况下,查找表随着T的绝对值缓慢地变化,并且主要取决于相对偏移(即,平移参数Θ)。就这点而论,可以针对周期性T的多个不同值预先确定多个查找表。可以使用模型参数(即,周期性T)来选择所述多个查找表中的适当的一个查找表,并且可以基于所述多个查找表中的选定的一个查找表(使用相对偏移,例如,使用平移参数Θ)来确定预测系数。就这点而论,可以将可以具有相对高精度的模型参数(表示例如周期性T)解码为精度降低的一对参数(例如,周期性T和相对偏移)。该对参数的第一个参数(例如,周期性T)可以用于选择特定查找表,第二个参数(例如,相对偏移)可以用于识别选定的查找表内的条目。
所述方法还可以包括通过将预测系数应用于先前采样来确定第一采样的估计。将预测系数应用于先前采样可以包括将预测系数乘以先前采样的值,从而得到第一采样的估计。通常,通过将预测系数应用于前采样的序列来确定第一子带信号的多个第一采样。确定第一采样的估计还可以包括将缩放增益应用于预测系数和/或第一采样。缩放增益或者其指示可以用于例如长期预测(LTP)。换句话说,缩放增益可以由不同预测器(例如,长期预测器)产生。缩放增益对于不同子带可以是不同的。此外,缩放增益可以作为编码的音频信号的一部分被发送。
就这点而论,通过使用用模型参数描述的信号模型来提供子带预测器(包括一个或多个预测系数)的高效描述。模型参数用于确定子带预测器的一个或多个预测系数。这意味着,音频编码器不需要发送所述一个或多个预测系数的指示,而是发送模型参数的指示。通常,模型参数可以比一个或多个预测系数(例如,用更少的位)被更高效地编码。因此,基于模型的预测的使用使得能够实现低位率子带编码。
所述方法还可以包括确定预测掩模,该预测掩模指示多个预测掩模支持子带(support subband)中的多个先前采样。所述多个预测掩模支持子带可以包括所述多个子带中的不同于第一子带的至少一个子带。就这点而论,子带预测器可以被配置为从来自所述多个子带信号的不同于第一子带信号的一个或多个其它子带信号的采样估计第一子带信号的采样。这在本文件中被称为交叉子带预测。预测掩模可以定义用于估计第一子带信号的第一采样的多个先前采样的布置(例如,相对于第一采样的时隙的时滞和/或相对于第一子带的索引号的子带索引滞后)。
所述方法可以继续确定将应用于所述多个先前采样的多个预测系数。可以基于信号模型、基于模型参数并且基于分析滤波器组(例如,使用在本文件中的以及上面概述的基于模型的预测方案)来确定所述多个预测系数。就这点而论,可以使用一个或多个模型参数来确定所述多个预测系数。换句话说,有限数量的模型参数可以足以确定所述多个预测系数。这意味着,通过使用基于模型的子带预测,可以以位率高效的方式实现交叉子带预测。
所述方法可以包括通过将所述多个预测系数应用于所述多个先前采样来确定第一采样的估计。确定第一采样的估计通常包括确定用多个各自的预测系数加权的所述多个先前采样的和。
如以上所概述的,模型参数可以指示周期性T。用于确定一个或多个预测系数的查找表可以包括关于周期性T的不同值的查找表。特别地,所述多个查找表可以包括关于周期性T的在[Tmin,Tmax]的范围内的、具有预先确定的步长大小ΔT的不同值的查找表。如在本文件中将概述的,Tmin可以在0.25的范围内,Tmax可以在2.5的范围内。Tmin可以被选为使得对于T<Tmin,可以使用包括单正弦模型分量的信号模型来对音频信号建模。Tmax可以被选为使得对于T>Tmax,关于周期性Tmax至Tmax+1的查找表基本上对应于关于周期性Tmax-1至Tmax的查找表。同样通常适用于周期性Tmax+n至Tmax+n+1,一般对于n≥0。
所述方法可以包括将选定的查找表确定为关于模型参数所指示的周期性T的查找表。在选择包括或者指示所述一个或多个预测系数的查找表之后,可以使用查找参数来识别选定的查找表内的适当的一个或多个条目,这些条目分别指示所述一个或多个预测系数。查找参数可以对应于平移参数Θ,或者可以从平移参数Θ推导。
所述方法可以包括对于指示周期性T>Tmax的模型参数,通过从T减去整数值以使得残差周期性Tr位于范围[Tmax-1,Tmax]内来确定残差周期性Tr。然后可以将用于确定预测系数的查找表确定为关于残差周期性Tr的查找表。
所述方法可以包括对于指示周期性T<Tmin的模型参数,将用于确定所述一个或多个预测系数的查找表选为关于周期性Tmin的查找表。此外,可以根据比率Tmin/T来缩放用于识别选定的查找表的提供所述一个或多个预测系数的一个或多个条目的查找参数(例如,平移参数Θ)。然后可以使用选定的查找表和缩放的查找参数来确定所述一个或多个预测系数。特别地,可以基于选定的查找表的与缩放的查找参数相应的所述一个或多个条目来确定所述一个或多个预测系数。
就这点而论,查找表的数量可以限于预先确定范围[Tmin,Tmax],从而限制音频编码器/解码器的存储器要求。尽管如此,可以使用预先确定的查找表来对周期性T的所有可能的值确定预测系数,从而使得能够实现音频编码器/解码器的计算高效的实现。
根据另一方面,描述了一种用于估计音频信号的第一子带信号的第一采样的方法。如以上所概述的,可以使用分析滤波器组来确定音频信号的第一子带信号,该分析滤波器组包括分别从音频信号提供多个子带中的多个子带信号的多个分析滤波器。上述特征也可应用于下述方法。
所述方法包括确定预测掩模,该预测掩模指示多个预测掩模支持子带中的多个先前采样。所述多个预测掩模支持子带包括所述多个子带中的不同于第一子带的至少一个子带。特别地,所述多个预测掩模支持子带可以包括第一子带,和/或所述多个预测掩模支持子带可以包括所述多个子带中的与第一子带直接相邻的一个或多个子带。
所述方法还可以包括确定将应用于所述多个先前采样的多个预测系数。所述多个先前采样通常从音频信号的所述多个子带信号推导。特别地,所述多个先前采样通常对应于多个解码子带信号的采样。所述多个预测系数可以对应于递归(有限脉冲响应)预测滤波器的预测系数,该递归预测滤波器还考虑了不同于第一子带的子带的一个或多个采样。可以通过分别将所述多个预测系数应用于所述多个先前采样来确定第一采样的估计。就这点而论,所述方法使得能够使用来自其它的(例如,相邻的)子带的一个或多个采样进行子带预测。通过这样做,可以减小由基于子带预测的编码器引起的混叠伪像。
所述方法还可以包括确定信号模型的模型参数。可以基于信号模型、基于模型参数并且基于分析滤波器组来确定所述多个预测系数。就这点而论,可以使用如本文件中所描述的基于模型的预测来确定所述多个预测系数。特别地,可以使用查找表和/或分析函数来确定所述多个预测系数。可以基于信号模型并且基于分析滤波器组来预先确定查找表和/或分析函数。此外,查找表和/或分析函数可以提供(仅)作为从模型参数推导的参数的函数的所述多个预测系数。因此,模型参数可以使用查找表和/或分析函数来直接提供所述多个预测系数。就这点而论,模型参数可以用于高效地描述交叉子带预测器的系数。
根据另一方面,描述了一种用于对音频信号进行编码的方法。所述方法可以包括使用包括多个分析滤波器的分析滤波器组从音频信号确定多个子带信号。所述方法可以继续使用本文件中所描述的预测方法中的任一个来估计所述多个子带信号的采样,从而得到多个估计的子带信号。此外,可以基于相应的所述多个子带信号的采样和所述多个估计的子带信号的采样来确定多个预测误差子带信号的采样。所述方法可以继续量化所述多个预测误差子带信号并且产生编码的音频信号。编码的音频信号可以指示(例如,可以包括)所述多个量化的预测误差子带信号。此外,编码的信号可以指示(例如,可以包括)用于估计所述多个估计的子带信号的采样的一个或多个参数,例如,指示用于确定一个或多个预测系数的一个或多个模型参数,所述一个或多个预测系数然后用于估计所述多个估计的子带信号的采样。
根据另一方面,描述了一种用于对编码的音频信号进行解码的方法。编码的音频信号通常指示多个量化的预测误差子带信号和将用于估计多个估计的子带信号的采样的一个或多个参数。所述方法可以包括对所述多个量化的预测误差子带信号进行去量化,从而得到多个去量化的预测误差子带信号。
此外,所述方法可以包括使用本文件中所描述的任何预测方法来估计所述多个估计的子带信号的采样。可以基于所述多个估计的子带信号的相应采样并且基于所述多个去量化的预测误差子带信号的采样来确定多个解码子带信号的采样。可以使用包括多个合成滤波器的合成滤波器组从所述多个解码子带信号确定解码的音频信号。
根据另一方面,描述了一种被配置为估计音频信号的第一子带信号的一个或多个第一采样的***。可以使用分析滤波器组来确定音频信号的第一子带信号,该分析滤波器组包括从音频信号在多个相应子带中提供多个子带信号的多个分析滤波器。所述***可以包括被配置为确定信号模型的模型参数的预测器计算器。此外,预测器计算器可以被配置为确定一个或多个预测系数,这些预测系数将应用于从第一子带信号推导的第一解码子带信号的一个或多个先前采样。就这点而论,预测器计算器可以被配置为确定递归预测滤波器,特别是递归子带预测滤波器的一个或多个预测系数。可以基于信号模型、基于模型参数并且基于分析滤波器组(例如,使用本文件中所描述的基于模型的预测方法)来确定所述一个或多个预测系数。所述一个或多个先前采样的时隙在所述一个或多个第一采样的时隙之前。所述***还可以包括子带预测器,该子带预测器被配置为通过将所述一个或多个预测系数应用于所述一个或多个先前采样来确定所述一个或多个第一采样的估计。
根据另一方面,描述了一种被配置为估计音频信号的第一子带信号的一个或多个第一采样的***。第一子带信号对应于多个子带中的第一子带。通常使用分析滤波器组来确定第一子带信号,该分析滤波器组包括分别为所述多个子带提供多个子带信号的多个分析滤波器。所述***包括预测器计算器,该预测器计算器被配置为确定预测掩模,该预测掩模指示多个预测掩模支持子带中的多个先前采样。所述多个预测掩模支持子带包括所述多个子带中的不同于第一子带的至少一个子带。预测器计算器被进一步配置为确定将应用于多个先前采样的多个预测系数(或递归预测滤波器)。此外,所述***包括子带预测器,该子带预测器被配置为通过分别将所述多个预测系数应用于所述多个先前采样来确定所述一个或多个第一采样的估计。
根据另一方面,描述了一种被配置为对音频信号进行编码的音频编码器。音频编码器包括分析滤波器组,该分析滤波器组被配置为使用多个分析滤波器从音频信号确定多个子带信号。此外,音频编码器包括如本文件中所描述的预测器计算器和子带预测器,该预测器计算器和子带预测器被配置为估计所述多个子带信号的采样,从而得到多个估计的子带信号。另外,编码器可以包括差异单元,该差异单元被配置为基于所述多个子带信号的和所述多个估计的子带信号的相应采样来确定多个预测误差子带信号的采样。量化单元可以用于对所述多个预测误差子带信号进行量化。此外,位流产生单元可以被配置为产生编码的音频信号,该编码的音频信号指示所述多个量化的预测误差子带信号和用于估计所述多个估计的子带信号的采样的一个或多个参数(例如,一个或多个模型参数)。
根据另一方面,描述了一种被配置为对编码的音频信号进行解码的音频解码器。编码的音频信号指示(例如,包括)多个量化的预测误差子带信号和用于估计多个估计的子带信号的采样的一个或多个参数。音频解码器可以包括逆量化器,该逆量化器被配置为对所述多个量化的预测误差子带信号进行去量化,从而得到多个去量化的预测误差子带信号。此外,所述解码器包括如本文件中所描述的预测器计算器和子带预测器,该预测器计算器和子带预测器被配置为估计所述多个估计的子带信号的采样。求和单元可以用于基于所述多个估计的子带信号的相应采样并且基于所述多个去量化的预测误差子带信号的采样来确定多个解码子带信号的采样。此外,合成滤波器组可以用于使用多个合成滤波器从所述多个解码子带信号确定解码的音频信号。
根据另一方面,描述了一种软件程序。该软件程序可以适于在处理器上执行并且适于当在处理器上被实施时实行本文件中所概述的方法步骤。
根据另一方面,描述了一种存储介质。该存储介质可以包括软件程序,该软件程序适于在处理器上被执行并且适于当在处理器上实施时实行本文件中所概述的方法步骤。
根据另一方面,描述了一种计算机程序产品。该计算机程序可以包括用于当在计算机上被执行时实行本文件中所概述的方法步骤的可执行指令。
应指出,如本专利申请中所概述的方法和***(包括其优选实施例)可以单独地使用,或者与本文件中所公开的其它方法和***结合使用。此外,本专利申请中所概述的方法和***的所有方面可以被任意结合。特别地,权利要求的特征可以以任意的方式彼此结合。
附图说明
下面参照附图通过不限制本发明的范围或精神的例示性例子来描述本发明,其中:
图1描绘在滤波器组域中(即,在子带域中)应用线性预测的示例音频解码器的框图;
图2示出时间频率网格中的示例预测掩模;
图3例示用于基于正弦模型的预测器计算器的示例制表数据;
图4例示由带内子带预测导致的示例噪声整形;
图5例示由交叉带子带预测导致的示例噪声整形;和
图6a描绘作为用于基于周期模型的预测器计算的制表数据的基础的示例二维量化网格;
图6b例示不同预测掩模对于不同信号周期性范围的使用;和
图7a和7b示出使用基于模型的子带预测的示例编码和解码方法的流程图。
具体实施方式
下述实施例仅例示说明用于在临界采样滤波器组中基于模型的预测的本发明的原理。应理解,本文中所描述的布置和细节的修改和变化对于本领域的其他技术人员将是显而易见的。因此,本发明意图仅由专利权利要求限制,而不是由在本文中通过实施例的描述和说明而呈现的特定细节限制。
图1描绘了在滤波器组域(也被称为子带域)中应用线性预测的示例音频解码器100的框图。音频解码器100接收位流,该位流包括关于预测误差信号(也被称为残差信号)的信息,可能还包括关于相应的编码器用于从原始输入音频信号确定预测误差信号的预测器的描述的信息。关于预测误差信号的信息可以与输入音频信号的子带相关,关于预测器的描述的信息可以与一个或多个子带预测器相关。
给定所接收的位流信息,逆量化器101可以输出预测误差子带信号的采样111。可以将这些采样添加到子带预测器103的输出112,并且可以将和113传递到子带缓冲器104,子带缓冲器104保存解码的音频信号的子带的先前解码的采样113的记录。子带预测器103的输出可以被称为估计的子带信号112。可以将解码的音频信号的子带的解码的采样113提交给合成滤波器组102,合成滤波器组102将子带采样转换到时域,从而得到解码的音频信号的时域采样114。
换句话说,解码器110可以在子带域中操作。特别地,解码器100可以使用子带预测器103确定多个估计的子带信号112。此外,解码器100可以使用逆量化器101确定多个残差子带信号111。可以添加所述多个估计的子带信号112和所述多个残差子带信号111的各个对可以相加以得到相应的多个解码子带信号113。可以将所述多个解码子带信号113提交给合成滤波器组102以得到时域的解码的音频信号114。
在子带预测器103的实施例中,可以通过缓冲器104中的子带采样的线性组合来获得给定的估计的子带信号112的给定采样,所述缓冲器104中的子带采样对应于与所述给定的估计的子带信号112的所述给定采样不同的时间和频率(即,不同的子带)。换句话说,可以基于与第二时刻(不同于第一时刻)相关并且与第二子带(不同于第一子带)相关的解码子带信号113的一个或多个采样来确定第一时刻的、第一子带中的估计的子带信号112的采样。预测系数集合及其对于时间和频率掩模的联接可以定义预测器103,并且该信息可以由解码器100的预测器计算器105供给。预测器计算器105通过所接收的位流中所包括的信号模型数据的转换来输出定义预测器103的信息。可以发送修改预测器103的输出的缩放的附加增益。在预测器计算器105的实施例中,以高效参数化的线状谱的形式提供信号模型,其中,参数化的线状谱中的每个线或者参数化的线状谱的一组随后的线用于指向预测器系数的表格值。就这点而论,所接收的位流内所提供的信号模型数据可以用于识别预先确定的查找表内的条目,其中,查找表的条目提供关于将被预测器103使用的预测器系数(也被称为预测系数)的一个或多个值。适用于表查找的方法可以取决于复杂度和存储器要求之间的权衡。例如,最近邻类型的查找可以用于实现最低复杂度,而插值查找法可以以较小的表大小提供类似的性能。
如以上所指示的,所接收的位流可以包括一个或多个显式地发送的增益(或显式地发送的增益指示)。可以作为预测器操作的一部分或者在预测器操作之后应用增益。所述一个或多个显示地发送的增益对于不同子带可以是不同的。除了用于确定预测器103的预测系数的一个或多个模型参数之外,还提供显示地发送的附加增益(的指示)。就这点而论,附加增益可以用于缩放预测器103的预测系数。
图2示出了时间频率网格中的示例预测掩模支持(masksupport)。预测掩模支持可以用于在具有均匀的时间频率分辨率的滤波器组(诸如,余弦调制滤波器组(例如,MDCT滤波器组))中操作的预测器103。记号用示图201例示,因为目标暗阴影子带采样211是基于浅阴影子带采样212的预测的输出。在示图202-205中,浅阴影子带采样集合指示预测器掩模支持。源子带采样212和目标子带采样211的组合将被称为预测掩模201。时间-频率网格可以用于在目标子带采样的附近布置子带采样。时隙索引从左到右增大,子带频率索引从下到上增大。图2示出了预测掩模和预测器掩模支持的示例情况,应指出,可以使用各种其它的预测掩模和预测器掩模支持。示例预测掩模是:
·预测掩模202定义了从两个前面的、在时刻k-1和k-2的解码的子带采样222预测在时刻k的估计的子带采样221的带内预测。
·预测掩模203定义了从三个前面的、在时刻k-1的和在子带n-1、n、n+1中的解码的子带采样232预测在时刻k的、在子带n中的估计的子带采样231的交叉带预测。
·预测掩模204定义了基于三个前面的、在时刻k-1的、在子带n-1、n、n+1中的解码的子带采样242预测在时刻k的、在三个不同子带n-1、n、n+1中的三个估计的子带采样241的交叉带预测。可以如下执行交叉带预测,即可以基于所有三个前面的在子带n-1、n、n+1中的解码的子带采样242来确定每个估计的子带采样241。
·预测掩模205定义基于十二个前面的、在时刻k-2、k-3、k-4、k-5的、在子带n-1、n、n+1中的解码的子带采样252预测在时刻k的、在子带n中的估计的子带采样251的交叉带预测。
图3例示了关于在余弦调制滤波器组中操作的基于正弦模型的预测器计算器105的制表数据(tabulated data)。预测掩模支持是示图204的预测掩模支持。对于给定的频率参数,可以将具有最近子带中心频率的子带选为中央目标子带。该频率参数和中央目标子带的中心频率之间的差异可以以滤波器组的频率间隔(区间)为单位来计算。这给出了图3的九个曲线图301的横坐标所描绘的-0.5和0.5之间的值,该值可以取整为制表数据中的最近的可用条目。这生成了3×3系数矩阵,该系数矩阵将应用于目标子带及其两个相邻子带的子带缓冲器104中的多个解码子带信号113的最新的值。所得的3×1矢量构成了对于给定的频率参数的子带预测器103对这三个子带的贡献。可以对于信号模型中的所有的正弦分量以加法方式重复所述处理。
换句话说,图3例示了子带预测器的基于模型的描述的例子。假设输入音频信号包括基本频率Ω01,…,ΩM-1处的一个或多个正弦分量。对于所述一个或多个正弦分量中的每个,可以确定使用预先确定的预测掩模(例如,预测掩模204)的子带预测器。输入音频信号的基本频率Ω可以位于滤波器组的子带之一内。该子带可以被称为关于该特定基本频率Ω的中央子带。基本频率Ω可以被表达为相对于中央子带的中心频率在-0.5和0.5范围内的值。音频编码器可以将关于基本频率Ω的信息发送到解码器100。解码器100的预测器计算器105可以使用图3的3×3矩阵通过确定用于基本频率Ω的相对频率值303的系数值302来确定预测系数的3×3矩阵。这意味着可以仅使用所接收的关于特定基本频率Ω的信息来确定使用预测掩模204的子带预测器103的系数。换句话说,通过使用例如一个或多个正弦分量的模型对输入音频信号进行建模,可以提供子带预测器的位率高效的描述。
图4例示了余弦调制滤波器组中的带内子带预测导致的示例噪声整形。用于执行带内子带预测的信号模型是如由随机高斯白噪声驱动的二阶微分方程所描述的、具有尖峰谐振的二阶自回归随机处理。曲线401示出了所测量的用于实现所述处理的幅度谱。对于这个例子,应用图2的预测掩模202。也就是说,预测器计算器105对于给定目标子带221仅基于先前的在同一子带中的子带采样222来供给子带预测器103。用高斯白噪声发生器替代逆量化器101导致合成的幅度谱402。可以看出,在合成中发生了强烈的混叠伪像,因为合成谱402包括与原始谱401不一致的峰。
图5例示了由交叉带子带预测导致的示例噪声整形。设置与图4的设置相同,除了应用预测掩模203的事实之外。因此,计算器105对于给定目标子带231基于在目标子带及其两个相邻子带中的先前子带采样232来供给预测器103。从图5可以看出,合成信号的谱502基本上与原始信号的谱501一致,即,当使用交叉带子带预测时,混叠问题基本上被抑制。就这点而论,图4和5例示了当使用交叉带子带预测时,即,当基于一个或多个相邻子带的先前子带采样预测子带采样时,可以减小由子带预测引起的混叠伪像。结果,子带预测也可以应用于低位率音频编码器的上下文中,而没有引起可听的混叠伪像的风险。交叉带子带预测的使用通常使预测系数的数量增加。然而,如在图3的上下文下所示的,关于输入音频信号的模型的使用(例如,正弦模型或周期模型的使用)使得可以高效地描述子带预测器,从而使得能够将交叉带子带预测用于低位率音频编码器。
以下,将参照图1-6并且通过添加适当的数学术语来概述在临界采样滤波器组中的基于模型的预测的原理的描述。
作为线性预测的基础的可能的信号模型是其统计由其自相关函数r(τ)=E{x(t)x(t-τ)}确定的零均值、弱平稳随机处理x(t)的信号模型。作为用于这里将考虑的临界采样滤波器组的良好模型,设{wα:α∈A}是构成标准正交基的实数值合成波形wα(t)的集合。换句话说,滤波器组可以用波形{wα:α∈A}表示。可以用内积获得时域信号s(t)的子带采样:
< s , w &alpha; > = &Integral; - &infin; &infin; s ( t ) w &alpha; ( t ) d t , - - - ( 1 )
并且用以下方程恢复该信号:
s ( t ) = &Sigma; &alpha; &Element; A < s , w &alpha; > w &alpha; ( t ) , - - - ( 2 )
处理x(t)的子带采样<x,wα>是随机变量,其协方差矩阵Rαβ由如下的自相关函数r(τ)确定:
Rαβ=E{<x,wα><x,wβ>}=<Wαβ,r>,   (3)
其中,Wαβ(τ)是两个合成波形的互相关:
W &alpha; &beta; ( &tau; ) = &Integral; - &infin; &infin; w a ( t ) w &beta; ( t - &tau; ) d t . - - - ( 4 )
从解码的子带采样的集合{<x,wβ>:β∈B}来线性预测子带采样<x,wα>由以下方程定义:
&Sigma; &beta; &Element; B c &beta; < x , w &beta; > . - - - ( 5 )
在方程(5)中,集合B定义了源子带采样,即,集合B定义了预测掩模支持。求平方的预测误差的均值由以下方程给出:
E { ( &Sigma; &beta; &Element; B c &beta; < x , w &beta; > - < x , w &alpha; > ) 2 } = &Sigma; &beta; , &gamma; &Element; B c &gamma; R &gamma; &beta; c &beta; - 2 &Sigma; &beta; &Element; B R &alpha; &beta; c &beta; + R &alpha; &alpha; , - - - ( 6 )
并且通过求解预测系数cβ的正规方程进行求解来获得最小均方差(MSE)解:
&Sigma; &beta; &Element; B R &gamma; &beta; c &beta; = R &gamma; a , &gamma; &Element; B . - - - ( 7 )
当预测系数满足方程(7)时,方程(6)的右侧简化为RααβRαβcβ。可以使用例如Levinson-Durbin算法来以高效的方式对正规方程(7)进行求解。
在本文件中提出了发送在预测器计算器105中可以从其推导预测系数{cβ:β∈B}的信号模型的参数化表示。例如,信号模型可以提供该信号模型的自相关函数r(τ)的参数化表示。解码器100可以使用所接收的参数化表示来推导自相关函数r(τ),并且可以将自相关函数r(τ)与合成波形互相关Wαβ(τ)组合以便推导正规方程(7)所需的协方差矩阵条目。然后可以对这些方程进行求解以获得预测系数。
换句话说,可以用可以使用有限数量的模型参数描述的处理x(t)来对待编码的输入音频信号进行建模。特别地,建模处理x(t)可以为使得可以使用有限数量的参数来描述其自相关函数r(τ)=E{x(t)x(t-τ)}。可以将用于描述自相关函数r(τ)的有限数量的参数发送到解码器100。解码器100的预测器计算器105可以从所接收的参数确定自相关函数r(τ),并且可以使用方程(3)来确定从其可以确定正规方程(7)的子带信号的协方差矩阵Rαβ。然后可以由预测器计算器105对正规方程(7)进行求解,从而得到预测系数cβ
以下,描述可以用于以高效的方式应用上述基于模型的预测方案的示例信号模型。以下描述的信号模型通常与对音频信号进行编码,例如,对于对语音信号进行编码是高度相关的。
信号模型的例子由正弦处理给出:
x(t)=a cos(ξt)+b sin(ξt),   (8)
其中,随机变量a、b是不相关的,均值为0,方差为1。该正弦处理的自相关函数由以下方程给出:
r(τ)=cos(ξτ).   (9)
这样的正弦处理的一般化是包括(角)频率集合S,即,包括多个不同的(角)频率ξ的多正弦模型:
x ( t ) = &Sigma; &xi; &Element; S a &xi; c o s ( &xi; t ) + b &xi; sin ( &xi; t ) . - - - ( 10 )
假设所有的随机变量aξ、bξ都是两两不相关的,均值为0,方差为1,那么多正弦处理具有如下的自相关函数:
r ( &tau; ) = &Sigma; &xi; &Element; S c o s ( &xi; &tau; ) . - - - ( 11 )
多正弦处理的功率谱密度(PSD)(其对应于自相关函数的傅立叶变换)是如下的线状谱:
P ( &omega; ) = 1 2 &Sigma; &xi; &Element; S ( &delta; ( &omega; - &xi; ) + &delta; ( &omega; + &xi; ) ) . - - - ( 12 )
数值考虑可以导致具有方程处理的自相关函数的纯多正弦处理被具有自相关函数的松弛多正弦处理取代,其中,ε>0是相对较小的松弛参数。后一模型导致没有脉冲函数的严格正PSD。多正弦模型的频率集合S的紧凑描述的例子如下:
1.单个基本频率Ω:S={Ωv:v=1,2,...)
2.M个基本频率:Ω0,Ω1,...,ΩM-1:S={Ωkv:v=1,2,...,k=0,1,...M-1}
3.单边带平移基本频率Ω,θ:S={Ω(v+θ):v=1,2,...}
4.轻微非谐波的模型:Ω,a:S={Ωv·(1+av2)1/2:v=1,2,...},其中,a描述该模型的非谐波分量。
就这点而论,可以使用以上列出的示例描述之一以高效的方式描述表现出方程(12)给出的PSD的(可能松弛的)多正弦模型。举例来说,可以仅使用单个基本频率Ω来描述方程(12)的线状谱的整个频率集合S。如果可以使用表现出单个基本频率Ω的多正弦模型很好地描述待编码的输入音频信号,则可以用单个参数(例如,基本频率Ω)来描述基于模型的预测器,而不管子带预测器103所使用的预测系数的数量如何(即,不管预测掩模202、203、204、205如何)。
用于描述频率集合S的情况1得到对具有周期T=2π/Ω的输入音频信号进行建模的处理x(t)。当将方差为1/2的零频率(DC)贡献包括到方程(11)并且对于结果利用因子2/T进行重新缩放时,周期模型处理x(t)的自相关函数可以被写为:
r ( &tau; ) = &Sigma; k &Element; Z &delta; ( &tau; - k T ) . - - - ( 13 )
在松弛因子定义为ρ=exp(-Tε)的情况下,周期模型的松弛版本的自相关函数由以下方程给出:
r ( &tau; ) = &Sigma; k &Element; Z &rho; | k | &delta; ( &tau; - k T ) . - - - ( 14 )
方程(14)还对应于由被馈送白噪声z(t)的单个延迟回路定义的处理的自相关函数,也就是说,如下模型处理的自相关函数:
x ( t ) = &rho; x ( t - T ) + 1 - &rho; 2 z ( t ) . - - - ( 15 )
这意味着,表现出单个基本频率Ω的周期处理对应于时域中的延迟,其中,延迟为T=2π/Ω。
以上提及的全局信号模型通常由于正弦振幅参数aξ、bξ的单位方差假设而具有平坦的大规模的功率谱。然而,应指出,信号模型通常仅局部地针对临界采样滤波器组的子带子集被考虑,其中,滤波器组对于整个谱的整形是起作用的。换句话说,对于具有与子带宽度相比变化缓慢的谱形状的信号,平坦的功率谱模型将提供与信号的良好匹配,随后,基于模型的预测器将提供足够水平的预测增益。
更一般地,可以在自回归(AR)或自回归移动平均(ARMA)处理的标准参数化方面来描述PSD模型。这将可能以描述性模型参数增加为代价提高基于模型的预测的性能。
另一变型是通过丢弃对于随机信号模型的平稳性假设而获得的。自相关函数然后变为两个变量的函数r(t,s)=E{x(t)x(s)}。例如,相关的非平稳正弦模型可以包括振幅调制(AM)和频率调制(FM)。
此外,可以利用更具确定性的信号模型。在下面的一些例子中将看出,在一些情况下,预测可以具有变为零的误差。在这样的情况下,可以避免概率性方法。当预测对于模型空间中的所有信号都是完美的时,无需在所考虑的模型空间上通过概率度量执行预测性能的均值。
以下,描述关于调制的滤波器组的各个方面。特别地,描述如下的方面,该方面对协方差矩阵的确定有影响,从而提供用于确定子带预测器的预测系数的高效手段。调制的滤波器组可以被描述为具有合成波形的二维索引集合α=(n,k),其中,n=0,1,...是子带索引(频带),并且其中,k∈Z是子带采样索引(时隙)。为了易于阐述,假设合成波形在连续时间内被给出并且被规范化为单位时间步幅,
wn,k(t)=un(t-k),   (16)
其中,在余弦调制滤波器组的情况下,
u n ( t ) = v ( t ) c o s &lsqb; &pi; ( n + 1 2 ) ( t + 1 2 ) &rsqb; , - - - ( 17 )
假设窗口函数v(t)是实数值,并且是偶数。取决于调制规则的微小变化,这覆盖一系列高度相关的情况,诸如MDCT(修正离散余弦变换)、QMF(正交镜像滤波器)、以及当以时间步长1/L采样时具有L个子带的ELT(扩展重叠变换)。假设窗口是具有有限持续时间或长度的,其支持被包括在区间[-K/2,K/2]中,其中,K是重叠变换的重叠因子,并且其中,K指示窗口函数的长度。
由于平移不变结构,发现合成波形的互相关函数(如方程(4)中定义)可以被写为:
W n , k , m , l ( &tau; ) = &Integral; - &infin; &infin; w n , k ( t ) w m , l ( t - &tau; ) d t = &Integral; - &infin; &infin; u n ( t ) u m ( t - l + k - &tau; ) d t . - - - ( 18 )
也就是说,Wn,k,m,l(τ)=Un,m(τ-l+k),其中,定义Un,m(τ)=Wn,0,m,0(τ)。调制结构(17)使得可以进一步展开为:
U n , m ( &tau; ) = 1 2 &kappa; n - m ( &tau; ) c o s &pi; 2 &lsqb; ( n + m + 1 ) &tau; + ( n - m ) &rsqb; + 1 2 &kappa; n + m + 1 ( &tau; ) c o s &pi; 2 &lsqb; ( n - m ) &tau; + ( n + m + 1 ) &rsqb; . - - - ( 19 )
其中,核函数κv表示在滤波器组窗口的Wigner-Ville分布的频率变量中按滤波器组子带步长的采样:
&kappa; &nu; ( &tau; ) = &Integral; - &infin; &infin; v ( t + &tau; 2 ) v ( t - &tau; 2 ) c o s ( &pi; &nu; t ) d t . - - - ( 20 )
由于以上提及的关于窗口函数v(t)的假设,核是在v和τ中都是实数并且是偶数。其傅立叶变换是平移窗口响应的乘积:
&kappa; ^ &nu; ( &omega; ) = v ^ ( &omega; + &pi; 2 &nu; ) v ^ ( &omega; - &pi; 2 &nu; ) . - - - ( 21 )
从方程(20)和(21)可以看出,核κv(τ)对于|τ|>K变为零,并且对于滤波器组窗口v(t)的典型选择,作为|v|的函数而迅速衰减。因此,常常可以忽略方程(19)的涉及v=n+m+1的第二项,除了最低子带之外。
对于给定的信号模型的自相关函数r(τ),可以将以上提及的公式***到由方程(3)给出的子带采样协方差矩阵的定义中。得到Rn,k,m,l=Rn,m[k-l],其中,定义
R n , m &lsqb; &lambda; &rsqb; = &Integral; - &infin; &infin; U n , m ( &tau; ) r ( &tau; + &lambda; ) d &tau; . - - - ( 22 )
作为给定信号模型的功率谱密度P(ω)的函数(其对应于自相关函数r(τ)的傅立叶变换),发现:
R n , m &lsqb; &lambda; &rsqb; = 1 2 &pi; &Integral; - &infin; &infin; U ^ n , m ( &omega; ) P ( &omega; ) exp ( - i &omega; &lambda; ) d &omega; . - - - ( 23 )
其中,是Un,m(τ)的傅立叶变换,其中,n、m标识了子带索引,并且其中,λ表示时隙滞后(λ=k-l)。方程(23)的表达可以被写为:
R n , m &lsqb; &lambda; &rsqb; = 1 4 &pi; &Integral; - &infin; &infin; &kappa; ^ n - m ( &omega; - &pi; 2 ( n + m + 1 ) ) P ( &omega; ) cos ( &omega; &lambda; - &pi; 2 ( n - m ) ) d &omega; + 1 4 &pi; &Integral; - &infin; &infin; &kappa; ^ n + m + 1 ( &omega; - &pi; 2 ( n - m ) ) P ( &omega; ) cos ( &omega; &lambda; - &pi; 2 ( n + m + 1 ) ) d &omega; . - - - ( 24 )
重要的观察是,方程(24)的第一项相对于频移基本上具有不变性。如果忽略方程(24)的第二项并且将P(ω)平移整数v倍子带间隔π至P(ω-πv),则找到协方差中的相应平移Rn,m[λ]=±Rn-v,m-v[λ],其中,符号取决于时滞λ的(整数)值。这反映了与一般的滤波器组情况相比使用具有调制结构的滤波器组的优点。
方程(24)提供了用于当知晓作为基础的信号模型的PSD时确定子带采样协方差矩阵的矩阵系数的高效手段。举例来说,在使用包括(角)频率ξ处的单个正弦曲线的信号模型x(t)的基于正弦模型的预测方案的情况下,PSD由给出。将P(ω)***到方程(24)中给出了四个项,其中三个在n+m+1大的假设下可以被忽略。剩余项变为:
R n , m &lsqb; &lambda; &rsqb; &ap; 1 8 &pi; &kappa; ^ n - m ( &xi; - &pi; 2 ( n + m + 1 ) ) cos ( &xi; &lambda; - &pi; 2 ( n - m ) ) = 1 8 &pi; v ^ ( &xi; - &pi; ( n + 1 2 ) ) v ^ ( &xi; - &pi; ( m + 1 2 ) ) cos ( &xi; &lambda; - &pi; 2 ( n - m ) ) . - - - ( 25 )
方程(25)提供了用于确定子带协方差矩阵Rn,m的高效手段。可以用周围的子带采样的集合{<x,wn,k>:(n,k)∈B}来可靠地预测子带采样<x,wp,0>,{<x,wn,k>:(n,k)∈B}被假设为受所考虑的频率显著地影响。绝对频率ξ可以用相对于子带的中心频率的相对项表达为其中,p是包括频率ξ的子带的子带索引,并且其中,f是取-0.5和+0.5之间的值的规范化频率参数,该参数指示频率ξ相对于子带p的中心频率的位置。在确定了子带协方差矩阵Rn,m之后,通过对正规方程(7)进行求解来找到预测器系数cm[l],这些预测器系数cm[l]被应用于采样索引l处的、子带m中的子带采样来估计采样索引k处的、子带n中的子带采样,对于所考虑的情况,这可以被写为:
&Sigma; ( m , l ) &Element; B R n , m &lsqb; k - l &rsqb; c m &lsqb; l &rsqb; = R n , p &lsqb; k &rsqb; , ( n , k ) &Element; B . - - - ( 26 )
在方程(26)中,集合B描述例如图2中所示的预测掩模支持。换句话说,集合B识别用于预测目标采样的子带m和采样索引l。
以下,以示例性的方式提供用于不同预测掩模支持(如图2中所示)的正规方程(26)的解。因果二阶带内预测器的例子是通过选择预测掩模支持B={(p,-1),(p,-2)}而获得的。该预测掩模支持对应于图2的预测掩模202。用于两抽头预测的正规方程(26)通过使用方程(25)的近似变为:
v ^ ( &xi; - &pi; ( p + 1 2 ) ) 2 &Sigma; l = - 1 , - 2 c o s ( &xi; ( k - l ) ) c p &lsqb; l &rsqb; = v ^ ( &xi; - &pi; ( p + 1 2 ) ) 2 c o s ( - &xi; k ) , k = - 1 , - 2. - - - ( 27 )
方程(27)的解由cp[-1]=2cos(ξ),cp[-2]=-1给出,并且只要频率不被选择为使得它就是唯一的。发现根据方程(6)的求平方的预测误差的均值成为零。因此,取决于方程(25)的近似,正弦预测是完美的。频移的不变性在此由下述事实例示,即,使用定义可以按照规范化频率f将预测系数cp[-1]重写为cp[-1]=-2(-1)psin(πf)。这意味着,预测系数仅取决于特定子带内的规范化频率f。然而,预测系数的绝对值与子带索引p无关。
如以上关于图4所讨论的,带内预测关于在噪声整形中的混合伪像具有某些缺点。下一个例子涉及如图5中所示的改进行为。如本文件中所教导的因果交叉带预测通过选择预测掩模支持B={(p-1,-1),(p,-1),(p+1,-1)}而获得,其仅需要一个较早的时隙,而不是两个,并且以比第一个例子的典型预测掩模202少的混叠频率贡献执行噪声整形。预测掩模支持B={(p-1,-1),(p,-1),(p+1,-1)}对应于图2的预测掩模203。基于方程(25)的近似的正规方程(26)在这种情况下简化为关于三个未知系数cm[-1],m=p-1,p,p+1的两个方程。
v ^ ( &pi; f ) c p &lsqb; - 1 &rsqb; = ( - 1 ) p + 1 v ^ ( &pi; f ) s i n ( &pi; f ) v ^ ( &pi; ( f + 1 ) ) c p - 1 &lsqb; - 1 &rsqb; - v ^ ( &pi; ( f - 1 ) ) c p + 1 &lsqb; - 1 &rsqb; = ( - 1 ) p v ^ ( &pi; f ) c o s ( &pi; f ) &CenterDot; - - - ( 28 )
发现方程(28)的任何解都导致根据方程(6)的求平方的预测误差的均值变为零。在方程(28)的无限数量的解之中选择一个解的可能的策略是最小化预测系数的平方和。这得到由以下公式给出的系数:
c p - 1 &lsqb; - 1 &rsqb; = ( - 1 ) p v ^ ( &pi; f ) v ^ ( &pi; ( f + 1 ) ) c o s ( &pi; f ) v ^ ( &pi; ( f - 1 ) ) 2 + v ^ ( &pi; ( f + 1 ) ) 2 c p &lsqb; - 1 &rsqb; = ( - 1 ) p + 1 sin ( &pi; f ) c p + 1 &lsqb; - 1 &rsqb; = ( - 1 ) p + 1 v ^ ( &pi; f ) v ^ ( &pi; ( f - 1 ) ) cos ( &pi; f ) v ^ ( &pi; ( f - 1 ) ) 2 + v ^ ( &pi; ( f + 1 ) ) 2 &CenterDot; - - - ( 29 )
从公式(29)清楚的是,预测系数仅取决于相对于目标子带p的中间点的规范化频率f,并且进一步取决于目标子带p的奇偶性。
通过使用同一预测掩模支持B={(p-1,-1),(p,-1),(p+1,-1)}来预测三个子带采样<x,wm,0>,其中m=p-1,p,p+1,如图2的预测掩模204所示,获得3×3预测矩阵。当在正规方程中引入用于避免歧义性的更自然的策略时,即,通过***与P(ω)=ε((ε2+(ω-ξ)2)-1+(ε2+(ω+ξ)2)-1)相应的松弛正弦模型r(τ)=exp(-ε|τ|)cos(ξt),数值计算导致图3的3×3预测矩阵。在与正弦窗口函数v(t)=cos(πt/2)的重叠K=2的情况下,以及在奇数子带p的情况下,预测矩阵元素被示为规范化频率的函数。
就这点而论,已经表明,信号模型x(t)可以用于描述待编码的输入音频信号的基础特性。描述自相关函数r(τ)的参数可以被发送到解码器100,从而使得解码器100能够从所发送的参数和对于信号模型x(t)的了解来计算预测器。已经表明,对于调制的滤波器组,可以推导用于确定信号模型的子带协方差矩阵以及用于对正规方程进行求解以确定预测器系数的有效手段。特别地,已经表明,所得的预测器系数对于子带平移是不变的,并且通常仅取决于相对于特定子带的规范化频率。结果,可以提供预先确定的查找表(例如图3中所示),该查找表使得可以在知晓规范化频率f的情况下确定预测器系数,规范化频率f与对于其确定预测器系数的子带索引p无关(除奇偶值之外)。
以下,更详细地描述例如使用单个基本频率Ω的基于周期模型的预测。这样的周期模型的自相关函数r(τ)由方程(13)给出。等同PSD或线状谱由以下方程给出:
P ( &omega; ) = &Omega; &Sigma; q &Element; Z &delta; ( &omega; - q &Omega; ) . - - - ( 30 )
当周期模型的周期T足够小(例如,T≤1)时,基本频率Ω=2π/T大得足以使得可以应用如以上使用部分频率ξ=qΩ推导的正弦模型,频率ξ最接近于将被预测的目标子带采样的子带p的中心频率这意味着,可以使用上述正弦模型来良好地对具有小周期T(即,相对于滤波器组的时间步幅小的周期)的周期信号进行建模和预测。
当周期T与滤波器组窗口v(t)的持续时间K相比足够大时,预测器简化为用T近似延迟。如将示出的,可以直接从由方程(19)给出的波形互相关函数读取该预测器的系数。将根据方程(13)的模型***到方程(22)中导致:
R n , m &lsqb; &lambda; &rsqb; = &Sigma; q &Element; Z U n , m ( q T - &lambda; ) , - - - ( 31 )
重要的观察是,如果T≥2K,则对于每个λ,方程(31)的最多一个项为非零,因为对于|τ|>K,Un,w(τ)=0。通过选择具有时隙直径D=|J|≤T-K的预测掩模支持B=I×J,观察到(n,k),(m,l)∈B暗示|k-l|≤T-K,因此,方程(31)的单个项是对于q=0。结果就是Rn,m[k-l]=Un,m(k-l),这是正交波形的内积,并且除非n=m且k=l,否则变为零。总而言之,正规方程(7)变为:
cn[k]=Rn,p[k],(n,k)∈B.   (32)
预测掩模支持可以被选为以k=k0≈-T为中心,在这种情况下,方程(32)的右侧具有其来自q=-1的单一贡献。于是,系数由以下方程给出:
cn[k]=Un,p[-k-T],(n,k)∈B,   (33)
其中,可以***来自方程(19)的显式表达。用于这种情况的预测掩模支持的几何形状可以具有图2的预测掩模205的预测掩模支持的外观。由方程(6)给出的求平方的预测误差的均值等于up(t+T)到近似波形的补集所跨越的空间上的投影的平方范数。
鉴于以上,本文件所教导的是,子带采样<x,wp,0>(来自子带p并且在时间索引0处)可以通过在时间直径大致等于T的情况下使用以(p,-T)为中心的合适的预测掩模支持B来被预测。可以针对T和p的每个值对正规方程进行求解。换句话说,对于输入音频信号的每个周期性T以及对于每个子带p,可以使用正规方程(33)来确定用于给定的预测掩模支持B的预测系数。
在大量子带p和宽范围的周期T的情况下,所有预测器系数的直接制表是不切实际的。但是以与正弦模型类似的方式,通过相对于频移的不变性,滤波器组的调制结构提供了必要表格大小的显著缩减。通常研究具有以子带p的中心为中心(即,以为中心)的平移参数-1/2<θ≤1/2的平移的谐波模型是足够的,该平移参数由频率集合q∈Z之中的正频率子集S(θ)定义,
P ( &omega; ) = &Omega; &Sigma; &xi; &Element; S ( &theta; ) ( &delta; ( &omega; - &xi; ) + &delta; ( &omega; + &xi; ) ) . - - - ( 34 )
实际上,给定T和足够大的子带索引p,可以通过适当地选择平移参数θ,用根据方程(34)的平移的模型良好逼近地来恢复根据方程(30)的周期模型。将方程(34)***到方程(24)中(其中,n=p+v且m=p+μ)(其中,ν和μ定义了预测掩模支持的子带p周围的子带索引)以及基于傅立叶分析的操纵导致以下关于协方差矩阵的表达式:
R p + &nu; , p + &mu; &lsqb; &lambda; &rsqb; &ap; ( - 1 ) p &lambda; 2 &Sigma; l &Element; Z &kappa; &nu; - &mu; ( T l - &lambda; ) c o s ( 2 &pi; l &theta; + &pi; 2 ( ( &nu; + &mu; ) ( &lambda; - T l ) + &lambda; - &nu; + &mu; ) ) . - - - ( 35 )
可以看出,表达式(35)仅通过因子(-1)而取决于目标子带索引p。对于周期T大并且时滞λ小的情况,仅关于l=0的项对表达式(35)有贡献,并且再次发现协方差矩阵是单位矩阵。关于以(p,-T)为中心的合适的预测掩模支持B的正规方程(26)的右侧直接给出如下的预测系数:
c p + &nu; &lsqb; k &rsqb; = ( - 1 ) p k 2 &kappa; &nu; ( - T - k ) c o s ( - 2 &pi; &theta; + &pi; 2 ( &nu; ( k + T ) + k - &nu; ) ) , ( p + &nu; , k ) &Element; B . - - - ( 36 )
这通过平移的典范选择来恢复方程(19)至(33)的第一项的贡献。
方程(36)使得可以确定在时间索引k的、关于子带(p+v)的预测系数cp+v[k],其中,待预测采样是在时间索引0的、来自子带p的采样。从方程(36)可以看出,预测系数cp+v[k]仅通过因子(-1)pk取决于目标子带索引p,因子(-1)pk影响预测系数的符号。然而,预测系数的绝对值与目标子带索引p无关。另一方面,预测系数cp+v[k]取决于周期性T和平移参数θ。此外,预测系数cp+v[k]取决于ν和k,即,取决于用于预测目标子带p中的目标采样的预测掩模支持B。
在本文件中,提出了提供使得可以对于预先确定的预测掩模支持B查找预测系数cp+v[k]的集合的查找表。对于给定的预测掩模支持B,查找表提供用于预先确定的周期性T的值和平移参数θ的值的集合的预测系数cp+v[k]集合。为了限制查找表条目的数量,应限制周期性T的预先确定值的数量和平移参数θ的预先确定值的数量。从表达式(36)可以看出,用于周期性T和平移参数θ的预先确定值的合适的量化步长大小应取决于周期性T。特别地,可以看出,对于相对大的周期性T(相对于窗口函数的持续时间K),可以对于该周期性T和平移参数θ使用相对大的量化步长。在另一个极端,对于趋向于零的相对小的周期性T,仅一个正弦贡献必须被考虑,所以周期性T丧失其重要性。另一方面,根据方程(29)的用于正弦预测的公式要求规范化的绝对频移缓慢地变化,所以应基于周期性T缩放用于平移参数θ的量化步长大小。
总而言之,在本文件中提出了使用具有固定步长大小的周期性T的均匀量化。然而,也以均匀的方式、在步长大小与min(T,A)成比例的情况下量化平移参数θ,其中,A的值取决于滤波器组窗口函数的规范。而且,对于T<2,平移参数θ的范围对于某一常数C可以限于|θ|≤min(CT,1/2),反映出对绝对频移f的限制。
图6a例示了对于A=2在(T,θ)平面中所得的量化网格的例子。仅在范围在0.25≤T≤1.5内的中间范围中,考虑全二维依赖性,而如方程(29)和方程(36)所给出的本质上一维的参数化可以用于其余的感兴趣的范围。特别地,对于趋向于零的周期性T(例如,T<0.25),基于周期模型的预测基本上对应于基于正弦模型的预测,并且可以使用公式(29)来确定预测系数。另一方面,对于远超过窗口持续时间K的周期性T(T>1.5),可以使用方程(36)来确定使用基于周期模型的预测的预测系数cp+v[k]的集合。可以通过代入来重新解释该方程。发现:
通过在制表中将给予参数θ的作用给予在等同的平面中获得本质上可分的结构。取决于依赖于子带和时隙索引的符号变化,在方程(37)中,对T的依赖性包含在第一个缓慢变化的因子中,对的依赖性包含在1周期的第二个因子中。
可以将修正的偏移参数解释为从源和目标区间的中间点的中间点测量的、以基本频率为单位的、谐波系列的平移。有利的是对周期性T的所有值都保持该修正的参数化因为方程(37)中的相对于和ν的同时符号变化明显的对称性一般都适用,并且可以用于缩小表格大小。
如以上所指示的,图6a描绘了二维量化网格,该网格是用于余弦调制滤波器组中的基于周期模型的预测器计算的制表数据的基础。信号模型是具有以滤波器组时间步长为单位测量的周期T 602的信号的信号模型。等同地,该模型包括与周期T相应的基本频率的整数倍的频率线(也被称为泛音)。对于每个目标子带,平移参数θ601指示以基本频率Ω为单位测量的、最接近的泛音离中心频率的距离。平移参数θ601具有-0.5和0.5之间的值。图6a的黑十字603例示了用于具有基于周期模型的高预测增益的预测器的制表的量化点的适当密度。对于大周期T(例如,T>2),网格是均匀的。通常随着周期T缩小,要求平移参数θ的密度增大。然而,在线604外部的区域中,距离θ大于滤波器组的一个频率区间,所以该区域中的大多数网格点可以被忽略。多边形605划定了足以完全制表的区域的边界。除了稍微超出线604以外的斜线之外,在T=0.25和T=1.5处引入边界。下述事实使得能够实现这一点,即,小周期602可以被看作是分离的正弦曲线,并且用于大周期602的预测器可以基本上用主要依赖于平移参数θ(或修正的平移参数)的一维表格来近似。对于图6a中所示的实施例,对于大周期T,预测掩模支持通常类似于图2的预测掩模205。
图6b例示了周期T相对较大的情况下以及周期T相对较小的情况下的基于周期模型的预测。从上图可以看出,对于大周期T,即,对于相对较小的基本频率Ω613,滤波器组的窗口函数612捕捉周期信号的PSD的相对较多的线或狄拉克脉冲616。狄拉克脉冲616位于频率610ω=qΩ处,其中,滤波器组的子带的中心频率位于频率处,其中,对于给定的子带p,可以按相对项将具有最接近给定子带的中心频率的频率ω=qΩ的脉冲616的频率位置描述为其中,平移参数Θ的范围为-0.5至+0.5。就这点而论,项ΘΩ反映了从中心频率到谐波模型的最近频率分量616的(频率)距离。图6b的上图中例示了这一点,其中,中心频率617为并且距离618ΘΩ是针对周期T相对较大的情况例示的。可以看出,平移参数Θ使得可以描述从子带p的中心的角度所看到的整个谐波系列。
图6b的下图例示了周期T相对较小,即,基本频率Ω623相对较大,尤其是大于窗口612的宽度的基本频率623的情况。可以看出,在这样的情况下,窗口函数612可以仅包括周期信号的单个脉冲626,以使得该信号可以被视为窗口612内的正弦信号。这意味着,对于相对较小的周期T,基于周期模型的预测方案朝向基于正弦模型的预测方案收敛。
图6b还例示了分别可以用于基于周期模型的预测方案和基于正弦模型的预测方案的示例预测掩模611、621。用于基于周期模型的预测方案的预测掩模611可以对应于图2的预测掩模205,并且可以包括用于估计目标子带采样615的预测掩模支持614。用于基于正弦模型的预测方案的预测掩模621可以对应于图2的预测掩模203,并且可以包括用于估计目标子带采样625的预测掩模支持624。
图7a例示了示例编码方法700,该方法涉及使用周期模型(包括例如单个基本频率Ω)的基于模型的子带预测。考虑输入音频信号的帧。对于该帧,可以确定周期性T或基本频率Ω(步骤701)。音频编码器可以包括图1中所示的解码器100的元件,特别地,音频编码器可以包括预测器计算器105和子带预测器103。周期性T或基本频率Ω可以被确定为使得根据方程(6)的求平方的预测误差子带信号111的均值减小(例如,最小)。举例来说,音频编码器可以应用蛮力方法,该方法使用不同的基本频率Ω来确定预测误差子带信号111,并且确定对于其求平方的预测误差子带信号111的均值减小(例如,最小)的基本频率Ω。该方法继续对所得的预测误差子带信号111进行量化(步骤702)。此外,该方法包括产生位流的步骤703,该位流包括指示所确定的基本频率Ω和量化的预测误差子带信号111的信息。
当在步骤701中确定基本频率Ω时,音频编码器可以使用方程(36)和/或(29),以便确定用于特定基本频率Ω的预测系数。可能的基本频率Ω的集合可以受到可用于发送指示所确定的基本频率Ω的信息的位数的限制。
应指出,音频编码***可以使用预先确定的模型(例如,包括单个基本频率Ω的周期模型或本文件中所提供的任何其它的模型)和/或预先确定的预测掩模202、203、204、205。另一方面,可以通过使得音频编码器能够确定用于待编码音频信号的适当的模型和/或适当的预测掩模来为音频编码***提供进一步的自由度。然后将关于选定的模型和/或选定的预测掩模的信息编码到位流中,并且提供给相应的解码器100。
图7b例示了用于对已经使用基于模型的预测编码的音频信号进行解码的示例方法710。假设解码器100知道编码器所使用的信号模型和预测掩模(经由所接收的位流或者由于预先确定的设置)。此外,为了例示性的目的假设已经使用了周期预测模型。解码器100从所接收的位流提取关于基本频率Ω的信息(步骤711)。使用关于基本频率Ω的信息,解码器100可以确定周期性T。基本频率Ω和/或周期性T可以用于确定用于不同的子带预测器的预测系数的集合(步骤712)。子带预测器可以用于确定估计的子带信号(步骤713),这些估计的子带信号与量化的预测误差子带信号111组合(步骤714)以得到解码子带信号113。可以使用合成滤波器组102对解码子带信号113进行滤波(步骤715),从而得到解码的时域音频信号114。
预测器计算器105可以使用方程(36)和/或(29)来基于所接收的关于基本频率Ω的信息确定子带预测器103的预测系数(步骤712)。这可以使用如图6a和3中所示的查找表以高效的方式执行。举例来说,预测器计算器105可以确定周期性T,并且确定该周期性是否低于预先确定的下限阈值(例如,T=0.25)。如果情况如此,则使用基于正弦模型的预测方案。这意味着基于所接收的基本频率Ω,确定包括基本频率的倍数ω=qΩ的子带p,其中,然后,使用关系来确定规范化频率f,其中,频率ξ对应于位于子带p中的倍数ω=qΩ。预测器计算器105然后可以使用方程(29)或预先计算的查找表来确定预测系数集合(使用例如图2的预测掩模203或图6b的预测掩模621)。
应指出,可以对于每个子带确定不同的预测系数集合。然而,在基于正弦模型的预测方案的情况下,通常仅对于受基本频率的倍数ω=qΩ(其中,)影响显著的子带p确定预测系数集合。对于其它子带,不确定预测系数,这意味着,用于这样的其它子带的估计的子带信号112为零。为了降低解码器100(以及使用同一预测器计算器105的编码器)的计算复杂度,预测器计算器105可以使用根据T和Θ的值来提供预测系数集合的预先确定查找表。特别地,预测器计算器105可以使用关于T的多个不同值的多个查找表。所述多个查找表中的每个提供用于平移参数Θ的多个不同值的不同的预测系数集合。
在实际实现中,可以针对周期参数T的不同值提供多个查找表。举例来说,可以针对T的在0.25和2.5的范围内的值提供查找表(如图6a中所示)。可以针对不同周期参数T的预先确定的粒度或步长大小提供查找表。在示例实现中,规范化的周期参数T的步长大小为1/16,并且针对T=8/32直至T=80/32提供关于量化的预测系数的不同查找表。因此,可以提供总共37个不同的查找表。每个表可以提供作为平移参数Θ的函数的或者作为修正的平移参数的函数的量化的预测系数。关于T=8/32直至T=80/32的查找表可以用于增加一半步长大小的范围,即,对于不同于已经对其定义了查找表的可用周期性的给定周期性,可以使用关于最近的可用周期性的查找表。如以上所概述的,对于长周期T(例如,超过对于其定义了查找表的周期的周期T),可以使用方程(36)。可替代地,对于超过对于其已经定义了查找表的周期的周期T,例如,对于周期T>81/32,可以将周期T划分为整数延迟Ti和残差延迟Tr,以使得T=Ti+Tr。该划分可以为使得残差延迟Tr位于对于其方程(36)可适用并且查找表可供使用的区间内,例如,位于用于以上例子的区间[1.5,2.5]内。通过这样做,可以使用关于残差延迟Tr的查找表来确定预测系数,并且子带预测器103可以在延迟了整数延迟Ti的子带缓冲器104上操作。例如,如果周期为T=3.7,则整数延迟可以为Ti=2,接着残差延迟Tr=1.7。可以基于系数Tr=1.7将预测器应用于延迟了(附加的)Ti=2的信号缓冲器上。
划分方法依赖于如下的合理假设,即提取器用[1.5,2.5]或[49/32,81/32]的范围内的T来近似延迟。与使用方程(36)相比的,该划分过程的优点是可以基于计算高效的表查找操作来确定预测系数。
如以上所概述的,对于短周期(T<0.25),可以使用方程(29)来确定预测系数。可替代地,可能有益的是使用(已经可供使用的)查找表(以便降低计算复杂度)。观察到,在采样步长大小为的情况下,修正的平移参数限于范围(对于T<0.25,并且对于C=1,A=1/2)。
本文件中提出了通过用Tl/T缩放修正的频移参数来重复使用关于最低周期T=0.25的查找表,其中,Tl对应于对于其查找表可供使用的最低周期(例如,Tl=0.25)。举例来说,在T=0.1并且的情况下,可以用重新缩放的平移参数来查询关于T=0.25的表。通过这样做,用于短周期(T<0.25)的预测系数也可以使用表查找操作以计算高效的方式被确定。此外,可以降低对于预测器的存储器要求,因为可以减少查找表的数量。
在本文件中,已经描述了基于模型的子带预测方案。该基于模型的子带预测方案使得能够实现子带预测器的高效描述,即,仅需要相对少量的位的描述。作为对于子带预测器的高效描述的结果,可以使用导致混叠伪像减小的交叉子带预测方案。总的说来,这使得可以提供使用子带预测的低位率音频编码器。

Claims (35)

1.一种用于估计音频信号的第一子带中的第一子带信号的第一采样(615)的方法;其中,使用分析滤波器组(612)确定所述音频信号的第一子带信号,所述分析滤波器组(612)包括分别从所述音频信号提供多个子带中的多个子带信号的多个分析滤波器,所述方法包括:
-确定信号模型的模型参数(613);
-基于所述信号模型,基于所述模型参数(613)并且基于所述分析滤波器组(612),确定将应用于从所述第一子带信号推导的第一解码子带信号的先前采样(614)的预测系数;其中,所述先前采样(614)的时隙在所述第一采样(615)的时隙之前;和
-通过将所述预测系数应用于所述先前采样(614)来确定所述第一采样(615)的估计。
2.根据权利要求1所述的方法,其中,
-所述信号模型包括一个或多个正弦模型分量;并且
-所述模型参数(613)指示所述一个或多个正弦模型分量的频率。
3.根据权利要求2所述的方法,其中,所述模型参数(613)指示多正弦信号模型的基本频率Ω。
4.根据权利要求3所述的方法,其中,
-所述多正弦信号模型包括周期信号分量;
-所述周期信号分量包括多个正弦分量;并且
-所述多个正弦分量具有是基本频率Ω的倍数的频率。
5.根据前面的任何一个权利要求所述的方法,其中,所述方法包括确定所述信号模型的多个模型参数(613)。
6.根据权利要求5所述的方法,其中,
-所述信号模型包括多个周期信号分量;并且
-所述多个模型参数指示所述多个周期信号分量的多个基本频率Ω01,…,ΩM-1
7.根据权利要求5至6中的任何一个所述的方法,其中,所述多个模型参数(513)中的一个或多个指示所述信号模型相对于周期信号模型的平移和/或偏差。
8.根据前面的任何一个权利要求所述的方法,其中,确定模型参数(613)包括从所接收的指示模型参数(613)和预测误差信号的位流提取模型参数(613)。
9.根据权利要求1至7中的任何一个所述的方法,其中,
-确定模型参数(613)包括确定模型参数(613)以使得求平方的预测误差信号的均值减小;并且
-基于所述第一采样(615)和所述第一采样(615)的估计之间的差值来确定所述预测误差信号。
10.根据权利要求9所述的方法,其中,基于所述第一子带信号的多个随后的第一采样来确定所述求平方的预测误差信号的均值。
11.根据前面的任何一个权利要求所述的方法,其中,
-确定预测系数包括使用查找表或分析函数来确定预测系数;
-所述查找表或分析函数根据从所述模型参数推导的参数提供所述预测系数;并且
-所述查找表或分析函数基于所述信号模型并且基于所述分析滤波器组被预先确定。
12.根据权利要求11所述的方法,其中,
-所述分析滤波器组包括调制的结构;并且
-所述预测系数的绝对值与所述第一子带的索引号无关。
13.根据权利要求11至12中的任何一个所述的方法,其中,
-所述模型参数指示多正弦信号模型的基本频率Ω;并且
-确定预测系数包括确定位于所述第一子带内的基本频率Ω的倍数。
14.根据权利要求13所述的方法,其中,确定预测系数包括:
-如果所述基本频率Ω的倍数位于所述第一子带内,则确定所述基本频率Ω的所述倍数相对于所述第一子带的中心频率的相对偏移;和/或
-如果没有基本频率Ω的倍数位于所述第一子带内,则将所述预测系数设置为零。
15.根据权利要求14所述的方法,其中,
-所述查找表或分析函数根据相对于子带的中心频率的可能的相对偏移提供的预测系数;并且
-确定预测系数包括基于所述查找表或分析函数使用所确定的相对偏移来确定预测系数。
16.根据权利要求15所述的方法,其中,
-所述查找表包括关于有限数量的可能的相对偏移的有限数量的条目;并且
-确定预测系数包括将所确定的相对偏移取整为所述有限数量的可能的相对偏移中的最接近的可能的相对偏移。
17.根据权利要求13至16中的任何一个所述的方法,其中,确定预测系数包括:
-基于所述模型参数选择多个查找表之一;和
-基于所述多个查找表中的选定的一个查找表确定所述预测系数。
18.根据权利要求17所述的方法,其中,
-所述模型参数指示周期性T;
-所述多个查找表包括关于周期性T的不同值的查找表;并且
-所述方法包括将选定的查找表确定为关于所述模型参数所指示的周期性T的查找表。
19.根据权利要求17所述的方法,其中,
-所述多个查找表包括关于周期性T的在[Tmin,Tmax]的范围内的、具有预先确定的步长大小ΔT的不同值的查找表;
-Tmin使得对于T<Tmin,可以使用包括单个正弦模型分量的信号模型对所述音频信号进行建模;和/或
-Tmax使得对于T>Tmax,关于周期性Tmax至Tmax+1的查找表基本上对应于关于周期性Tmax-1至Tmax的查找表。
20.根据权利要求19所述的方法,还包括,对于指示周期性T>Tmax的模型参数,
-通过从T减去整数值以使得残差周期性Tr位于范围[Tmax-1,Tmax]内来确定残差周期性Tr;并且
-将用于确定所述预测系数的查找表选为关于所述残差周期性Tr的查找表。
21.根据权利要求19至20中的任何一个所述的方法,还包括对于指示周期性T<Tmin的模型参数,
-将用于确定所述预测系数的查找表选为关于周期性Tmin的查找表;
-使用比率Tmin/T缩放查找参数,所述查找参数用于识别选定的查找表的提供所述预测系数的条目;和
-使用选定的查找表和缩放的查找参数确定所述预测系数。
22.根据前面的任何一个权利要求所述的方法,还包括:
-确定预测掩模(203,205),所述预测掩模指示多个预测掩模支持子带中的多个先前采样;其中,所述多个预测掩模支持子带包括所述多个子带中的不同于所述第一子带的至少一个子带;
-基于所述信号模型,基于所述模型参数并且基于所述分析滤波器组,确定将应用于所述多个先前采样的多个预测系数;和
-通过分别将所述多个预测系数应用于所述多个先前采样来确定所述第一采样的估计。
23.根据权利要求22所述的方法,其中,确定第一采样的估计包括确定用多个各自的预测系数加权的所述多个先前采样的和。
24.根据前面的任何一个权利要求所述的方法,其中,
-所述多个子带具有相等的子带间隔;并且
-所述第一子带是所述多个子带之一。
25.根据前面的任何一个权利要求所述的方法,其中,
-所述分析滤波器组的分析滤波器相对于彼此是平移不变的;和或
-所述分析滤波器组的分析滤波器包括共用窗口函数;和/或
-所述分析滤波器组的分析滤波器包括所述共用窗口函数的不同调制版本;和/或
-使用余弦函数对所述共用窗口函数进行调制;和/或
-所述共用窗口函数具有有限的持续时间K;和/或
-所述分析滤波器组的分析滤波器形成正交基;和/或
-所述分析滤波器组的分析滤波器形成标准正交基;和/或
-所述分析滤波器组包括余弦调制滤波器组;和/或
-所述分析滤波器组是临界采样分析滤波器组;和/或
-所述分析滤波器组包括重叠变换;和/或
-所述分析滤波器组包括以下中的一个或多个:MDCT、QMF、ELT变换;和/或
-所述分析滤波器组包括调制结构。
26.一种用于估计音频信号的第一子带中的第一子带信号的第一采样的方法;其中,使用分析滤波器组确定所述音频信号的第一子带信号,所述分析滤波器组包括分别从所述音频信号提供多个子带中的多个子带信号的多个分析滤波器,所述方法包括:
-确定预测掩模(203,205),所述预测掩模指示多个预测掩模支持子带中的多个先前采样;其中,所述多个预测掩模支持子带包括所述多个子带中的不同于所述第一子带的至少一个子带;
-确定将应用于所述多个先前采样的多个预测系数;和
-通过分别将所述多个预测系数应用于所述多个先前采样来确定所述第一采样的估计。
27.根据权利要求26所述的方法,其中,所述多个预测掩模支持子带
-包括所述第一子带;和/或
-包括所述多个子带中的与所述第一子带直接相邻的一个或多个子带。
28.根据权利要求26至27中的任何一个所述的方法,其中,
-所述方法还包括确定信号模型的模型参数;并且
--确定所述多个预测系数包括基于所述信号模型、基于所述模型参数并且基于所述分析滤波器组来确定所述多个预测系数。
29.根据权利要求28所述的方法,其中,
-确定所述多个预测系数包括使用查找表或分析函数来确定所述多个预测系数;
-所述查找表或分析函数根据从所述模型参数推导的参数提供所述多个预测系数;并且
-所述查找表或分析函数基于所述信号模型并且基于所述分析滤波器组被预先确定。
30.一种用于对音频信号进行编码的方法,所述方法包括:
-使用分析滤波器组从所述音频信号确定多个子带信号,所述分析滤波器组包括多个分析滤波器;
-使用根据前面的任何一个权利要求所述的方法来估计所述多个子带信号的采样,从而得到多个估计的子带信号;
-基于相应的所述多个子带信号的采样和所述多个估计的子带信号的采样来确定多个预测误差子带信号的采样;
-对所述多个预测误差子带信号进行量化;和
-产生编码的音频信号,所述编码的音频信号指示所述多个量化预测误差子带信号和用于估计所述多个估计的子带信号的采样的一个或多个参数。
31.一种用于对编码的音频信号进行解码的方法;其中,所述编码的音频信号指示多个量化的预测误差子带信号和将用于估计多个估计的子带信号的采样的一个或多个参数;所述方法包括:
-对所述多个量化的预测误差子带信号进行去量化,从而得到多个去量化的预测误差子带信号;
-使用根据权利要求1至29中的任何一个所述的方法来估计所述多个估计的子带信号的采样;
-基于相应的所述多个估计的子带信号的采样和所述多个去量化的预测误差子带信号的采样来确定多个解码子带信号的采样;和
-使用合成滤波器组从所述多个解码子带信号确定解码的音频信号,所述合成滤波器组包括多个合成滤波器。
32.一种被配置为估计音频信号的第一子带信号的一个或多个第一采样的***(103,105);其中,使用分析滤波器组确定所述音频信号的第一子带信号,所述分析滤波器组包括分别从所述音频信号提供多个子带信号的多个分析滤波器;其中,所述***(103,105)包括:
-预测器计算器(105),所述预测器计算器(105)被配置为确定信号模型的模型参数,并且被配置为确定一个或多个预测系数,所述预测系数将应用于从所述第一子带信号推导的第一解码子带信号的一个或多个先前采样;其中,基于所述信号模型,基于所述模型参数并且基于所述分析滤波器组,确定所述一个或多个预测系数;其中,所述一个或多个先前采样的时隙在所述一个或多个第一采样的时隙之前;和
-子带预测器(103),所述子带预测器(103)被配置为通过将所述一个或多个预测系数应用于所述一个或多个先前采样来确定所述一个或多个第一采样的估计。
33.一种被配置为估计音频信号的第一子带信号的一个或多个第一采样的***(103,105);其中第一子带信号对应于第一子带,其中,使用分析滤波器组确定所述第一子带信号,所述分析滤波器组包括提供分别在多个子带中的多个子带信号的多个分析滤波器;其中,所述***(103,105)包括:
-预测器计算器(105),所述预测器计算器(105)被配置确定预测掩模(203,205),所述预测掩模指示多个预测掩模支持子带中的多个先前采样;其中,所述多个预测掩模支持子带包括所述多个子带中的不同于所述第一子带的至少一个子带;其中,所述预测器计算器(105)被进一步配置为确定将应用于所述多个先前采样的多个预测系数;和
-子带预测器(103),所述子带预测器(103)被配置为通过将所述一个或多个预测系数分别应用于所述一个或多个先前采样来确定所述一个或多个第一采样的估计。
34.一种被配置为对音频信号进行编码的音频编码器,所述音频编码器包括:
-分析滤波器组,所述分析滤波器组被配置为使用多个分析滤波器从所述音频信号确定多个子带信号;
-根据权利要求32至33中的任何一个所述的***(103,105),所述***被配置为估计所述多个子带信号的采样,从而得到多个估计的子带信号(112);
-差异单元,所述差异单元被配置为基于所述多个子带信号的和所述多个估计的子带信号(112)的相应采样来确定多个预测误差子带信号的采样;
-量化单元,所述量化单元被配置为对所述多个预测误差子带信号进行量化;和
-位流产生单元,所述位流产生单元被配置为产生编码的音频信号,所述编码的音频信号指示所述多个量化的预测误差子带信号和用于估计所述多个估计的子带信号的采样的一个或多个参数。
35.一种被配置为对编码的音频信号进行解码的音频解码器(100);其中,所述编码的音频信号指示所述多个量化的预测误差子带信号和用于估计多个估计的子带信号的一个或多个参数;其中,所述音频解码器(100)包括:
-逆量化器(101),所述逆量化器(101)被配置为对所述多个量化的预测误差子带信号进行去量化,从而得到多个去量化的预测误差子带信号(111);
-根据权利要求32至33中的任何一个所述的***(105,103),所述***(105,103)被配置为估计所述多个估计的子带信号(112)的采样;
-求和单元,所述求和单元被配置为基于所述多个估计的子带信号(112)的相应采样并且基于所述多个去量化的预测误差子带信号(111)的采样来确定多个解码子带信号(113)的采样;和
-合成滤波器组(102),所述合成滤波器组(102)被配置为使用多个合成滤波器从所述多个解码子带信号(113)确定解码的音频信号(114)。
CN201480004153.1A 2013-01-08 2014-01-07 临界采样滤波器组中的基于模型的预测 Active CN104919523B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710814654.1A CN107452392B (zh) 2013-01-08 2014-01-07 临界采样滤波器组中的基于模型的预测

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201361750052P 2013-01-08 2013-01-08
US61/750,052 2013-01-08
US201361875528P 2013-09-09 2013-09-09
US61/875,528 2013-09-09
PCT/EP2014/050139 WO2014108393A1 (en) 2013-01-08 2014-01-07 Model based prediction in a critically sampled filterbank

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN201710814654.1A Division CN107452392B (zh) 2013-01-08 2014-01-07 临界采样滤波器组中的基于模型的预测

Publications (2)

Publication Number Publication Date
CN104919523A true CN104919523A (zh) 2015-09-16
CN104919523B CN104919523B (zh) 2017-10-13

Family

ID=50000954

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201710814654.1A Active CN107452392B (zh) 2013-01-08 2014-01-07 临界采样滤波器组中的基于模型的预测
CN201480004153.1A Active CN104919523B (zh) 2013-01-08 2014-01-07 临界采样滤波器组中的基于模型的预测

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201710814654.1A Active CN107452392B (zh) 2013-01-08 2014-01-07 临界采样滤波器组中的基于模型的预测

Country Status (20)

Country Link
US (8) US9659567B2 (zh)
EP (5) EP3176784B1 (zh)
JP (7) JP6173484B2 (zh)
KR (1) KR101634979B1 (zh)
CN (2) CN107452392B (zh)
AU (6) AU2014204954B2 (zh)
BR (2) BR122017000308B1 (zh)
CA (8) CA3012134C (zh)
DK (1) DK2943953T3 (zh)
ES (3) ES2769845T3 (zh)
HK (1) HK1213081A1 (zh)
HU (1) HUE032831T2 (zh)
IL (10) IL309437A (zh)
IN (1) IN2015MN01874A (zh)
MX (5) MX362990B (zh)
MY (2) MY173781A (zh)
PL (1) PL2943953T3 (zh)
RU (2) RU2742460C2 (zh)
SG (2) SG10201709631PA (zh)
WO (1) WO2014108393A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112259116A (zh) * 2020-10-14 2021-01-22 北京字跳网络技术有限公司 一种音频数据的降噪方法、装置、电子设备及存储介质

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2559899C2 (ru) 2010-04-09 2015-08-20 Долби Интернешнл Аб Стереофоническое кодирование на основе mdct с комплексным предсказанием
EP3671738B1 (en) 2013-04-05 2024-06-05 Dolby International AB Audio encoder and decoder
KR102072365B1 (ko) 2013-04-05 2020-02-03 돌비 인터네셔널 에이비 고급 양자화기
JP6543838B2 (ja) * 2014-08-28 2019-07-17 株式会社緑野リサーチ 位相撮影装置およびその復元方法
WO2016142002A1 (en) * 2015-03-09 2016-09-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal
EP3454336B1 (en) 2017-09-12 2020-11-04 Dolby Laboratories Licensing Corporation Packet loss concealment for critically-sampled filter bank-based codecs using multi-sinusoidal detection
CN110068771B (zh) * 2019-05-28 2020-02-07 山东大学 基于输出响应重构的高精度电池模型参数辨识方法及***
CN110849971B (zh) * 2019-11-21 2021-05-18 西南交通大学 基于双指数窗函数法的结构模态参数识别方法
CN113452472B (zh) * 2020-03-26 2024-05-31 瑞昱半导体股份有限公司 无线信号的分组检测方法及其***
US11348594B2 (en) 2020-06-11 2022-05-31 Qualcomm Incorporated Stream conformant bit error resilience
CN115598489B (zh) * 2021-06-28 2024-04-05 本源量子计算科技(合肥)股份有限公司 量子比特参数的测量方法和装置、量子芯片的测试方法
CN114454237B (zh) * 2022-02-18 2024-05-14 杭州勤鹄科技有限公司 一种珍珠棉定长切断装置及方法
CN117610313B (zh) * 2024-01-18 2024-04-26 西安石油大学 页岩油***工裂缝的网格加密方法及装置

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10511243A (ja) * 1994-12-20 1998-10-27 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション 知覚符号化システムのサブバンドに波形予測を適用する装置及び方法
JP2004053891A (ja) * 2002-07-19 2004-02-19 Sony Corp データ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体
US20060015329A1 (en) * 2004-07-19 2006-01-19 Chu Wai C Apparatus and method for audio coding
CN1732659A (zh) * 2002-12-31 2006-02-08 诺基亚公司 用于基于滤波器组的信号处理的方法和装置
CN101027717A (zh) * 2004-03-25 2007-08-29 Dts公司 无损多通道音频编解码器
US7277550B1 (en) * 2003-06-24 2007-10-02 Creative Technology Ltd. Enhancing audio signals by nonlinear spectral operations
CN101646123A (zh) * 2009-08-28 2010-02-10 中国科学院声学研究所 一种模拟听觉感知模型的滤波器组
US20100061564A1 (en) * 2007-02-07 2010-03-11 Richard Clemow Ambient noise reduction system
CN102088603A (zh) * 2010-12-31 2011-06-08 北京大学深圳研究生院 用于视频编码器的熵编码器及其实现方法
CN102113346A (zh) * 2008-07-29 2011-06-29 杜比实验室特许公司 用于电声通道的自适应控制和均衡的方法
CN102723082A (zh) * 2011-03-21 2012-10-10 半导体元件工业有限责任公司 基于保持语音信息的单耳音频处理***和方法
CN102811037A (zh) * 2011-05-30 2012-12-05 哈曼贝克自动***股份有限公司 高效子频带自适应有限脉冲响应滤波

Family Cites Families (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62227198A (ja) * 1986-03-28 1987-10-06 松下電器産業株式会社 帯域分割予測符号化方法
US5956674A (en) 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
JP2891193B2 (ja) * 1996-08-16 1999-05-17 日本電気株式会社 広帯域音声スペクトル係数量子化装置
FI114248B (fi) 1997-03-14 2004-09-15 Nokia Corp Menetelmä ja laite audiokoodaukseen ja audiodekoodaukseen
US7272556B1 (en) 1998-09-23 2007-09-18 Lucent Technologies Inc. Scalable and embedded codec for speech and audio signals
JP4220108B2 (ja) * 2000-06-26 2009-02-04 大日本印刷株式会社 音響信号符号化システム
FR2815160B1 (fr) 2000-10-06 2003-01-17 France Telecom Procede et dispositif de codage d'un signal audiofrequence
US6633839B2 (en) * 2001-02-02 2003-10-14 Motorola, Inc. Method and apparatus for speech reconstruction in a distributed speech recognition system
US7225135B2 (en) * 2002-04-05 2007-05-29 Lectrosonics, Inc. Signal-predictive audio transmission system
ATE425533T1 (de) * 2003-07-18 2009-03-15 Koninkl Philips Electronics Nv Audiocodierung mit niedriger bitrate
WO2005055201A1 (en) * 2003-12-01 2005-06-16 Aic A highly optimized method for modelling a windowed signal
WO2006048814A1 (en) * 2004-11-02 2006-05-11 Koninklijke Philips Electronics N.V. Encoding and decoding of audio signals using complex-valued filter banks
JP2006211243A (ja) 2005-01-27 2006-08-10 Kobe Steel Ltd ディジタル信号符号化装置,ディジタル信号符号化方法
US7177804B2 (en) 2005-05-31 2007-02-13 Microsoft Corporation Sub-band voice codec with multi-stage codebooks and redundant coding
US7720677B2 (en) * 2005-11-03 2010-05-18 Coding Technologies Ab Time warped modified transform coding of audio signals
JP4876574B2 (ja) * 2005-12-26 2012-02-15 ソニー株式会社 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体
JP2009543112A (ja) * 2006-06-29 2009-12-03 エヌエックスピー ビー ヴィ 音声パラメータの復号化
JP4704499B2 (ja) * 2006-07-04 2011-06-15 ドルビー インターナショナル アクチボラゲット 圧縮サブバンド・フィルタ・インパルス応答を作るためのフィルタ・コンプレッサおよび方法
FR2912249A1 (fr) 2007-02-02 2008-08-08 France Telecom Codage/decodage perfectionnes de signaux audionumeriques.
KR101149448B1 (ko) * 2007-02-12 2012-05-25 삼성전자주식회사 오디오 부호화 및 복호화 장치와 그 방법
US8195454B2 (en) * 2007-02-26 2012-06-05 Dolby Laboratories Licensing Corporation Speech enhancement in entertainment audio
KR101380170B1 (ko) * 2007-08-31 2014-04-02 삼성전자주식회사 미디어 신호 인코딩/디코딩 방법 및 장치
CN101816191B (zh) 2007-09-26 2014-09-17 弗劳恩霍夫应用研究促进协会 用于提取环境信号的装置和方法
EP2082396A1 (en) * 2007-10-17 2009-07-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding using downmix
EP2077551B1 (en) 2008-01-04 2011-03-02 Dolby Sweden AB Audio encoder and decoder
EP2269188B1 (en) * 2008-03-14 2014-06-11 Dolby Laboratories Licensing Corporation Multimode coding of speech-like and non-speech-like signals
BR122020009727B1 (pt) * 2008-05-23 2021-04-06 Koninklijke Philips N.V. Método
ES2401487T3 (es) * 2008-07-11 2013-04-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y procedimiento para la codificación/decodificación de una señal de audio utilizando un esquema de conmutación de generación de señal ajena
ES2379761T3 (es) 2008-07-11 2012-05-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Proporcinar una señal de activación de distorsión de tiempo y codificar una señal de audio con la misma
MX2011000375A (es) 2008-07-11 2011-05-19 Fraunhofer Ges Forschung Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada.
EP2144231A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme with common preprocessing
US8457975B2 (en) 2009-01-28 2013-06-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio decoder, audio encoder, methods for decoding and encoding an audio signal and computer program
ES2374008B1 (es) * 2009-12-21 2012-12-28 Telefónica, S.A. Codificación, modificación y síntesis de segmentos de voz.
EP2362375A1 (en) 2010-02-26 2011-08-31 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for modifying an audio signal using harmonic locking
WO2011118018A1 (ja) * 2010-03-26 2011-09-29 株式会社フィールドシステム 発信装置
US8600737B2 (en) 2010-06-01 2013-12-03 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for wideband speech coding
US20120029926A1 (en) 2010-07-30 2012-02-02 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for dependent-mode coding of audio signals
CN107326559A (zh) 2017-06-09 2017-11-07 杭州慧群机电设备有限公司 一种珠绣多色换珠装置

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10511243A (ja) * 1994-12-20 1998-10-27 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション 知覚符号化システムのサブバンドに波形予測を適用する装置及び方法
JP2004053891A (ja) * 2002-07-19 2004-02-19 Sony Corp データ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体
CN1732659A (zh) * 2002-12-31 2006-02-08 诺基亚公司 用于基于滤波器组的信号处理的方法和装置
US7277550B1 (en) * 2003-06-24 2007-10-02 Creative Technology Ltd. Enhancing audio signals by nonlinear spectral operations
CN101027717A (zh) * 2004-03-25 2007-08-29 Dts公司 无损多通道音频编解码器
US20060015329A1 (en) * 2004-07-19 2006-01-19 Chu Wai C Apparatus and method for audio coding
US20100061564A1 (en) * 2007-02-07 2010-03-11 Richard Clemow Ambient noise reduction system
CN102113346A (zh) * 2008-07-29 2011-06-29 杜比实验室特许公司 用于电声通道的自适应控制和均衡的方法
CN101646123A (zh) * 2009-08-28 2010-02-10 中国科学院声学研究所 一种模拟听觉感知模型的滤波器组
CN102088603A (zh) * 2010-12-31 2011-06-08 北京大学深圳研究生院 用于视频编码器的熵编码器及其实现方法
CN102723082A (zh) * 2011-03-21 2012-10-10 半导体元件工业有限责任公司 基于保持语音信息的单耳音频处理***和方法
CN102811037A (zh) * 2011-05-30 2012-12-05 哈曼贝克自动***股份有限公司 高效子频带自适应有限脉冲响应滤波

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112259116A (zh) * 2020-10-14 2021-01-22 北京字跳网络技术有限公司 一种音频数据的降噪方法、装置、电子设备及存储介质
CN112259116B (zh) * 2020-10-14 2024-03-15 北京字跳网络技术有限公司 一种音频数据的降噪方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
IL239444B (en) 2018-04-30
AU2023203057B2 (en) 2024-05-02
US10102866B2 (en) 2018-10-16
US9659567B2 (en) 2017-05-23
IL268510B (en) 2020-09-30
IL258153B (en) 2018-12-31
AU2017216470B2 (en) 2019-08-15
SG10201709631PA (en) 2018-01-30
CN107452392B (zh) 2020-09-01
CA3012134C (en) 2019-10-15
US9892741B2 (en) 2018-02-13
RU2636093C2 (ru) 2017-11-20
HK1213081A1 (zh) 2016-06-24
CN104919523B (zh) 2017-10-13
IL302061B2 (en) 2024-05-01
JP2024038279A (ja) 2024-03-19
CA3092138A1 (en) 2014-07-17
CN107452392A (zh) 2017-12-08
IN2015MN01874A (zh) 2015-08-28
BR112015016275B1 (pt) 2021-02-02
HUE032831T2 (en) 2017-11-28
EP3176784B1 (en) 2020-01-01
US20190013034A1 (en) 2019-01-10
DK2943953T3 (en) 2017-01-30
AU2019264642A1 (en) 2019-12-05
WO2014108393A1 (en) 2014-07-17
US10325608B2 (en) 2019-06-18
IL239444A0 (en) 2015-07-30
IL283412B (en) 2022-03-01
CA3054712A1 (en) 2014-07-17
CA3121651A1 (en) 2014-07-17
US20170221492A1 (en) 2017-08-03
MX370086B (es) 2019-11-29
EP3648104B1 (en) 2021-05-19
ES2769845T3 (es) 2020-06-29
AU2017216470A1 (en) 2017-08-31
RU2015127216A (ru) 2017-01-16
IL296350A (en) 2022-11-01
JP2023082175A (ja) 2023-06-13
JP6530787B2 (ja) 2019-06-12
JP2019152875A (ja) 2019-09-12
EP3893240B1 (en) 2024-04-24
JP6592634B2 (ja) 2019-10-16
US20160189720A1 (en) 2016-06-30
MX2022013536A (es) 2022-11-16
RU2742460C2 (ru) 2021-02-08
JP6173484B2 (ja) 2017-08-02
KR101634979B1 (ko) 2016-06-30
IL302061B1 (en) 2024-01-01
MX342822B (es) 2016-10-13
US20230306974A1 (en) 2023-09-28
EP4372602A3 (en) 2024-07-10
IL283412A (en) 2021-07-29
ES2613747T3 (es) 2017-05-25
EP4372602A2 (en) 2024-05-22
JP2017201415A (ja) 2017-11-09
AU2014204954A1 (en) 2015-07-02
RU2017134071A (ru) 2019-02-07
CA2897321A1 (en) 2014-07-17
MY173781A (en) 2020-02-20
CA3140749C (en) 2024-05-14
MX2015008659A (es) 2015-10-12
IL290600B (en) 2022-10-01
US11651777B2 (en) 2023-05-16
CA3012134A1 (en) 2014-07-17
JP7418637B2 (ja) 2024-01-19
CA3076775A1 (en) 2014-07-17
BR122017000308A2 (pt) 2019-09-03
US10573330B2 (en) 2020-02-25
JP2022043233A (ja) 2022-03-15
IL268510A (en) 2019-09-26
US20200258532A1 (en) 2020-08-13
JP2016507776A (ja) 2016-03-10
MX362990B (es) 2019-03-01
US20210287686A1 (en) 2021-09-16
EP2943953B1 (en) 2016-11-16
IL296350B1 (en) 2023-05-01
AU2019264642B2 (en) 2020-10-08
AU2021200013B2 (en) 2021-12-16
US20190259401A1 (en) 2019-08-22
AU2022201676A1 (en) 2022-03-31
CA3234476A1 (en) 2014-07-17
IL262551A (en) 2018-12-31
AU2021200013A1 (en) 2021-02-25
AU2022201676B2 (en) 2023-02-23
EP3893240A1 (en) 2021-10-13
EP3648104A1 (en) 2020-05-06
IL277117A (en) 2020-10-29
JP7053545B6 (ja) 2022-05-16
RU2017134071A3 (zh) 2020-11-24
CA3076775C (en) 2020-10-27
IL258153A (en) 2018-05-31
ES2880252T3 (es) 2021-11-24
AU2023203057A1 (en) 2023-06-08
CA3121651C (en) 2022-01-18
BR112015016275A2 (pt) 2017-07-11
AU2014204954B2 (en) 2017-05-18
SG11201504705SA (en) 2015-07-30
EP2943953A1 (en) 2015-11-18
US11915713B2 (en) 2024-02-27
IL309437A (en) 2024-02-01
PL2943953T3 (pl) 2017-07-31
CA2897321C (en) 2018-09-04
US20180108366A1 (en) 2018-04-19
JP7053545B2 (ja) 2022-04-12
CA3054712C (en) 2020-06-09
IL296350B2 (en) 2023-09-01
MY193865A (en) 2022-10-29
IL290600A (en) 2022-04-01
BR122017000308B1 (pt) 2021-11-16
EP3176784A1 (en) 2017-06-07
CA3092138C (en) 2021-07-20
US10971164B2 (en) 2021-04-06
MX2019014295A (es) 2020-01-27
JP7258118B2 (ja) 2023-04-14
IL290600B2 (en) 2023-02-01
IL302061A (en) 2023-06-01
KR20150099770A (ko) 2015-09-01
IL277117B (en) 2021-07-29
CA3140749A1 (en) 2014-07-17
IL262551B (en) 2019-08-29
JP2020008875A (ja) 2020-01-16

Similar Documents

Publication Publication Date Title
JP7418637B2 (ja) 臨界サンプリングされたフィルタバンクにおけるモデル・ベースの予測
RU2820849C2 (ru) Предсказание на основе модели в наборе фильтров с критической дискретизацией

Legal Events

Date Code Title Description
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant