CN107077856A

CN107077856A - 音频参数量化

Info

Publication number: CN107077856A
Application number: CN201480081934.0A
Authority: CN
Inventors: A·拉莫; A·瓦西拉凯; L·J·拉克索宁
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2014-08-28
Filing date: 2014-08-28
Publication date: 2017-08-18
Anticipated expiration: 2034-08-28
Also published as: US20180226082A1; PH12017500352A1; KR101987565B1; KR20170047338A; US10504531B2; ZA201701965B; MX2017002657A; RU2670377C2; EP3186808A1; EP3186808B1; RU2017108166A; WO2016030568A1; CA2959450A1; ES2726193T3; CN107077856B; PL3186808T3; MX365958B; US20190348055A1; CA2959450C; RU2017108166A3

Abstract

提供了一种用于音频编码的技术。根据示例实施例，所述技术包括：导出第一量化误差，所述第一量化误差描述了在音频信号段的音频参数的非预测量化情况下导致的误差；导出第二量化误差，所述第二量化误差描述了在所述音频信号段的所述音频参数的预测量化情况下导致的误差；确定所述第二量化误差是否超过所述第一量化误差达到至少一自适应余量，所述自适应余量取决于处于所述音频信号段之前的在其中提供了利用所述预测量化而量化的所述音频参数的连续音频信号段的数目；至少在所述确定的结果是肯定的情况下，提供利用所述非预测量化而量化的所述音频段的所述音频参数作为编码音频信号的一部分；以及否则提供利用所述预测量化而量化的所述音频段的所述音频参数作为编码音频信号的一部分。

Description

音频参数量化

技术领域

本发明的示例和非限制性实施例一般涉及音频编码领域，更具体地，涉及音频量化领域。

背景技术

音频编码器和解码器被用于通信、多媒体和存储***中的各种广泛应用。音频编码器用于编码例如语音这样的音频信号，特别是用于实现音频信号的有效传输或存储，而音频解码器基于所接收到的编码信号来构造合成信号。一对音频编码器和音频解码器被称为音频编解码器。

因此当实现音频编解码器时，目的是节省传输和存储容量，同时保持合成音频信号的高质量。此外，关于传输误差的稳健性是重要的，特别是对于基于因特网协议(VoIP)的移动和语音应用。另一方面，音频编解码器的复杂性受到应用平台的处理功率的限制。

语音编解码器(包括语音编码器和语音解码器)可被看作是专门为编码和解码语音信号而定制的音频编解码器。在典型的语音编码器中，输入语音信号被分段处理，这些分段被称为帧。通常帧长为10ms至30ms，而覆盖了例如紧接着的帧的开始中的5-15ms的前瞻段(lookahead segment)可另外用于编码器。帧长可以是固定的(例如，达到20ms)，或者帧长可以随帧不同而发生变化。帧还可以被划分为多个子帧。对于每个帧，语音编码器确定输入信号的参数表示。参数被量化并通过通信信道传输或以数字形式存储在存储介质中。在接收端，语音解码器基于所接收到的参数构造合成信号。

参数的构造和量化通常基于码本，所述码本含有针对相应量化任务而优化的码矢量。在许多情况下，高压缩比需要高度优化的码本。通常，通过使用来自一个或多个在先帧和/或来自一个或多个后续帧的预测，可以针对给定压缩比改进量化器的性能。在下文中，这样的量化与不依赖于来自在先帧的任何信息的非预测量化相比将被称为预测量化。预测量化利用当前音频帧和至少一个相邻音频帧之间的相关性，以便获得对当前帧的预测，从而使得例如仅需要对来自该预测的偏差进行编码。这需要专用码本。

然而，在传输或存储中出现误差的情况下，预测量化可能导致问题。利用预测量化，如果预测所基于的至少一个在先帧是有误差的或丢失的，则即使正确接收，新帧也不能被完美地解码。因此，间或(例如在预定义间隔(具有固定数量的帧))应用非预测量化而不是预测量化是有用的，以便防止长期的误差传播。对于也被称为“安全网(safety-net)”量化的这种偶然的非预测量化，可以应用一个或多个选择准则来在逐帧的基础上选择预测量化和非预测量化之一，以便限制在帧擦除(frame erasure)情况下的误差传播。

发明内容

根据示例实施例，提供了一种方法，所述方法包括：导出第一量化误差，所述第一量化误差描述了在音频信号段的音频参数的非预测量化情况下导致的误差；导出第二量化误差，所述第二量化误差描述了在所述音频信号段的所述音频参数的预测量化情况下导致的误差；确定所述第二量化误差是否超过所述第一量化误差达到至少一自适应余量，所述自适应余量取决于处于所述音频信号段之前的在其中提供了利用所述预测量化而量化的所述音频参数的连续音频信号段的数目；至少在所述确定的结果是肯定的情况下，提供利用所述非预测量化而量化的所述音频段的所述音频参数作为编码音频信号的一部分；以及否则提供利用所述预测量化而量化的所述音频段的所述音频参数作为编码音频信号的一部分。

根据另一示例实施例，提供了一种装置，所述装置包括：被配置为导出第一量化误差的处理组件，所述第一量化误差描述了在音频信号段的音频参数的非预测量化情况下导致的误差；被配置为导出第二量化误差的处理组件，所述第二量化误差描述了在所述音频信号段的所述音频参数的预测量化情况下导致的误差；被配置为确定所述第二量化误差是否超过所述第一量化误差达到至少一自适应余量的处理组件，所述自适应余量取决于处于所述音频信号段之前的在其中提供了利用所述预测量化而量化的所述音频参数的连续音频信号段的数目；被配置为至少在所述确定的结果是肯定的情况下提供利用所述非预测量化而量化的所述音频段的所述音频参数作为编码音频信号的一部分的处理组件；以及被配置为否则提供利用所述预测量化而量化的所述音频段的所述音频参数作为编码音频信号的一部分的处理组件。

根据另一示例实施例，提供了一种设备，所述设备包括：用于导出第一量化误差的装置，所述第一量化误差描述了在音频信号段的音频参数的非预测量化情况下导致的误差；用于导出第二量化误差的装置，所述第二量化误差描述了在所述音频信号段的所述音频参数的预测量化情况下导致的误差；用于确定所述第二量化误差是否超过所述第一量化误差达到至少一自适应余量的装置，所述自适应余量取决于处于所述音频信号段之前的在其中提供了利用所述预测量化而量化的所述音频参数的连续音频信号段的数目；用于至少在所述确定的结果是肯定的情况下提供利用所述非预测量化而量化的所述音频段的所述音频参数作为编码音频信号的一部分的装置；以及用于否则提供利用所述预测量化而量化的所述音频段的所述音频参数作为编码音频信号的一部分的装置。

根据另一示例实施例，提供了一种计算机程序，所述计算机程序包括计算机可读程序代码，所述计算机可读程序代码被配置为当在计算设备上执行所述程序代码时使得实施至少以下操作：导出第一量化误差，所述第一量化误差描述了在音频信号段的音频参数的非预测量化情况下导致的误差；导出第二量化误差，所述第二量化误差描述了在所述音频信号段的所述音频参数的预测量化情况下导致的误差；确定所述第二量化误差是否超过所述第一量化误差达到至少一自适应余量，所述自适应余量取决于处于所述音频信号段之前的在其中提供了利用所述预测量化而量化的所述音频参数的连续音频信号段的数目；至少在所述确定的结果是肯定的情况下，提供利用所述非预测量化而量化的所述音频段的所述音频参数作为编码音频信号的一部分；以及否则提供利用所述预测量化而量化的所述音频段的所述音频参数作为编码音频信号的一部分。

上面提到的计算机程序可以体现在易失性或非易失性计算机可读记录介质上，例如作为包括存储在所述记录介质中的根据上述示例实施例的所述计算机程序的计算机程序产品。

在本专利申请中呈现的本发明的示例实施例不应被解释为对所附权利要求的适用性构成限制。动词“包括”及其派生词在本专利申请中被用作开放式限制，其不排除还存在未记载的特征。除非另有明确说明，否则下文描述的特征可以相互自由组合。

在所附权利要求中阐述了本发明的一些特征。然而，当结合附图阅读时，根据一些示例实施例的以下描述，将最好地理解本发明的各个方面及其结构和操作方法以及其另外的目的和优点。

附图说明

在附图的各图中通过示例而非限制的方式示出了本发明的实施例。

图1示意性地示出了根据示例实施例的***的一些组件。

图2示出了根据示例实施例的方法。

图3示出了根据示例实施例的方法。

图4示出了根据示例实施例的方法。

图5示出了根据示例实施例的方法。

图6示意性地示出了根据示例实施例的设备的一些组件。

具体实施方式

即使可以应用以上概述的安全网量化方法来提供对在具有和不具有存储或传输中的误差情况下的整体编码性能方面的纯预测量化的改进，但由于量化的预测特性可能仍然存在相当大的问题。

通常，取决于输入音频信号的特性，预测量化可以在多达70％至90％的帧中提供超过非预测量化的量化性能。预测量化的优越性能在展现固定频谱特性(例如，有声语音)的语音信号段期间可能尤其明显，其可在数十个连续帧上延伸，从而可能导致被应用了预测量化的连续帧的长持续性(long streaks)。

作为示例，用于通过增加非预测量化的使用来改进以上概述的安全网方法的整体性能的一种方法包括：使用偏好增益，以便相较于预测量化而喜好非预测量化，而无视由预测量化提供的更好量化性能。也就是说，可能要求预测量化以固定预定义余量(或者以固定预定义因子)来超越非预测量化，以便较之于非预测量化而选择预测量化。作为这方面的示例，选择预测量化的要求可以包括：预测量化必须是在量化误差方面比非预测量化要好例如1.3倍(例如，使得在预测量化情况下得到的量化误差乘以1.3必须小于对于相同帧而言在非预测量化情况下导致的量化误差)，因而减少了预测量化的使用。该选项导致缩短利用预测量化而量化的连续帧的持续性(取决于固定预定义余量的应用值)，并且因此适合于增加关于传输或存储中的误差的稳健性，而另一方面，在干净的传输信道或无误差存储的情况下，它可能降低量化性能。此外，选择用于这种预定义固定余量的值可能不是直接的任务，从而存在导致短于或长于利用预测量化而量化的连续帧的期望持续性的风险。

作为另一示例，安全网方法的实施涉及设置利用预测量化而量化的连续帧的持续性的最大值。尽管该方法在帧擦除或帧误差的情况下有效地限制了误差传播的最大长度，但是它没有考虑由不同特性的音频信号中的预测量化所提供的性能改进的差异。因此，这种方法也涉及存在导致短于或长于利用预测量化而量化的连续帧的期望持续性的风险。此外，在预测量化的量化性能优于非预测量化的量化性能的帧中，可能发生连续的预测量化帧的持续性的强制终止，由此造成严重的短期音频质量恶化的风险。

本发明从以下考虑开始：使用安全网方法，通过强制非预测量化帧致力于先发制地避免可能的误差传播来中断(discontinue)预测量化帧的持续性，而另一方面，强制中断预测量化帧的持续性(尤其是在由预测量化提供的性能改进是显著的帧中)有可能在短期内损害整体量化性能，并且因此导致音频质量受到损害。因此，建议对于给定帧在预测和非预测量化之间进行选择时应用的选择准则被安排成使得按照一因子而相较于预测量化来优选非预测量化，其中，随着已对其选择了预测量化的连续帧的持续性长度的增加来增加所述因子。同时，可以评估一个或多个另外的选择准则，用于在预测和非预测量化之间进行选择。

因此，通过有助于缩短已经应用了预测量化的连续帧的大量的长持续性，同时只要性能明显超过非预测量化的性能则仍然使用预测量化的优越性能，本发明的实施例提供了在信道误差情况下提高音频编码性能的可能性。虽然这种方法可能导致增加目标平均量化误差，但是可以调整选择准则以确保将量化误差保持在使建模音频信号时任何可能产生的不准确性足够小以使得误差几乎听不到或根本听不到的水平。

频谱失真(SD)是通常应用的指示量化误差量的度量的示例，并且SD也适于评估量化误差的可听度。例如，可以假定，如果由量化导致的SD低于1dB，则通常人的听觉听不到失真。在安全网方法中，可以通过例如每当产生低于预定义门限(例如1dB)的SD时选择非预测量化来利用这一事实。为了进一步说明这一方面，如果相同音频信号段的非预测量化产生0.9dB的SD(这从人类听觉的角度来说已经足够)，通常不需要例如利用预测量化来量化特定音频信号段以获得例如0.5dB的非常低的SD。在这种情况下，尽管由非预测量化导致的目标量化误差对于各个音频信号段较大，但是所得到的量化误差仍然可被认为是听不到的，因此可能有利的是为该特定音频段选择非预测量化，以便于限制或防止由于帧擦除或帧丢失引起的量化误差的传播：如果在该音频信号段之前存在音频信号段擦除或丢失，则预测量化的性能会不好，但是从非预测量化获得的参数可以被完美地解码。在这种方法中，由于使用非预测量化而不是预测量化得到的改进，仅对于存在一个或多个误差的音频信号段而言是可听见的，而对于清晰信道，通常没有可听得到的恶化。因此，可能与用于在预测和非预测量化之间进行选择的进一步选择准则并行地，可以应用这种技术作为安全网方法的一部分，以便有助于在干净信道条件和存在帧擦除/误差的情况下均获得足够的量化质量。

如从以上描述中变得显而易见的，可以与预定门限进行比较的适当的误差测量因而可以与原始音频信号段和由量化导致的音频信号段之间的频率范围上的频谱失真有关。可以为预测量化和非预测量化两者计算这种误差测量。根据频率范围上的频谱失真计算误差测量也例如适合于属于音频信号段的导谱频率(ISF)参数或线谱频率(LSF)参数。

相应音频信号段(例如，音频信号的一帧)的频谱失真SD可由以下等式表示：

其中，和S(ω)是分别具有和不具有量化的语音帧的频谱。虽然该频谱失真例如会是用于音频段中的线性预测编码(LPC)参数的量化选择以及码本的特别精确的测量，但是可以通过使用在计算上更直接的方法来减少用于根据等式(1)确定频谱失真的计算量。

就此而言，所考虑的误差测量可以包括至少近似于频谱失真(例如，根据等式(1))的误差测量。可以例如通过组合原始音频信号段的分量与由量化导致的音频信号段的对应分量之间的加权误差来获得这种误差测量。误差测量可以例如是例如通过组合加权均方误差而获得的心理声学上有意义的误差测量，其中误差的加权提供了心理声学上有意义的加权。该表达“心理声学上有意义的加权”表示与由人耳显然不能识别的那些频谱分量相比，音频信号中由人耳识别的那些频谱分量被加强。可以通过一组加权因子来提供这种加权，所述一组加权因子可以应用于乘以待加权的音频信号段的相应分量或待加权的音频参数的相应分量，以便形成一组加权分量，所述加权分量然后被组合(例如相加)以形成加权误差测量。可以按照若干方式计算用于此目的的合适的加权因子。

这种心理声学上有意义的误差的示例可以包括加权误差，例如，原始(未量化的)ISF参数与对应的经量化的ISF参数之间的加权均方误差。作为另一示例，心理声学上有意义的误差可以包括加权误差，例如，原始(未量化的)LSF参数与对应的经量化的LSF参数之间的加权均方误差。

通常，可以理解，可基于完全量化的音频信号段或基于部分量化的音频信号段(例如基于相应音频信号段中的一个或多个选定的量化参数，例如上文中提到的ISF参数或LSF参数)来确定所考虑的误差测量。

图1描绘了示例***的示意性框图，其中可以实现根据本发明实施例的对预测或非预测量化的选择。在本文中，术语“非预测量化”和“安全网量化”将被同义地使用。

图1中所示的***包括第一电子设备100和第二电子设备150。第一电子设备100被配置为对音频数据进行编码，例如用于宽带传输，并且第二电子设备150被配置为对经编码的音频数据进行解码。第一电子设备100包括音频输入组件111，音频输入组件111经由芯片120链接到发射组件(TX)112。音频输入组件111可以是例如扩音器、扩音器阵列、与提供音频数据的另一设备的接口，或者与可从其读取音频数据的存储器或文件***的接口。

芯片120可以是例如集成电路(IC)，其包括用于音频编码器121的电路，其中示意性地示出了所选择的功能块。它们包括参数化组件124和量化组件125。发射组件112被配置为使得能够经由有线或无线链路将数据传输到另一设备，例如传输到电子设备150。编码器121或芯片120可被视为根据本发明的示例装置，量化组件可被视为表示对应的处理组件。

电子设备150包括接收组件162，其经由芯片170链接到音频输出组件161。接收组件162被配置为使得能够经由有线或无线链路，从另一设备(例如从电子设备100)接收数据。芯片170可以是例如集成电路(IC)，其包括用于音频解码器171的电路，其中示出了合成组件174。音频输出组件161可以是例如扬声器或者与将向其转发经解码的音频数据的另一设备的接口。

可以理解，图1所示的连接可以经由其中未示出的各种组件来实现。

现在将参考图2至图5更详细地描述图1的***中的操作。

图2描绘了将音频编码器121中的操作示为示例方法200的步骤的流程图。当音频信号例如经由音频输入组件111输入到电子设备100时，可以将其提供给音频编码器121用于编码。在将音频信号提供给音频编码器121之前，可以对其进行一些预处理。在输入音频信号是模拟音频信号的情况下，例如，其可以首先经受模拟到数字转换等。

音频编码器121使用10ms的前瞻量处理例如20ms的音频帧中的音频信号。每个音频帧构成音频信号段。参数化组件124首先将当前音频帧转换为参数表示(步骤201)。音频信号的音频帧的参数表示可以包括描述该帧中的音频信号的一个或多个音频参数，而音频参数可以是标量(单个)参数或矢量参数。在下面的示例中，以示例和非限制性方式参考LSF和/或ISF参数来描述根据本发明的各种实施例的处理。

一方面，量化组件125(例如通过使用非预测码本)实施对音频帧的一个或多个参数的非预测量化(步骤211)。量化组件125可以仅在该阶段实施对所选参数的量化，而另外的参数可在稍后阶段(例如，在基于步骤203选择了预测和非预测量化之一之后)被量化。另外，量化组件125导出描述了由音频帧的一个或多个音频参数的非预测量化导致的量化误差E₁的误差测量值(步骤212)。使用包括LSF参数的LSF矢量作为示例，所述LSF参数描述了音频帧的频谱特性，量化误差E₁可以包括例如：利用非预测量化而量化的LSF参数与音频帧的原始(未量化的)LSF参数之间的均方误差，或者利用非预测量化而量化的LSF参数与音频帧的原始(未量化的)LSF参数之间的加权均方误差，其中加权是心理声学上有意义的加权。

另一方面，量化组件125(例如通过使用预测码本)实施对音频帧的一个或多个参数的预测量化(步骤221)。再者，量化组件125可仅在该阶段实施对所选参数的量化(例如，在基于步骤203选择了预测和非预测量化之一之后)，而另外的参数可在稍后阶段被量化。另外，量化组件125导出描述了由音频帧的一个或多个音频参数的预测量化导致的量化误差E₂的误差测量值(步骤222)。如步骤212那样的情况，使用LSF矢量作为音频参数的示例，量化误差E₁可以包括例如：利用预测量化而量化的LSF参数与音频帧的原始(未量化的)LSF参数之间的均方误差或(心理声学上的)加权均方误差。

预测量化可以包括：例如，使用本领域中已知的任何预测方法来计算当前音频帧i中的音频参数的预测值(例如LSF矢量或其分量)，这是基于音频帧i之前的一个或多个帧(例如音频帧i-j，其中j＝1，...，j_max)中的相应音频参数(例如LSF矢量或其分量)的值，和/或基于音频帧i之后的一个或多个帧(例如，音频帧i+k，其中k＝1，...，k_max)，以及使用量化器来量化当前音频帧中的音频参数的原始(未量化的)值与预测值(例如基于预测码本)之间的差。

就此而言，量化组件125可以对预测量化应用线性预测或非线性预测模型。作为说明性和非限制性示例，就此而言的预测可以包括：使用自回归(AR)预测模型、移动平均(MA)预测模型和自回归移动平均(ARMA)预测模型之一，基于在最靠近的(例如，最近的)在先音频帧i－1中的相应音频参数的值来计算音频帧i的音频参数的预测值。

接下来，量化组件125基于所确定的相应量化误差E₁和E₂来为当前音频帧选择非预测量化或预测量化。就此而言，量化组件125可以确定量化误差E₂是否超过量化误差E₁达到至少一自适应余量M(步骤203)。自适应余量M取决于处于当前音频帧之前的在其中提供了利用预测量化而量化的一个或多个音频参数的连续帧的数目。换言之，当前帧的自适应余量M取决于在已为其选择了非预测量化的最靠近的在先音频帧与当前帧之间的帧数。该帧数可以表示为(当前)预测持续性长度L。本文稍后描述对自适应余量M的确定。

如果步骤203中的确定是肯定的，即，在量化误差E₂超过量化误差E₁达到至少自适应余量M的情况下，量化组件125提供利用非预测量化而量化的当前音频帧的一个或多个音频参数(步骤213)作为编码音频信号的一部分。相反，如果步骤203中的确定不是肯定的，即，在量化误差E₂未能超过量化误差E₁达到至少自适应余量M的情况下，量化组件125提供利用预测量化而量化的当前音频帧的一个或多个音频参数(步骤223)作为编码音频信号的一部分。

可选地或附加地，量化组件125可以应用可促使选择非预测量化的一个或多个附加准则，并且因此可以例如通过在步骤203之前或之后引入一个或多个附加的确定或选择步骤来改变方法200。作为这方面的示例，在方法200的变型中，量化组件125可以在步骤203之前确定量化误差E₁是否小于预定门限E_th，在该确定是肯定的情况下前进到步骤213，并且在该确定不是肯定的情况下前进到步骤203。门限E_th可以是这样的门限，即，低于该门限的量化误差E₁可被认为是不可听的。对于不同的音频参数和用于加权量化误差的可能不同的加权函数，门限E_th的适当值是不同的，并且其需要通过离线试错(trial-and-error off-line)来计算。但是一旦已经找到门限E_th的适当值，则由于步骤302中的验证，编码器处的计算复杂度的增加是最小限度的。作为示例，门限E_th可被设置为对应于SD的在0.8dB至1.0dB范围内的值，例如0.9dB。

作为根据预测持续性长度L来确定自适应余量M的示例，对于当前音频帧与已为其选择了非预测量化的最靠近的在先音频帧之间的每个音频帧，可以将余量M从其初始值M₀增加预定义量M_s。

作为根据预测持续性长度L来确定自适应余量M的另一示例，对于当前音频帧与已为其选择了非预测量化的最靠近的在先音频帧之间超过预定义门限L₀的每个音频帧，可以将余量M从其初始值M₀增加预定义量M_s。换言之，如果L大于L₀，则余量M可以从其初始值M₀增加预定义量M_s(L-L₀)倍。

作为示例，门限L₀可以设置为固定的预定值，例如设置为3(例如L₀＝3)，但是同样地也可以设置为任何其它期望值。作为另一示例，可以根据当前帧和/或紧接在当前帧之前的一个或多个帧的音频特性来设置(或调整)门限L₀的值。作为另一示例，可以根据音频编码器121或量化组件125对当前帧和/或紧接在当前帧之前的一个或多个帧所应用的编码模式来设置(或调整)门限L₀的值。

在方法200的框架中，在已为当前音频帧选择了非预测量化的情况下，自适应余量M被重置为初始值M₀(步骤214)用于下一音频帧，或者在已为当前音频帧选择了预测量化的情况下，自适应余量M被调适预定义量M_s(步骤224)用于下一音频帧。

作为另一示例，在接收到下一音频帧之后但是却在比较量化误差E₁和E₂(步骤203)之前，可以基于为最靠近的在先帧(即，最近的在先帧)所选择的量化，进行重置自适应余量M(步骤214)和/或调适自适应余量M(步骤224)。作为另一示例，代替显式地重置自适应余量M(步骤214)和调整自适应余量M(步骤224)，可以基于预测持续性长度L或基于预测持续性长度L和预定义门限L₀，计算自适应余量M。或者，可以从量化组件125可访问的表中获得自适应余量M，该表存储了在预测持续性长度L的期望值范围上的自适应余量M的值。将在后面的文本中描述关于这一点的示例。

自适应余量M的初始值M₀可以为零或基本为零。可选地，自适应余量M的初始值M₀可略高于零。使用略高于零的初始值M₀用于确保：即使在预测持续性长度L为零(或低于门限L₀)时，也相较于预测量化而偏好非预测量化。为在随后的音频帧中使用而对自适应余量M所调整的预定义量M_s可以是小的正值，以便逐帧地逐渐增加自适应余量M，从而最终实际上强制提供利用非预测量化而量化的音频帧的一个或多个音频参数作为编码音频信号的一部分。

图3描绘了示出音频编码器121中的操作作为示例方法300的步骤的流程图。方法300用作上文参考方法200描述的框架内的示例实施例。方法300与方法300共享步骤201、211和221。

在方法300中，量化组件125可以导出由当前音频帧的一个或多个音频参数的非预测量化导致的量化误差E_s-net(步骤312)。作为示例，量化误差E_s-net可以包括利用非预测量化而量化的音频参数与当前音频帧中相应的原始(未量化的)音频参数之间的均方误差。作为另一示例，量化误差E_s-net可以包括心理声学上相关的误差测量，例如利用非预测量化而量化的音频参数与当前音频帧中相应的原始(未量化的)音频参数之间的SD或(心理声学上的)加权均方误差。使用LSF参数作为一个或多个音频参数的示例，可以例如根据等式(2)提供量化误差E_s-net，例如作为利用非预测量化而量化的LSF参数与当前帧i的原始LSF参数之间的加权均方误差。

其中N是量化矢量的长度(例如矢量中的元素的数目)，其中是帧i的安全网量化最优LSF矢量值p，其中是帧i的原始未量化的LSF矢量值p，并且其中是帧i的心理声学上相关的加权矢量值p。就此而言，适当的加权矢量Wⁱ的示例包括在ITU-T建议G.718(06/2008)的第6.8.2.4节中描述的加权函数W_end、根据8-32kbit/s的语音和音频的帧误差稳健的窄带和宽带嵌入可变比特率编码(其中缩写ITU-T代表国际电信联盟、电信标准化部门)以及在所述ITU-T建议G.718的第6.8.2.6节中描述的加权矢量W_mid。

继续描述方法300，量化组件125可以导出由当前音频帧的一个或多个音频参数的非预测量化导致的量化误差E_pred(步骤322)。作为示例，量化误差E_pred可以包括利用预测量化而量化的音频参数与当前音频帧中相应的原始(未量化的)音频参数之间的均方误差。作为另一示例，量化误差E_pred可以包括心理声学上相关的误差测量，例如利用预测量化而量化的音频参数与当前音频帧中相应的原始(未量化的)音频参数之间的SD或(心理声学上的)加权均方误差。再者，使用LSF参数作为一个或多个音频参数的示例，可以例如根据等式(3)提供量化误差E_pred，例如作为利用预测量化而量化的LSF参数与当前帧i的原始LSF参数之间的加权均方误差。

其中，例如根据等式(3)，N再次是量化矢量的长度(例如矢量中的元素的数目)，其中是帧i的预测量化最优LSF矢量值p，其中再次是帧i的原始未量化的LSF矢量值p，并且其中再次是帧i的心理声学上相关的加权矢量值p。此外，在等式(2)的上下文中提供的关于适当的加权矢量Wⁱ的考虑对于等式(3)也是有效的。

仍然继续描述方法300，量化组件125基于量化误差E_s-net和E_pred选择预测或非预测量化。特别地，量化组件125可以确定量化误差的缩放值是否小于量化误差E_pred，其中是根据自适应缩放因子m的当前值而缩放的量化误差E_s-net，例如(步骤303)。

如果步骤303中的确定是肯定的，即在根据自适应缩放因子m的当前值而缩放的量化误差E_s-net小于量化误差E_pred的情况下，量化组件125提供利用非预测量化而量化的当前音频帧的一个或多个音频参数(例如至少LSF参数)(步骤213)作为编码音频信号的一部分。相反，如果步骤303中的确定不是肯定的，即在根据自适应缩放因子m的当前值而缩放的量化误差E_s-net不小于量化误差E_pred的情况下，量化组件125提供利用预测量化而量化的当前音频帧的一个或多个音频参数(例如至少LSF参数)(步骤223)作为编码音频信号的一部分。

仍然在方法300中，在量化组件125已经为当前音频帧i中的一个或多个音频参数选择了非预测量化的情况下，量化组件125还可以通过将自适应缩放因子m设置为初始值m₀来重置自适应缩放因子m(即设置m＝m₀)，以供量化组件125在下一音频帧i+1中使用(步骤314)。这对应于在方法200的步骤214中将自适应余量M重置为其初始值M₀。

相反，在量化组件125已经为当前音频帧i中的一个或多个音频参数选择了预测量化的情况下，量化组件125可以通过将缩放因子m乘以预定义缩放因子m_s来进一步调整自适应缩放因子m(即设置m＝m*m_s)，以供量化组件125在下一音频帧i+1中使用(步骤324)。这对应于在方法200的步骤224中按照预定义量M_s来调整自适应余量M。

自适应缩放因子m的初始值m₀可以是1(例如，m₀＝1)或基本上为1。作为该方法的变型，初始值m₀可以略低于1，例如在0.9至0.99的范围内，以便确保即使在持续性长度L为零时，即在紧接在已为其选择了非预测量化的帧之后的帧中，相较于预测量化也偏好非预测量化。作为确保一直偏好选择非预测量化的备选示例，步骤303中的条件可以重写为：

mE_s-net＜nE_pred (4)

其具有被例如设置为1.01至1.1范围内的值的预定义缩放因子n，例如当缩放因子m的初始值m₀被设置为1(例如，m₀＝1)时，设置n＝1.05。

预定义缩放因子m_s可以是小于1的正值，以便对下一帧i+1减小自适应缩放因子m。就此而言，预定义缩放因子m_s可被设置为从0.7至0.95的范围中选择的值，例如m_s＝0.8。这对应于在已为其选择了预测量化的连续音频帧的持续性期间逐帧地增加自适应余量M。

图4描绘了将音频编码器121中的操作示为示例方法400的步骤的流程图。方法400被提供作为方法300的变型，并且其用作在前述参考方法200描述的框架内的另一示例实施例。方法400共享方法300的所有步骤，而在步骤303的确定之前引入附加的验证步骤302。

步骤302提供用于为当前音频帧的一个或多个音频参数选择非预测量化的另一准则。特别地，量化组件125可以在量化误差E_s-net小于预定义门限E_th的情况下选择非预测量化。相反，在量化误差E_s-net不小于预定义门限E_th的情况下，量化组件125可以前进到确定步骤303。在步骤302中的验证是肯定的情况下，方法400前进到对于音频帧的一个或多个参数的预测量化(步骤221)，并且进一步导出由当前音频帧的一个或多个音频参数的非预测量化导致的量化误差E_pred(步骤322)。因此，在不需要预测量化所要求的处理(步骤212)以及对量化误差E_pred的导出(步骤322)的情况下，它们可以被省略以用于节省计算资源。

在方法400的变型中，在前进到步骤302之前，步骤221和322可以与步骤211和312并行地执行。在该变型中，在步骤302的验证是肯定的情况下，方法400前进到步骤213，而在步骤302的验证不是肯定的情况下，方法400前进到步骤303。

沿着前文针对量化误差E₁描述的线索，同样在方法400的上下文中，关于方法200的上下文中提供的门限E_th的考虑同样适用：门限E_th的适当值对于不同的音频参数以及可能用于对量化误差进行加权的不同加权函数是不同的，并且它需要通过离线试错来进行计算，作为示例，门限E_th可被设置为对应于SD在从0.8dB至1.0dB的范围中的值，例如0.9dB。

可选地，方法400可以包括一个或多个另外的确定步骤，用于评估可以促使选择非预测量化的相应的一个或多个选择规则。作为示例，这样的确定步骤可以在步骤302之前或之后被提供。

图5描绘了将音频编码器121中的操作示为示例方法500的步骤的流程图。方法500被提供作为方法400的变型，并且它用作在前文参考方法200描述的框架内的另一示例实施例。在方法500中，方法400的步骤314和324被替换为相应的步骤414和424，同时方法500共享方法400的所有剩余步骤。虽然在此描述为对方法400的修改，然而类似的修改也可以应用于方法300。

方法500中，在量化组件125已为当前音频帧i中的一个或多个音频参数选择了非预测量化的情况下，量化组件125可以通过将自适应缩放因子m设置为初始值m₀来进一步重置自适应缩放因子m，以供量化组件125在下一音频帧i+1中使用(如前文在步骤314的上下文中所描述的)，并且进一步将指示当前预测持续性长度L的计数器重置为0(步骤414)。

相反，在量化组件125已为音频帧i中的一个或多个音频参数选择了预测量化的情况下，量化组件125可以进一步将指示当前预测持续性长度L的计数器增加1，并且因此，如果当前预测持续性长度L超过门限L₀(步骤424)，则通过将缩放因子m乘以预定义缩放因子m_s来调整自适应缩放因子m，以供量化组件125在下一帧i+1中使用(如前文在步骤324的上下文中所描述的)。因此，自适应缩放因子m保持在初始值m₀，直到当前预测持续性长度L超过门限L₀，而对于具有超过门限L₀的预测持续性长度的每个帧，根据缩放因子m_s来调适自适应缩放因子m。

在前文描述的示例方法300、400和500的上下文中，对自适应缩放因子m的调适被描述为通过以下方式来进行：将缩放因子m重置为初始值m₀(步骤314、414)和将缩放因子m调整为新值(步骤324、424)用于处理量化组件125中的下一音频帧。

作为这方面的备选方法，在方法300、400和500中的每一方法中，可以省略上述重置和调整步骤，并且可以基于当前预测持续性长度L导出自适应缩放因子m的值。为此目的，方法300、400中的相应方法还可以涉及跟踪预测持续性长度L的当前值，例如，如在方法500的步骤414和424中就该方面所描述的。

作为该方面的示例，自适应缩放因子m可以基于预测持续性长度L(例如根据等式(5a))来进行计算，或者基于预测持续性长度L和预定义门限L₀(例如根据等式(5b))来进行计算。

作为这方面的另一示例，可以通过对量化组件125可访问的表进行索引来获得自适应缩放因子m。这种表可被布置为针对L的例如从0至L_max的预定义值范围中的每个值来存储自适应缩放因子m的相应值，其中L_max是预测持续性长度L的最大考虑(或允许的)长度。计算自适应缩放因子m或者访问该表以找到自适应缩放因子m的值可被提供作为例如(在方法300、400、500中)在步骤303之前或者(在方法400、500中)在步骤302之前的附加步骤。

所提供的量化音频帧可由发射机112作为按照比特流的编码音频数据的一部分与另外的信息一起传输，例如与对于所采用的量化的指示一起。可选地，量化音频帧和对于所采用的量化的可能指示可以存储在电子设备100的存储器中，用于随后的解码和/或由发射机112随后传输。

在电子设备150处，该比特流由接收组件162接收并提供给解码器171。在解码器171中，合成组件174基于所接收到的比特流中的量化参数来构建合成音频信号。然后，可能在一些另外的处理(例如数模转换)之后，重构的音频信号可被提供给音频输出组件161。

图2至图5的框块也可被理解为量化组件125的示意性表示的单独处理框块。

图6是示例性电子设备600的示意框图，其中，可以在软件中实现根据本发明实施例的对预测或非预测量化的选择。

电子设备600可以例如是移动电话。其包括处理器630以及链接到该处理器630的音频输入组件611、音频输出组件661、收发器(RX/TX)612和存储器640。可以理解，可以经由未示出的各种其它元件来实现电子设备600的被指示的连接。

音频输入组件611可以例如是扩音器、扩音器阵列或者与音频源的接口。音频输出组件661可以例如是扬声器。存储器640包括用于存储计算机程序代码的部件641和用于存储数据的部件642。所存储的计算机程序代码包括用于使用可选择的量化来编码音频信号的代码，并且还可能包括用于解码音频信号的代码。处理器630被配置为执行可用的计算机程序代码。就可用代码存储在存储器640中而言，处理器630可以为此在需要时从存储器640的部件641中检索代码。可以理解，各种其它计算机程序代码也可用于执行，就像操作程序代码和用于各种应用的程序代码。

所存储的编码代码或处理器630与存储器640的组合也可被视为根据本发明实施例的示例性设备。存储了编码代码的存储器640可被视为根据本发明实施例的示例性计算机程序产品。

当用户或者例如在电子设备600中运行的过程选择了需要对输入音频信号进行编码的电子设备600的功能时，提供该功能的应用促使处理器630从存储器640检索编码代码。然后在所接收到的模拟音频信号转换为数字音频信号之后以及可能在提供音频信号给处理器630之前需要/应用的另外的预处理步骤的情况下，经由音频输入组件611而接收的音频信号被提供给处理器630。

处理器630执行检索到的编码代码以便对数字音频信号进行编码。编码可以对应于上面参考图2至图5之一而对图1所描述的编码。因此，编码代码可被视为计算机程序代码，当所述计算机程序代码由处理器630或由另一计算装置执行时，其促使实施前文例如参考图2至图5之一而对图1所描述的编码。经编码的音频信号被存储在存储器640的数据存储部件642中以供稍后使用，或者由收发器612传输到另一电子设备。

处理器630还可以从存储器640检索解码代码，并且执行它以便解码经由收发器612接收的或者从存储器640的数据存储部件642检索的编码音频信号。解码可以对应于上述对图1所描述的解码。然后可以将解码的数字音频信号提供给音频输出组件661。在音频输出组件661包括扬声器的情况下，解码的音频信号可以例如在转换为模拟音频信号以及可能的附加后处理步骤之后经由扬声器被呈现给用户。可选地，解码的数字音频信号可以存储在存储器640的数据存储部件642中。

由图1的量化组件125所示出的功能或者由执行图6的程序代码641的处理器630所示出的功能也可被视为：用于导出第一量化误差的装置，所述第一量化误差描述了由音频信号段的音频参数的非预测量化导致的误差；用于导出第二量化误差的装置，所述第二量化误差描述了由所述音频信号段的所述音频参数的预测量化导致的误差；用于确定所述第二量化误差是否超过所述第一量化误差达到至少一自适应余量的装置，所述自适应余量取决于处于所述音频信号段之前的在其中提供了利用所述预测量化而量化的所述音频参数的连续音频信号段的数目；用于至少在所述确定的结果是肯定的情况下提供利用所述非预测量化而量化的所述音频段的所述音频参数作为编码音频信号的一部分的装置；以及用于否则提供利用所述预测量化而量化的所述音频段的所述音频参数作为编码音频信号的一部分的装置。程序代码641还可被视为包括具有功能模块或代码组件形式的这种装置。

尽管已经示出并描述和指出了应用于本发明优选实施例的本发明的基本新颖特征，然而可以理解，本领域技术人员在不背离本发明的情况下可以对所描述的设备和方法的形式和细节进行各种省略、替换和改变。例如，明确地旨在以基本相同的方式实施基本上相同的功能以实现相同结果的那些元件和/或方法步骤的所有组合都在本发明的范围内。此外，应当认识到，结合本发明的任何公开形式或实施例所示出和/或描述的结构和/或元件和/或方法步骤可以并入任何其它公开的或描述的或建议的形式或实施例中作为一般设计选择问题。因此，本发明仅由所附权利要求书的范围所限定。此外，在权利要求书中，装置加功能条款旨在覆盖文中被描述为实施所述功能的结构，并且不仅仅是结构等同物，还有其等同结构。

Claims

1.一种用于通过处理音频信号段的序列来编码音频信号的方法，所述方法包括：

导出第一量化误差，所述第一量化误差描述了在音频信号段的音频参数的非预测量化情况下导致的误差；

导出第二量化误差，所述第二量化误差描述了在所述音频信号段的所述音频参数的预测量化情况下导致的误差；

确定所述第二量化误差是否超过所述第一量化误差达到至少一自适应余量，所述自适应余量取决于处于所述音频信号段之前的在其中提供了利用所述预测量化而量化的所述音频参数的连续音频信号段的数目；

至少在所述确定的结果是肯定的情况下，提供利用所述非预测量化而量化的所述音频段的所述音频参数作为编码音频信号的一部分；以及

否则提供利用所述预测量化而量化的所述音频段的所述音频参数作为编码音频信号的一部分。

2.根据权利要求1所述的方法，其中，对于在所述音频信号段与其中提供了利用所述预测量化而量化的所述音频参数的最接近的在先音频信号段之间的每个音频信号段，所述自适应余量从其预定义初始值增加预定义量。

3.根据权利要求1所述的方法，其中，对于在所述音频信号段与其中提供了利用所述预测量化而量化的所述音频参数的最接近的在先音频信号段之间超过预定义门限的每个音频信号段，所述自适应余量从其预定义初始值增加预定义量。

4.根据权利要求2或3所述的方法，其中，所述余量的所述预定义初始值为零或基本为零。

5.根据权利要求1所述的方法，其中，所述确定包括：确定乘以自适应缩放因子的所述第一量化误差是否小于所述第二量化误差，所述自适应缩放因子表示用于所述音频信号段的自适应余量。

6.根据权利要求5所述的方法，其进一步包括：在提供了利用所述预测量化而量化的所述音频段的所述音频参数的情况下，将所述缩放因子减小预定义量。

7.根据权利要求5所述的方法，其进一步包括在以下情况下将所述缩放因子减小预定量：

提供了利用所述预测量化而量化的所述音频段的所述音频参数，以及

所述连续音频信号段的数目超过预定义门限。

8.根据权利要求5至7中任一项所述的方法，其进一步包括：在提供了利用所述非预测量化而量化的所述音频段的所述音频参数的情况下，将所述缩放因子重置为预定义初始值。

9.根据权利要求8所述的方法，其中，所述预定义初始值是一或基本为一。

10.根据权利要求3或7所述的方法，其中，所述预定义门限是三。

11.根据权利要求1至10中任一项所述的方法，其中，所述音频参数包括以下之一：表示所述音频段的频谱特性的线谱频率矢量和导谱频率矢量。

12.根据权利要求1至11中任一项所述的方法，其中：

所述第一量化误差是通过组合所述音频参数的分量和在所述非预测量化情况下导致的所述音频参数的对应分量之间的加权误差而获得的，以及

所述第二量化误差是通过组合所述音频参数的分量和在所述预测量化情况下导致的所述音频参数的对应分量之间的加权误差而获得的。

13.一种包括计算机可读程序代码的计算机程序，所述计算机可读程序代码被配置为当在计算装置上执行所述程序代码时促使实施根据权利要求1至12中任一项所述的方法。

14.一种计算机程序产品，其包括存储在计算机可读记录介质中的根据权利要求13所述的计算机程序。

15.一种用于通过处理音频信号段的序列来编码音频信号的装置，所述装置包括：

被配置为导出第一量化误差的处理组件，所述第一量化误差描述了在音频信号段的音频参数的非预测量化情况下导致的误差；

被配置为导出第二量化误差的处理组件，所述第二量化误差描述了在所述音频信号段的所述音频参数的预测量化情况下导致的误差；

被配置为确定所述第二量化误差是否超过所述第一量化误差达到至少一自适应余量的处理组件，所述自适应余量取决于处于所述音频信号段之前的在其中提供了利用所述预测量化而量化的所述音频参数的连续音频信号段的数目；

被配置为至少在所述确定的结果是肯定的情况下提供利用所述非预测量化而量化的所述音频段的所述音频参数作为编码音频信号的一部分的处理组件；以及

被配置为否则提供利用所述预测量化而量化的所述音频段的所述音频参数作为编码音频信号的一部分的处理组件。

16.根据权利要求15所述的装置，其进一步包括被配置为实施以下操作的处理组件：对于在所述音频信号段与其中提供了利用所述预测量化而量化的所述音频参数的最接近的在先音频信号段之间的每个音频信号段，将所述自适应余量从其预定义初始值增加预定义量。

17.根据权利要求15所述的装置，其进一步包括被配置为实施以下操作的处理组件：对于在所述音频信号段与其中提供了利用所述预测量化而量化的所述音频参数的最接近的在先音频信号段之间超过预定义门限的每个音频信号段，将所述自适应余量从其预定义初始值增加预定义量。

18.根据权利要求16或17所述的装置，其中，所述余量的所述预定义初始值为零或基本为零。

19.根据权利要求15所述的装置，其中，所述确定包括：确定乘以自适应缩放因子的所述第一量化误差是否小于所述第二量化误差，所述自适应缩放因子表示用于所述音频信号段的自适应余量。

20.根据权利要求19所述的装置，其进一步包括被配置为实施以下操作的处理组件：在提供了利用所述预测量化而量化的所述音频段的所述音频参数的情况下，将所述缩放因子减小预定义量。

21.根据权利要求19所述的装置，其进一步包括被配置为在以下情况下将所述缩放因子减小预定义量的处理组件：

所述连续音频信号段的数目超过预定义门限。

22.根据权利要求19至21中任一项所述的装置，其进一步包括被配置为实施以下操作的处理组件：在提供了利用所述非预测量化而量化的所述音频段的所述音频参数的情况下，将所述缩放因子重置为预定义初始值。

23.根据权利要求22所述的装置，其中，所述预定义初始值是一或基本为一。

24.根据权利要求17或21所述的装置，其中，所述预定义门限是三。

25.根据权利要求15至24中任一项所述的装置，其中，所述音频参数包括以下之一：表示所述音频段的频谱特性的线谱频率矢量和导谱频率矢量。

26.根据权利要求15至25中任一项所述的装置，其进一步包括：

被配置为通过组合所述音频参数的分量和在所述非预测量化情况下导致的所述音频参数的对应分量之间的加权误差来计算所述第一量化误差的处理组件，以及

被配置为通过组合所述音频参数的分量和在所述预测量化情况下导致的所述音频参数的对应分量之间的加权误差来计算所述第二量化误差的处理组件。

27.一种用于通过处理音频信号段的序列来编码音频信号的设备，所述设备包括：

用于导出第一量化误差的装置，所述第一量化误差描述了在音频信号段的音频参数的非预测量化情况下导致的误差；

用于导出第二量化误差的装置，所述第二量化误差描述了在所述音频信号段的所述音频参数的预测量化情况下导致的误差；

用于确定所述第二量化误差是否超过所述第一量化误差达到至少一自适应余量的装置，所述自适应余量取决于处于所述音频信号段之前的在其中提供了利用所述预测量化而量化的所述音频参数的连续音频信号段的数目；

用于至少在所述确定的结果是肯定的情况下提供利用所述非预测量化而量化的所述音频段的所述音频参数作为编码音频信号的一部分的装置；以及

用于否则提供利用所述预测量化而量化的所述音频段的所述音频参数作为编码音频信号的一部分的装置。