CN112639968A

CN112639968A - 用于控制对经低比特率编码的音频的增强的方法和装置

Info

Publication number: CN112639968A
Application number: CN201980055735.5A
Authority: CN
Inventors: A·比斯瓦斯; 戴佳; A·S·马斯特
Original assignee: Dolby International AB; Dolby Laboratories Licensing Corp
Current assignee: Dolby International AB; Dolby Laboratories Licensing Corp
Priority date: 2018-08-30
Filing date: 2019-08-29
Publication date: 2021-04-09
Also published as: US20210327445A1; JP7019096B2; WO2020047298A1; EP3844749A1; US11929085B2; EP3844749B1; JP2021525905A

Abstract

描述了一种用于对音频数据进行低比特率编码并生成用于在解码器侧控制对所述经低比特率编码的音频数据的音频增强的增强元数据的方法，所述方法包括以下步骤：(a)以低比特率对原始音频数据进行核心编码以获得经编码的音频数据；(b)生成要用于在对所述经编码的音频数据进行核心解码之后在所述解码器侧控制音频增强的类型和/或量的增强元数据；以及(c)输出所述经编码的音频数据和所述增强元数据。进一步描述了被配置为执行所述方法的编码器。此外，描述了一种用于基于增强元数据从经低比特率编码的音频数据生成增强的音频数据的方法以及一种被配置为执行所述方法的解码器。

Description

用于控制对经低比特率编码的音频的增强的方法和装置

相关申请的交叉引用

本申请要求2018年8月30日提交的PCT申请号PCT/CN2018/103317、2018年9月19日提交的美国临时专利申请号62/733,409和2019年5月20日提交的美国临时专利申请号62/850,117的优先权，其中每个申请均通过引用以其全文并入本文。

技术领域

本公开总体上涉及一种用于对音频数据进行低比特率编码并生成用于在解码器侧控制对经低比特率编码的音频数据的音频增强的增强元数据的方法，并且更具体地涉及生成要用于在对经编码的音频数据进行核心解码(core decoding)之后在解码器侧控制音频增强的类型和/或量的增强元数据。此外，本公开涉及相应的编码器、一种用于基于增强元数据从经低比特率编码的音频数据生成增强的音频数据的方法以及相应的解码器。

尽管本文将特别地参考该公开内容来描述一些实施例，但是应当理解，本公开不限于这种使用领域，并且可应用于更广泛的背景下。

背景技术

在整个公开内容中对背景技术的任何讨论绝不应视为承认该技术是本领域众所周知的或形成本领域公知常识的一部分。

近年来，已经观察到尤其是深度学习方法可以提供突破性的音频增强。

音频记录***用于将音频信号编码为适合于传输或存储的经编码信号，并且随后接收或取得所述经编码信号并进行解码以获得原始(original)音频信号版本以供回放。低比特率音频编码是一种允许降低带宽和存储要求的感知音频压缩技术。感知音频编码***的示例包括Dolby-AC3、高级音频编码(AAC)以及最近由ETSI标准化并且包括在ATSC 3.0中的标准化的Dolby AC-4音频编码***。

然而，低比特率音频编码引入了不可避免的编码伪像。以低比特率编码的音频可能尤其经受音频信号中的细节的困扰，并且由于量化和编码引入的噪声可能降低音频信号的质量。在这方面的特定问题是所谓的预回声伪像。预回声伪像是在频域中对瞬态音频信号进行量化时产生的，这导致量化噪声先于瞬态音频信号扩散。预回声噪声确实严重损害了音频编解码器(如例如MPEG AAC编解码器或任何其他基于变换(例如，基于MDCT)的音频编解码器)的质量。

迄今为止，已经开发了几种方法用于减少预回声噪声并因此提高经低比特率编码的音频的质量。这些方法包括短块切换和时域噪声整形(TNS)。后一种技术基于在频域中应用预测滤波器，以对时域中的量化噪声进行整形，从而使得噪声看起来对用户的干扰较小。

J.Lapierre和R.Lefebvre已经发布了一种用于减少频域音频编解码器中的预回声噪声的最近方法，所述方法来自2017年声学、语音和信号处理国际会议的会报。该最近开发的方法基于在解码器处使用来自接收到的比特流的数据进行操作的算法。特别地，逐帧测试经解码的比特流是否存在可能会产生预回声伪像的瞬态信号。在检测到这种信号后，将音频信号划分成前瞬态信号部分和后瞬态信号部分，然后将这些信号部分与特定的瞬态特性和编解码器参数一起馈送到降噪算法。首先，针对每个频带或频率系数，使用来自比特流的比例因子和系数幅度来估计帧中存在的量化噪声的量。然后，该估计值用于对添加到过采样DFT域中的后信号中的随机噪声信号进行整形，然后将其变换到时域、乘以前窗口并返回到频域中。这样，可以将谱减法应用于前信号而不会增加任何伪像。为了进一步保留总帧能量并考虑到由于量化噪声的影响而导致信号会从后信号拖到前信号，因此将从前信号去除的能量加回到后信号。在将这两个信号加在一起并变换到MDCT域之后，解码器的其余部分可以使用修改后的MDCT系数来代替原始系数。然而，作者已经识别的缺点是，尽管可以在现今***中使用所述算法，但是仍然增加了解码器的计算量。

A.Raghuram等已经在2007年10月5日至8日在美国纽约NY举行的第123届大会上呈现的音频工程师协会的会议论文7221中发布了一种用于增强以低比特率编码的音频信号的新颖的后处理工具包。除此之外，所述论文还解决了经低比特率编码的音频中的噪声问题，并呈现了一种基于自适应滤波技术去除宽带背景噪声的自动噪声去除(ANR)算法。特别地，ANR算法的一个方面是，通过对信号进行详细的谐波分析并且通过利用感知建模以及准确的信号分析和合成，可以保留主信号声音，因为信号中的主信号分量是在噪声去除步骤之前去除。ANR算法的第二方面是，其借助于一种新颖的信号活动检测算法来连续且自动地更新噪声分布曲线/统计信息，从而使噪声去除过程完全自动化。噪声去除算法以去噪卡尔曼滤波器作为核心。

除了预回声伪像之外，经低比特率编码的音频的质量也受量化噪声的影响。为了减少信息容量要求，音频信号的频谱分量被量化。然而，量化会将噪声注入信号中。通常，感知音频编码***涉及使用心理声学模型来控制量化噪声的幅度，以使所述量化噪声被信号中的频谱分量掩盖或使其听不见。

给定频带内的频谱分量通常被量化为相同的量化分辨率，并且根据心理声学模型，可以确定与最大的最小量化分辨率相伴的最小信噪比(SNR)，而不会注入可听见水平的量化噪声。对于较宽的频带，信息容量要求将编码***限制为相对粗糙的量化分辨率。结果，如果较小值的频谱分量的大小小于最小量化水平，则将所述频谱分量被量化为零。即使量化噪声保持足够低以至于听不见或被心理声学掩盖，经编码信号中存在许多量化为零的频谱分量(频谱孔)也可能降低音频信号的质量。这方面的降低可能是由于听不见的量化噪声导致，这是因为心理声学掩盖的结果小于用于确定量化分辨率的模型所预测的结果。此外，与原始音频信号相比，许多量化为零的频谱分量可能在听觉上减少经解码的音频信号的能量或功率。对于使用失真消除滤波器组的编码***，如果一个或多个频谱分量的值在编码过程中发生显著变化(这也会损害经解码的音频信号的质量)，则解码过程中合成滤波器组消除失真的能力可能会受到严重损害。

压扩是Dolby AC-4编码***中的一种新型编码工具，所述工具改善了对语音和密集瞬态事件(例如，掌声)的感知编码。压扩的益处包括减少输入信号的短时动态性，从而减少编码器侧的比特率要求，同时确保解码器侧的适当时域噪声整形。

在过去几年期间，深度学习方法在包括语音增强的各种应用领域中变得越来越有吸引力。在此上下文中，D.Michelsanti和Z.-H.Tan在2017年的INTERSPEECH上发表的有关“Conditional Generative Adversarial Networks for Speech Enhancement andNoise-Robust Speaker Verification(用于语音增强和强噪声语者验证的条件对抗式生成网络)”的出版物中描述，条件对抗式生成网络(GAN)方法的性能优于经典的短时频谱幅度最小均方误差语音增强算法，并且与用于语音增强的基于深度神经网络的方法相当。

但是，这种出色的性能也可能导致两难问题：与原始音频相比，收听者可能更喜欢原始音频的基于深度学习的增强版本，这可能不是内容创建者的艺术意图。因此，期望在编码器侧向内容创建者提供控制措施，从而允许创建者选择是否可以在解码器侧应用增强、增强多少、或可以应用哪种类型的增强以及针对哪种情况应用增强。这将使内容创建者最终控制增强的音频的意图和质量。

发明内容

根据本公开的第一方面，提供了一种用于对音频数据进行低比特率编码并生成用于在解码器侧控制对所述经低比特率编码的音频数据的音频增强的增强元数据的方法。所述方法可以包括以下步骤：(a)以低比特率对原始音频数据进行核心编码以获得经编码的音频数据。所述方法可以进一步包括以下步骤：(b)生成要用于在对所述经编码的音频数据进行核心解码之后在所述解码器侧控制音频增强的类型和/或量的增强元数据。并且所述方法可以包括以下步骤：(c)输出所述经编码的音频数据和所述增强元数据。

在一些实施例中，步骤(b)中生成增强元数据可以包括：

(i)对所述经编码的音频数据进行核心解码以获得经核心解码的初始音频数据；

(ii)将所述经核心解码的初始(raw)音频数据输入到音频增强器以基于候选增强元数据处理所述经核心解码的初始音频数据，所述候选增强元数据用于控制对输入到所述音频增强器的音频数据的音频增强的类型和/或量；

(iii)获得增强的音频数据作为来自所述音频增强器的输出；

(iv)基于所述增强的音频数据确定所述候选增强元数据的适用性；以及

(v)基于所述确定的结果生成增强元数据。

在一些实施例中，步骤(iv)中确定所述候选增强元数据的适用性可以包括：向用户呈现所述增强的音频数据，并且响应于所述呈现而接收来自所述用户的第一输入，并且其中，步骤(v)中生成所述增强元数据可以基于所述第一输入。

在一些实施例中，来自所述用户的所述第一输入可以包括所述候选增强元数据是被所述用户接受还是拒绝的指示。

在一些实施例中，在所述用户拒绝所述候选增强元数据的情况下，可以从所述用户接收指示对所述候选增强元数据进行修改的第二输入，并且步骤(v)中生成所述增强元数据可以基于所述第二输入。

在一些实施例中，在所述用户拒绝所述候选增强元数据的情况下，可以重复步骤(ii)至(v)。

在一些实施例中，所述增强元数据可以包括一项或多项增强控制数据。

在一些实施例中，所述增强控制数据可以包括关于一个或多个音频增强类型的信息，所述一个或多个音频增强类型包括语音增强、音乐增强和掌声增强中的一种或多种。

在一些实施例中，所述增强控制数据可以进一步包括关于所述一个或多个音频增强类型的相应容许性(allowability)的信息。

在一些实施例中，所述增强控制数据可以进一步包括关于音频增强的量的信息。

在一些实施例中，所述增强控制数据可以进一步包括关于是否要由所述解码器侧的自动更新的音频增强器执行音频增强的容许性的信息。

在一些实施例中，可以通过应用一个或多个预定义的音频增强模块来执行步骤(ii)中基于所述候选增强元数据处理所述经核心解码的初始音频数据，并且所述增强控制数据可以进一步包括关于使用在解码器侧的实现相同或基本上相同类型的增强的一个或多个不同的增强模块的容许性的信息。

在一些实施例中，所述音频增强器可以是生成器。

根据本公开的第二方面，提供了一种用于生成用于控制对经低比特率编码的音频数据的增强的增强元数据的编码器。所述编码器可以包括一个或多个处理器，所述一个或多个处理器被配置为执行用于对音频数据进行低比特率编码并生成用于在解码器侧控制对所述经低比特率编码的音频数据的音频增强的增强元数据的方法。

根据本公开的第三方面，提供了一种用于基于增强元数据从经低比特率编码的音频数据生成增强的音频数据的方法。所述方法可以包括以下步骤：(a)接收以低比特率编码的音频数据、和增强元数据。所述方法可以进一步包括以下步骤：(b)对所述经编码的音频数据进行核心解码以获得经核心解码的初始音频数据。所述方法可以进一步包括以下步骤：(c)将所述经核心解码的初始音频数据输入到音频增强器以基于所述增强元数据处理所述经核心解码的初始音频数据。所述方法可以进一步包括以下步骤：(d)获得增强的音频数据作为来自所述音频增强器的输出。并且所述方法可以包括以下步骤：(e)输出所述增强的音频数据。

在一些实施例中，可以通过根据所述增强元数据应用一个或多个音频增强模块来执行基于所述增强元数据处理所述经核心解码的初始音频数据。

在一些实施例中，所述音频增强器可以是生成器。

根据本公开的第四方面，提供了一种用于基于增强元数据从经低比特率编码的音频数据生成增强的音频数据的解码器。所述解码器可以包括一个或多个处理器，所述一个或多个处理器被配置为执行用于基于增强元数据从经低比特率编码的音频数据生成增强的音频数据的方法。

附图说明

现在将参考附图仅通过举例来描述本公开的示例实施例，在附图中：

图1图示了用于对音频数据进行低比特率编码并生成用于在解码器侧控制对经低比特率编码的音频数据的音频增强的增强元数据的方法的示例的流程图。

图2图示了生成要用于在对经编码的音频数据进行核心解码之后在解码器侧控制音频增强的类型和/或量的增强元数据的流程图。

图3图示了生成要用于在对经编码的音频数据进行核心解码之后在解码器侧控制音频增强的类型和/或量的增强元数据的另一示例的流程图。

图4图示了生成要用于在对经编码的音频数据进行核心解码之后在解码器侧控制音频增强的类型和/或量的增强元数据的又一示例的流程图。

图5图示了被配置为执行用于对音频数据进行低比特率编码并生成用于在解码器侧控制对经低比特率编码的音频数据的音频增强的增强元数据的方法的编码器的示例。

图6图示了用于基于增强元数据从经低比特率编码的音频数据生成增强的音频数据的方法的示例。

图7图示了被配置为执行用于基于增强元数据从经低比特率编码的音频数据生成增强的音频数据的方法的解码器的示例。

图8图示了具有编码器和解码器的***的示例，所述编码器被配置为执行用于对音频数据进行低比特率编码并生成用于在解码器侧控制对经低比特率编码的音频数据的音频增强的增强元数据的方法，并且所述解码器被配置为执行用于基于增强元数据从经低比特率编码的音频数据生成增强的音频数据的方法。

图9图示了具有两个或更多个处理器的设备的示例，所述两个或更多个处理器被配置为执行本文所描述的方法。

具体实施方式

音频增强概述

可以例如在下面给出的并且在62/733,409(其通过引用以其全文并入本文)中描述的那样，在解码侧从经低比特率编码的音频比特流生成增强的音频数据。可以接收有损音频压缩(例如，AAC(高级音频编码)、Dolby-AC3、HE-AAC、USAC或Dolby-AC4)中使用的任何编解码器的经低比特率编码的音频比特流。可以将从接收并解码的经低比特率编码的音频比特流获得的经解码的初始音频数据输入到用于增强初始音频数据的生成器中。然后，可以通过生成器来增强初始音频数据。通常，增强过程旨在通过减少编码伪像来增强初始音频数据的质量。因此，通过生成器增强初始音频数据可以包括以下一项或多项：减少预回声噪声、量化噪声、填充频谱间隙以及计算对一个或多个缺失帧的调节。术语频谱间隙可以包括频谱孔和缺失的高频带宽两者。可以使用用户生成的参数来计算对一个或多个缺失帧的调节。作为生成器的输出，于是可以获得增强的音频数据。

上述用于执行音频增强的方法可以在时域和/或至少部分地在中间(编解码器)变换域中执行。例如，可以在将初始音频数据输入到生成器中之前将初始音频数据变换到中间变换域，并且可以将获得的增强的音频数据变换回时域。中间变换域可以是例如MDCT域。

可以在时域或中间(编解码器(codec))变换域中的任何解码器上实施音频增强。可替代地或另外地，还可以通过编码器生成的元数据来引导音频增强。编码器生成的元数据通常可以包括编码器参数和/或比特流参数中的一个或多个。

音频增强还可以例如通过具有解码器和对抗式生成网络设置的***执行，所述解码器用于从经低比特率编码的音频比特流生成增强的音频数据，并且所述对抗式生成网络设置包括生成器(Generator)和判别器(Discriminator)。

如上面已经提到的，解码器执行的音频增强可以通过编码器生成的元数据引导。编码器生成的元数据可以例如包括编码质量的指示。编码质量的指示可以包括例如关于编码伪像的存在以及与原始音频数据相比编码伪像对经解码的音频数据的质量的影响的信息。因此，编码质量的指示可以用于引导生成器中对初始音频数据的增强。在生成器的经编码的音频特征空间(也称为瓶颈层)中，编码质量的指示还可以用作附加信息以修改音频数据。

元数据例如还可以包括比特流参数。比特流参数可以例如包括以下项中的一个或多个：比特率、与基于AAC的编解码器和杜比AC-4编解码器相关的比例因子值、以及与基于AAC的编解码器和杜比AC-4编解码器相关的全局增益。比特流参数可以用于引导生成器中对初始音频数据的增强。在生成器的经编码的音频特征空间中，比特流参数还可以用作附加信息。

元数据例如还可以进一步包括关于是否通过生成器来增强经解码的初始音频数据的指示。该信息因此可以用作音频增强的触发。如果指示为是，则可以执行增强。如果指示为否，则解码器可以规避增强，并且可以基于接收到的包括元数据的比特流来执行传统上在解码器上执行的解码过程。

对抗式生成网络设置

如上所述，生成器可以在解码侧用于增强初始音频数据，以减少由低比特率编码引入的编码伪像，并且因此与原始未编码的音频数据相比增强了初始音频数据的质量。

这种生成器可以是在对抗式生成网络设置(GAN设置)中训练的生成器。GAN设置通常包括均通过迭代过程进行训练的生成器G和判别器D。在对抗式生成网络设置中进行训练期间，生成器G分别基于随机噪声向量z和从已经以低比特率编码并解码的原始音频数据x得到的初始音频数据生成增强的音频数据x*。然而，可以将随机噪声向量设置为z＝0，发现这对于减少编码伪像是最好的。可以在没有输入随机噪声向量z的情况下进行训练。另外，可以将元数据输入到生成器中，以在经编码的音频特征空间中修改增强的音频数据。这样，在训练期间，可以基于元数据来调节增强的音频数据的生成。生成器G尝试输出与原始音频数据x无法区分的增强的音频数据x*。向判别器D一次性馈送所生成的增强的音频数据x*和原始音频数据x，并且以假/真方式判断输入数据是增强的音频数据x*还是原始音频数据x。这样，判别器D尝试将原始音频数据x与增强的音频数据x*进行判别。在迭代过程期间，生成器G然后调整其参数以生成与原始音频数据x相比越来越好的增强的音频数据x*，并且判别器D学会在增强的音频数据x*与原始音频数据x之间更好地判断。该对抗学习过程可以通过以下等式(1)描述：

应当注意的是，为了在最终步骤中训练生成器G，可以首先训练判别器D。训练和更新判别器D可以涉及使向原始音频数据x分配高分并且向增强的音频数据x*分配低分的概率最大化。训练判别器D的目标可以是(未编码的)原始音频数据被识别为真，而(生成的)增强的音频数据x*被识别为假。当训练和更新判别器D时，生成器G的参数可以保持固定。

然后，训练和更新生成器G可以涉及使原始音频数据x与所生成的增强的音频数据x*之间的差异最小化。训练生成器G的目标可以是实现判别器D将所生成的增强的音频数据x*识别为真。

生成器G的训练例如可以涉及以下内容。可以将初始音频数据

以及随机噪声向量z输入到生成器G中。可以通过以低比特率对原始音频数据x进行编码并且随后进行解码获得初始音频数据

基于输入，生成器G然后可以生成增强的音频数据x*。如果使用随机噪声向量z，则可以将其设置为z＝0，或者可以在不输入随机噪声向量z的情况下进行训练。另外，在经编码的音频特征空间中，可以使用元数据作为输入来训练生成器G，以修改增强的音频数据x*。然后，将原始数据x(已经从其得到初始音频数据

)以及所生成的增强的音频数据x*一次性地输入到判别器D。作为附加信息，每次还可以将初始音频数据

输入到判别器D。判别器D然后可以判断输入数据是增强的音频数据x*(假)还是原始数据x(真)。在下一步骤中，然后可以调整生成器G的参数，直到判别器D不再能够区分增强的音频数据x*和原始数据x。这可以通过迭代过程来完成。

判别器D的判断可以如根据以下等式(2)基于一个或多个感知激励的目标函数：

索引LS指的是结合了最小二乘法。另外，从等式(2)中的第一项可以看出，通过将初始音频数据

作为附加信息输入到判别器来应用条件对抗式生成网络设置。

然而，发现尤其随着引入以上等式(2)中的最后一项，可以确保在迭代过程期间较低的频率不会被扰乱，因为这些频率通常是用较高数量的比特编码的。最后一项是由因子lambda(拉姆达)λ缩放的1-范数距离。Lambda的值可以从10到100中选择，这取决于应用和/或输入到生成器的信号长度。例如，lambda可以选择为λ＝100。

判别器D的训练可以遵循与上述针对生成器G的训练相同的一般过程，区别在于，生成器G的参数可以是固定的，而判别器D的参数是可以变化的。例如，可以通过以下等式(3)来描述判别器D的训练，所述等式使得判别器D可以将增强的音频数据x*确定为假：

在以上情况下，还通过将初始音频数据

作为附加信息输入到判别器应用了最小二乘法(LS)和条件对抗式生成网络设置。

除了最小二乘法，还可以使用其他训练方法来训练对抗式生成网络设置中的生成器和判别器。例如，可以使用所谓的Wasserstein方法。在这种情况下，可以使用陆地移动距离(也称为Wasserstein距离)代替最小方差距离。通常，不同的训练方法使得生成器和判别器的训练更加稳定。然而，所应用的训练方法的种类不会影响在下面示例性地详述的生成器的架构。

生成器的架构

尽管生成器的架构通常不受限制，但是生成器可以例如包括编码器级和解码器级。生成器的编码器级和解码器级可以是完全卷积的。解码器级可以借鉴编码器级，并且编码器级以及解码器级可以各自包括多个L层，每个层L中有N个滤波器。L可以是大于等于1的自然数，并且N可以是大于等于1的自然数。N个滤波器的大小(也称为内核大小)不受限制，并且可以根据生成器对增强初始音频数据的质量的要求来选择。然而，在每个L层中，滤波器大小可以是相同的。

更详细地，生成器可以具有第一编码器层(层号L＝1)，所述第一编码器层可以包括N＝16个滤波器大小为31的滤波器。第二编码器层(层号L＝2)可以包括N＝32个滤波器大小为31的滤波器。随后的编码器层(层号L＝11)可以包括N＝512个滤波器大小为31的滤波器。每一层中滤波器的数量如此增加。每个滤波器可以以步幅为2对输入到每个编码器层的音频数据进行操作。这样，随着宽度(信号的持续时间)变窄，深度变大。因此，可以执行因子为2的可学习下采样。可替代地，滤波器可以在每个编码器层中以步幅为1进行操作，随后进行因子为2的下采样(如在已知信号处理中)。

在至少一个编码器层和至少一个解码器层中，可以另外执行非线性操作作为激活。非线性操作可以例如包括以下项中的一个或多个：参数修正线性单元(PReLU)、修正线性单元(ReLU)、泄漏修正线性单元(LReLU)、指数线性单元(eLU)和缩放指数线性单元(SeLU)。

相应的解码器层可以借鉴编码器层。虽然解码器级中的每一层中的滤波器数量和每一层中的滤波器宽度可以与编码器级相同，但是可以通过两种替代性方法执行从较窄宽度(信号的持续时间)开始的音频信号的上采样。可以在解码器级的各层中使用分数步幅卷积(也称为转置卷积)操作，以将音频信号的宽度增加到完整的持续时间，即输入到生成器中的音频信号的帧。

可替代地，在解码器级的每一层中，在如利用为2的上采样因子进行传统信号处理中那样执行上采样和内插之后，滤波器可以以步幅为1对输入到每一层中的音频数据进行操作。

另外，输出层(卷积层)于是可以在可能在最终步骤中输出增强的音频数据之前跟随在解码器级之后。例如，输出层可以包括N＝1个滤波器大小为31的滤波器。

在输出层中，激活可以不同于在编码器层中的至少一个编码器层以及解码器层中的至少一个解码器层中执行的激活。激活可以是被限定在与输入到生成器的音频信号相同的范围的任何非线性函数。要增强的时间信号可以限定在例如+/-1之间。然后，激活可以例如基于tanh操作。

在编码器级与解码器级之间，可以修改音频数据以生成增强的音频数据。修改可以基于经编码的音频特征空间(也称为瓶颈层)。对经编码的音频特征空间中的修改可以例如通过将随机噪声向量(z)与初始音频数据的向量表示(c)级联作为编码器级的最后一层的输出来完成。然而，可以将随机噪声向量设置为z＝0。已经发现，对于减少编码伪像，将随机噪声向量设置为z＝0可以产生最佳结果。作为附加信息，此时可以输入元数据中包括的比特流参数和编码器参数，以修改增强的音频数据。这样，可以基于给定的元数据来调节增强的音频数据的生成。

在编码器级与解码器级的同源层之间可能存在跳跃连接。这样，因为可以如此绕过上述经编码的音频特征空间，从而防止信息丢失，因此增强的音频可以维持经编码的音频的时间结构或纹理(texture)。可以使用级联和信号相加中的一个或多个来实施跳跃连接。由于跳跃连接的实施，滤波器输出的数量可能“虚拟地”加倍。

生成器的架构例如可以总结如下(省略跳跃连接)：

输入：初始音频数据

编码器层L＝1：滤波器数量N＝16，滤波器大小＝31，激活＝PreLU

编码器层L＝2：滤波器数量N＝32，滤波器大小＝31，激活＝PreLU

编码器层L＝11：滤波器数量N＝512，滤波器大小＝31

编码器层L＝12：滤波器数量N＝1024，滤波器大小＝31

经编码的音频特征空间

解码器层L＝1：滤波器数量N＝512，滤波器大小＝31

解码器层L＝10：滤波器数量N＝32，滤波器大小＝31，激活PreLU

解码器层L＝11：滤波器数量N＝16，滤波器大小＝31，激活PreLU

输出层：滤波器数量N＝1，滤波器大小＝31，激活tanh

输出：增强的音频数据

然而，取决于应用，生成器的编码器级和解码器级的层数可以分别按比例缩小或按比例放大。

判别器的架构

判别器的架构可以遵循与上述示例性的生成器的编码器级相同的一维卷积结构。因此，判别器架构可以借鉴生成器的解码器级。因此，判别器可以包括多个L层，其中，每个层可以包括N个滤波器。L可以是大于等于1的自然数，并且N可以是大于等于1的自然数。N个滤波器的大小不受限制，并且也可以根据判别器的要求选择。然而，在每个L层中，滤波器大小可以是相同的。在判别器的至少一个编码器层中执行的非线性操作可以包括泄漏ReLU。

跟随在编码器级之后，判别器可以包括输出层。输出层可以具有N＝1个滤波器大小为1的滤波器。这样，输出层的滤波器大小可以与编码器层的滤波器大小不同。因此，输出层是不会对隐藏激活进行下采样的一维卷积层。这意味着输出层中的滤波器可以以步幅为1进行操作，而判别器的编码器级的所有先前层可以使用为2的步幅。输出层中的激活可以与至少一个编码器层中的激活不同。激活可以是S形的。然而，如果使用最小方差训练方法，则S形激活可能是不需要的并且因此是可选的。

判别器的架构可以示例性地总结如下：

输入：增强的音频数据或原始音频数据

编码器层L＝1：滤波器数量N＝16，滤波器大小＝31，激活＝泄漏ReLU

编码器层L＝2：滤波器数量N＝32，滤波器大小＝31，激活＝泄漏ReLU

编码器层L＝11：滤波器数量N＝1024，滤波器大小＝31，激活＝泄漏ReLU

输出层：滤波器数量N＝1，滤波器大小＝1，可选地：激活＝S形

输出(未示出)：相对于原始数据和由生成器生成的增强的音频数据判断输入为真/假。

取决于应用，判别器的编码器级的层数可以例如分别按比例缩小或按比例放大。

压扩

如在美国专利US 9,947,335B2(其通过引用以其全文并入本文)中描述的压扩技术通过使用在QMF(正交镜像滤波器)域中实施的压扩算法来实现音频编解码器中的量化噪声的时域噪声整形，从而实现量化噪声的时域整形。通常，压扩是在QMF域中操作的参数编码工具，其可以用于控制量化噪声(例如，在MDCT(修改的离散余弦变换)域中引入的量化噪声)的时域分布。这样，压扩技术可能涉及QMF分析步骤，随后是实际压扩操作/算法的应用、以及QMF合成步骤。

压扩可以被视为减小信号的动态范围的示例技术，以及等效地从信号中去除时域包络的示例技术。在减小的动态范围域中提高音频的质量对于使用压扩技术的应用而言可能是特别有价值的。

对来自低比特率音频比特流的动态范围减小的域中的音频数据的音频增强可以例如如下文详述且在62/850,117(其通过引用以其全文并入本文)中描述的那样执行。可以接收有损音频压缩(例如，AAC(高级音频编码)、Dolby-AC3、HE-AAC、USAC或Dolby-AC4)中使用的任何编解码器的低比特率音频比特流。然而，低比特率音频比特流可能是AC-4格式。可以对低比特率音频比特流进行核心解码，并且可以基于低比特率音频比特流获得动态范围减小的初始音频数据。例如，可以对低比特率音频比特流进行核心解码，以基于低比特率音频比特流获得动态范围减小的初始音频数据。动态范围减小的音频数据可以被编码在低比特率音频比特流中。可替代地，可以在对低比特率音频比特流进行核心解码之前或之后执行动态范围减小。可以将动态范围减小的初始音频数据输入到生成器中，以处理动态范围减小的初始音频数据。然后，可以通过生成器在动态范围减小的域中增强动态范围减小的初始音频数据。生成器执行的增强过程旨在通过减少编码伪像和量化噪声来增强初始音频数据的质量。作为输出，可以获得增强的动态范围减小的音频数据以供随后扩展到扩展域。这种方法可以进一步包括通过执行扩展操作来将增强的动态范围减小的音频数据扩展到扩展的动态范围域。扩展操作可以是基于用于计算相应的增益值的频谱大小的p范数的压扩操作。

通常，在压扩(压缩/扩展)中，计算用于压缩和扩展的增益值，并将其应用于滤波器组中。可以应用短原型(short prototype)滤波器，以解决与各个增益值的应用相关联的潜在问题。参考以上压扩操作，可以通过滤波器组来分析由生成器输出的增强的动态范围减小的音频数据，并且宽带增益可以直接应用于频域。根据所应用的原型滤波器的形状，时域中的对应效果是使增益应用自然地平滑。然后，在相应的合成滤波器组中将修改的频率信号转换回时域。使用滤波器组分析信号提供了对其频谱内容的访问，并且允许计算优先提升由于高频造成的贡献(或提升由于任何较弱的频谱内容而造成的贡献)的增益，从而提供不是由信号中的最强分量主导的增益值，因此解决了与包括不同源的混合的音频源相关联的问题。在此上下文中，可以使用频谱大小的p范数来计算增益值，其中p通常小于2，已经发现这在对量化噪声进行整形方面比基于p＝2的能量更有效。

可以在任何解码器上实施上述方法。如果以上方法的应用结合了压扩，则可以在AC-4解码器上实施上述方法。

可替代地或另外地，以上方法也可以由具有用于在动态范围减小的域中从低比特率音频比特流生成增强的音频数据装置和对抗式生成网络设置的***执行，所述对抗式生成网络设置包括生成器和判别器。所述装置可以是解码器。

以上方法还可以由用于在动态范围减小的域中从低比特率音频比特流生成增强的音频数据的装置来执行，其中，所述装置可以包括：接收器，所述接收器用于接收低比特率音频比特流；核心解码器，所述核心解码器用于对接收到的低比特率音频比特流进行核心解码，以基于低比特率音频比特流获得动态范围减小的初始音频数据；以及生成器，所述生成器用于在动态范围减小的域中增强动态范围减小的初始音频数据。所述装置可以进一步包括信号分离器。所述装置可以进一步包括扩展单元。

可替代地或另外地，所述装置可以是具有用于将动态范围减小应用于输入音频数据并且以低比特率将动态范围减小的音频数据编码在比特流中的装置和所述装置的***的一部分。

可替代地或另外地，以上方法可以由包括计算机可读存储介质的相应计算机程序产品来实施，所述计算机可读存储介质具有指令，所述指令被适配用于当在具有处理能力的设备上执行时使设备执行以上方法。

可替代地或另外地，以上方法可能涉及元数据。接收到的低比特率音频比特流可以包括元数据，并且所述方法可以进一步包括对接收到的低比特率音频比特流进行信号分离。然后，生成器可以基于元数据来增强动态范围减小的初始音频数据。如果应用结合了压扩，则元数据可以包括一项或多项压扩控制数据。通常，压扩可以为语音和瞬态信号提供益处，同时会降低一些静态信号的质量，因为利用增益值单独地修改每个QMF时隙可能会导致编码期间的不连续性，所述不连续性在压扩解码器处可能会导致经整形噪声的包络的不连续性，从而导致可听见的伪影。通过相应的压扩控制数据，可以选择性地针对瞬态信号打开压扩并且针对静态信号关闭压扩，或者在适当的情况下应用平均压扩。在此上下文中，平均压扩是指将恒定增益应用于音频帧，类似于相邻有效压扩帧的增益。可以在编码期间检测压扩控制数据并且经由低比特率音频比特流将其传输到解码器。压扩控制数据可以包括关于已经用于对音频数据进行编码的一种或多种压扩模式中的压扩模式的信息。压扩模式可以包括压扩打开的压扩模式、压扩关闭的压扩模式以及平均压扩的压扩模式。通过生成器来增强动态范围减小的初始音频数据可能取决于压扩控制数据中指示的压扩模式。如果压扩模式是压扩关闭，则生成器可能不执行增强。减小的动态范围域中的对抗式生成网络设置

生成器还可以在减小的动态范围域中增强动态范围减小的初始音频数据。通过增强，减少了由低比特率编码引入的编码伪像，并且因此与原始未编码的动态范围减小的音频数据相比，动态范围减小的初始音频数据的质量在动态范围扩展之前就已经得到增强。

因此，生成器可以是在对抗式生成网络设置(GAN设置)中的动态范围减小的域中训练的生成器。例如，动态范围减小的域可以是AC-4压扩域。在一些情况下(如在AC-4压扩中)，动态范围减小可能等同于去除(或抑制)信号的时域包络。因此，可以说生成器可以是在从信号去除了时域包络之后的域中训练的生成器。此外，尽管将在下文中描述GAN设置，但是要注意的是，这不应该理解为是限制性的，并且还可以想到其他生成模型。

如上文已经描述的，GAN设置通常包括通过迭代过程训练的生成器G和判别器D。在对抗式生成网络设置中的训练期间，生成器G基于从原始的动态范围减小的音频数据x中得到的初始的动态范围减小的音频数据

(经核心编码并经核心解码的)生成增强的动态范围减小的音频数据x*。可以通过应用压扩操作来执行动态范围减小。压扩操作可以是如针对AC-4编解码器所指定并且在AC-4编码器中执行的压扩操作。

同样在这种情况下，除了动态范围减小的初始音频数据

之外，还可以将随机噪声向量z输入到生成器中，并且可以由生成器另外基于随机噪声向量z生成增强的动态范围减小的音频数据x*。然而，可以将随机噪声向量设置为z＝0，因为发现对于减少编码伪像，将随机噪声向量设置为z＝0可能是最好的，尤其是对于比特率不太低的情况。可替代地，可以在没有输入随机噪声向量z的情况下进行训练。可替代地或另外地，可以将元数据输入到生成器中，并且增强动态范围减小的初始音频数据

可以另外地基于元数据。在训练期间，因此可以基于元数据来调节增强的动态范围减小的音频数据x*的生成。元数据可以包括一项或多项压扩控制数据。压扩控制数据可以包括关于用于对音频数据进行编码的一种或多种压扩模式中的压扩模式的信息。压扩模式可以包括压扩打开的压扩模式、压扩关闭的压扩模式以及平均压扩的压扩模式。由生成器生成增强的动态范围减小的音频数据可以取决于由压扩控制数据指示的压扩模式。这样，在训练期间，生成器可以以压扩模式为条件。如果压扩模式是压扩关闭，这可以指示输入的初始音频数据并非是动态范围减小的，并且在这种情况下生成器可以不执行增强。如上所述，可以在对音频数据进行编码期间检测压扩控制数据并且使得能够选择性地应用压扩：针对瞬态信号打开压扩，针对静态信号关闭压扩，并且在适当的情况下应用平均压扩。

在训练期间，生成器尝试输出与原始的动态范围减小的音频数据x无法区分的增强的动态范围减小的音频数据x*。向判别器一次性馈送所生成的增强的动态范围减小的音频数据x*和原始的动态范围减小的数据x，并且以假/真方式判断输入数据是增强的动态范围减小的音频数据x*还是原始的动态范围减小的数据x。这样，判别器尝试将原始的动态范围减小的数据x与增强的动态范围减小的音频数据x*进行判别。在迭代过程期间，生成器然后调整其参数以生成与原始的动态范围减小的音频数据x相比越来越好的增强的动态范围减小的音频数据x*，并且判别器学会在增强的动态范围减小的音频数据x*与原始的动态范围减小的数据x之间更好地判断。

应当注意的是，为了在最终步骤中训练生成器，可以首先训练判别器。判别器的训练和更新也可以在动态范围减小的域中执行。训练和更新判别器可以涉及使向原始的动态范围减小的音频数据x分配高分并且向增强的动态范围减小的音频数据x*分配低分的概率最大化。训练判别器的目标可能是将原始的动态范围减小的音频数据x识别为真，而增强的动态范围减小的音频数据x*(生成的数据)识别为假。当训练和更新判别器时，生成器的参数可以保持固定。

训练和更新生成器可以涉及使原始的动态范围减小的音频数据x与所生成的增强的动态范围减小的音频数据x*之间的差异最小化。训练生成器的目标可以是实现判别器将所生成的增强的动态范围减小的音频数据x*识别为真。

详细地，在对抗式生成网络设置中的动态范围减小的域中训练生成器G例如可能涉及以下内容。

原始音频数据x_ip可以进行动态范围减小以获得动态范围减小的原始音频数据x。可以通过应用压扩操作(尤其是AC-4压扩操作)、然后进行QMF(正交镜像滤波器)合成步骤来执行动态范围减小。由于压扩操作是在QMF域中执行，因此需要后续的QMF合成步骤。在被输入到生成器G之前，动态范围减小的原始音频数据x可以另外进行核心编码和核心解码，以获得动态范围减小的初始音频数据

然后将动态范围减小的初始音频数据

以及随机噪声向量z输入到生成器G。然后，基于所述输入，生成器G在动态范围减小的域中生成增强的动态范围减小的音频数据x*。可以将随机噪声向量z设置为z＝0。可替代地，可以在没有输入随机噪声向量z的情况下进行训练。可替代地或另外地，在动态范围减小的经编码的音频特征空间中，可以使用元数据作为输入来训练生成器G，以修改增强的动态范围减小的音频数据x*。将原始的动态范围减小的数据x(已经从其得到动态范围减小的初始音频数据

)以及所生成的增强的动态范围减小的音频数据x*一次性地输入到判别器D。作为附加信息，每次还可以将动态范围减小的初始音频数据

输入到判别器D。判别器D然后判断输入数据是增强的动态范围减小的音频数据x*(假)还是原始的动态范围减小的数据x(真)。

在下一步骤中，然后调整生成器G的参数，直到判别器D不再能够区分增强的动态范围减小的音频数据x*和原始的动态范围减小的数据x。这可以通过迭代过程来完成。

判别器的判断可以如根据以下等式(1)基于一个或多个感知激励的目标函数：

索引LS指的是结合了最小二乘法。另外，从等式(1)中的第一项可以看出，通过将经核心解码的动态范围减小的初始音频数据

然而，已经发现尤其随着引入以上等式(1)中的最后一项，可以确保在迭代过程期间较低的频率不会被扰乱，因为这些频率通常是用较高数量的比特编码的。最后一项是由因子lambda(拉姆达)λ缩放的1-范数距离。Lambda的值可以从10到100中选择，这取决于应用和/或输入到生成器的信号长度。例如，lambda可以选择为λ＝100。

在对抗式生成网络设置中的动态范围减小的域中对判别器D进行训练可以遵循与以上针对响应于将增强的动态范围减小的音频数据x*和原始的动态范围减小的音频数据x以及动态范围减小的初始音频数据

一次性输入到判别器D中对生成器G的训练所描述的相同的一般迭代过程，区别在于，生成器G的参数可以是固定的，而判别器D的参数是可以变化的。可以通过以下等式(2)来描述判别器D的训练，所述等式使得判别器D可以将增强的动态范围减小的音频数据x*确定为假：

在以上情况下，还通过将经核心解码的动态范围减小的初始音频数据

在这种情况下，除了最小二乘法，还可以使用其他训练方法来训练动态范围减小的域中的对抗式生成网络设置中的生成器和判别器。可替代地或另外地，例如可以使用所谓的Wasserstein方法。在这种情况下，可以使用陆地移动距离(也称为Wasserstein距离)代替最小方差距离。通常，不同的训练方法使得生成器和判别器的训练更加稳定。然而，所应用的训练方法的种类不会影响在下面详述的生成器的架构述。

在减小的动态范围域中训练的生成器的架构

生成器可以例如包括编码器级和解码器级。生成器的编码器级和解码器级可以是完全卷积的。解码器级可以借鉴编码器级，并且编码器级以及解码器可以各自包括多个L层，每个层L中有N个滤波器。L可以是大于等于1的自然数，并且N可以是大于等于1的自然数。N个滤波器的大小(也称为内核大小)不受限制，并且可以根据生成器对动态范围减小的初始音频数据的质量增强要求来选择。然而，在每个L层中，滤波器大小可以是相同的。

在第一步骤中，可以将动态范围减小的初始音频数据输入到生成器中。第一编码器层(层号L＝1)可以包括N＝16个滤波器大小为31的滤波器。第二编码器层(层号L＝2)可以包括N＝32个滤波器大小为31的滤波器。随后的编码器层(层号L＝11)可以包括N＝512个滤波器大小为31的滤波器。因此，每一层中滤波器的数量可以增加。每个滤波器可以以步幅大于1对输入到每个编码器层的动态范围减小的音频数据进行操作。每个滤波器可以例如以步幅为2对输入到每个编码器层的动态范围减小的音频数据进行操作。因此，可以执行因子为2的可学习下采样。可替代地，滤波器还可以在每个编码器层中以步幅为1进行操作，随后进行因子为2的下采样(如在信号处理中已知的)。可替代地，例如，每个滤波器可以以步幅为4对输入到每个编码器层的动态范围减小的音频数据进行操作。这可以使得生成器中的总层数减少一半。

在生成器的至少一个编码器层和至少一个解码器层中，可以另外执行非线性操作作为激活。非线性操作可以包括以下项中的一个或多个：参数修正线性单元(PReLU)、修正线性单元(ReLU)、泄漏修正线性单元(LReLU)、指数线性单元(eLU)和缩放指数线性单(SeLU)。

相应的解码器层可以借鉴编码器层。虽然解码器级中的每一层中的滤波器数量和每一层中的滤波器宽度可以与编码器级相同，但是可以通过两种替代性方法执行解码器级中的音频信号的上采样。可以在解码器级的各层中使用分数步幅卷积(也称为转置卷积)操作。可替代地，在解码器级的每一层中，在如利用为2的上采样因子进行传统信号处理中那样执行上采样和内插之后，滤波器可以以步幅为1对输入到每一层中的音频数据进行操作。

另外，随后在最终步骤中输出增强的动态范围减小的音频数据之前，输出层(卷积层)可以在解码器级的最后一层之后。例如，输出层可以包括N＝1个滤波器大小为31的滤波器。

在输出层中，激活可以不同于在编码器层中的至少一个编码器层以及解码器层中的至少一个解码器层中执行的激活。激活可以例如基于tanh操作。

在编码器级与解码器级之间，可以修改音频数据以生成增强的动态范围减小的音频数据。修改可以基于动态范围减小的经编码的音频特征空间(也称为瓶颈层)。可以在动态范围减小的经编码的音频特征空间中使用随机噪声向量z，以在动态范围减小的域中修改音频。对动态范围减小的经编码的音频特征空间中的修改可以例如通过将随机噪声向量(z)与动态范围减小的初始音频数据的向量表示(c)级联作为编码器级的最后一层的输出来完成。可以将随机噪声向量设置为z＝0，因为发现对于减少编码伪像，将随机噪声向量设置为z＝0可能产生最佳结果。可替代地或另外地，此时可以输入元数据以修改增强的动态范围减小的音频数据。这样，可以基于给定的元数据来调节增强的音频数据的生成。

在编码器级与解码器级的同源层之间可能存在跳跃连接。这样，可以绕过如上所述的动态范围减小的经编码的音频特征空间，从而防止信息丢失。可以使用级联和信号相加中的一个或多个来实施跳跃连接。由于跳跃连接的实施，滤波器输出的数量可能“虚拟地”加倍。

生成器的架构例如可以总结如下(省略跳跃连接)：

输入：动态范围减小的初始音频数据

编码器层L＝11：滤波器数量N＝512，滤波器大小＝31

编码器层L＝12：滤波器数量N＝1024，滤波器大小＝31

动态范围减小的经编码的音频特征空间

解码器层L＝1：滤波器数量N＝512，滤波器大小＝31

解码器层L＝10：滤波器数量N＝32，滤波器大小＝31，激活PreLU

解码器层L＝11：滤波器数量N＝16，滤波器大小＝31，激活PreLU

输出层：滤波器数量N＝1，滤波器大小＝31，激活tanh

输出：增强的音频数据

取决于应用，生成器的编码器级和解码器级的层数例如可以分别按比例缩小或按比例放大。通常，由于不需要执行Wavenet或sampleRNN中的复杂操作，因此以上生成器架构提供了一次性减少伪像的可能性。

在减小的动态范围域中训练的判别器的架构

尽管判别器的架构不受限制，但是判别器的架构可以遵循与上述生成器的编码器级相同的一维卷积结构，因此判别器架构可以借鉴生成器的编码器级。因此，判别器可以包括多个L层，其中，每个层可以包括N个滤波器。L可以是大于等于1的自然数，并且N可以是大于等于1的自然数。N个滤波器的大小不受限制，并且也可以根据判别器的要求选择。然而，在每个L层中，滤波器大小可以是相同的。在判别器的至少一个编码器层中执行的非线性操作可以包括泄漏ReLU。

跟随在编码器级之后，判别器可以包括输出层。输出层可以具有N＝1个滤波器大小为1的滤波器。这样，输出层的滤波器大小可以与编码器层的滤波器大小不同。因此，输出层可以是不会对隐藏激活进行下采样的一维卷积层。这意味着输出层中的滤波器可以以步幅为1进行操作，而判别器的编码器级的所有先前层可以使用为2的步幅。可替代地，编码器级的先前层中的每个滤波器可以以步幅为4进行操作。这可以使得判别器中的总层数减少一半。

输出层中的激活可以与至少一个编码器层中的激活不同。激活可以是S形的。然而，如果使用最小方差训练方法，则S形激活可能是不需要的并且因此是可选的。

判别器的架构可以例如总结如下：

输入：增强的动态范围减小的音频数据或原始的动态范围减小的音频数据

输出(未示出)：相对于原始的动态范围减小的数据和由生成器生成的增强的动态范围减小的音频数据判断输入为真/假。

艺术控制的音频增强

音频编码和音频增强相比现今可能会变得更加相关，因为在将来例如如上所述的已经实施基于深度学习的方法的解码器可能会猜测可能听起来像是原始音频信号的增强版本的原始音频信号。示例可以包括扩展带宽或强制将经解码的语音进行后处理或解码为纯净语音。同时，结果可能不是“被明显编码”且听起来是错误的；例如，在经解码的语音信号中可能出现音位错误，而不清楚是***造成了所述错误，而不是说话者。这可能涉及到听起来“更自然、但与原始声音不同”的音频。

音频增强可能会改变艺术意图。例如，艺术家可能希望流行歌曲中存在编码噪声或有意的频带限制。可能存在能够使得质量比原始未编码的音频更好的编码***(或至少是解码器)。一些情况可能期望这样。然而，仅最近才证明了解码器的输出(例如，语音和掌声)可能比编码器的输入“听起来更好”的情况。

在此上下文中，本文描述的方法和装置向内容创建者以及使用增强的音频、尤其是基于深度学习的增强的音频的每个人提供了益处。这些方法和装置在最有可能注意到编解码器伪像的低比特率情况下尤其有意义。内容创建者可能希望选择启用或退出允许解码器以听起来“更自然、但与原始声音不同”的方式增强音频信号。具体地，这可能发生在AC-4多流编码中。在比特流可以包括多个流并且每个比特流都具有低比特率的广播应用中，创建者可以利用包括在最低比特率流的增强元数据中的控制参数来使质量最大化，从而减轻低比特率编码伪像。

通常，增强元数据可以例如是编码器生成的元数据，用于以与上文已经提到的元数据类似的方式来引导解码器进行的音频增强，所述元数据例如包括编码质量、比特流参数、关于是否要完全增强初始音频数据的指示以及压扩控制数据中的一个或多个。取决于相应的要求，增强元数据例如可以由编码器替代地或除了前述元数据中的一个或多个之外生成，并且可以经由比特流与经编码的音频数据一起传输。在一些实施方式中，可以基于前述元数据生成增强元数据。而且，可以基于预设(候选增强元数据)生成增强元数据，所述预设可以在编码器侧被一次或多次修改以生成要在解码器侧传输和使用的增强元数据。该过程可能涉及用户交互(如下文详述)，从而允许进行艺术控制的增强。在一些实施方式中，用于该目的的预设可以基于上述元数据。

这样，与任意信号的一般音频增强相比提供了显著的益处，因为绝大多数的信号是经由受比特率约束的编解码器传递的。如果增强***在编码之前增强了音频，则在应用低比特率编解码器时会失去增强的益处。如果在解码器中增强了音频，而没有内容创建者的输入，则增强可能不会遵循创建者的意图。下表1阐明了该益处：

***	允许在解码器上高质量输出？	遵循创建者的意图？
			仅编码器侧增强	否	是
仅解码器侧增强	是	否
			艺术控制的增强	是	是

表1：艺术控制的音频增强的益处

因此，本文中描述的方法和装置提供了一种用于尤其使用深度学习来编码和/或增强音频的解决方案，所述解决方案还能够保留艺术意图，因为允许内容创建者在编码侧决定哪一个或哪几个解码模式可用。另外，有可能将由内容创建者选择的设置作为增强元数据参数在比特流中传输到解码器，从而指示解码器应在哪种模式下操作以及应该应用的(生成)模型。

出于理解的目的，应注意的是本文所描述的方法和装置可以在以下模式下使用：

模式1：编码器可以使得内容创建者能够试听解码器侧的增强，以便他或她可以直接批准相应的增强或者拒绝并改变然后批准增强。在该过程中，音频被编码、解码和增强，内容创建者可以收听增强的音频。他或她可能对增强的音频说是或否(对增强的各种类型和量说是或否)。可以使用该是或否决定来生成增强元数据，所述增强元数据将与音频内容一起传递到解码器，以供随后的消费者使用(与下文详述的模式2相反)。模式1可能要花费一些时间——长达数分钟或数小时——因为内容创建者必须主动收听音频。当然，也可以想到模式1的自动版本，其可以花费更少的时间。在模式1中，通常不会将音频传递给消费者，现场广播除外，如下文详述。在模式1中，解码和增强音频的唯一目的是用于试听(或自动评估)。

模式2：分配器(例如，Netflix或BBC)可以发出经编码的音频内容。分配器还可以包括模式1中生成的增强元数据，用于引导解码器侧增强。该编码和发送过程可能是瞬时的，并且可以不涉及试听，因为试听已经是模式1中生成增强元数据的一部分。编码和发送过程也可以在与模式1不同的日期发生。消费者的解码器然后接收模式1中生成的经编码的音频和增强元数据，对音频进行解码，并且根据增强元数据对其进行增强，这也可以发生在不同的日期。

应注意的是，对于现场广播(例如，体育、新闻)，内容创建者可以实时选择现场所允许的增强，这也可能影响实时发送的增强元数据。在这种情况下，模式1和模式2同时出现，因为在试听中收听的信号可能与传递给消费者的信号相同。

在下文中，参考附图更详细地描述了方法和装置，其中，图1、图2和图5指的是在编码器侧的增强元数据的自动生成，并且图3和图4另外进一步提到内容创建者试听。此外，图6和图7涉及解码器侧。图8涉及具有根据上述模式1的编码器和解码器的***。

应注意的是，以下术语创建者、艺术家、制作人和用户(假设是指创建者、艺术家或制作人)可以互换使用。

生成用于在解码侧控制对经低比特率编码的音频数据的音频增强的增强元数据

参考图1的示例，图示了用于对音频数据进行低比特率编码并生成用于在解码器侧控制对经低比特率编码的音频数据的音频增强的增强元数据的方法的示例的流程图。在步骤S101中，对原始音频数据进行核心编码以获得经编码的音频数据。可以以低比特率对原始音频数据进行编码。用于对原始音频数据进行编码的编解码器不受限制，可以使用任何编解码器(例如，OPUS编解码器)。

在步骤S102中，生成要用于在对经编码的音频数据进行核心解码之后在解码器侧控制音频增强的类型和/或量的增强元数据。如上所述，增强元数据可以由编码器生成，用于以与上文已经提到的元数据类似的方式来引导解码器进行音频增强，所述元数据例如包括以下项中的一个或多个：编码质量、比特流参数、关于是否要完全增强初始音频数据的指示以及压扩控制数据。取决于相应的要求，增强元数据可以替代地或除了这些其他元数据中的一个或多个之外生成。生成增强元数据可以自动执行。可替代地或另外地，生成增强元数据可能涉及用户交互(例如，内容创建者的输入)。

在步骤S103中，然后输出经编码的音频数据和增强元数据，例如，随后经由低比特率音频比特流(模式1)或分配器(模式2)传输到相应消费者的解码器。在编码器侧生成增强元数据时，可以允许例如用户(例如，内容创建者)确定控制参数，所述控制参数在传递到消费者时能够控制解码器侧的音频增强的类型和/或量。

现在参考图2的示例，图示了生成要用于在对经编码的音频数据进行核心解码之后在解码器侧控制音频增强的类型和/或量的增强元数据的示例的流程图。在实施例中，步骤S102中生成增强元数据可以包括步骤S201：对经编码的音频数据进行核心解码以获得经核心解码的初始音频数据。

然后可以在步骤S202中将如此获得的初始音频数据输入到音频增强器以基于候选增强元数据处理经核心解码的初始音频数据，所述候选增强元数据用于控制对输入到音频增强器的音频数据的音频增强的类型和/或量。可以说候选增强元数据对应于仍可以在编码侧修改的预设，以便生成要传输并在解码侧用于引导音频增强的增强元数据。候选增强元数据可以是可以容易地在编码器中实施的预定义预设，或者可以是由用户(例如，内容创建者)输入的预设。在一些实施方式中，预设可以基于上文提到的元数据。对候选增强元数据的修改可以自动执行。可替代地或另外地，可以基于用户输入来修改候选增强元数据，如下文详述。

在步骤S203中，然后获得增强的音频数据作为来自所述音频增强器的输出。在实施例中，音频增强器可以是生成器。生成器本身不受限制。生成器可以是在对抗式生成网络(GAN)设置中训练的生成器，但是也可以想到其他生成模型。而且，可以想到sampleRNN或Wavenet。

在步骤S204中，然后基于增强的音频数据确定候选增强元数据的适用性。例如，可以通过以下方式来确定适用性：将增强的音频数据与原始音频数据进行比较以确定例如编码噪声或频带限制是否是有意的。确定候选增强元数据的适用性可以是自动化过程，即可以由相应的编码器自动执行。可替代地或另外地，确定候选增强元数据的适用性可能涉及用户试听。因此，可以使得用户(例如，内容创建者)能够判断候选增强元数据的适用性，也如下文进一步详述。

在步骤S205中，基于该确定的结果，生成增强元数据。换言之，如果候选增强元数据被确定为是合适的，则基于合适的候选增强元数据生成增强元数据。

现在参考图3的示例，图示了生成要用于在对经编码的音频数据进行核心解码之后在解码器侧控制音频增强的类型和/或量的增强元数据的进一步示例。

在实施例中，基于增强的音频数据确定候选增强元数据的适用性的步骤S204可以包括步骤S204a：将增强的音频数据呈现给用户并且响应于所述呈现而接收来自用户的第一输入。然后，步骤S205中的生成增强元数据可以基于第一输入。用户可以是内容创建者。在将增强的音频数据呈现给内容创建者时，内容创建者可以收听增强的音频数据并决定增强的音频数据是否反映艺术意图。

如图4的示例中所图示的，在实施例中，来自用户的第一输入可以包括候选增强元数据是被用户接受还是拒绝的指示，如决策框S204b中所图示的是(接受)/否(拒绝)。在实施例中，在用户拒绝候选增强元数据的情况下，在步骤S204c中可以从用户接收指示对候选增强元数据进行修改的第二输入，并且步骤S205中的生成增强元数据可以基于第二输入。这种第二输入可以是例如关于候选增强元数据的不同集合(例如，不同预设)的输入或根据对候选增强元数据的当前集合的更改(例如，可以由相应的增强控制数据指示的对增强的类型和/或量的修改)的输入。可替代地或另外地，在实施例中，在用户拒绝候选增强元数据的情况下，可以重复步骤S202至S205。因此，用户(例如，内容创建者)例如可以能够重复确定相应候选增强元数据的适用性，以便在迭代过程中获得合适的结果。换言之，内容创建者可以响应于第二输入而重复收听增强的音频数据并决定增强的音频数据是否随后反映艺术意图。在步骤S205中，增强元数据然后也可以基于第二输入。

在实施例中，增强元数据可以包括一项或多项增强控制数据。这种增强控制数据可以在解码侧用于控制音频增强器，以对相应的经核心解码的初始音频数据执行期望的增强类型和/或量。

在实施例中，增强控制数据可以包括关于一个或多个音频增强类型(内容清除类型)的信息，所述一个或多个音频增强类型包括语音增强、音乐增强和掌声增强中的一种或多种。

因此，可能有一套(生成)模型(例如，基于GAN的音乐模型或基于sampleRNN的语音模型)应用了各种形式的基于深度学习的增强，所述增强可以根据编码器侧的创建者的输入(例如，以对话框为中心、以音乐为中心等，即取决于信号源的类别)应用在解码器侧。因为音频增强在短期内可能是特定于内容的，所以创建者还可以从音频增强的可用类型中进行选择，并通过设置增强控制数据来分别指示解码侧的相应音频增强器将使用的音频增强的类型。

在实施例中，增强控制数据可以进一步包括关于一个或多个音频增强类型的相应容许性的信息。

在此上下文中，例如，鉴于正在开发的通用增强器(例如，语音、音乐和其他)或者可以选择特定增强类型(例如，语音、音乐或其他)的自动检测器，还可以允许用户(例如，内容创建者)选择启用或退出使得当前或未来的增强***检测音频类型来执行增强。这样，术语容许性也可以说是涵盖检测音频类型的容许性，以便随后执行一种类型的音频增强。术语容许性也可以说是涵盖“只是使其听起来不错的选项”。在这种情况下，可以允许由解码器选择音频增强的所有方面。可以向用户公开，该设置“旨在创建最自然的声音，最高质量的感知音频，而不会出现往往由编解码器产生的伪像”。因此，如果用户(例如，内容创建者)期望创建编解码器噪声，则他或她将在这些分段期间去激活该模式。用于检测编解码器噪声的自动化***也可以用于检测这种情况，并在相关时间自动去激活增强(或建议去激活增强)。

可替代地或另外地，在实施例中，增强控制数据可以进一步包括关于音频增强的量(允许的内容清除的量)的信息。

这种量可以具有从“无”到“很多”的范围。换言之，这样的设置可以对应于使用典型的音频编码以通用的方式对音频进行编码(无)和不管音频输入如何而专业地产生音频内容(很多)。也可以允许这种设置随比特率变化，默认值随着比特率的降低而增加。可替代地或另外地，在实施例中，增强控制数据可以进一步包括关于是否要由解码器侧的自动更新的音频增强器执行音频增强(例如，更新的增强)的容许性的信息。

由于深度学习增强是活跃的研究和未来产品领域，其能力正在迅速提高，因此该设置允许用户(例如，内容创建者)选择启用或退出允许应用未来的增强版本(例如，Dolby增强)，而不仅仅是用户在做出他或她的选择时可以试听的版本。

可替代地或另外地，可以通过应用一个或多个预定义的音频增强模块来执行步骤S202中的基于候选增强元数据处理经核心解码的初始音频数据，并且增强控制数据可以进一步包括关于使用解码器侧的实现相同或基本上相同类型的增强的一个或多个不同的增强模块的容许性的信息。

因此，即使编码侧和解码侧的增强模块不同，在音频增强期间也可以保留艺术意图，因为实现了相同或基本上相同类型的增强。

现在参考图5的示例，图示了被配置为执行上述方法的编码器的示例。编码器100可以包括核心编码器101，所述核心编码器被配置为以低比特率对原始音频数据进行核心编码以获得经编码的音频数据。编码器100可以进一步被配置为生成要用于在对经编码的音频数据进行核心解码之后在解码器侧控制音频增强的类型和/或量的增强元数据102。如上面已经提到的，可以自动地执行增强元数据的生成。可替代地或另外地，增强元数据的生成可能涉及用户输入。并且编码器可以包括输出单元103，所述输出单元被配置为输出经编码的音频数据和增强元数据(随后根据模式1被传递到消费者以在解码侧控制音频增强，或者根据模式2传递到分配器)。可替代地或另外地，编码器可以实现为包括被配置为执行上述方法的一个或多个处理器401、402的设备400，如图9中示例性地图示。

基于增强元数据从经低比特率编码的音频数据生成增强的音频数据

现在参考图6的示例，图示了用于基于增强元数据从经低比特率编码的音频数据生成增强的音频数据的方法的示例。在步骤S301中，接收以低比特率编码的音频数据、和增强元数据。经编码的音频数据和增强元数据可以例如作为低比特率音频比特流接收。

然后，可以将低比特率音频比特流例如信号分离为经编码的音频数据和增强元数据，其中，将经编码的音频数据提供给核心解码器以进行核心解码，并且将增强元数据提供给音频增强器以进行音频增强。

在步骤S302中，对经编码的音频数据进行核心解码以获得经核心解码的初始音频数据，然后在步骤S303中将经核心解码的初始音频数据输入到音频增强器中，以基于增强元数据处理经核心解码的初始音频数据。这样，音频增强可以由如以上详述的增强元数据中包括的一项或多项增强控制数据来引导。由于可能在考虑艺术意图的情况下生成了增强元数据(自动地和/或基于内容创建者的输入)，因此在步骤S304中作为音频增强器的输出获得的增强的音频数据可以反映并保留艺术意图。在步骤S305中，然后将增强的音频数据输出到例如收听者(消费者)。

在实施例中，可以通过根据增强元数据应用一个或多个音频增强模块来执行基于增强元数据处理经核心解码的初始音频数据。可以通过包括如以上所详述的增强元数据中包括的增强控制数据来指示要应用的音频增强模块。

可替代地或另外地，如果如以上所详述的在增强控制数据中指示了相应的容许性，则可以由自动更新的音频增强器执行基于增强元数据处理经核心解码的初始音频数据。

尽管音频增强器的类型不受限制，但是在实施例中，音频增强器可以是生成器。生成器本身不受限制。生成器可以是在对抗式生成网络(GAN)设置中训练的生成器，但是也可以想到其他生成模型。而且，可以想到sampleRNN或Wavenet。

参考图7的示例，图示了被配置为执行用于基于增强元数据从经低比特率编码的音频数据生成增强的音频数据的方法的解码器的示例。解码器300可以包括接收器301，所述接收器被配置为例如经由低比特率音频比特流来接收以低比特率编码的音频数据、和增强元数据。接收器301可以被配置为将增强元数据提供给音频增强器303(如虚线所图示)，并且将经编码的音频数据提供给核心解码器302。在接收到低比特率音频比特流的情况下，接收器301可以进一步被配置为将接收到的低比特率音频比特流信号分离为经编码的音频数据和增强元数据。可替代地或另外地，解码器300可以包括信号分离器。如上面已经提到的，解码器300可以包括核心解码器302，所述核心解码器被配置为对经编码的音频数据进行核心解码，以获得经核心解码的初始音频数据。然后，可以将经核心解码的初始音频数据输入到音频增强器303，所述音频增强器被配置为基于增强元数据处理经核心解码的初始音频数据并且输出增强的音频数据。音频增强器303可以包括要根据增强元数据应用于经核心解码的初始音频数据的一个或多个音频增强模块。尽管音频增强器的类型不受限制，但是在实施例中，音频增强器可以是生成器。生成器本身不受限制。生成器可以是在对抗式生成网络(GAN)设置中训练的生成器，但是也可以想到其他生成模型。而且，可以想到sampleRNN或Wavenet。

可替代地或另外地，解码器可以实现为包括被配置为执行用于基于增强元数据从低经比特率编码的音频数据生成增强的音频数据的方法的一个或多个处理器401、402的设备400，如图9中示例性地图示。可替代地或另外地，以上方法可以由包括计算机可读存储介质的相应计算机程序产品来实施，所述计算机可读存储介质具有指令，所述指令被适配用于当在具有处理能力的设备上执行时使设备执行以上方法。

现在参考图8的示例，上述方法也可以通过具有编码器和相应的解码器的***实施，所述编码器被配置为执行用于对音频数据进行低比特率编码并生成用于在解码器侧控制对经低比特率编码的音频数据的音频增强的增强元数据的方法，并且所述解码器被配置为执行用于基于增强元数据从经低比特率编码的音频数据生成增强的音频数据的方法。如图8的示例所图示，增强元数据经由经编码的音频数据的比特流从编码器传输到解码器。

增强元数据参数可以进一步以某个合理的频率进行更新，例如，几秒到几小时量级的分段的时间分辨率边界为合理的几分之一秒或几帧。***的界面可以允许实时现场切换设置、在文件中的特定时间点更改设置或两者。

另外，可以为用户(例如，内容创建者)提供云存储机制，以更新给定内容的增强元数据参数。这可以结合编解码器中携带的IDAT(ID和定时)元数据信息(其可以为内容项提供索引)起作用。

释义

除非另外特别声明，从以下讨论中显而易见的是，应当理解，在整个公开的讨论中，利用如“处理”、“计算(computing)”、“计算(calculating)”、“确定”、“分析”等术语来指代计算机或计算***或类似的电子计算设备的将表示为物理(如电子)量的数据操纵和/或转化为类似地表示为物理量的其他数据的动作和/或过程。

以类似的方式，术语“处理器”可以指代处理例如来自寄存器和/或存储器的电子数据以将该电子数据转化为例如可以存储在寄存器和/或存储器中的其他电子数据的任何设备或设备的一部分。“计算机”或“计算机器”或“计算平台”可以包括一个或多个处理器。

在一个示例实施例中，本文描述的方法可由一个或多个处理器执行，所述一个或多个处理器接受包含一组指令的计算机可读(也称为机器可读)代码，所述指令在由一个或多个处理器执行时执行本文描述的方法中的至少一个。包括能够执行指定要采取的动作的一组指令(顺序的或其他形式)的任何处理器。因此，一个示例是包括一个或多个处理器的典型处理***。每个处理器可以包括CPU、图形处理单元和可编程DSP单元中的一个或多个。处理***可以进一步包括存储器子***，所述存储器子***包括主RAM和/或静态RAM和/或ROM。可以包括总线子***以用于部件之间的通信。处理***可以进一步是分布式处理***，其中，处理器通过网络耦接在一起。如果处理***需要显示器，则可以包括这样的显示器，例如，液晶显示器(LCD)或阴极射线管(CRT)显示器。如果需要手动输入数据，则处理***还包括输入设备，如字母数字输入单元(如键盘)、定点控制设备(如鼠标)等中的一个或多个。处理***还可以涵盖如磁盘驱动单元等存储***。一些配置中的处理***可以包括声音输出设备和网络接口设备。存储器子***因此包括携带计算机可读代码(例如，软件)的计算机可读载体介质，所述计算机可读代码包括一组指令，所述指令在由一个或多个处理器执行时使得执行本文描述的方法中的一种或多种。应当注意的是，当该方法包括几个元素(例如，几个步骤)时，除非特别声明，否则不暗示任何这些元素的顺序。在计算机***执行软件期间，软件可以驻留在硬盘中，或者也可以完全或至少部分地驻留在RAM和/或处理器中。因此，存储器和处理器也构成了携带计算机可读代码的计算机可读载体介质。此外，计算机可读载体介质可以形成或包括在计算机程序产品中。

在替代性示例实施例中，一个或多个处理器可以作为独立设备运行，或者可以在联网部署中连接到(例如，联网到)其他处理器，所述一个或多个处理器可以在服务器-用户网络环境中以服务器或用户机器的身份运行，或者在对等或分布式网络环境中作为对等机器运行。一个或多个处理器可以形成个人计算机(PC)、平板PC、个人数字助理(PDA)、蜂窝电话、web设施、网络路由器、交换机或网桥、或者能够执行指定机器要采取的动作的一组指令(顺序的或其他形式)的任何机器。

应当注意的是，术语“机器”也应该被认为包括单独或共同地执行一组(或多组)指令以执行本文讨论的方法中的任何一种或多种方法的机器的任何集合。

因此，本文描述的每种方法的一个示例实施例呈携带一组指令的计算机可读载体介质的形式，所述指令例如为用于在一个或多个处理器(例如，作为web服务器装置的一部分的一个或多个处理器)上执行的计算机程序。因此，如本领域技术人员将理解的，本公开的示例实施例可以体现为方法、如专用装置的装置、如数据处理***的装置、或计算机可读载体介质(例如，计算机程序产品)。计算机可读载体介质携带包括一组指令的计算机可读代码，所述一组指令在一个或多个处理器上执行时使一个或多个处理器实施方法。因此，本公开的方面可以采取方法、完全硬件示例实施例、完全软件示例实施例或组合软件和硬件方面的示例实施例的形式。此外，本公开可以采取载体介质(例如，计算机可读存储介质上的计算机程序产品)的形式，所述载体介质携带体现在该介质中的计算机可读程序代码。

可以经由网络接口设备通过网络进一步发送或接收软件。虽然在示例实施例中载体介质是单个介质，但是术语“载体介质”应该被认为包括存储一组或多组指令的单个介质或多个介质(例如，集中式或分布式数据库和/或相关联的缓存和服务器)。术语“载体介质”也应该被认为包括能够存储、编码或携带一组指令的任何介质，所述指令用于由处理器中的一个或多个执行并且使一个或多个处理器执行本公开的方法中的任何一种或多种。载体介质可以采取多种形式，包括但不限于非易失性介质、易失性介质和传输介质。非易失性介质包括例如光盘、磁盘以及磁光盘。易失性介质包括动态存储器，如主存储器。传输介质包括同轴电缆、铜线和光纤，包括包含总线子***的导线。传输介质还可以采用声波或光波的形式，如在无线电波和红外数据通信期间生成的声波或光波。例如，术语“载体介质”因此应该被认为包括但不限于固态存储器、体现在光学介质和磁性介质中的计算机产品；承载可由至少一个处理器或一个或多个处理器检测到并表示一组指令的传播信号的介质，所述一组指令在被执行时实施方法；以及网络中的传输介质，所述传输介质承载可由一个或多个处理器中的至少一个处理器检测到并表示一组指令的传播信号。

将理解的是，在一个示例实施例中，所讨论的方法的步骤由执行存储在存储装置中的指令(计算机可读代码)的处理(例如，计算机)***中的适当处理器(或多个处理器)执行。还将理解的是，本公开不限于任何特定的实施方式或编程技术，并且本公开可以使用用于实施本文描述的功能的任何适当的技术来实施。本公开不限于任何特定的编程语言或操作***。

在整个公开中对“一个示例实施例”、“一些示例实施例”或“示例实施例”的提及意味着结合示例实施例描述的特定特征、结构或特性包括在本公开的至少一个示例实施例中。因此，在整个公开中各处出现的短语“在一个示例实施例中”、“在一些示例实施例中”或“在示例实施例中”不一定都是指代同一个示例实施例。此外，在一个或多个示例实施例中，特定特征、结构或特性可以以任何合适的方式组合，这根据本公开对于本领域的普通技术人员而言将是显而易见的。

如本文所使用的，除非另外指定，否则使用序数形容词“第一”、“第二”、“第三”等来描述共同的对象，仅表明提及相似对象的不同实例，并且不旨在暗示所描述的对象必须在时间、空间、等级或任何其他方式上按照给定的顺序。

在以下权利要求和本文的描述中，术语“包括(comprising)”、“包括(comprisedof)”或“包括(which comprises)”中的任一个都是意指至少包括随后的元件/特征但不排除其他元件/特征的开放式术语。因此，当在权利要求中使用术语“包括(comprising)”时，所述术语不应当被解释为限于在其之后列出的装置或元件或步骤。例如，包括A和B的设备的表达范围不应限于仅由元件A和B构成的设备。如本文所使用的，术语“包括(including)”，“包括(which includes)”或“包括(that includes)”中的任一个也同样是也意指至少包括所述术语之后的元件/特征但不排除其他元件/特征的开放式术语。因此，包括(including)与包括(comprising)同义并且意指包括(comprising)。

应当理解，在以上对本公开的示例实施例的描述中，有时在单个示例实施例/图或其描述中将本公开的各种特征组合在一起，以便使本公开更流畅，并且帮助理解各创造性方面中的一个或多个。然而，本公开的方法不应当被解释为反映权利要求书需要比每个权利要求中明确叙述的特征更多的特征的意图。相反，如以下权利要求所反映的，各创造性方面在于少于单个前面公开的示例实施例的所有特征。因此，在说明书之后的权利要求书特此明确地并入本说明书中，其中，每个权利要求独立地作为本公开的单独的示例实施例。

此外，虽然本文描述的一些示例实施例包括其他示例实施例中所包括的一些特征而不包括其他示例实施例中所包括的其他特征，但是如本领域技术人员将理解的，不同示例实施例的特征的组合旨在处于本公开的范围内并形成不同的示例实施例。例如，在以下权利要求中，要求保护的示例实施例中的任何示例实施例都可以以任何组合来使用。

在本文提供的描述中，阐述了许多具体细节。然而，应当理解，可以在没有这些具体细节的情况下实践本公开的示例实施例。在其他实例中，未详细示出众所周知的方法、结构和技术，以避免模糊对本说明书的理解。

因此，尽管已经描述了被认为是本公开的最佳模式的模式，但是本领域技术人员将认识到，可以在不背离本公开的精神的情况下对其做出其他和进一步的修改，并且旨在要求保护落入本公开的范围内的所有这些改变和修改。例如，以上给出的任何公式仅表示可以使用的过程。可以从框图中添加或删除功能，并且可以在功能块之间互换操作。可以向在本公开的范围内描述的方法添加或删除步骤。

Claims

1.一种用于对音频数据进行低比特率编码并生成用于在解码器侧控制对经低比特率编码的音频数据的音频增强的增强元数据的方法，所述方法包括以下步骤：

(a)以低比特率对原始音频数据进行核心编码以获得经编码的音频数据；

(b)生成要用于在对所述经编码的音频数据进行核心解码之后在所述解码器侧控制音频增强的类型和/或量的增强元数据；以及

(c)输出所述经编码的音频数据和所述增强元数据。

2.如权利要求1所述的方法，其中，在步骤(b)中的生成增强元数据包括：

(ii)将所述经核心解码的初始音频数据输入到音频增强器以基于候选增强元数据处理所述经核心解码的初始音频数据，所述候选增强元数据用于控制对输入到所述音频增强器的音频数据的音频增强的类型和/或量；

(iii)获得增强的音频数据作为来自所述音频增强器的输出；

(v)基于所述确定的结果生成增强元数据。

3.如权利要求2所述的方法，其中，在步骤(iv)中的确定所述候选增强元数据的适用性包括：向用户呈现所述增强的音频数据并且响应于所述呈现而接收来自所述用户的第一输入，并且其中，在步骤(v)中生成所述增强元数据是基于所述第一输入的。

4.如权利要求3所述的方法，其中，来自所述用户的所述第一输入包括所述候选增强元数据是被所述用户接受还是拒绝的指示。

5.如权利要求4所述的方法，其中，在所述用户拒绝所述候选增强元数据的情况下，从所述用户接收指示对所述候选增强元数据进行修改的第二输入，并且在步骤(v)中的生成所述增强元数据是基于所述第二输入的。

6.如权利要求4或5所述的方法，其中，在所述用户拒绝所述候选增强元数据的情况下，重复步骤(ii)至(v)。

7.如权利要求1至6中任一项所述的方法，其中，所述增强元数据包括增强控制数据的一个或多个项目。

8.如权利要求7所述的方法，其中，所述增强控制数据包括关于音频增强的一个或多个类型的信息，所述音频增强的一个或多个类型包括语音增强、音乐增强和掌声增强中的一个或多个。

9.如权利要求8所述的方法，其中，所述增强控制数据进一步包括关于所述音频增强的一个或多个类型的相应容许性的信息。

10.如权利要求7至9中任一项所述的方法，其中，所述增强控制数据进一步包括关于音频增强的量的信息。

11.如权利要求7至10中任一项所述的方法，其中，所述增强控制数据进一步包括关于是否要由在所述解码器侧的自动更新的音频增强器执行音频增强的容许性的信息。

12.如权利要求7至11中任一项所述的方法，其中，通过应用一个或多个预定义的音频增强模块来执行在步骤(ii)中的基于所述候选增强元数据处理所述经核心解码的初始音频数据，并且其中，所述增强控制数据进一步包括关于使用在解码器侧的实现相同或基本上相同类型的增强的一个或多个不同的增强模块的容许性的信息。

13.如权利要求2至12中任一项所述的方法，其中，所述音频增强器是生成器。

14.一种用于生成用于控制对经低比特率编码的音频数据的增强的增强元数据的编码器，其中，所述编码器包括一个或多个处理器，所述一个或多个处理器被配置为执行根据权利要求1至13中任一项所述的方法。

15.一种用于基于增强元数据从经低比特率编码的音频数据生成增强的音频数据的方法，其中，所述方法包括以下步骤：

(a)接收以低比特率编码的音频数据和增强元数据；

(b)对所述经编码的音频数据进行核心解码以获得经核心解码的初始音频数据；

(c)将所述经核心解码的初始音频数据输入到音频增强器以基于所述增强元数据处理所述经核心解码的初始音频数据；

(d)获得增强的音频数据作为来自所述音频增强器的输出；以及

(e)输出所述增强的音频数据。

16.如权利要求15所述的方法，其中，通过根据所述增强元数据应用一个或多个音频增强模块来执行基于所述增强元数据处理所述经核心解码的初始音频数据。

17.如权利要求15或16所述的方法，其中，所述音频增强器是生成器。

18.一种用于基于增强元数据从经低比特率编码的音频数据生成增强的音频数据的解码器，其中，所述解码器包括一个或多个处理器，所述一个或多个处理器被配置为执行如权利要求15至17中任一项所述的方法。