CN116324982A

CN116324982A - 一般媒体神经网络预测器和包括这种预测器的生成模型

Info

Publication number: CN116324982A
Application number: CN202180069786.0A
Authority: CN
Inventors: 周聪; M·S·文顿; G·A·戴维森; L·维莱莫斯
Original assignee: Dolby International AB; Dolby Laboratories Licensing Corp
Current assignee: Dolby International AB; Dolby Laboratories Licensing Corp
Priority date: 2020-10-16
Filing date: 2021-10-12
Publication date: 2023-06-23
Also published as: US20230394287A1; JP2023546082A; EP4229634A1; WO2022081599A1

Abstract

一种用于预测媒体信号的频率系数的神经网络***，所述神经网络***包括：时间预测部分，所述时间预测部分包括至少一个神经网络，所述至少一个神经网络被训练成在给定一个或若干个先前时间帧的系数的情况下，预测表示当前时间帧的特定频带的第一输出变量集合；以及频率预测部分，所述频率预测部分包括至少一个神经网络，所述至少一个神经网络被训练成在给定与所述当前时间帧中的特定频带毗邻的一个或若干个频带的系数的情况下，预测表示所述特定频带的第二输出变量集合。这种神经网络***形成了能够捕获媒体信号的时频片中出现的时间依赖性和频率依赖性两者的预测器。

Description

一般媒体神经网络预测器和包括这种预测器的生成模型

相关申请的交叉引用

本申请要求于2020年10月16日提交的美国临时专利申请号63/092,552以及于2020年11月10日提交的欧洲专利申请号20206729.4的优先权，所述美国临时专利申请和欧洲专利申请两者均通过援引以其全文并入本文。

技术领域

本发明涉及一种用于媒体的、特别是用于音频的生成模型。具体地，本发明涉及一种用于预测表示媒体信号的频率内容的频率系数的计算机实施的神经网络***。

背景技术

高质量媒体(特别是音频)的生成模型可以实现许多应用。原始波形生成模型已经被证明在某些信号类别(例如，语音和钢琴)内成功实现了高质量的音频，但是一般音频的质量仍然欠缺。

对摆脱原始波形域的尝试最近已被做出，例如Vasquez和Lewis在2019年的文章“MelNet:A Generative Model for Audio in the Frequency Domain[MelNet：频域中音频的生成模型]”中所讨论的。

尽管如此，更进一步的改进将是有益的。

发明内容

基于上述内容，因此本发明的目的是提供一种用于一般媒体的、特别是用于一般音频(即不但是特定类别的音频，如语音或钢琴音乐，而且是一般的音频)的改进的生成模型。

根据本发明的第一方面，这个目的和其他目的是通过一种用于预测媒体信号的频率系数的神经网络***来实现的，所述神经网络***包括：时间预测部分，所述时间预测部分包括至少一个神经网络，所述至少一个神经网络被训练成在给定一个或若干个先前时间帧的系数的情况下，预测表示当前时间帧的特定频带的第一输出变量集合；以及频率预测部分，所述频率预测部分包括至少一个神经网络，所述至少一个神经网络被训练成在给定与所述当前时间帧中的特定频带毗邻的一个或若干个频带的系数的情况下，预测表示所述特定频带的第二输出变量集合；以及输出级，所述输出级被配置为基于所述第一输出变量集合和所述第二输出变量集合，提供表示所述当前时间帧的所述特定频带的频率系数集合。

这种神经网络***形成了能够捕获媒体信号的时频片中出现的时间依赖性和频率依赖性两者的预测器。频率预测部分被设计为捕获频率依赖性，例如谐波结构。

这种预测器作为音频编码应用中的神经网络解码器已经显示出有希望的结果。另外，这种神经网络可用于其他信号处理应用，比如带宽扩展、丢包(packet loss)隐藏和语音增强。

原则上，基于时间和频率的预测可以以任何顺序、或者甚至组合执行。然而，在典型的在线(on-line)应用中，在逐帧(frame-by-frame)处理的情况下，通常首先(在多个先前帧上)执行时间预测，并且该预测的输出用于频率预测。

根据一个实施例，所述时间预测部分包括时间预测循环(recurrent)神经网络，所述时间预测循环神经网络包括多个神经网络层，所述时间预测循环神经网络被训练成在给定表示所述媒体信号的前一时间帧的第一输入变量集合的情况下，预测表示所述当前时间帧的中间输出变量集合。

类似地，根据一些实施例，所述频率预测部分包括频率预测循环神经网络，所述频率预测循环神经网络包括多个神经网络层，所述频率预测神经网络被训练成在给定所述第一输出变量集合和表示所述当前时间帧的较低频带的第二输入变量集合的求和的情况下，预测所述第二输出变量集合。

循环神经网络已显示出在这种上下文中特别有用。

所述时间预测部分也可以是频带混合神经网络，所述频带混合神经网络被训练成预测所述第一输出变量集合，其中，所述中间集合中的变量是通过混合表示所述特定频带和多个相邻频带的所述中间集合中的变量而被形成的。

这种频带混合神经网络执行跨频带(cross-band)预测，从而避免(或至少减少)混叠(aliasing)失真。

每个频率系数可以由分布参数集合表示，其中，所述分布参数集合被配置为对系数的概率分布进行参数化。概率分布可以是拉普拉斯(Laplace)分布、高斯(Gaussian)分布和逻辑斯谛(Logistic)分布之一。

本发明的第二方面涉及一种用于生成目标媒体信号的生成模型，所述生成模型包括根据第一方面的神经网络***，以及被配置为在给定描述目标媒体信号的调理(conditioning)信息的情况下预测调理变量集合的调理神经网络。

在时间预测部分包括时间预测循环神经网络的情况下，时间预测循环神经网络可以被配置为将所述第一输入变量集合与所述调理变量集合的至少一个子集相组合。

在频率预测部分包括频率预测循环神经网络的情况下，频率预测循环神经网络可以被配置为将所述求和与所述调理变量集合的至少一个子集相组合。

调理信息可以包括量化的(或以其他方式失真的)频率系数，从而允许神经网络***预测表示媒体信号的去量化的(或以其他方式增强的)频率系数。

在一些应用中，例如在一般音频编解码器中的基于神经网络的解码器中，量化的频率系数可以与从感知模型得到的感知模型系数集合相结合。这种调理信息可以进一步改进预测。

在实证研究中，这种生成模型已经在一般音频编码应用中实施，使得其接收量化的MDCT仓(bin)作为输入，并且预测去量化的MDCT仓。已经示出，频谱空洞(spectral hole)被合理的(plausible)结构所填充，并且量化误差在预测中被清除。在使用根据本发明的第二方面的生成模型的以20kb/s操作的“深度音频编解码器”的MUSHRA风格的主观评估中，与以不同比特率的若干现有技术编解码器相比，“深度音频编解码器”总体上被评定为与32kb/s的MPEG-4AAC编解码器相当。这表示比特率节省了37％。

本发明的第三方面涉及一种用于使用根据本发明第二方面的生成模型来推断增强的媒体信号的方法。

本发明的第四方面涉及一种用于训练根据本发明第一方面的神经网络***的方法。

附图说明

将参考附图更详细地描述本发明，所述附图示出了本发明的当前优选实施例。

图1a至图1b示出了根据本发明实施例的时间/频率预测器的高级结构。

图2示出了实施图1a中结构的神经网络***。

图3示出了在自生成模式下操作的图2中的神经网络***。

图4示出了包括图2中的神经网络的生成模型。

具体实施方式

图1a和图1b示意性地图示了根据本发明实施例的时间/频率预测器1的高级结构的两个示例。预测器对表示媒体(例如，音频)信号的频率内容的频率系数进行操作。频率系数可以对应于媒体信号的时频变换(比如离散余弦变换(DCT)或修正离散余弦变换(MDCT))的仓。可替代地，频率系数可以对应于媒体信号的滤波器组(filterbank)表示的样本，例如正交镜像滤波器(Quadrature Mirror Filter，QMF)滤波器组。

在图1a中，先前时间帧的频率系数(这里有时称为“仓”)首先被分组到预先选择的B个数量的频带中。然后，预测器1基于从所有先前时间帧3收集的频带上下文来预测当前时间帧t中的目标频带b的仓2。然后，预测器1基于所有较低频带和N个较高频带(即频带1、...、b+N)预测目标频带b的仓2，其中，N介于1至B-b之间。在图1a中，N等于1，即仅考虑一个较高频带b+1。最后，预测器基于当前时间帧t中的所有较低(先前预测的)频带5来预测目标频带b中的仓2。

频率系数(例如，MDCT仓)的联合概率密度Xt(b)可以表示为条件概率的乘积：

其中，X_t(b)表示时间t处频带b中的一组系数，N表示每侧(较高侧和较低侧)相邻的毗邻频带的数量，X_1...t-1(1...b+N)表示从时间1到时间t-1的频带1到b+N中的系数，并且最后X_t(1...b-1)表示时间t处频带1到频带b-1中的仓。

从以上对图1a中预测器的描述可以清楚地看出，预测首先在时间维度上完成，然后在频率维度上完成。这在许多应用中是正常的，例如在音频解码器中，通常对信号的下一帧做出实时预测。

然而，一般来说，例如，如果整个信号是离线(off-line)可用的，则时间/频率预测器可以以相反的顺序操作。这个稍微不太直观的过程在图1b中图示。

这里，首先将每个较低频带中的仓分组到一组T个时间帧中。然后，预测器1′基于从所有较低频带3′收集的频带上下文来预测当前(下一个较高)频带b中的目标帧t的仓2′。然后预测器1′基于所有前面的时间帧和N个后续(未来)时间帧(即，帧1、...、t+1)中的较低频带来预测目标帧t的仓2′，其中，此处N介于1至T-t之间。在图1b中，N再次等于1，即考虑一个后续(未来)帧。最后，预测器基于当前频带b中的所有前面的(先前预测的)时间帧5′来预测目标帧t中的仓2′。

神经网络***10中的图1a中的预测器的示例实施方式在图2中以框图的形式图示。如下面详细解释的，网络***10具有时间预测部分8和频率预测部分9。

在时间预测部分8中，卷积网络11接收先前帧的频率变换系数(仓)X_t-1，并执行频率仓的卷积，以将它们分组到B个频带12中。作为示例，B等于32。在一个实施方式中，卷积网络11被实施为具有等于16的内核长度K和等于8的步幅(stride)S(即50％重叠)的卷积层。

频带12被馈送到包含一组循环层(这里呈门控循环单元(Gated Recurrent Unit，GRU)的形式)的时间预测循环神经网络(RNN)13。也可以使用其他循环神经网络，比如长短期记忆(LSTM)、准循环神经网络(Quasi-Recurrent Neural Network，QRNN)、双向循环单元、连续时间循环网络(CTRNN)等。网络13单独但是以共享权重处理B个频带，从而获得当前(预测)时间帧的每个频带的各个个体隐藏状态14。每个隐藏状态14包括输出变量集合，其中，该集合的大小由RNN 13中各层的内部维度确定。在所图示的示例中，内部维度为1024，因此存在1024个变量表示当前(预测)时间帧的每个频带。在B＝32的情况下，因此存在32×1024个变量从RNN 13输出。

然后，B个隐藏状态14被馈送到另一个卷积网络15，其将所有较低频带和N个较高频带(即相邻隐藏状态)的变量进行混合，以便实现跨频带预测p(X_t(b)|X_1...t-1(1...b+N))。在一个实施方式中，卷积网络15被实施为沿着频带维度的单个卷积层，其中，内核长度为2N+1，具有N个较低频带和N个较高频带。在另一个实施方式中，卷积层内核长度为N+2，具有一个较低频带和N个较高频带。输出(隐藏状态)16再次是B个输出变量集合，其中，每个集合的大小由内部维度确定。在目前情况下，网络15再次输出32×1024个变量。

在频率预测部分9中，表示当前(预测)时间帧的隐藏状态16被馈送到求和点17。1×1卷积层18接收先前频带的频率系数X_t(1)、...、X_t(b-1)，并将它们投射到***的内部维度(即在目前情况下为1024)上。

求和点17的输出被馈送到包含一组循环层(这里呈门控循环单元(GRU)的形式)的循环神经网络(RNN)19。同样，也可以使用其他循环神经网络，比如长短期记忆(LSTM)、准循环神经网络(QRNN)、双向循环单元、连续时间循环网络(CTRNN)等。RNN 19取求和输出并预测表示X_t(b)的输出变量集合(隐藏状态)20。最后，根据最终预测方案p(X_t(b)|X_1...t-1(1...b+N)，X_t(1...b-1))呈两个1×1卷积层(分别为输出维度1024和16)形式的两个输出层21、22(在每个卷积层之前进行ReLU激活)用于提供对X_t(b)的最终预测。对于每个新的时间戳，重置RNN 19的隐藏状态20。

在一个实施例中，每个频率系数由两个参数表示，例如***可以预测拉普拉斯分布的参数μ(位置)和s(尺度)。在一个实施方式中，为了计算稳定性，使用log(s)而不是s。在其他实施方式中，可以选择逻辑斯谛分布或高斯分布作为参数化的目标分布。因此，最终输出层22的输出维度是仓数量的两倍。在目前情况下，层22的输出维度是16，与每个频带中的八个仓相对应。

在另一个实施例中，频率系数被参数化为分布的混合，其中，每个参数化的分布具有个体(归一化的)权重。然后，每个系数将由(分布数量)×(分布参数的数量+1)个参数表示。例如，在混合两个拉普拉斯分布(每个分布有两个参数)的特定情况下，每个系数将由2×(2+1)＝6个参数(两组权重(w1和w2)，位置(ul，u2)，和尺度(s1，s2)，其中，w1+w2＝1)表示。然后，输出层22的输出维度将是8×6＝48。先前提到的实施例是只有一个分布且权重等于一的特殊情形。

参考图5，神经网络***10的训练可以在“教师强制(teacher forcing)模式”下完成。首先，在步骤S1中，将表示“实际”(已知)媒体信号的地面真值(ground truth)频率系数分别提供给卷积网络11和卷积层18。然后在步骤S2中预测当前时间帧的仓

的概率分布。在步骤S3中，将预测仓/>

与实际信号的实际仓X_t(b)进行比较，以便确定训练度量。最后，在步骤S4中，选择各种神经网络11、13、15、18、19、21、22的参数(权重和偏差)，使得训练度量最小化。作为示例，应被最小化的训练度量可以是负对数似然(negative log-likelihood，NLL)，例如在拉普拉斯分布的情况下：

其中，μ和s是模型输出预测，并且y是实际仓值。在高斯或混合分布模型的情况下，NLL看起来略有不同。

图3图示了处于推理模式(inferencing mode)的图2中的神经网络***10，所述推断模式也被称为“自生成”模式，其中，预测

被用作历史以持续生成新的预测。图3中的神经网络***被称为自生成预测器30。这种预测器可以在编码器中使用，以基于由所述预测器生成的预测来计算预测误差。预测误差可以被量化并作为残余误差而被包括在比特流中。在解码器中，然后可以将预测结果与量化误差相加以获得最终结果。

这里的预测器30包括两条反馈路径31、32；第一条反馈路径31用于***的时间预测部分8，并且第二条反馈路径32用于***的频率预测部分9。

更具体地，将预测

与部分预测的当前帧/>

相加，使得其然后包括频带

将这些频带作为输入被提供给卷积网络18，并且然后被提供给求和点17，以便预测下一个较高频带/>

当已经预测了当前帧/>

中的所有频带时，将该整个帧作为输入提供给卷积网11，以便能够预测下一个时间帧/>

给定μ和s是来自所提出的神经网络的预测参数，需要采样操作33来获得预测仓值。采样操作可以写为：

其中，

是预测仓值，F()是由预先选择的分布所确定的采样函数，并且u是来自均匀分布的随机样本。例如，在拉普拉斯分布的情况下，

F＝-s*sign(u)*log(1-2*|u|)，u～U(-0.5，0.5) (4)

为了减少采样误差的累积，F()可以采用“截断(truncation)”和“温度”(例如，对s加权)进行适配。在一个实施方式中，“截断”是通过对u～U(-0.49，0.49)进行采样来完成的，其将采样输出限制到(μ-4*s，μ+4*s)。在另一个实施例中，直接对μ进行取值(最大采样)。“温度”可以通过将权重w乘以s来完成，并且在一个实施方式中，权重w可以通过关于目标信号的先验知识(包括例如频谱包络和频带调性(tonality))来控制。

神经网络***10实施了如图1a所示的预测器，并且可以有利地由合适的调理信号进行调理，从而形成调理的预测：

其中，c表示调理信号，包括例如量化的(或以其他方式失真的)频率系数

图4示出了用于使用这种调理预测器来生成目标媒体信号的生成模型40。图4中的模型40包括根据图3的自生成神经网络***30和调理神经网络41。

调理神经网络41被训练成在给定描述所述目标媒体信号的调理信息42的情况下，预测调理变量集合。调理网络41在这里是具有2-D内核(频率方向和时间方向)的2-D卷积神经网络。

在所图示的情况下，调理信息42是双通道的，并且包括量化的频率系数和感知模型系数集合。量化的频率系数

表示目标媒体信号的时间帧t和n个前视(look-ahead)帧。感知模型系数集合pEnvQ可以从感知模型(比如出现在音频编解码器***中的感知模型)中得出。感知模型系数pEnvQ是按频带计算的，并且优选地被映射到与频率系数相同的分辨率上，以有助于处理。

在所图示的实施例中，调理网络被配置为级联

和pEnvQ，并且调理网络41被配置为获取级联的输入，并且提供具有维度是神经网络***30的内部维度的两倍的输出(例如，在本示例中为2×1024)。分离器43被布置为沿特征通道维度分离“双倍长度”输出通道。一半输出变量与连接到时间预测循环神经网络13的输入变量相加。另一半输出变量与连接到频率预测循环网络19的输入变量相加。经验已表明，分离操作有助于整体优化性能。

可替代地，调理网络41被配置为在与预测器40相同的维度上操作，并且仅输出1024个输出变量。在这种情况下，不需要分离器，并且将相同的调理变量被提供给两个循环神经网络13、19。

再次参考图5，生成模型40的训练也可以在“教师强制模式”下完成。首先，在步骤S1中，将表示“实际”(已知)媒体信号的地面真值频率系数作为调理信息提供给调理网络41。在这种情况下，频率系数首先被以与它们在实际实施方式中相同的方式量化，或者以其他方式失真。然后在步骤S2中预测当前时间帧的仓

的概率分布。在步骤S3中，将预测仓/>

与实际信号的实际仓X_t(b)进行比较，以便确定训练度量。最后，在步骤S4中，选择各种神经网络11、13、15、18、19、21、22和41的参数(权重和偏差)，使得训练度量最小化。作为示例，应被最小化的训练度量可以是负对数似然(NLL)，例如在拉普拉斯分布的情况下：

生成模型40可以有利地在解码器中实施，例如以便增强量化的(或以其他方式失真的)输入信号。具体地，可以用相同量或者甚至减少量的编码参数来提高解码性能。例如，输入信号中的频谱空隙(spectral void)可以由神经网络填充。如上所述，生成模型可以在变换域中操作，这在解码器中可能特别有用。

在使用中，生成模型40如图6所图示操作。首先，在步骤S11中，将调理信息(例如由解码器接收的量化频率系数集合和感知模型数据集合)提供给调理网络41。然后，在步骤S12和步骤S13中，预测当前帧t的特定频带b的频率系数

并且将其作为输入提供给频率预测RNN 19。在步骤S14中，对当前帧中的每个频带重复步骤S12和步骤S13。在步骤S15中，将整个帧的预测频率系数/>

提供给时间预测RNN 13，从而能够继续预测下一帧。

***

在上文中，已经描述了训练和操作用于确定对输入音频样本的音频质量的指示的基于深度学习的***的可能方法以及这种***的可能实施方式。另外，本公开还涉及用于实施这些方法的装置。这种装置的示例可以包括处理器(例如，中央处理单元(CPU)、图形处理单元(GPU)、数字信号处理器(DSP)、一个或多个专用集成电路(ASIC)、一个或多个射频集成电路(RFIC)或这些的任何组合)和耦接到处理器的存储器。处理器可以适于执行在整个公开中描述的方法的一些或所有步骤。

装置可以是服务器计算机、客户端计算机、个人计算机(PC)、平板PC、机顶盒(STB)、个人数字助理(PDA)、蜂窝电话、智能手机、web设备、网络路由器、交换机或网桥、或能够(顺序或以其他方式)执行指定要由该装置采取的动作的指令的任何机器。进一步，本公开将涉及单独或联合执行指令以执行本文讨论的任何一种或多种方法的装置的任何集合。

本公开进一步涉及一种包括指令的程序(例如，计算机程序)，所述指令当由处理器执行时使所述处理器执行本文描述的方法的一些或所有步骤。

更进一步，本公开涉及存储前述程序的计算机可读(或机器可读)存储介质。这里，术语“计算机可读存储介质”包括但不限于例如固态存储器、光学介质和磁性介质形式的数据储存库。

除非另外特别声明，从以下讨论中显而易见的是，应当理解，在整个公开的讨论中，利用如“处理”、“计算(computing)”、“计算(calculating)”“确定”、“分析”等术语来指代计算机或计算***或类似的电子计算设备的将表示为物理(如电子)量的数据操纵和/或变换为类似地表示为物理量的其他数据的动作和/或过程。

以类似的方式，术语“处理器”可以指代处理例如来自寄存器和/或存储器的电子数据以将该电子数据变换为例如可以存储在寄存器和/或存储器中的其他电子数据的任何设备或设备的一部分。“计算机”或“计算机器”或“计算平台”可以包括一个或多个处理器。

在一个示例实施例中，本文描述的方法可由一个或多个处理器执行，所述处理器接受包含一组指令的计算机可读(也称为机器可读)代码，所述一组指令在由一个或多个处理器执行时执行本文所述的方法中的至少一个。包括能够执行指定要采取的动作的一组指令(顺序的或其他形式)的任何处理器。因此，一个示例是包括一个或多个处理器的典型处理***。每个处理器可以包括CPU、图形处理单元和可编程DSP单元中的一个或多个。处理***可以进一步包括存储器子***，所述存储器子***包括主RAM和/或静态RAM和/或ROM。可以包括总线子***以用于部件之间的通信。处理***可以进一步是分布式处理***，其中，处理器通过网络耦接在一起。如果处理***需要显示器，则可以包括这样的显示器，例如，液晶显示器(LCD)或阴极射线管(CRT)显示器。如果需要手动输入数据，则处理***还包括输入设备，如字母数字输入单元(如键盘)、定点控制设备(如鼠标)等中的一个或多个。处理***还可以涵盖如磁盘驱动单元等存储***。一些配置中的处理***可以包括声音输出设备和网络接口设备。存储器子***因此包括携带计算机可读代码(例如，软件)的计算机可读载体介质，所述计算机可读代码包括一组指令，所述一组指令在由一个或多个处理器执行时使得执行本文所述的方法中的一种或多种。应当注意的是，当所述方法包括几个元素(例如，几个步骤)时，除非特别声明，否则不暗示这些元素的任何顺序。在计算机***执行软件期间，软件可以驻留在硬盘中，或者也可以完全或至少部分地驻留在RAM和/或处理器中。因此，存储器和处理器也构成了携带计算机可读代码的计算机可读载体介质。此外，计算机可读载体介质可以形成或包括在计算机程序产品中。

在替代性示例实施例中，一个或多个处理器可以作为独立设备运行，或者可以在联网部署中连接到(例如，联网到)其他处理器，所述一个或多个处理器可以在服务器-用户网络环境中以服务器或用户机器的身份运行，或者在对等或分布式网络环境中作为对等机器运行。一个或多个处理器可以形成个人计算机(PC)、平板PC、个人数字助理(PDA)、蜂窝电话、web设施、网络路由器、交换机或网桥、或者能够执行指定该机器要采取的动作的一组指令(顺序的或其他形式)的任何机器。

应当注意的是，术语“机器”也应该被认为包括单独或联合地执行一组(或多组)指令以执行本文讨论的方法中的任何一种或多种方法的机器的任何集合。

因此，本文描述的每种方法的一个示例实施例呈携带一组指令的计算机可读载体介质的形式，所述指令例如为用于在一个或多个处理器(例如，作为web服务器布置的一部分的一个或多个处理器)上执行的计算机程序。因此，如本领域技术人员将认识到的，本公开的示例实施例可以体现为方法、如专用装置的装置、如数据处理***的装置、或计算机可读载体介质(例如，计算机程序产品)。计算机可读载体介质携带包括一组指令的计算机可读代码，所述一组指令在一个或多个处理器上执行时使一个或多个处理器实施方法。因此，本公开的方面可以采取方法、完全硬件示例实施例、完全软件示例实施例或组合软件和硬件方面的示例实施例的形式。此外，本公开可以采取载体介质(例如，计算机可读存储介质上的计算机程序产品)的形式，所述载体介质携带体现在所述介质中的计算机可读程序代码。

可以经由网络接口设备通过网络进一步发送或接收软件。虽然在示例实施例中载体介质是单个介质，但是术语“载体介质”应该被认为包括存储一组或多组指令的单个介质或多个介质(例如，集中式或分布式数据库和/或相关联的缓存和服务器)。术语“载体介质”也应该被认为包括能够存储、编码或携带一组指令的任何介质，所述一组指令用于由处理器中的一个或多个执行并且使一个或多个处理器执行本公开的方法中的任何一种或多种。载体介质可以采取多种形式，包括但不限于非易失性介质、易失性介质和传输介质。非易失性介质包括例如光盘、磁盘以及磁光盘。易失性介质包括动态存储器，如主存储器。传输介质包括同轴电缆、铜线和光纤，包括包含总线子***的导线。传输介质还可以采用声波或光波的形式，如在无线电波和红外数据通信期间生成的声波或光波。例如，术语“载体介质”因此应该被认为包括但不限于固态存储器、体现在光学介质和磁性介质中的计算机产品；承载可由至少一个处理器或一个或多个处理器检测到并表示一组指令的传播信号的介质，所述一组指令在被执行时实施方法；以及网络中的传输介质，所述传输介质承载可由一个或多个处理器中的至少一个处理器检测到并表示所述一组指令的传播信号。

将理解的是，在一个示例实施例中，所讨论的方法的步骤由执行存储在存储装置中的指令(计算机可读代码)的处理(例如，计算机)***中的适当处理器(或多个处理器)执行。还将理解的是，本公开不限于任何特定的实施方式或编程技术，并且本公开可以使用用于实施本文描述的功能的任何适当的技术来实施。本公开不限于任何特定的编程语言或操作***。

在整个公开中对“一个示例实施例”、“一些示例实施例”或“示例实施例”的提及意味着结合示例实施例描述的特定特征、结构或特性包括在本公开的至少一个示例实施例中。因此，在整个公开中各处出现的短语“在一个示例实施例中”、“在一些示例实施例中”或“在示例实施例中”不一定都是指代同一个示例实施例。此外，在一个或多个示例实施例中，特定特征、结构或特性可以以任何合适的方式组合，这根据本公开对于本领域的普通技术人员而言将是显而易见的。

如本文所使用的，除非另外指定，否则使用序数形容词“第一”、“第二”、“第三”等来描述共同的对象，仅表明提及相似对象的不同实例，并且不旨在暗示所描述的对象必须在时间、空间、等级或任何其他方式上按照给定的顺序。

在下文的权利要求和本文的描述中，术语包括(comprising)、包括(comprisedof)或其包括(which comprises)中的任何一个是开放术语，其意指至少包括随后的要素/特征，但不排除其他要素/特征。因此，当在权利要求中使用术语“包括”时，所述术语不应当被解释为限于在其之后列出的装置或要素或步骤。例如，包括A和B的设备的表达的范围不应限于仅包括元件A和B的设备。如本文所使用的，术语包括(including)或其包括(whichincludes)或包括(that includes)中的任何一个也是开放术语，其也意指至少包括所述术语之后的元件/特征，但不排除其他元件/特征。因此，包括(including)与包括(comprising)同义并且意指包括(comprising)。

应当认识到，在以上对本公开的示例实施例的描述中，有时在单个示例实施例/图或其描述中将本公开的各种特征组合在一起，以便简化本公开，并且帮助理解各创造性方面中的一个或多个。然而，本公开的方法不应当被解释为反映权利要求书需要比每个权利要求中明确叙述的特征更多的特征的意图。相反，如以下权利要求所反映的，各创造性方面在于少于单个前面公开的示例实施例的所有特征。因此，在说明书之后的权利要求书特此明确地并入本说明书中，其中，每个权利要求独立地作为本公开的单独的示例实施例。

此外，虽然本文描述的一些示例实施例包括其他示例实施例中所包括的一些特征而不包括其他示例实施例中所包括的其他特征，但是如本领域技术人员将理解的，不同示例实施例的特征的组合旨在处于本公开的范围内并形成不同的示例实施例。例如，在所附权利要求中，要求保护的示例实施例中的任何示例实施例都可以以任何组合来使用。

在本文提供的描述中，阐述了许多具体细节。然而，应当理解，可以在没有这些具体细节的情况下实践本公开的示例实施例。在其他实例中，未详细示出众所周知的方法、结构和技术，以避免模糊对本说明书的理解。

因此，尽管已经描述了被认为是本公开的最佳模式的模式，但是本领域技术人员将认识到，可以在不背离本公开的精神的情况下对其做出其他和进一步的修改，并且旨在要求保护落入本公开的范围内的所有这些改变和修改。例如，以上给出的任何公式仅表示可以使用的过程。可以从框图中添加或删除功能，并且可以在功能块之间互换操作。可以向在本公开的范围内描述的方法添加或删除步骤。特别地，可以设想不同的布局来实现图1a中的高级预测器结构。

可以从以下枚举的示例性实施例(EEE)的清单中理解本发明的各个方面：

EEE1.一种用于预测媒体信号的频率系数的计算机实施的神经网络***，所述神经网络***包括：

时间预测部分，所述时间预测部分包括至少一个神经网络，所述至少一个神经网络被训练成在给定一个或若干个先前时间帧的系数的情况下，预测表示当前时间帧的特定频带的第一输出变量集合，以及

频率预测部分，所述频率预测部分包括至少一个神经网络，所述至少一个神经网络被训练成在给定与所述当前时间帧中的特定频带毗邻的一个或若干个频带的系数的情况下，预测表示所述特定频带的第二输出变量集合，

输出级，所述输出级被配置为基于所述第一输出变量集合和所述第二输出变量集合，提供表示所述当前时间帧的所述特定频带的频率系数集合。

EEE2.根据EEE1的计算机实施的神经网络***，其中，由所述时间预测部分预测的所述第一输出变量集合被用作所述频率预测部分的输入变量。

EEE3.根据EEE2的计算机实施的神经网络***，其中，所述时间预测部分包括：

时间预测循环神经网络，所述时间预测循环神经网络包括多个神经网络层，所述时间预测循环神经网络被训练成在给定表示所述媒体信号的前一时间帧的第一输入变量集合的情况下，预测表示所述当前时间帧的中间输出变量集合。

EEE4.根据EEE3的计算机实施的神经网络***，其中，所述时间预测部分进一步包括：

输入级，所述输入级包括神经网络，所述神经网络被训练成在给定所述媒体信号的前一时间帧的频率系数的情况下，预测所述第一输入变量集合。

EEE5.根据EEE4的计算机实施的神经网络***，其中，所述时间预测部分进一步包括：

频带混合神经网络，所述频带混合神经网络被训练成预测所述第一输出变量集合，其中，所述中间集合中的变量是通过混合表示所述特定频带和多个相邻频带的所述中间集合中的变量而形成的。

EEE6.根据EEE5的计算机实施的神经网络***，其中，所述频率预测部分包括：

频率预测循环神经网络，所述频率预测循环神经网络包括多个神经网络层，所述频率预测神经网络被训练成在给定所述第一输出变量集合和表示所述当前时间帧的较低频带的第二输入变量集合的求和的情况下，预测所述第二输出变量集合。

EEE7.根据EEE6的计算机实施的神经网络***，其中，所述频率预测部分进一步包括：

一个或几个输出层，所述一个或几个输出层被训练成基于所述第二输出变量集合提供所述频率系数集合。

EEE8.根据EEE1的计算机实施的神经网络***，其中，每个频率系数由分布参数集合表示，其中，所述分布参数集合被配置为对所述系数的概率分布进行参数化。

EEE9.根据EEE8的计算机实施的神经网络***，其中，所述概率分布是拉普拉斯分布、高斯分布和逻辑斯谛分布之一。

EEE10.根据EEE1的计算机实施的神经网络***，其中，所述频率系数对应于所述媒体信号的时频变换的仓。

EEE11.根据EEE1的计算机实施的神经网络***，其中，所述频率系数对应于所述媒体信号的滤波器组表示的样本。

EEE12.一种用于生成目标媒体信号的生成模型，所述生成模型包括：

根据EEE3的计算机实施的神经网络***，以及

调理神经网络，所述调理神经网络被训练成在给定描述所述目标媒体信号的调理信息的情况下，预测调理变量集合，

所述时间预测循环神经网络被配置为将所述第一输入变量集合与所述调理变量集合的至少一个子集相组合。

EEE13.根据EEE12的生成模型，其中，所述神经网络***包括根据EEE6的频率预测循环神经网络，并且其中，

所述频率预测循环神经网络被配置为将所述求和与所述调理变量集合的至少一个子集相组合。

EEE14.根据EEE13的生成模型，其中，所述调理变量集合包括是所述神经网络***内部维度两倍的变量，并且其中，所述时间预测循环神经网络和所述频率预测循环神经网络各自提供有所述调理变量的一半。

EEE15.根据EEE12的生成模型，其中，所述调理信息包括失真频率系数集合。

EEE16.根据EEE15的生成模型，其中，所述调理信息附加地包括感知模型系数集合。

EEE17.根据EEE12的生成模型，其中，所述调理信息包括频谱包络。

EEE18.根据EEE12的生成模型，其中，所述调理神经网络包括具有在频率方向和时间方向上操作的2D内核的卷积神经网络。

EEE19.一种用于训练根据EEE7的计算机实施的神经网络***的方法，所述方法包括以下步骤：

a)提供表示实际媒体信号的先前时间帧的频率系数集合作为所述第一输入变量集合，

b)使用所述神经网络***预测表示当前时间帧的特定频带的频率系数集合，

c)使预测的频率系数集合相对于表示所述实际媒体信号的当前时间帧的所述特定频带的真实的频率系数集合的度量最小化。

EEE20.根据EEE19的方法，其中，每个频率系数由分布参数集合表示，其中，所述分布参数集合对每个频率系数的概率分布进行参数化。

EEE21.根据EEE20的方法，其中，所述度量是负对数似然NLL。

EEE22.一种用于训练根据EEE12的生成模型的方法，所述方法包括以下步骤：

a)将实际媒体信号的描述作为调理信息提供给所述调理神经网络，

EEE23.根据EEE22的方法，其中，所述描述包括表示所述实际媒体信号的失真频率系数集合。

EEE24.根据EEE22的方法，其中，每个频率系数由分布参数集合表示，其中，所述分布参数集合对每个频率系数的概率分布进行参数化。

EEE25.根据EEE24的方法，其中，所述度量是负对数似然NLL。

EEE26.一种用于使用根据EEE13的生成模型来获得增强的媒体信号的方法，所述方法包括以下步骤：

a)将调理信息提供给所述调理神经网络，

b)对于当前时间帧的每个频带，使用所述频率预测循环神经网络来预测表示该频带的频率系数集合，并将所述频率系数集合作为所述第二输入变量集合提供给所述频率预测循环神经网络，

c)将表示所述当前帧所有频带的预测的频率系数集合作为所述第一输入变量集合提供给所述时间预测RNN。

EEE27.根据EEE26的方法，其中，所述调理信息包括表示所述实际媒体信号的失真频率系数集合。

EEE28.根据EEE26的方法，其中，每个频率系数由分布参数集合表示，其中，所述分布参数集合对每个频率系数的概率分布进行参数化，所述方法进一步包括：

对每个概率分布进行采样以获得频率系数值。

EEE29.一种解码器，所述解码器包括根据EEE12的生成模型。

EEE30.一种计算机程序产品，所述计算机程序产品包括计算机可读程序代码部分，当由计算机执行时，所述计算机可读程序代码部分实施根据EEE12的计算机实施的神经网络***。

Claims

1.一种用于预测媒体信号的频率系数的计算机实施的神经网络***(10)，所述神经网络***包括：

时间预测部分(8)，所述时间预测部分(8)包括至少一个神经网络，所述至少一个神经网络被训练成在给定一个或若干个先前时间帧的系数的情况下，预测表示当前时间帧的特定频带的第一输出变量集合(16)，以及

频率预测部分(9)，所述频率预测部分(9)包括至少一个神经网络，所述至少一个神经网络被训练成在给定与所述当前时间帧中的特定频带毗邻的一个或若干个频带的系数的情况下，预测表示所述特定频带的第二输出变量集合(20)，

输出级(21，22)，所述输出级(21，22)被配置为基于所述第一输出变量集合和所述第二输出变量集合，提供表示所述当前时间帧的所述特定频带的频率系数集合。

2.根据权利要求1所述的神经网络***，其中，由所述时间预测部分预测的所述第一输出变量集合(16)被用作所述频率预测部分的输入变量。

3.根据权利要求1或2所述的神经网络***，其中，所述时间预测部分包括：

时间预测循环神经网络(13)，所述时间预测循环神经网络(13)包括多个神经网络层，所述时间预测循环神经网络被训练成在给定表示所述媒体信号的前一时间帧的第一输入变量集合的情况下，预测表示所述当前时间帧的中间输出变量集合。

4.根据权利要求3所述的神经网络***，其中，所述时间预测部分进一步包括：

输入级(11)，所述输入级(11)包括神经网络，所述神经网络被训练成在给定所述媒体信号的前一时间帧的频率系数的情况下，预测所述第一输入变量集合。

5.根据权利要求4所述的神经网络***，其中，所述时间预测部分进一步包括：

频带混合神经网络(15)，所述频带混合神经网络(15)被训练成预测所述第一输出变量集合，其中，所述中间集合中的变量是通过混合表示所述特定频带和多个相邻频带的所述中间集合中的变量而形成的。

6.根据权利要求2至5中任一项所述的神经网络***，其中，所述频率预测部分包括：

频率预测循环神经网络(19)，所述频率预测循环神经网络(19)包括多个神经网络层，所述频率预测神经网络被训练成在给定所述第一输出变量集合(16)和表示所述当前时间帧的较低频带的第二输入变量集合的求和的情况下，预测所述第二输出变量集合(20)。

7.根据权利要求6所述的神经网络***，其中，所述频率预测部分进一步包括：

一个或若干个输出层(21，22)，所述一个或若干个输出层(21，22)被训练成基于所述第二输出变量集合提供所述频率系数集合。

8.根据前述权利要求中任一项所述的神经网络***，其中，每个频率系数由分布参数集合表示，其中，所述分布参数集合被配置为对所述系数的概率分布进行参数化，

其中，所述当前时间帧的所述特定频带是通过对每个频率系数的所述概率分布进行采样而获得的。

9.根据权利要求1所述的神经网络***，其中，所述频率系数对应于所述媒体信号的时频变换的仓，或者所述频率系数对应于所述媒体信号的滤波器组表示的样本。

10.一种用于生成目标媒体信号的生成模型，所述生成模型包括：

根据权利要求3所述的神经网络***(10)，以及

调理神经网络(41)，所述调理神经网络(14)被训练成在给定描述所述目标媒体信号的调理信息的情况下，预测调理变量集合，所述调理信息包括描述所述目标媒体信号的量化频率系数，

所述时间预测循环神经网络(13)被配置为将所述第一输入变量集合与所述调理变量集合的至少一个子集相组合。

11.根据权利要求10所述的生成模型，其中，所述神经网络***包括根据权利要求6所述的频率预测循环神经网络(19)，并且其中，

所述频率预测循环神经网络(19)被配置为将所述求和与所述调理变量集合的至少一个子集相组合。

12.根据权利要求10或11所述的生成模型，其中，所述调理信息包括失真频率系数集合、感知模型系数集合和频谱包络中的至少一者。

13.一种用于使用根据权利要求10所述的生成模型来获得增强的媒体信号的方法，所述方法包括以下步骤：

a)将调理信息提供(步骤S11)给所述调理神经网络，

b)对于当前时间帧的每个频带，使用所述频率预测循环神经网络来预测(步骤S12)表示该频带的频率系数集合，并将所述频率系数集合作为所述第二输入变量集合提供(步骤S13)给所述频率预测循环神经网络，

c)将表示所述当前帧所有频带的预测的频率系数集合作为所述第一输入变量集合提供(步骤S15)给所述时间预测RNN。

14.一种解码器，所述解码器包括根据权利要求10所述的生成模型。

15.一种计算机程序产品，所述计算机程序产品包括计算机可读程序代码部分，当由计算机执行时，所述计算机可读程序代码部分实施根据权利要求10至12之一所述的生成模型。