CN114866856B

CN114866856B - 音频信号的处理方法、音频生成模型的训练方法及装置

Info

Publication number: CN114866856B
Application number: CN202210486101.9A
Authority: CN
Inventors: 李楠; 郑羲光; 张晨
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2022-05-06
Filing date: 2022-05-06
Publication date: 2024-01-02
Anticipated expiration: 2042-05-06
Also published as: CN114866856A

Abstract

本公开关于一种音频信号的处理方法、音频生成模型的训练方法、装置、电子设备及存储介质，属于音频技术领域。该方法包括：在音频信号中音频帧缺失的情况下，获取该音频帧之前的历史音频帧和该音频帧之后的未来音频帧；基于该历史音频帧和该未来音频帧，合成目标音频帧，该目标音频帧的音素和语义均与该音频帧相似；基于该历史音频帧、该目标音频帧和该未来音频帧，合成与该音频信号关联的补偿信号，该补偿信号以该目标音频帧填充缺失的该音频帧。本公开能够至少改善接收端进行音频丢包补偿时的音频质量。

Description

音频信号的处理方法、音频生成模型的训练方法及装置

技术领域

本公开涉及音频技术领域，特别涉及一种音频信号的处理方法、音频生成模型的训练方法、装置、电子设备及存储介质。

背景技术

随着音频技术的发展和进步，用户能够通过终端进行实时音视频通话，或者用户还能够通过终端随时观看直播，在音视频通话和实时直播场景中，都离不开音频信号的传输技术。

由于网络波动或其他故障原因，音频信号在传输过程中经常会出现音频丢包的现象，为了改善音频丢包现象，通常在接收端检测到某一帧或者多帧音频帧丢包时，会将与该音频帧相邻且未缺失的音频帧进行复制，以将复制得到的音频帧来填充缺失的音频帧，这种音频帧复制来进行音频丢包补偿的方式，在高丢包率场景下极易出现杂音、噪音，对接收端音频信号的音频质量造成不良影响。

发明内容

本公开提供一种音频信号的处理方法、音频生成模型的训练方法、装置、电子设备及存储介质，以至少改善接收端进行音频丢包补偿时的音频质量。本公开的技术方案如下：

根据本公开实施例的一方面，提供一种音频信号的处理方法，包括：

在音频信号中音频帧缺失的情况下，获取所述音频帧之前的历史音频帧和所述音频帧之后的未来音频帧；

基于所述历史音频帧和所述未来音频帧，合成目标音频帧，所述目标音频帧的音素和语义均与所述音频帧相似；

基于所述历史音频帧、所述目标音频帧和所述未来音频帧，合成与所述音频信号关联的补偿信号，所述补偿信号以所述目标音频帧填充缺失的所述音频帧。

在一些实施例中，所述基于所述历史音频帧和所述未来音频帧，合成目标音频帧包括：

确定由所述历史音频帧和所述未来音频帧构成的音频片段；

获取所述音频片段的缺失指示信息，所述缺失指示信息用于指示所述音频片段中的任一音频帧是否缺失；

基于所述音频片段和所述缺失指示信息，合成所述目标音频帧。

在一些实施例中，所述基于所述音频片段和所述缺失指示信息，合成所述目标音频帧包括：

将所述音频片段和所述缺失指示信息融合，得到扩展音频数据；

对所述扩展音频数据进行编码，得到所述扩展音频数据的音频编码特征；

对所述音频编码特征进行解码，得到所述目标音频帧。

在一些实施例中，所述对所述扩展音频数据进行编码，得到所述扩展音频数据的音频编码特征包括：

将所述扩展音频数据输入音频生成模型，所述音频生成模型用于合成历史音频帧和未来音频帧之间缺失的目标音频帧；

通过所述音频生成模型的音频编码层，对所述扩展音频数据进行编码，得到所述音频编码特征。

在一些实施例中，所述对所述音频编码特征进行解码，得到所述目标音频帧包括：

通过所述音频生成模型的量化压缩层，对所述音频编码特征进行压缩，得到音频压缩特征；

通过所述音频生成模型的音频解码层，对所述音频压缩特征进行解码，得到所述目标音频帧。

在一些实施例中，所述音频片段为多个音频帧构成的音频帧序列，所述缺失指示信息为多个音频帧的缺失指示参数构成的参数序列；

所述将所述音频片段和所述缺失指示信息融合，得到扩展音频数据包括：

对所述音频帧序列中任一音频帧，将所述音频帧和所述参数序列中所述音频帧的缺失指示参数进行拼接，得到所述音频帧的双通道数据；

获取由多个音频帧的双通道数据构成的所述扩展音频数据。

在一些实施例中，对所述音频帧序列中任一音频帧，在所述音频帧缺失时，将所述音频帧的缺失指示参数赋值为1，在所述音频帧未缺失时，将所述音频帧的缺失指示参数赋值为0。

在一些实施例中，所述未来音频帧的帧数为目标帧数；或，所述未来音频帧的帧长为目标帧长；或，所述未来音频帧的播放持续时长为目标持续时长。

根据本公开实施例的另一方面，提供一种音频生成模型的训练方法，包括：

通过音频生成模型，获取样本音频片段关联的目标音频片段，所述样本音频片段中存在缺失的音频帧，所述目标音频片段中以合成的目标音频帧填充所述缺失的音频帧；

通过音频判别模型，获取所述样本音频片段和所述目标音频片段各自的音频判别参数，所述音频判别参数用于表征所述音频判别模型判别输入音频片段是否为机器合成信号的可能性；

基于所述音频判别参数、所述样本音频片段和所述目标音频片段，迭代调整所述音频生成模型的参数。

在一些实施例中，所述基于所述音频判别参数、所述样本音频片段和所述目标音频片段，迭代调整所述音频生成模型的参数包括：

基于所述音频判别参数，确定所述音频生成模型的判别损失项，所述判别损失项用于表征所述音频生成模型合成的目标音频帧是否能够被所述音频判别模型准确识别；

基于所述目标音频片段和所述样本音频片段，确定所述音频生成模型的重建损失项，所述重建损失项用于表征所述目标音频片段中目标音频帧与所述样本音频片段中缺失音频帧之间的差异程度；

基于所述判别损失项和所述重建损失项，迭代调整所述音频生成模型的参数。

在一些实施例中，所述基于所述目标音频片段和所述样本音频片段，确定所述音频生成模型的重建损失项包括：

基于所述样本音频片段和所述目标音频片段，获取所述音频生成模型的频谱损失项、发音损失项或者语义损失项中的至少一项；

将所述音频生成模型的频谱损失项、发音损失项或者语义损失项中的至少一项相加，得到所述重建损失项；

其中，所述频谱损失项用于表征所述样本音频片段和所述目标音频片段在在频域空间的差异程度，所述发音损失项用于表征所述样本音频片段和所述目标音频片段在音素特征空间的差异程度，所述语义损失项用于表征所述样本音频片段和所述目标音频片段在语义特征空间的差异程度。

在一些实施例中，所述基于所述样本音频片段和所述目标音频片段，获取所述音频生成模型的频谱损失项包括：

在不同采样率下，对所述样本音频片段和所述目标音频片段均进行时频变换，得到所述样本音频片段的样本频率信号和所述目标音频片段的目标频率信号；

基于不同采样率下的所述样本频率信号和所述目标频率信号，确定时频损失项和信噪损失项，所述时频损失项用于表征所述样本频率信号和所述目标频率信号在频率幅值上的差异程度，所述信噪损失项用于表征所述目标频率信号的信噪比；

基于所述时频损失项和所述信噪损失项，获取所述频谱损失项。

在一些实施例中，所述基于不同采样率下的所述样本频率信号和所述目标频率信号，确定时频损失项包括：

对任一采样率下的所述样本频率信号中任一样本音频帧的任一样本频率分量，在所述目标频率信号中确定与所述样本频率分量对应的目标频率分量；

获取所述样本频率分量的幅值和所述目标频率分量的幅值之间的L1范数；

获取所述样本频率分量的幅值的自然对数和所述目标频率分量的幅值的自然对数之间的L2范数；

基于多个采样率下的多个样本音频帧各自在多个样本频率分量上的所述L1范数和所述L2范数，获取所述时频损失项。

在一些实施例中，所述基于不同采样率下的所述样本频率信号和所述目标频率信号，确定信噪损失项包括：

将所述目标频率分量的幅值除以频率特征夹角的余弦值，得到所述目标频率信号的信号信息，所述频率特征夹角是指所述样本频率分量和所述目标频率分量在频域空间的特征夹角；

将所述目标频率分量和所述信号特征相减，得到所述目标频率信号的噪声信息；

基于多个采样率下的多个样本音频帧各自在多个样本频率分量上的所述信号信息和所述噪声信息，获取所述信噪损失项。

在一些实施例中，所述基于所述样本音频片段和所述目标音频片段，获取所述音频生成模型的发音损失项包括：

将所述样本音频片段输入音素特征提取模型，得到样本音素特征，所述样本音素特征用于表征所述样本音频片段中音频帧的音素在发音上的特征；

将所述目标音频片段输入所述音素特征提取模型，得到目标音素特征，所述目标音素特征用于表征所述目标音频片段中音频帧的音素在发音上的特征；

基于所述样本音素特征和所述目标音素特征，获取所述发音损失项。

在一些实施例中，所述基于所述样本音频片段和所述目标音频片段，获取所述音频生成模型的语义损失项包括：

将所述样本音频片段输入语义特征提取模型，得到样本语义特征，所述样本语义特征用于表征所述样本音频片段中音频帧在语义上的特征；

将所述目标音频片段输入所述语义特征提取模型，得到目标语义特征，所述目标语义特征用于表征所述目标音频片段中音频帧在语义上的特征；

基于所述样本语义特征和所述目标语义特征，获取所述语义损失项。

根据本公开实施例的另一方面，提供一种音频信号的处理装置，包括：

获取单元，被配置为执行在音频信号中音频帧缺失的情况下，获取所述音频帧之前的历史音频帧和所述音频帧之后的未来音频帧；

第一合成单元，被配置为执行基于所述历史音频帧和所述未来音频帧，合成目标音频帧，所述目标音频帧的音素和语义均与所述音频帧相似；

第二合成单元，被配置为执行基于所述历史音频帧、所述目标音频帧和所述未来音频帧，合成与所述音频信号关联的补偿信号，所述补偿信号以所述目标音频帧填充缺失的所述音频帧。

在一些实施例中，所述第一合成单元包括：

确定子单元，被配置为执行确定由所述历史音频帧和所述未来音频帧构成的音频片段；

获取子单元，被配置为执行获取所述音频片段的缺失指示信息，所述缺失指示信息用于指示所述音频片段中的任一音频帧是否缺失；

合成子单元，被配置为执行基于所述音频片段和所述缺失指示信息，合成所述目标音频帧。

在一些实施例中，所述合成子单元包括：

融合子子单元，被配置为执行将所述音频片段和所述缺失指示信息融合，得到扩展音频数据；

编码子子单元，被配置为执行对所述扩展音频数据进行编码，得到所述扩展音频数据的音频编码特征；

解码子子单元，被配置为执行对所述音频编码特征进行解码，得到所述目标音频帧。

在一些实施例中，所述编码子子单元被配置为执行：

在一些实施例中，所述解码子子单元被配置为执行：

所述融合子子单元被配置为执行：

获取由多个音频帧的双通道数据构成的所述扩展音频数据。

根据本公开实施例的另一方面，提供一种音频生成模型的训练装置，包括：

第一获取单元，被配置为执行通过音频生成模型，获取样本音频片段关联的目标音频片段，所述样本音频片段中存在缺失的音频帧，所述目标音频片段中以合成的目标音频帧填充所述缺失的音频帧；

第二获取单元，被配置为执行通过音频判别模型，获取所述样本音频片段和所述目标音频片段各自的音频判别参数，所述音频判别参数用于表征所述音频判别模型判别输入音频片段是否为机器合成信号的可能性；

参数调整单元，被配置为执行基于所述音频判别参数、所述样本音频片段和所述目标音频片段，迭代调整所述音频生成模型的参数。

在一些实施例中，所述参数调整单元包括：

第一确定子单元，被配置为执行基于所述音频判别参数，确定所述音频生成模型的判别损失项，所述判别损失项用于表征所述音频生成模型合成的目标音频帧是否能够被所述音频判别模型准确识别；

第二确定子单元，被配置为执行基于所述目标音频片段和所述样本音频片段，确定所述音频生成模型的重建损失项，所述重建损失项用于表征所述目标音频片段中目标音频帧与所述样本音频片段中缺失音频帧之间的差异程度；

参数调整子单元，被配置为执行基于所述判别损失项和所述重建损失项，迭代调整所述音频生成模型的参数。

在一些实施例中，所述第二确定子单元包括：

获取子子单元，被配置为执行基于所述样本音频片段和所述目标音频片段，获取所述音频生成模型的频谱损失项、发音损失项或者语义损失项中的至少一项；

相加子子单元，被配置为执行将所述音频生成模型的频谱损失项、发音损失项或者语义损失项中的至少一项相加，得到所述重建损失项；

在一些实施例中，所述获取子子单元包括：

变换子子子单元，被配置为执行在不同采样率下，对所述样本音频片段和所述目标音频片段均进行时频变换，得到所述样本音频片段的样本频率信号和所述目标音频片段的目标频率信号；

确定子子子单元，被配置为执行基于不同采样率下的所述样本频率信号和所述目标频率信号，确定时频损失项和信噪损失项，所述时频损失项用于表征所述样本频率信号和所述目标频率信号在频率幅值上的差异程度，所述信噪损失项用于表征所述目标频率信号的信噪比；

获取子子子单元，被配置为执行基于所述时频损失项和所述信噪损失项，获取所述频谱损失项。

在一些实施例中，所述确定子子子单元被配置为执行：

在一些实施例中，所述获取子子单元被配置为执行：

根据本公开实施例的另一方面，提供一种电子设备，包括：

一个或多个处理器；

用于存储所述一个或多个处理器可执行指令的一个或多个存储器；

其中，所述一个或多个处理器被配置为执行上述一方面的任一种可能实施方式中的音频信号的处理方法或音频生成模型的训练方法。

根据本公开实施例的另一方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的至少一条指令由电子设备的一个或多个处理器执行时，使得所述电子设备能够执行上述一方面的任一种可能实施方式中的音频信号的处理方法或音频生成模型的训练方法。

根据本公开实施例的另一方面，提供一种计算机程序产品，包括一条或多条指令，所述一条或多条指令可以由电子设备的一个或多个处理器执行，使得所述电子设备能够执行上述一方面的任一种可能实施方式中的音频信号的处理方法或音频生成模型的训练方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

通过在音频帧发生丢失时，利用音频帧的上下文信息即历史音频帧和未来音频帧，合成与缺失音频帧在频率、音素、语义各种维度上均相似的目标音频帧，并利用目标音频帧来填充缺失音频帧，实现对音频信号的丢包补偿机制，这一丢包补偿机制并非是对历史音频帧或未来音频帧的简单复制，而是通过合成更加自然、流畅、高音质的目标音频帧，能够避免在传统音频帧复制的丢包补偿机制下极易出现的杂音、噪音，从而能够避免由于丢包补偿机制而对接收端音频信号的音频质量造成不良影响，即，经过丢包补偿的补偿信号具有更高的音频质量和更好的播放效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是本公开实施例提供的一种音频信号的处理方法的实施环境示意图；

图2是本公开实施例示出的一种音频信号的处理方法的流程图；

图3是本公开实施例示出的一种音频信号的处理方法的流程图；

图4是本公开实施例提供的一种音频生成模型的训练方法的流程图；

图5是本公开实施例提供的一种音频生成模型的训练和推理阶段流程图；

图6是本公开实施例示出的一种音频信号的处理装置的逻辑结构框图；

图7是本公开实施例示出的一种音频生成模型的训练装置的逻辑结构框图；

图8示出了本公开实施例提供的一种电子设备的结构框图；

图9是本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在一些实施例中，A和/或B的含义包括：A和B，A，B这三种情况。

本公开所涉及的用户信息可以为经用户授权或者经过各方充分授权的信息。需要说明的是，本申请所涉及的信息(包括但不限于用户的设备信息、行为信息、个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号，均为经用户授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如，本申请中涉及到的音频信号都是在充分授权的情况下获取的。

以下，对本公开实施例涉及的术语进行解释说明。

基于IP的音频传输(Voice over Internet Protocol，VoIP)：VoIP是一种音频通话技术，经由网际协议(Internet Protocol，IP)来达成音频通话与多媒体会议，也就是经由互联网来进行音频通信。VoIP又称为IP电话、互联网电话(或网络电话)、宽带电话以及宽带电话服务。VoIP技术可用于包括VoIP电话、智能手机、个人计算机在内的诸多互联网接入设备，通过蜂窝网络、WiFi(Wireless Fidelity，无线保真)网络进行音频通话(或音视频通话)及发送短信。

丢包隐藏(Packet Loss Concealment，PLC)：又称为丢包补偿机制，PLC是媒体引擎用来解决网络丢包问题的一种补偿机制。当媒体引擎在接收一系列媒体流数据包(如音频流数据包)时，由于网络丢包现象时有发生，并不能保证所有的数据包都被接收到。以VoIP通话场景为例，发送端向接收端源源不断地发送一系列音频流数据包，如果接收端发现有某一个或多个数据包丢失，此时为了对丢失的数据包中音频帧进行补偿或恢复，PLC机制就会起作用。PLC并不是标准一致，即允许媒体引擎和媒体编解码器根据自身情况加以实现和扩展。

生成对抗网络(Generative Adversarial Networks，GAN)：GAN是深度学习领域的一个重要生成模型，也是一种无监督深度学习模型，用来通过计算机生成数据(如生成音频数据)。

在GAN架构下，涉及到一个生成器(Generator，即生成模型)和一个判别器(Discriminator，即判别模型)，其中，生成器通过机器来生成数据，优化目标是尽可能“骗过”判别器，让判别器分辨不出来输入数据是否为机器生成；判别器则用于判断输入数据是真实数据还是生成器所生成的数据，优化目标是尽可能找出生成器伪造的“假数据”。

在GAN的动态对抗(或互相博弈)过程中，生成器和判别器在同一时间训练并且在极小化极大算法(Minimax)中进行竞争，并通过互相博弈学***也会越来越高，在理想的状态下，训练完毕时的生成器能够生成足以“以假乱真”的数据；而对于判别器来说，判别器将难以判定生成器生成的数据究竟是不是真实的。

GAN的对抗方式避免了一些传统生成模型在实际应用中的一些困难，巧妙地通过对抗学习来近似一些不可解的损失函数，在语音、音乐、图像、视频、自然语言等数据的生成方面有着广泛应用。

优化的尺度不变信噪比(Optimal Scale-Invariant Signal-to-Noise Ratio，OSISNR)：一种获取信噪比的方式，能够衡量在不同尺度下待测信号的信噪比，针对待测信号为音频信号的情况，OSISNR能够衡量不同采样率下音频信号的信噪比。

音素增强感知损失(Phone-Fortified Perceptual Loss，PFPL)：针对任意音频信号，依赖音频波形转向量模型，对该音频信号转换得到对应的音素特征，不同音频信号的音素特征之间的差异程度即为PFPL。上述音频波形转向量模型，能够将音频信号从时域空间转换到音素向量空间，使得音素特征能够表征出来所关联音频信号在发音上的特征，这一音素特征相当于反映了人类对该音频信号在听感上的感知特性，因此不同音频信号的音素特征之间的差异程度，反映了不同音频信号在音素增强感知维度的损失。

声学语音识别(Acoustic Speech Recognition，ASR)：又称为自动语音识别技术，是一种将人的语音转换为文本的技术。语音识别是一个多学科交叉的领域，它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。

在基于VoIP的音频传输过程中，发送端采集到一系列的音频数据包之后，通过IP协议向接收端源源不断地发送这些音频数据包，达到音频信号的流式传输，但由于网络波动、网络信号差等不良网络环境的原因，音频数据包在网络传输中经常会出现丢包现象，接收端无法保证发送端发出的所有音频数据包都被接收到，这些在网络传输中丢失的音频数据包，会严重影响到接收端播放音频的流畅性，尤其是实时通讯、直播互动等场景下，一旦出现音频流畅性差、音频卡顿等现象，将会极大损害用户的通话体验。

目前，针对音频丢包现象，接收端会在检测到某一帧或者多帧音频帧缺失时，对与该音频帧相邻且未缺失的音频帧进行复制，并以复制得到的音频帧来填充缺失的音频帧，此外，在缺失音频帧较多时，可能会反复使用某个音素或音节的音频帧来复制填充缺失的多个音频帧，但单个音素或音节的重复在听感上极易表现为嗡嗡声或突变的噪声，因此通常还会对填充了缺失音频帧之后的整个音频片段进行平滑，最终输出经过平滑后的音频片段，达到音频丢包补偿的效果。然而，在高丢包率的情况下，即使经过了平滑的音频片段仍然会存在大量的杂音、噪音，严重影响了接收端播放的音频质量。

有鉴于此，针对音频丢包现象，本公开实施例提供一种基于神经网络的高音质、低延迟的音频PCL方式，能够高质量地补偿丢失的音频信号，同时还能够将音频PCL算法的延迟控制在20ms(毫秒)以内，即最多利用缺失音频帧在未来20ms内的未来音频帧，来合成用于补偿的目标音频帧，从而能够在高质量进行丢包补偿的同时，仅带来了极低的时延，这针对实时通讯、直播互动等实时性要求较高的场景具有重大意义。

以下，对本公开实施例的***架构进行说明。

图1是本公开实施例提供的一种音频信号的处理方法的实施环境示意图。参见图1，在该实施环境中包括第一终端120、服务器140和第二终端160。

第一终端120安装和运行有支持VoIP服务的应用程序，其中，VoIP服务包括：基于VoIP的多方实时音频通话或音视频通话、基于VoIP的音频会议或音视频会议、基于VoIP的网络直播等，本公开实施例不对VoIP服务的类型进行具体限定。可选地，上述支持VoIP服务的应用程序包括：直播应用、短视频应用、音视频应用、内容分享应用、内容生成应用、远程会议应用、远程会诊应用、社交应用、IP电话应用、通话应用等，本公开实施例对该应用程序的类型不进行具体限定。

第一终端120以及第二终端160通过有线或无线通信方式与服务器140进行直接或间接地通信连接。

服务器140包括一台服务器、多台服务器、云计算平台或者虚拟化中心中的至少一种。服务器140用于为支持VoIP服务的应用程序提供后台服务。可选地，服务器140承担主要音频处理工作，第一终端120和第二终端160承担次要音频处理工作；或者，服务器140承担次要音频处理工作，第一终端120和第二终端160承担主要音频处理工作；或者，服务器140、第一终端120和第二终端160三者之间采用分布式计算架构协同进行音频处理工作。

可选地，服务器140是独立的物理服务器，或者是多个物理服务器构成的服务器集群或者分布式***，或者是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)以及大数据和人工智能平台等基础云计算服务的云服务器。

第二终端160安装和运行有支持VoIP服务的应用程序，其中，VoIP服务包括：基于VoIP的多方实时音频通话或音视频通话、基于VoIP的音频会议或音视频会议、基于VoIP的网络直播等，本公开实施例不对VoIP服务的类型进行具体限定。可选地，上述支持VoIP服务的应用程序包括：直播应用、短视频应用、音视频应用、内容分享应用、内容生成应用、远程会议应用、远程会诊应用、社交应用、IP电话应用、通话应用等，本公开实施例对该应用程序的类型不进行具体限定。

示意性地，以网络直播场景为例，第一终端120是主播用户所使用的终端，主播用户在第一终端120上启动直播应用，主播用户在该直播应用中登录主播账号，并基于直播发起控件来在直播平台中发起直播(即开播、启播)，第一终端120会采集得到主播用户的直播数据流，直播数据流包括直播音频流和直播画面流，第一终端120将主播用户的直播数据流推流到服务器140。接着，服务器140将主播账号与该直播数据流进行关联存储。第二终端160是观众用户所使用的终端，观众用户在第二终端160上启动直播应用，在直播应用中翻看自身订阅或被服务器140推荐的直播间，当观众用户点击进入到上述主播用户的直播间时，第二终端160向服务器140发送携带该直播间所对应主播账号的资源加载请求，服务器140查询到与该主播账号关联存储的直播数据流，并将查询得到的直播数据流推流到第二终端160。

由于网络波动、网络信号差等不良网络环境的影响，仅针对直播音频流来说，在直播音频流从第一终端120推流到服务器140，或者在第二终端160从服务器140中拉流的过程中，均可能会发生音频丢包，因此第二终端160侧接收到的直播音频流中很可能会存在缺失的音频帧，基于本公开实施例提供的音频信号的处理方法，能够利用音频生成模型合成与缺失音频帧很相似的目标音频帧，从而有效抑制通过音频帧复制技术进行PLC时可能产生的杂音或噪音，实现高音质的音频丢包补偿PLC机制，进一步的，在合成目标音频帧时，仅利用了部分历史音频帧和不超过一定帧数或帧长的未来音频帧，能够将PLC机制的时延控制在20ms以内，从而在接收端(即第二终端160)侧实现高音质、低延时的PLC机制，提高直播音频流的播放音质和流畅度，改善观众用户的直播观看体验。

示意性地，以实时双人语音通话场景为例，第一终端120是第一用户所使用的终端，第一用户在第一终端120上启动社交应用，第一用户在该社交应用中登录第一账号，并基于与第二账号的聊天界面中的通话选项，触发第一终端120向服务器140发送针对第二账号的通话请求，该通话请求用于请求第二账号加入双人语音通话，服务器140将该通话请求转发至该第二账号所登录的第二终端160，如果第二账号同意加入该双人语音通话，那么第一终端120和第二终端160能够基于VoIP技术进行线上语音交流。这里仅以两个终端进行多人语音通话为例说明，本公开实施例还适用于三人或三人以上的语音通话场景，这里不做赘述。

由于网络波动、网络信号差等不良网络环境的影响，在双人语音通话中，第一终端120通过服务器140发送到第二终端160的音频信号，或者，第二终端160通过服务器140发送到第一终端120的音频信号，均可能会发生音频丢包，因此第一终端120或第二终端160侧接收到的音频信号中很可能会存在缺失的音频帧，基于本公开实施例提供的音频信号的处理方法，能够利用音频生成模型合成与缺失音频帧很相似的目标音频帧，从而有效抑制通过音频帧复制技术进行PLC时可能产生的杂音或噪音，实现高音质的音频丢包补偿PLC机制，进一步的，在合成目标音频帧时，仅利用了部分历史音频帧和不超过一定帧数或帧长的未来音频帧，能够将PLC机制的时延控制在20ms以内，从而在接收端(可能是第一终端120或第二终端160)侧实现高音质、低延时的PLC机制，提高语音通话中音频信号的播放音质和流畅度，改善参与语音通话的用户的接听体验。

示意性地，以多人远程会议场景为例，第一终端120是会议主持人所使用的终端，会议主持人在第一终端120上启动远程会议应用，并创建一个新的网络会议，指定该网络会议的开始时间，服务器140向该网络会议分配会议号，在到达该网络会议的开始时间之后，会议主持人在该远程会议应用中输入该会议号，从而接入到该网络会议中，同理，第二终端160是该网络会议的任一参与人员所使用的终端，参与人员在该远程会议应用中输入该会议号，从而接入到该网络会议中。

由于网络波动、网络信号差等不良网络环境的影响，在网络会议中，会议主持人或者参会人员对麦克风讲出的音频信号，均可能在通过服务器140同步至各个参与终端的过程中发生音频丢包，即第一终端120或第二终端160接收到的音频信号中很可能会存在缺失的音频帧，基于本公开实施例提供的音频信号的处理方法，能够利用音频生成模型合成与缺失音频帧很相似的目标音频帧，从而有效抑制通过音频帧复制技术进行PLC时可能产生的杂音或噪音，实现高音质的音频丢包补偿PLC机制，进一步的，在合成目标音频帧时，仅利用了部分历史音频帧和不超过一定帧数或帧长的未来音频帧，能够将PLC机制的时延控制在20ms以内，从而在接收端(可能是第一终端120或第二终端160)侧实现高音质、低延时的PLC机制，提高网络会议中音频信号的播放音质和流畅度，改善参与网络会议的用户的参会体验。

可选地，第一终端120和第二终端160上安装的应用程序是相同的，或两个终端上安装的应用程序是不同操作***平台的同一类型应用程序，或两个终端上安装的应用程序是同一类型应用程序针对不同型号的终端开发的不同版本，例如，第一终端120为台式计算机则安装PC(Personal Computer，个人计算机)端应用，第二终端160为智能手机则安装移动端应用。

第一终端120可以泛指多个终端中的一个，第二终端160可以泛指多个终端中的一个，本公开实施例仅以第一终端120和第二终端160来举例说明。第一终端120和第二终端160的设备类型相同或不同，该设备类型包括：智能手机、平板电脑、智能音箱、智能手表、笔记本电脑或者台式计算机中的至少一种，但并不局限于此。例如，第一终端120可以是台式计算机，第二终端160可以是智能手机，或者，第一终端120和第二终端160均为智能手机或其他手持便携式通信设备。

本领域技术人员可以知晓，上述终端的数量可以更多或更少。比如上述终端可以仅为一个，或者上述终端为几十个或几百个，或者更多数量。本公开实施例对终端的数量和设备类型不加以限定。

图2是本公开实施例示出的一种音频信号的处理方法的流程图，参见图2，该音频信号的处理方法由电子设备执行，下面以电子设备为终端为例进行说明，例如，该电子设备为上述实施环境中涉及的音频信号的接收方终端。

在步骤201中，终端在音频信号中音频帧缺失的情况下，获取该音频帧之前的历史音频帧和该音频帧之后的未来音频帧。

在步骤202中，终端基于该历史音频帧和该未来音频帧，合成目标音频帧，该目标音频帧的音素和语义均与该音频帧相似。

在步骤203中，终端基于该历史音频帧、该目标音频帧和该未来音频帧，合成与该音频信号关联的补偿信号，该补偿信号以该目标音频帧填充缺失的该音频帧。

本公开实施例提供的方法，通过在音频帧发生丢失时，利用音频帧的上下文信息即历史音频帧和未来音频帧，合成与缺失音频帧在频率、音素、语义各种维度上均相似的目标音频帧，并利用目标音频帧来填充缺失音频帧，实现对音频信号的丢包补偿机制，这一丢包补偿机制并非是对历史音频帧或未来音频帧的简单复制，而是通过合成更加自然、流畅、高音质的目标音频帧，能够避免在传统音频帧复制的丢包补偿机制下极易出现的杂音、噪音，从而能够避免由于丢包补偿机制而对接收端音频信号的音频质量造成不良影响，即，经过丢包补偿的补偿信号具有更高的音频质量和更好的播放效果。

在一些实施例中，基于该历史音频帧和该未来音频帧，合成目标音频帧包括：

确定由该历史音频帧和该未来音频帧构成的音频片段；

获取该音频片段的缺失指示信息，该缺失指示信息用于指示该音频片段中的任一音频帧是否缺失；

基于该音频片段和该缺失指示信息，合成该目标音频帧。

在一些实施例中，基于该音频片段和该缺失指示信息，合成该目标音频帧包括：

将该音频片段和该缺失指示信息融合，得到扩展音频数据；

对该扩展音频数据进行编码，得到该扩展音频数据的音频编码特征；

对该音频编码特征进行解码，得到该目标音频帧。

在一些实施例中，对该扩展音频数据进行编码，得到该扩展音频数据的音频编码特征包括：

将该扩展音频数据输入音频生成模型，该音频生成模型用于合成历史音频帧和未来音频帧之间缺失的目标音频帧；

通过该音频生成模型的音频编码层，对该扩展音频数据进行编码，得到该音频编码特征。

在一些实施例中，对该音频编码特征进行解码，得到该目标音频帧包括：

通过该音频生成模型的量化压缩层，对该音频编码特征进行压缩，得到音频压缩特征；

通过该音频生成模型的音频解码层，对该音频压缩特征进行解码，得到该目标音频帧。

在一些实施例中，该音频片段为多个音频帧构成的音频帧序列，该缺失指示信息为多个音频帧的缺失指示参数构成的参数序列；

将该音频片段和该缺失指示信息融合，得到扩展音频数据包括：

对该音频帧序列中任一音频帧，将该音频帧和该参数序列中该音频帧的缺失指示参数进行拼接，得到该音频帧的双通道数据；

获取由多个音频帧的双通道数据构成的该扩展音频数据。

在一些实施例中，对该音频帧序列中任一音频帧，在该音频帧缺失时，将该音频帧的缺失指示参数赋值为1，在该音频帧未缺失时，将该音频帧的缺失指示参数赋值为0。

在一些实施例中，该未来音频帧的帧数为目标帧数；或，该未来音频帧的帧长为目标帧长；或，该未来音频帧的播放持续时长为目标持续时长。

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

图3是本公开实施例示出的一种音频信号的处理方法的流程图，参见图3，该音频信号的处理方法由电子设备执行，下面以电子设备为终端为例进行说明，例如，该电子设备为上述实施环境中涉及的音频信号的接收方终端。

在步骤301中，终端接收音频信号。

终端是接收音频信号的任一电子设备，终端上安装和运行有支持VoIP服务的应用程序，可选地，VoIP服务包括：基于VoIP的多方实时音频通话或音视频通话、基于VoIP的音频会议或音视频会议、基于VoIP的网络直播等，本公开实施例不对VoIP服务的类型进行具体限定。

可选地，上述支持VoIP服务的应用程序包括：直播应用、短视频应用、音视频应用、内容分享应用、内容生成应用、远程会议应用、远程会诊应用、社交应用、IP电话应用、通话应用等，本公开实施例对该应用程序的类型不进行具体限定。

在一些实施例中，响应于用户对应用程序的启动操作，终端启动该应用程序，例如，该启动操作是用户在终端的桌面上对该应用程序的图标进行了触摸操作，或者，用户向智能助手输入对该应用程序的启动指令，该启动指令包括语音指令或者文本指令，本公开实施例不对启动指令的类型进行具体限定。可选地，在用户为该应用程序设置了自动启动条件时，终端在检测到符合该应用程序的自动启动条件时，由操作***自动启动该应用程序，例如，该自动启动条件是开机自动启动，或者定时自动启动，例如在指定音视频会议开始之前5分钟自动启动该应用程序等，本公开实施例不对该应用程序的自动启动条件进行具体限定。

在应用程序启动后，显示该应用程序的主界面，该主界面中显示有账号登录选项，用户对该账号登录选项执行触发操作，在该应用程序中登录该用户的账号，并在登录完毕后返回该主界面，用户能够在该主界面中接入VoIP服务，比如，用户进入指定的音视频会议，或者，用户接听了音视频通话，或者，用户打开了某个主播账号关联的直播间，本公开实施例对此不进行具体限定。需要说明的是，用户在接入VoIP服务时，不一定需要预先登录自身账号，比如，在观看网络直播场景下，如果用户不登录自身账号，能够以游客身份观看直播，但是只有在登录自身账号后，才能够执行向主播赠送虚拟礼物、发表弹幕、关注主播账号等互动行为。

在一些实施例中，终端在应用程序中接入VoIP服务后，能够接收服务器转发的发送方终端传来的音频信号，可选地，在VoIP服务的音频信号传输过程中，发送方终端采集到音频信号后，通过预设的音频压缩算法对原始的音频信号进行编码压缩，得到压缩后的音频信号，接着，利用TCP(Transmission Control Protocol，传输控制协议)/IP标准对压缩后的音频信号进行打包，得到打包后的音频信号，接着，通过IP网络将打包后的音频信号发送到服务器，由服务器再将打包后的音频信号转发到接收方终端(即本步骤301涉及的执行主体)。

可选地，打包后的音频信号在通过IP网络进行音频传输时，通常都会以音频数据包的形式进行传输，而在VoIP业务中这些音频数据包通常都是源源不断流式传输的，因此终端会接收到一串音频数据包，终端对音频数据包进行解析、解压缩之后，能够恢复出来原始的音频信号。

可选地，在一些网络直播场景下，音频信号并非以音频数据包为单位进行流式传输，而是以媒体帧(包括音频帧和画面帧)为单位进行帧级传输，终端解析接收到的媒体帧，能够恢复出来原始的媒体帧。

不管音频信号是以音频数据包为单位进行流式传输，还是以媒体帧为单位进行帧级传输，这些音频数据包(相当于打包后的多个音频帧)或媒体帧都极有可能因为网络环境差等原因，在IP网络的传输过程中丢失掉，使得接收方终端无法接收到发送方终端发送的全部音频帧，此时，接收方终端通过本公开实施例提供的音频信号的处理方法，能够对音频信号中缺失的一个或多个音频帧进行补偿，从而避免接收方终端对音频信号的播放音质受到不良影响。

在步骤302中，终端在音频信号中音频帧缺失的情况下，获取该音频帧之前的历史音频帧和该音频帧之后的未来音频帧。

在一些实施例中，终端检测该音频信号中是否存在缺失的音频帧，比如，终端在恢复得到音频信号后，查询音频信号中相邻音频帧的时间戳是否连续，如果相邻音频帧的时间戳发生了跳变，说明这一对相邻音频帧中间存在缺失的一个或多个音频帧。需要说明的是，对于任意一对相邻音频帧，假设该相邻音频帧的时间戳不连续，那么通过下述步骤303-307，能够利用历史音频帧和未来音频帧，补全该相邻音频帧中缺失的所有音频帧，比如缺失N(N≥1)个音频帧时，能够补全得到N个目标音频帧。进一步的，假设音频信号中存在多个相邻音频帧的时间戳不连续，代表音频信号中存在多段缺失的音频帧，每段缺失的音频帧都可能是一帧或多帧，因此对每段缺失的音频帧都执行步骤303-307，从而能够补全音频信号中多段缺失的音频帧，本公开实施例仅以任意一段缺失的音频帧的补全方式为例进行说明。

在一些实施例中，当终端检测到音频信号中相邻音频帧的时间戳不连续，说明这一对相邻音频帧中间存在缺失的一个或多个音频帧，接着，从该缺失的一个或多个音频帧中，确定缺失的第一个音频帧和缺失的最后一个音频帧，其中，缺失的第一个音频帧是指缺失的一个或多个音频帧中时间戳最小的音频帧，缺失的最后一个音频帧是指缺失的一个或多个音频帧中时间戳最大的音频帧。接着，获取该缺失的第一个音频帧之前的一个或多个未缺失的历史音频帧，以及该缺失的最后一个音频帧之后的一个或多个未缺失的未来音频帧。

在一些实施例中，在获取历史音频帧时，获取指定数量的历史音频帧，比如获取N₁个历史音频帧，N₁为大于或等于1的整数；或者，获取指定帧长的历史音频帧，比如获取帧长为128字节的历史音频帧；或者，获取指定播放持续时长的历史音频帧，比如获取播放持续时长为40ms(毫秒)的历史音频帧，本公开实施例对历史音频帧的选取方式不进行具体限定。

在一些实施例中，在获取未来音频帧时，获取指定数量的未来音频帧，比如获取N₂个未来音频帧，换言之，未来音频帧的帧数为目标帧数N₂，N₂为大于或等于1的整数；或者，获取指定帧长的历史音频帧，比如获取帧长为128字节的历史音频帧，换言之，未来音频帧的帧长为目标帧长，目标帧长为大于0的数值；或者，获取指定播放持续时长的历史音频帧，比如获取播放持续时长为40ms(毫秒)的历史音频帧，换言之，未来音频帧的播放持续时长为目标持续时长，目标持续时长为任一大于0的数值，本公开实施例对历史音频帧的选取方式不进行具体限定。

由于需要利用缺失的音频帧之前的历史音频帧和之后的未来音频帧，合成与缺失的音频帧尽可能相似的目标音频帧，这意味着，假设在检测到缺失的音频帧之后，终端还没有接收到未来音频帧(即未来音频帧尚未产生，或未来音频帧还没传输到达接收方终端)，终端需要等待未来音频帧到达之后，才能够合成目标音频帧并播放目标音频帧，换言之，合成目标音频帧需要用到多少未来音频帧，决定了终端播放音频信号的时延，本公开实施例通过控制获取的未来音频帧的目标帧数、目标帧长或目标持续时长，能够高度控制由于音频丢包补偿所带来的时延，例如，控制未来音频帧的播放持续时长小于或等于20ms时，能够将音频丢包补偿的时延压缩到20ms以内，能够达到极低时延的音频丢包补偿效果。

在步骤303中，终端确定由该历史音频帧和该未来音频帧构成的音频片段。

在一些实施例中，终端将上述步骤302获取到的一个或多个历史音频帧、一个或多个缺失的音频帧以及一个或多个未来音频帧构成一个音频片段，比如，在音频片段中除了历史音频帧和未来音频帧之外，由于缺失的音频帧已经不可获取，终端使用空白音频帧来填充缺失的音频帧，相当于将这些一个或多个缺失的音频帧初始化为空白音频帧，接着利用历史音频帧和未来音频帧，能够预测这些空白音频帧本身应该具有哪些频率和幅度，从而合成一个目标音频帧，并能够使得机器合成的目标音频帧尽可能与缺失的音频帧保持相似。换言之，上述音频片段为多个音频帧构成的音频帧序列，该音频帧序列中包括历史音频帧、空白音频帧和未来音频帧，且该音频帧序列中相邻音频帧的时间戳都是连续的。

在步骤304中，终端获取该音频片段的缺失指示信息，该缺失指示信息用于指示该音频片段中的任一音频帧是否缺失。

其中，该缺失指示信息为多个音频帧的缺失指示参数构成的参数序列。

在一些实施例中，终端基于上述步骤303获取到的音频片段即音频帧序列，能够对音频帧序列中的每个音频帧都赋值一个缺失指示参数，各个音频帧的缺失指示参数能够按照时间戳顺序构成一个参数序列，这一参数序列就是音频片段的缺失指示信息。

在一些实施例中，假设每个音频帧的缺失指示参数都是二值数据，二值数据是指要么取值为1要么取值为0的数据类型，在这种情况下，对该音频帧序列中任一音频帧，在该音频帧缺失时，即该音频帧为空白音频帧时，将该音频帧的缺失指示参数赋值为1；在该音频帧未缺失时，即该音频帧不是空白音频帧时，将该音频帧的缺失指示参数赋值为0。

在一些实施例中，假设每个音频帧的缺失指示参数都是布尔型数据，布尔型数据是指要么取值为True(真)要么取值为False(假)的数据类型，在这种情况下，对该音频帧序列中任一音频帧，在该音频帧缺失时，即该音频帧为空白音频帧时，将该音频帧的缺失指示参数赋值为True；在该音频帧未缺失时，即该音频帧不是空白音频帧时，将该音频帧的缺失指示参数赋值为False。

在一些实施例中，当缺失指示参数是二值数据时，也可以定义取值为1代表音频帧未缺失、取值为0代表音频帧缺失，或者，当缺失指示参数是布尔型数据时，也可以定义取值为True代表音频帧未缺失、取值为False代表音频帧缺失，技术人员可根据需求配置不同类型、不同赋值规则的缺失指示参数，本公开实施例对缺失指示参数的数据类型和赋值规则不进行具体限定。

在步骤305中，终端将该音频片段和该缺失指示信息融合，得到扩展音频数据。

在一些实施例中，由于音频片段本质上是一个音频帧序列，对该音频帧序列中任一音频帧，该音频帧可能是历史音频帧、空白音频帧或未来音频帧中任一种，终端在缺失指示信息即参数序列中找到该音频帧的缺失指示参数，接着，将该音频帧和该音频帧的缺失指示参数进行拼接，得到该音频帧的双通道数据，换言之，双通道数据中一个通道代表音频帧本身的时域声音信号，另一个通道代表音频帧的缺失指示参数，终端对音频帧序列中每个音频帧都获取到一个双通道数据，最终能够获取得到由多个音频帧的双通道数据构成的扩展音频数据。

示意性地，以s(t)代表音频帧序列中时间戳为t的音频帧，使用S_n代表第n个音频数据包，假设S_n在音频传输中发生丢包，那么S_n中包含的所有音频帧均缺失，假设S_n的帧数为L，L是指播放持续时长为1秒的音频信号所包含的音频帧个数，那么存在S_n＝[s(t_n)，...，s(t_n+L-1)]，例如，对于采样率为16000Hz(赫兹)的音频信号，L＝16。此外，以l(t)代表音频帧序列中时间戳为t的音频帧的缺失指示参数，那么在l(t)为二值的情况下，l(t)可以定义为：

对音频帧序列中的时间戳为t的音频帧s(t)，将音频帧s(t)和其缺失指示参数l(t)能够拼接组合成一个双通道数据，对音频帧序列中所有音频帧均执行上述操作后，能够得到所有音频帧各自的双通道数据共同构成的扩展音频数据。

在步骤306中，终端对该扩展音频数据进行编码，得到该扩展音频数据的音频编码特征。

在一些实施例中，利用一个训练完毕的音频生成模型来执行本步骤306的编码操作，以及下一步骤307的解码操作，该音频生成模型的训练方法将在下一实施例中进行详细介绍，这里不做赘述。可选地，该音频生成模型是基于GAN架构对抗训练得到的模型，GAN架构中包括一个生成器和一个判别器，生成器用于尽量生成能够欺骗到判别器的目标音频帧，而判别器则用于尽量区分出来哪些是真实音频帧、哪些是生成器合成的音频帧，在满足训练的停止条件时，所得的训练完毕的生成器，就是本公开实施例涉及的音频生成模型。

在一些实施例中，该音频生成模型用于合成历史音频帧和未来音频帧之间缺失的目标音频帧，音频生成模型的输入信号是上述步骤305获取到的扩展音频数据，输出信号则可以是目标音频帧，或者，输出信号还可以是使用目标音频帧替换掉缺失的音频帧(即初始化后的空白音频帧)之后所得的补偿信号，本公开实施例对输出信号不进行具体限定。

在一些实施例中，音频生成模型由服务器训练完毕后，将音频生成模型的模型参数集合进行剪枝、压缩，将剪枝、压缩后的模型参数集合嵌入到支持VoIP服务的应用程序的SDK(Software Development Kit，软件开发工具包)中，并通过SDK下发到各个安装了该应用程序的终端，从而能够通过在移动端部署音频生成模型，以实现移动端的音频丢包补偿机制。

在一些实施例中，该音频生成模型可以是任一基于神经网络架构的机器学习模型，例如，该音频生成模型的模型架构包括：SoundStream(语音流)模型、U-Net(U型网络)模型、DRNN(Deep Recurrent Neural Network，深度循环神经网络)等，本公开实施例不对音频生成模型的模型架构进行具体限定。

示意性地，以音频生成模型为SoundStream模型为例进行说明，SoundStream模型包括一个或多个音频编码层、一个或多个量化压缩层和一个或多个音频解码层，音频编码层用于对输入信号进行音频编码以得到编码信号，量化压缩层用于对编码信号进行特征向量的量化压缩以得到压缩信号，音频解码层则用于对压缩信号进行解码恢复以得到目标音频帧，需要说明的是，音频编码层和音频解码层通常需要保持对称(即两者层数一致)。

在一些实施例中，终端将该扩展音频数据输入到音频生成模型中，通过该音频生成模型的一个或多个音频编码层，对该扩展音频数据进行编码，得到该扩展音频数据的音频编码特征。

可选地，音频生成模型中的一个或多个音频编码层是互相串联的，除了第一个音频编码层以扩展音频数据作为输入信号之外，其余的每个音频编码层都以上一音频编码层输出的特征向量作为输入信号，并在音频编码层中对输入信号进行音频编码，将音频编码得到的特征向量输入到下一个音频编码层中，重复执行上述操作直到最后一个音频编码层输出该音频编码特征。

在步骤307中，终端对该音频编码特征进行解码，得到目标音频帧，该目标音频帧的音素和语义均与缺失的该音频帧相似。

在一些实施例中，对于任一具有编解码架构的音频生成模型，通过音频编码层获取到音频编码特征之后，可以直接利用音频解码层来对音频编码特征进行解码，以获取到最终恢复的目标音频帧，这样能够简化目标音频帧的合成流程。

示意性地，以音频生成模型为SoundStream模型为例进行说明，由于SoundStream模型的音频编码层可以生成采用无限数量值的特征向量(即音频编码特征)，为了使用有限数量的比特来将音频编码特征传输到音频解码层，则必须使用来自有限集(称为码本)的接近向量来替换掉原本的音频编码特征，这一过程称为特征向量的量化压缩。有鉴于此，SoundStream模型在音频编码层和音频解码层之间还设置了量化压缩层(也称为残差矢量量化器，Residual Vector Quantization，RVQ)，通常设置多个量化压缩层，在第一个量化压缩层中以中等分辨率来量化码向量，接下来的每个量化压缩层都将处理前一层的残差，前一层的残差是指前一量化压缩层的输入向量与输出向量拼接所得的残差值，通过增加或删除SoundStream模型的量化压缩层，能够来轻松控制增加或减少比特率，这使得SoundStream模型对合成的目标音频帧的比特率具有较高的可控性。

在一些实施例中，终端将该音频编码特征输入到该音频生成模型的量化压缩层中，通过该音频生成模型的量化压缩层，对该音频编码特征进行压缩，得到音频压缩特征。对于SoundStream模型，将最后一个音频编码层输出的音频编码特征输入到第一个量化压缩层中，在第一个量化压缩层中以中等分辨率来对该音频编码特征进行量化压缩，得到一个压缩向量，将压缩向量和该音频编码特征拼接得到第一个量化压缩层的残差，将第一个量化压缩层的残差输入到第二个量化压缩层中进行类似处理，从第二个量化压缩层开始，后续的每个量化压缩层都将处理前一层的残差，最终由最后一个量化压缩层输出音频压缩特征。

在一些实施例中，终端将音频压缩特征输入到该音频生成模型的音频解码层中，通过该音频生成模型的音频解码层，对该音频压缩特征进行解码，得到该目标音频帧。对于SoundStream模型，将最后一个量化压缩层输出的音频压缩特征输入到第一个音频解码层中，通过第一个音频解码层对该音频压缩特征进行音频解码，将音频解码得到的特征向量输入到第二个音频解码层中进行类似处理，换言之，音频生成模型中的一个或多个音频解码层是互相串联的，除了第一个音频解码层以音频压缩特征作为输入信号之外，其余的每个音频解码层都以上一音频解码层输出的特征向量作为输入信号，每个音频解码层都将执行上述操作，直到最后一个音频解码层输出该目标音频帧。

在上述步骤305-307中，相当于终端基于该音频片段和该缺失指示信息，合成了与缺失的音频帧之间相似的目标音频帧，由于通过对音频生成模型进行训练和调控，保证了目标音频帧与缺失的音频帧之间的相似性，这种相似性不仅是信号在频率或幅度上相似，并且针对音频信号还保证了发音及语义上也相似，使得合成目标音频帧能够实现高质量的音频丢包补偿。

在上述步骤303-307中，相当于终端基于该历史音频帧和该未来音频帧，合成该目标音频帧，由于利用了历史音频帧(即缺失的音频帧的上文)和未来音频帧(即缺失的音频帧的下文)作为上下文信息，能够精准合成承上启下的目标音频帧，这一目标音频帧并非是历史音频帧或者未来音频帧的简单复制，而是能够保证与缺失的音频帧具有较高的相似性，因此极大提升了音频丢包补偿的音频质量。

在步骤308中，终端基于该历史音频帧、该目标音频帧和该未来音频帧，合成与该音频信号关联的补偿信号，该补偿信号以该目标音频帧填充缺失的该音频帧。

在一些实施例中，终端使用上述步骤307预测得到的目标音频帧来填充音频信号中缺失的音频帧，比如，假设音频信号中缺失了N(N≥1)个音频帧，那么将会预测得到N个目标音频帧，并使用N个目标音频帧来填充缺失的N个音频帧，得到最终的经过音频丢包补偿的补偿信号(即完整音频信号)，接着，终端可以播放该补偿信号，由于补偿信号中使用了目标音频帧来补偿在网络传输中丢包的音频帧，因此相较于原本存在丢包的音频信号，补偿信号的音频质量得到了极大提升，从而能够促进提升VoIP通话中接收方终端的音频播放质量和播放效果。

本公开实施例提供的方法，通过在音频帧发生丢失时，利用音频帧的上下文信息即历史音频帧和未来音频帧，合成与缺失音频帧在频率、音素、语义各种维度上均相似的目标音频帧，并利用目标音频帧来填充缺失音频帧，实现对音频信号的丢包补偿机制，这一丢包补偿机制并非是对历史音频帧或未来音频帧的简单复制，而是通过合成更加自然、流畅、高音质的目标音频帧，能够避免在传统音频帧复制的丢包补偿机制下极易出现的杂音、噪音，从而能够避免由于丢包补偿机制而对接收端音频信号的音频质量造成不良影响，即，经过丢包补偿的补偿信号具有更高的音频质量和更好的播放效果，从而优化了用户接入VoIP服务的产品体验。

在上一实施例中，详细介绍了如何利用训练完毕的音频生成模型来进行音频丢包补偿，而本公开实施例中，将详细介绍音频生成模型的训练方式，以基于GAN架构来训练音频生成模型为例进行说明，GAN架构下以音频生成模型作为生成器，以音频判别模型作为判别器，两者互相对抗博弈，在符合停止条件时可以得到训练完毕的音频生成模型。

图4是本公开实施例提供的一种音频生成模型的训练方法的流程图，如图4所示，本公开实施例的执行主体为电子设备，以电子设备为服务器为例进行说明，该实施例包括以下步骤。

在步骤401中，服务器获取样本音频片段以及样本音频片段的缺失指示信息。

在一些实施例中，服务器从样本音频集中获取样本音频，将样本音频切分得到一个或多个样本音频片段，本公开实施例以单个样本音频片段的处理流程为例进行说明。该样本音频集可以是服务器本地存储的，也可以是从云端数据库中下载的，本公开实施例样本音频集的来源不进行具体限定。

可选地，样本音频集中包含的样本音频包括但不限于：不同性别、不同语种的干净语音数据，不同噪声场景下的噪声数据，不同曲风的音乐数据或歌曲数据等，本公开实施例对样本音频的音频类型不进行具体限定。需要说明的是，当样本音频涉及到相关用户的干净语音数据时，这些干净语音数据的采集、使用和分析都是经过相关用户的充分授权和单独同意的，且需要遵守相关国家和地区的相关法律法规和标准。

在一些实施例中，在通过样本音频切换得到样本音频片段之后，样本音频片段本身都是完整的(即没有发生丢包)的音频信号，由于需要对样本音频片段来模拟音频丢包，作为模型训练阶段的输入信号，因此，服务器可以利用一些丢包模拟模型来模拟样本音频片段中的哪些音频帧发生丢包，换言之，服务器将样本音频片段输入丢包模拟模型，并利用丢包模拟模型来预测得到样本音频片段的缺失指示信息。

在一些实施例中，上述丢包模拟模型包括但不限于：马尔科夫信道模型、吉尔伯特埃利奥特信道模型、基于真实音频传输场景采集得到的丢包模型等，本公开实施例不对丢包模拟模型的模型类型进行具体限定。

示意性地，对于一个包含96帧的样本音频片段，利用丢包模拟模型预测到第17-32帧、第49-64帧均发生丢包，但服务器不需要将样本音频片段的第17-32帧、第49-64帧都真实丢弃，而是只需要在样本音频片段的缺失指示信息中，将第17-32帧、第49-64帧的缺失指示参数均标记为1(假设缺失指示参数标记为1代表音频帧丢失)。

在步骤402中，服务器将该样本音频片段和该缺失指示信息融合，得到样本扩展数据。

上述步骤402与上述步骤305类似，这里不做赘述。

在步骤403中，服务器将样本扩展数据输入到音频生成模型，通过音频生成模型，获取样本音频片段关联的目标音频片段。

其中，该样本音频片段中存在缺失的音频帧，训练阶段中“缺失的音频帧”是指被缺失指示信息标记为缺失的音频帧，即指通过丢包模拟模型预测出来的缺失指示参数为1的音频帧，实际上这些音频帧并未在真实网络传输中丢失，而是都被保存在服务器中以备后续获取损失函数值中的相关损失项。

其中，该目标音频片段中以合成的目标音频帧填充该缺失的音频帧。

在训练阶段中，服务器将样本扩展数据输入到音频生成模型，通过音频生成模型对该样本扩展数据进行编码，得到样本扩展数据的音频编码特征，再通过音频生成模型对该音频编码特征进行解码，得到与缺失的音频帧在音素和语义上均相似的目标音频帧，接着，使用目标音频帧来替换掉样本音频片段中被标记为缺失(即缺失指示参数为1)的音频帧，得到了目标音频片段。

上述步骤403中利用音频生成模型来预测目标音频帧的过程，与上述步骤306-308类似，这里不做赘述。

在步骤404中，服务器将该样本音频片段和该目标音频片段分别输入到音频判别模型，通过音频判别模型，获取该样本音频片段和目标音频片段各自的音频判别参数，该音频判别参数用表征该音频判别模型判别输入音频片段是否为机器合成信号的可能性。

在一些实施例中，服务器将样本音频片段输入到音频判别模型中，通过该音频判别模型提取得到样本音频片段的判别特征，再将判别特征进行指数归一化，得到该样本音频片段的音频判别参数，例如，该音频判别参数表征为样本音频片段是否属于机器合成信号的预测概率，当预测概率越接近于1时代表音频判别模型认为该样本音频片段越接近一个机器合成信号，当预测概率越接近于0时代表音频判别模型认为该样本音频片段越接近于真实场景的音频信号(而非机器合成信号)，当预测概率越接近于0.5时代表音频判别模型越难分辨出来样本音频片段是否为机器合成信号。

同理，服务器将目标音频片段输入到音频判别模型中，通过该音频判别模型提取得到目标音频片段的判别特征，再将判别特征进行指数归一化，得到该音频判别参数，例如，该音频判别参数表征为目标音频片段是否属于机器合成信号的预测概率，当预测概率越接近于1时代表音频判别模型认为该目标音频片段越接近一个机器合成信号，当预测概率越接近于0时代表音频判别模型认为该目标音频片段越接近于真实场景的音频信号(而非机器合成信号)，当预测概率越接近于0.5时代表音频判别模型越难分辨出来目标音频片段是否为机器合成信号。

需要说明的是，服务器利用一些真实场景的音频信号和一些机器合成信号预训练得到音频判别模型，再将音频判别模型投入到GAN对抗学习中，随着GAN对抗学习，音频判别模型和音频生成模型两者都会进行不断优化，但该音频判别模型仅用于在训练阶段联合优化音频生成模型，不会投入到实际推理阶段(即实际投入到音频丢包补偿使用时)中。

在一些实施例中，音频判别模型可以是任一基于神经网络架构的音频分类模型(如音频二分类模型)，本公开实施例对音频分类模型的模型架构不进行具体限定。

示意性地，该音频判别模型中包括一个或多个残差卷积层、一个全连接层和一个指数归一化(Softmax)层，以音频判别模型包括多个残差卷积层为例进行说明，服务器将该目标音频片段输入到第一个残差卷积层中，通过该残差卷积层对该目标音频片段进行卷积操作，得到一个特征向量，将该特征向量和该目标音频片段拼接得到第一个残差卷积层的残差，再将第一个残差卷积层的残差输入到第二个残差卷积层中进行类似处理，从第二个残差卷积层开始，后续的每个残差卷积层都将处理前一层的残差，最终由最后一个残差卷积层输出目标音频片段的判别特征，接着，将该判别特征输入到全连接层中进行全连接处理，得到一个全连接特征，将该全连接特征输入到Softmax层中进行指数归一化，Softmax层将会输出该音频判别参数。需要说明的是，本示例中仅说明了目标音频片段的处理流程，但对样本音频片段的处理流程也同理，这里不做赘述。

在步骤405中，服务器基于该样本音频片段和目标音频片段各自的音频判别参数，确定该音频生成模型的判别损失项，该判别损失项用于表征该音频生成模型合成的目标音频帧是否能够被该音频判别模型准确识别。

在一些实施例中，服务器对多个样本音频片段，均执行上述步骤401-403，从而能够对每个样本音频片段都预测到一个目标音频片段，接着，通过上述步骤404将每个样本音频片段也输入到音频判别模型中，得到样本音频片段的音频判别参数，同理，将每个目标音频片段输入到音频判别模型中，得到目标音频片段的音频判别参数，相当于利用音频判别模型分别判断样本音频片段和关联的目标音频片段各自是否为机器合成信号，接着，在遍历完毕一轮迭代的所有样本音频片段之后，利用本轮迭代的多个样本音频片段和各自关联的目标音频片段的音频判别参数，将本轮迭代中音频判别参数的交叉熵作为本轮迭代的判别损失项。

在步骤406中，服务器基于该样本音频片段和该目标音频片段，获取该音频生成模型的频谱损失项，该频谱损失项用于表征该样本音频片段和该目标音频片段在在频域空间的差异程度。

在一些实施例中，由于样本音频片段和目标音频片段都是时域信号，为了衡量每个样本音频片段和目标音频片段在频域上的信号差异，服务器可以对每一对样本音频片段和目标音频片段，将该样本音频片段和目标音频片段均进行FFT(Fast FourierTransform，快速傅里叶变换)，从而能够分别将该样本音频片段和目标音频片段都从时域信号转换成频域信号。

在一些实施例中，FFT得到的频域信号是受采样率影响的，而FFT的采样率决定了频域信号的分辨率，换言之，在不同采样率下，即使对同一样本音频片段或目标音频片段进行FFT，也会得到分辨率不同的频域信号，在这种情况下，服务器可以在不同采样率下，通过FFT对该样本音频片段和该目标音频片段均进行时频变换，得到该样本音频片段的样本频率信号和该目标音频片段的目标频率信号。

需要说明的是，对同一样本音频片段，在每种采样率下都会得到一个样本频率信号，从而在多种采样率下会得到多个样本频率信号，同理，对同一目标音频片段，在每种采样率下都会得到一个目标频率信号，从而在多种采样率下会得到多个目标频率信号。

在一些实施例中，对任一对样本音频片段和目标音频片段，服务器在多个采样率下分别进行FFT，能够得到该样本音频片段在多个采样率下各自转换得到的多个样本频率信号，以及该目标音频片段在多个采样率下各自转换得到的多个目标频率信号。

在一些实施例中，服务器基于不同采样率下的该样本频率信号和该目标频率信号，能够分别确定音频生成模型的时频损失项和信噪损失项，其中，该时频损失项用于表征该样本频率信号和该目标频率信号在频率幅值上的差异程度，该信噪损失项用于表征该目标频率信号的信噪比。

下面，将对音频生成模型的时频损失项的获取过程进行说明。

在一些实施例中，对任一采样率下的该样本频率信号中任一样本音频帧的任一样本频率分量，服务器在该目标频率信号中确定与该样本频率分量对应的目标频率分量。可选地，由于每个样本音频片段都与一个目标音频片段是具有关联关系的，因此在同一采样率下，样本音频片段的样本频率信号与目标音频片段的目标频率信号之间也是存在关联关系的，对任一样本频率信号，都能够找到一个对应的目标频率信号。

示意性地，假设使用S(n，k)表示任一采样率下的样本频率信号中第n个音频帧的第k个样本频率分量的频率幅值，假设在该采样率下该样本频率信号总共包含K个样本频率分量(同时K也代表了FFT的帧长度，K为2的整数次幂)，那么k为大于或等于1且小于或等于K的整数，同时，还使用S′(n，k)表示该样本频率信号关联的目标频率信号中第n个音频帧的第k个目标频率分量的频率幅值，显然，S(n，k)和S′(n，k)是具有对应关系的一对频率分量各自的频率幅值。

在一些实施例中，服务器获取该样本频率分量的频率幅值和该目标频率分量的频率幅值之间的L1范数，此外，获取该样本频率分量的频率幅值的自然对数和该目标频率分量的频率幅值的自然对数之间的L2范数。

示意性地，对具有对应关系的任一对频率分量各自的频率幅值S(n，k)和S′(n，k)，获取这对频率分量在频率幅值上的L1范数||S(n，k)-S′(n，k)||₁，和这对频率分量的频率幅值的自然对数的L2范数||ln(S(n，k))-ln(S′(n，k))||₂。

在一些实施例中，基于多个采样率下的多个样本音频帧各自在多个样本频率分量上的该L1范数和该L2范数，获取该时频损失项。可选地，在同一采样率下，先将同一音频帧的在所有频率分量上的L1范数相加，得到该音频帧的L1范数和，再将同一样本音频片段中所有音频帧的L1范数和相加，得到整个样本音频片段的L1范数和，同理，先将同一音频帧的在所有频率分量上的L2范数相加，得到该音频帧的L2范数和，再将同一样本音频片段中所有音频帧的L2范数和相加，得到整个样本音频片段的L2范数和，接着，再将该样本音频片段的L1范数和以及L2范数和进行加权求和，得到当前采样率下频谱损失分量，将所有采样率下的频谱损失分量再求和，即可得到最终的时频损失项。

示意性地，假设使用L_TF表示时频损失项，那么时频损失项L_TF可以表示为下述公式：

其中，K表示FFT变化的帧长度，n表示音频帧在样本音频片段中的时间戳序号，k表示频率分量的序号，k为大于或等于1且小于或等于K的整数，S(n，k)表示当前采样率下的第n个音频帧的第k个样本频率分量的频率幅值，S′(n，k)表示当前采样率下的第n个音频帧的第k个目标频率分量的频率幅值，ln表示自然对数，||·||₁表示求L1范数，||·||₂表示求L2范数，α表示多分辨率(即多采样率)下组合的权重因子，即α与参数K呈正相关，使得当参数K即FFT变化的帧长度越大时，代表频域信号的频率分量总数越大，频域信号的分辨率越高，此时会导致权重因子α取值也随之增大，从而能够对高分辨率情况下的L2范数和这一项增大权重。

在上述公式中，可以看出时频损失项L_TF包括了L1范数和以及L2范数和这两个维度的参考因素，L1范数和能够表征出音频帧在同一频率分量上的频率幅值的绝对差异程度，而L2范数和由于施加了自然对数ln的影响，能够更好地拟合出来音频帧在同一频率分量上的频率幅值的听感差异程度，这是由于不同频率分量的频率幅值发生变化时，人类在听感上感知到的频率幅值差异并非是线性的，通过增加L2范数和来拟合听感差异程度，能够极大提升时频损失项的准确程度。

下面，将对音频生成模型的信噪损失项的获取过程进行说明。

在一些实施例中，服务器将该目标频率分量的频率幅值除以频率特征夹角的余弦值，得到该目标频率信号的信号信息，该频率特征夹角是指该样本频率分量和该目标频率分量在频域空间的特征夹角。

示意性地，对具有对应关系的任一对频率分量各自的频率幅值S(n，k)和S′(n，k)，使用S_target(n，k)表示信号信息，那么信号信息S_target(n，k)定义如下：

其中，n表示音频帧在样本音频片段中的时间戳序号，k表示频率分量的序号，k为大于或等于1且小于或等于K的整数，K表示FFT变化的帧长度，S(n，k)表示当前采样率下的第n个音频帧的第k个样本频率分量的频率幅值，S′(n，k)表示当前采样率下的第n个音频帧的第k个目标频率分量的频率幅值，||·||²代表求向量的模方，<·>代表求两向量的内积，cos<·>代表求两向量夹角的余弦值。

在一些实施例中，服务器将该目标频率分量和该信号特征相减，得到该目标频率信号的噪声信息。

示意性地，对具有对应关系的任一对频率分量各自的频率幅值S(n，k)和S′(n，k)，使用E_noise(n，k)表示噪声信息，那么噪声信息E_noise(n，k)定义如下：

E_noise(n，k)＝S′(n，k)-S_target(n，k)

其中，n表示音频帧在样本音频片段中的时间戳序号，k表示频率分量的序号，k为大于或等于1且小于或等于K的整数，K表示FFT变化的帧长度，S′(n，k)表示当前采样率下的第n个音频帧的第k个目标频率分量的频率幅值，S_target(n，k)则是前述公式计算得到的信号信息。

在一些实施例中，服务器基于多个采样率下的多个样本音频帧各自在多个样本频率分量上的该信号信息和该噪声信息，获取该信噪损失项。可选地，在同一采样率下，先获取信号信息的模方，再获取噪声信息的模方，将信号信息的模方除以噪声信息的模方，得到信噪比，再将信噪比通过以10为底数的对数变换后，得到对数信噪比，将所有频率分量、所有音频帧和所有分辨率的对数信噪比求和，即可得到最终的信噪损失项。

示意性地，假设使用L_MR-OSISNR表示信噪损失项，由于考虑了不同分辨率(通过不同采样率来体现不同分辨率)下优化的对数信噪比，因此信噪损失项也称为多分辨率信噪损失项，信噪损失项L_MR-OSISNR可以表示为如下公式：

其中，K表示FFT变化的帧长度，n表示音频帧在样本音频片段中的时间戳序号，k表示频率分量的序号，k为大于或等于1且小于或等于K的整数，log₁₀是指以10为底数的对数变换，S_target(n，k)是前述公式计算得到的信号信息，E_noise(n，k)是前述公式计算得到的噪声信息，||·||²代表求向量的模方。

在上述公式中，可以看出由于信号信息S_target(n，k)是一个与样本频率信号中样本频率分量的频率幅值S(n，k)无关的数值，即信号信息S_target(n，k)仅受到目标频率信号中目标频率分量的频率幅值S′(n，k)以及频率特征夹角的影响，而噪声信息则受到了S′(n，k)和S_target(n，k)两者共同调节，即代表噪声信息也是与S(n，k)无关的数值，这样构造出来的信噪损失项L_MR-OSISNR能够剥离掉S(n，k)的影响，但仍然保留频率特征夹角的影响，从而能够很好地衡量出目标频率信号在不同分辨率(即不同采样率)下的信噪比差异。

在一些实施例中，服务器通过上述方式获取到该时频损失项和该信噪损失项之后，基于该时频损失项和该信噪损失项，获取该频谱损失项(Spectogram Loss)。可选地，服务器将该时频损失项和该信噪损失项相加，得到该频谱损失项。

示意性地，使用L_S表示频谱损失项，那么频谱损失项L_S定义如下：

L₅＝L_TF+L_MR-OSISNR

其中，L_TF表示时频损失项，L_MR-OSISNR表示信噪损失项。

在本步骤406中，通过获取频谱损失项L_S，能够在音频生成模型的训练阶段中，考虑到音频信号自身的频域差异，通过引入频谱损失项L_S能够约束目标音频片段和样本音频片段在信号自身波形和振幅上尽可能相似。

在步骤407中，服务器基于该样本音频片段和该目标音频片段，获取该音频生成模型的发音损失项，该发音损失项用于表征该样本音频片段和该目标音频片段在音素特征空间的差异程度。

在一些实施例中，服务器将该样本音频片段输入音素特征提取模型，得到样本音素特征，该样本音素特征用于表征该样本音频片段中音频帧的音素在发音上的特征。

可选地，该音素特征提取模型为音频波形转向量(wav2vec)模型，服务器将样本音频片段输入到wav2vec模型，通过wav2vec模型来提取得到一个样本音频片段的样本音素特征，这一样本音素特征能够反映出来样本音频片段在音素空间的特征表征，即代表了样本音频片段在发音上具有哪些特性。

在一些实施例中，wav2vec模型包括编码器网络和上下文网络，将样本音频片段输入到编码器网络中提取到样本音频片段中各个音频帧的潜在向量，潜在向量是对样本音频片段中音频帧的低频特征表示，接着，再将各个音频帧的潜在向量输入到上下文网络中，通过上下文网络来结合每个音频帧的潜在向量的上下文信息，以提取到融合了上下文信息的深层特征表示，并最终由上下文网络输出该样本音素特征。其中，编码器网络和上下文网络均包含多个因果卷积块，每个因果卷积块均由一个因果卷积层、一个批量归一化层和一个ReLU非线性层组成，编码器网络和上下文网络具有不同的卷积核参数。

在一些实施例中，服务器将该目标音频片段输入该音素特征提取模型，得到目标音素特征，该目标音素特征用于表征该目标音频片段中音频帧的音素在发音上的特征。目标音素特征的提取方式与样本音素特征提取方式类似，这里不做赘述。

在一些实施例中，服务器基于该样本音素特征和该目标音素特征，获取该发音损失项。可选地，服务器将该样本音素特征和该目标音素特征之间的瓦瑟斯坦距离获取为该发音损失项，或者，还可以将余弦相似度或者欧式距离的倒数获取为该发音损失项，本公开实施例对发音损失项的获取方式不进行具体限定。

示意性地，使用s(t)表示样本音频片段中时间戳为t的音频帧，使用s′(t)表示目标音频片段中时间戳为t的音频帧，那么发音损失项L_PFP可以表示为：

L_PFP＝WD[wav2vec[s(t)]，wav2vec[s′(t)]]

其中，wav2vec[·]表示wav2vec模型的作用，WD[·]表示计算两向量之间的瓦瑟斯坦距离。

在本步骤407中，通过获取发音损失项L_PFP，能够在音频生成模型的训练阶段中，除了考虑到上述步骤406涉及的表征音频信号自身的频域差异的频域损失项之外，还通过发音损失项L_PFP考虑到音频信号的发音差异，这是由于即使一些在频域上相似的信号本身可能在发音上也会存在较大差异，通过引入发音损失项L_PFP能够进一步约束目标音频片段和样本音频片段在发音上尽可能相似。

在步骤408中，服务器基于该样本音频片段和该目标音频片段，获取该音频生成模型的语义损失项，该语义损失项用于表征该样本音频片段和该目标音频片段在语义特征空间的差异程度。

在一些实施例中，服务器将该样本音频片段输入语义特征提取模型，得到样本语义特征，该样本语义特征用于表征该样本音频片段中音频帧在语义上的特征。

在一些实施例中，该语义特征提取模型是声学语音识别ASR模型中编码器(Encoder)，由于在ASR模型中通过编码器提取音频的语义，再通过解码器来转换到语义对应的文本，因此通过ASR模型的编码器能够很好地提取出来样本音频片段的样本语义特征。

示意性地，ASR模型的编码器包括一个或多个串联的语义编码层，服务器将样本音频片段输入到ASR模型的编码器中，通过一个或多个串联的语义编码层来对样本音频片段进行编码，由最后一个语义编码层来输出样本语义特征，这一样本语义特征能够反映出来样本音频片段在语义空间的特征表征，即代表了样本音频片段在语义上具有哪些特性。

在一些实施例中，服务器将该目标音频片段输入该语义特征提取模型，得到目标语义特征，该目标语义特征用于表征该目标音频片段中音频帧在语义上的特征。目标语义特征的提取方式与样本语义特征提取方式类似，这里不做赘述。

在一些实施例中，服务器基于该样本语义特征和该目标语义特征，获取该语义损失项。可选地，服务器将该样本语义特征和该目标语义特征之间的瓦瑟斯坦距离获取为该语义损失项，或者，还可以将余弦相似度或者欧式距离的倒数获取为该语义损失项，本公开实施例对语义损失项的获取方式不进行具体限定。

示意性地，使用s(t)表示样本音频片段中时间戳为t的音频帧，使用s′(t)表示目标音频片段中时间戳为t的音频帧，那么语义损失项L_ASR可以表示为：

L_ASR＝WD[ASRenc[s(t)]，ASRenc[s′(t)]]

其中，ASRenc[·]表示ASR模型的编码器的作用，WD[·]表示计算两向量之间的瓦瑟斯坦距离。

在本步骤408中，通过获取语义损失项，能够在音频生成模型的训练阶段中，除了考虑到上述步骤406涉及的频域损失项和上述步骤407涉及的发音损失项之外，还通过语义损失项L_ASR考虑到音频信号的语义差异，这是由于即使一些在频域上不相似、发音上也不相似的信号，假设在语义上相似度很高，那么仍然不会影响机器在进行语音转文本时对信号的理解，因此，通过引入语义损失项L_ASR能够进一步约束目标音频片段和样本音频片段在语义上尽可能相似，从而能够促使目标音频片段和样本音频片段在通过ASR模型进行机器翻译时，趋近于收敛到相同语义的文本。

在上述步骤406-408中，示出了服务器基于该样本音频片段和该目标音频片段，获取该音频生成模型的频谱损失项、发音损失项或者语义损失项中的至少一项的一种可能实施方式，即服务器获取了频谱损失项、发音损失项和语义损失项，在另一些实施例中，服务器还可以获取不获取频谱损失项，或者不获取发音损失项，或者不获取语义损失项，以简化音频生成模型的训练流程，本公开实施例对此不进行具体限定。

在步骤409中，服务器将该音频生成模型的频谱损失项、发音损失项或者语义损失项中的至少一项相加，得到该音频生成模型的重建损失项，该重建损失项用于表征该目标音频片段中目标音频帧与该样本音频片段中缺失音频帧之间的差异程度。

在一些实施例中，在服务器获取了频谱损失项L_S、发音损失项L_PFP和语义损失项L_ASR的情况下，服务器可以将频谱损失项L_S、发音损失项L_PFP和语义损失项L_ASR相加，得到重建损失项L_Generator，即：

L_Generator＝L_S+L_PFP+L_ASR

在一些实施例中，服务器还可以采用不同的权重参数，来分别对频谱损失项L_S、发音损失项L_PFP和语义损失项L_ASR进行加权，最终将加权后的频谱损失项L_S、发音损失项L_PFP和语义损失项L_ASR相加，得到重建损失项L_Generator。

在一些实施例中，假设服务器没有获取发音损失项，那么该重建损失项可以仅有频谱损失项和语义损失项构成，或者，假设服务器没有获取语义损失项，那么该重建损失项可以仅有频谱损失项和发音损失项构成，或者，假设服务器没有获取发音损失项和语义损失项，那么该重建损失项就是频谱损失项本身，本公开实施例不对重建损失项的构成进行具体限定。

在上述步骤406-409中，示出了服务器基于该目标音频片段和该样本音频片段，确定该音频生成模型的重建损失项的一种可能实施方式，在另一些实施例中，服务器还可以通过下述方式来获取重建损失项：在对每个样本音频片段都预测到一个关联的目标音频片段之后，对每一对样本音频片段和目标音频片段，可以获取被标记为缺失的音频帧(即缺失指示参数为1的音频帧)与目标音频帧之间的信号差异值，例如，该信号差异值是指：被标记为缺失的音频帧和目标音频帧之间的能量差值或者振幅差值，本公开实施例对信号差异值的类型不进行具体限定，在遍历完毕一轮迭代的所有样本音频片段之后，能够获取到本轮迭代的多个样本音频片段和各自关联的目标音频片段的信号差异值，将各个信号差异值相加得到本轮迭代的重建损失项，这样能够简化音频生成模型的训练流程。

在步骤410中，服务器基于该判别损失项和该重建损失项，获取该音频生成模型的损失函数值。

在一些实施例中，服务器将该判别损失项和重建损失项相加，得到该音频生成模型在本次迭代的损失函数值，可选地，服务器还可以使用不同的权重参数，来分别对该判别损失项和重建损失项进行加权，并将加权后的该判别损失项和重建损失项相加，得到本次迭代的损失函数值，本公开实施例不对损失函数值的获取方式进行具体限定。

在步骤411中，服务器在迭代次数和损失函数值均不符合停止条件时，迭代调整该音频生成模型的参数。

在一些实施例中，该停止条件包括下述至少一项：迭代次数超过次数阈值，或者，损失函数值小于损失阈值，其中，该次数阈值是任一大于1的整数，该损失阈值是大于或等于0且小于或等于1的数值。

在一些实施例中，在迭代次数不超过次数阈值，且损失函数值不小于损失阈值的情况下，不符合停止条件，需要反向传播算法，迭代调整该音频生成模型以及音频判别模型两者的模型参数，并基于调整参数后的音频生成模型和音频判别模型开启下一轮迭代，即再次执行步骤401-410，直到迭代次数超过次数阈值，或者损失函数值小于损失阈值时，符合停止条件，进入下述步骤412。

在上述步骤410-411中，示出了服务器基于该判别损失项和该重建损失项，迭代调整该音频生成模型的参数的一种可能实施方式，在一些实施例中，还可以仅以迭代次数超过次数阈值作为停止条件，或者仅以损失函数值小于损失阈值作为停止条件，或者由技术人员个性化配置其他停止条件，本公开实施例对此不进行具体限定。

在步骤412中，服务器在迭代次数或损失函数值中任一项符合该停止条件时，输出训练完毕的音频生成模型。

在一些实施例中，在迭代次数超过次数阈值，或者损失函数值小于损失阈值时，符合停止条件，此时将对音频生成模型停止训练，音频判别模型不会投入到实际使用中，而训练完毕的音频生成模型在通过测试之后，服务器可以对通过测试的音频生成模型进行剪枝、压缩，并将剪枝、压缩后的音频生成模型嵌入到应用程序的SDK中，并以冷更新或者热更新的方式下发到各个安装了应用程序的客户端，从而能够实现音频生成模型的移动端部署，从而通过上一实施例中涉及的音频信号的处理方式，实现对音频丢包的优质补偿。

在上述步骤405-412中，示出了基于该音频判别参数、该样本音频片段和该目标音频片段，迭代调整该音频生成模型的参数的一种可能实施方式，通过利用音频判别参数来获取判别损失项，此外还额外构建了重建损失项，使得损失函数的更加精准，从而更加约束了预测的目标音频帧与丢失的音频帧之间的相似性，从而能够进一步应用音频生成模型来提升音频丢包补偿的效果。

本公开实施例提供的方法，通过利用音频生成模型和音频判别模型两者进行GAN架构下的对抗训练，使得在迭代调整参数的过程中，受到音频判别参数的约束，能够使得音频生成模型不断合成更加难以被音频判别模型分辨出来的目标音频帧，能够提升音频生成模型的预测准确度，使得目标音频帧更加自然、准确、音质更好，同时由于杂音和噪音很容易被音频判别模型识别出来，因此训练完毕的音频生成模型能够避免在合成的目标音频帧中引入杂音、噪音，这使得利用音频生成模型来投入到音频丢包补偿应用时，能够极大提升音频丢包补偿的补偿信号的音频质量。

图5是本公开实施例提供的一种音频生成模型的训练和推理阶段流程图，如图5所示，左侧部分代表了音频生成模型511和音频判别模型512之间基于GAN架构的训练阶段510，右侧部分代表了将训练完毕的音频生成模型511投入到实际应用的推理阶段520。

在训练阶段510中，将获取到样本音频片段501和对应的缺失指示信息502，将样本音频片段501和对应的缺失指示信息502通过一个Concar(拼接)层进行融合，能够得到音频生成模型511的输入信号，音频生成模型511将预测缺失部分的目标音频帧，并使用目标音频帧来填充缺失部分，可视为最终输出完整的不含缺失音频帧的目标音频片段503。接着，将完整的目标音频片段503和完整的样本音频信号504(指未经过缺失指示信息502进行Mask掩码的完整信号)输入到音频判别模型512中，通过音频判别模型512对完整的目标音频片段503和完整的样本音频信号504各自输出音频判别参数，利用各个音频判别参数能够得到判别损失项，此外还额外构建频谱损失项、发音损失项和语义损失项，三者相加即可得到重建损失项，将判别损失项和重建损失项相加得到本轮迭代的损失函数值，在不符合停止条件时，迭代调整音频生成模型511和音频判别模型512的模型参数，直到符合停止条件时，停止迭代输出训练完毕的音频生成模型511。

在推理阶段520中，可以看出，涉及到历史音频帧521(History Packet)、当前待输出的音频帧522(Interested Packet)、未来音频帧523(Overlooked/Future Packets)、最新接收到的音频帧524(Current Received Packet)和补偿得到的目标音频帧525。可以看出，对当前待输出的音频帧522，需要通过丢包判断模块来判断音频帧522是否丢失，如果音频帧522没有丢失，那么直接接收到的音频帧522，如果音频帧522已经丢失，代表终端本地没有收到音频帧522，那么需要将历史音频帧521以及未来音频帧523(最多会用到播放持续时长为18ms的未来音频帧)都输入到训练完毕的音频生成模型511中，从而合成得到对丢失的音频帧522进行补偿后，由机器合成的目标音频帧525，此时输出(即播放)目标音频帧525来代替没有收到的缺失音频帧522，假设上述音频帧替换成播放持续时长为1ms的音频数据包，在VoIP传输中以播放持续时长为1ms的音频数据包为单位进行传输，那么在每个1ms的音频数据包内包含的所有音频帧要么全部收到要么全部丢失，在这种情况下，最多会用到播放持续时长为18ms的未来音频帧，因此音频丢包补偿的总算法时延能够被控制在20ms以内，从而在接收方终端达到高音质、低延迟的效果。

在本公开实施例中，通过提出一种基于GAN架构的训练方式，使得训练得到的音频生成模型在投入使用时，能够针对音频丢包问题达到低延迟、高音质的丢包隐藏效果，并即使出现音频丢包情况，为了补偿丢失的音频数据包以得到高音质的补偿信号，也仅仅最多会用到播放持续时长为18ms的未来音频帧，从而能够将音频丢包补偿的总算法时延能够被控制在20ms以内，且易于部署在移动端，在各类VoIP场景下都具有极大现实意义。

图6是本公开实施例示出的一种音频信号的处理装置的逻辑结构框图。参照图6，该装置包括获取单元601、第一合成单元602以及第二合成单元603。

获取单元601，被配置为执行在音频信号中音频帧缺失的情况下，获取该音频帧之前的历史音频帧和该音频帧之后的未来音频帧；

第一合成单元602，被配置为执行基于该历史音频帧和该未来音频帧，合成目标音频帧，该目标音频帧的音素和语义均与该音频帧相似；

第二合成单元603，被配置为执行基于该历史音频帧、该目标音频帧和该未来音频帧，合成与该音频信号关联的补偿信号，该补偿信号以该目标音频帧填充缺失的该音频帧。

本申请实施例提供的装置，通过在音频帧发生丢失时，利用音频帧的上下文信息即历史音频帧和未来音频帧，合成与缺失音频帧在频率、音素、语义各种维度上均相似的目标音频帧，并利用目标音频帧来填充缺失音频帧，实现对音频信号的丢包补偿机制，这一丢包补偿机制并非是对历史音频帧或未来音频帧的简单复制，而是通过合成更加自然、流畅、高音质的目标音频帧，能够避免在传统音频帧复制的丢包补偿机制下极易出现的杂音、噪音，从而能够避免由于丢包补偿机制而对接收端音频信号的音频质量造成不良影响，即，经过丢包补偿的补偿信号具有更高的音频质量和更好的播放效果。

在一些实施例中，基于图6的装置组成，该第一合成单元602包括：

确定子单元，被配置为执行确定由该历史音频帧和该未来音频帧构成的音频片段；

获取子单元，被配置为执行获取该音频片段的缺失指示信息，该缺失指示信息用于指示该音频片段中的任一音频帧是否缺失；

合成子单元，被配置为执行基于该音频片段和该缺失指示信息，合成该目标音频帧。

在一些实施例中，基于图6的装置组成，该合成子单元包括：

融合子子单元，被配置为执行将该音频片段和该缺失指示信息融合，得到扩展音频数据；

编码子子单元，被配置为执行对该扩展音频数据进行编码，得到该扩展音频数据的音频编码特征；

解码子子单元，被配置为执行对该音频编码特征进行解码，得到该目标音频帧。

在一些实施例中，该编码子子单元被配置为执行：

在一些实施例中，该解码子子单元被配置为执行：

该融合子子单元被配置为执行：

获取由多个音频帧的双通道数据构成的该扩展音频数据。

关于上述实施例中的装置，其中各个单元执行操作的具体方式已经在有关该音频信号的处理方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图7是本公开实施例示出的一种音频生成模型的训练装置的逻辑结构框图。请参考图7，该装置包括第一获取单元701、第二获取单元702和参数调整单元703。

第一获取单元701，被配置为执行通过音频生成模型，获取样本音频片段关联的目标音频片段，该样本音频片段中存在缺失的音频帧，该目标音频片段中以合成的目标音频帧填充该缺失的音频帧；

第二获取单元702，被配置为执行通过音频判别模型，获取该样本音频片段和该目标音频片段各自的音频判别参数，该音频判别参数用于表征该音频判别模型判别输入音频片段是否为机器合成信号的可能性；

参数调整单元703，被配置为执行基于该音频判别参数、该样本音频片段和该目标音频片段，迭代调整该音频生成模型的参数。

本申请实施例提供的装置，通过利用音频生成模型和音频判别模型两者进行GAN架构下的对抗训练，使得在迭代调整参数的过程中，受到音频判别参数的约束，能够使得音频生成模型不断合成更加难以被音频判别模型分辨出来的目标音频帧，能够提升音频生成模型的预测准确度，使得目标音频帧更加自然、准确、音质更好，同时由于杂音和噪音很容易被音频判别模型识别出来，因此训练完毕的音频生成模型能够避免在合成的目标音频帧中引入杂音、噪音，这使得利用音频生成模型来投入到音频丢包补偿应用时，能够极大提升音频丢包补偿的补偿信号的音频质量。

在一些实施例中，基于图7的装置组成，该参数调整单元703包括：

第一确定子单元，被配置为执行基于该音频判别参数，确定该音频生成模型的判别损失项，该判别损失项用于表征该音频生成模型合成的目标音频帧是否能够被该音频判别模型准确识别；

第二确定子单元，被配置为执行基于该目标音频片段和该样本音频片段，确定该音频生成模型的重建损失项，该重建损失项用于表征该目标音频片段中目标音频帧与该样本音频片段中缺失音频帧之间的差异程度；

参数调整子单元，被配置为执行基于该判别损失项和该重建损失项，迭代调整该音频生成模型的参数。

在一些实施例中，基于图7的装置组成，该第二确定子单元包括：

获取子子单元，被配置为执行基于该样本音频片段和该目标音频片段，获取该音频生成模型的频谱损失项、发音损失项或者语义损失项中的至少一项；

相加子子单元，被配置为执行将该音频生成模型的频谱损失项、发音损失项或者语义损失项中的至少一项相加，得到该重建损失项；

其中，该频谱损失项用于表征该样本音频片段和该目标音频片段在在频域空间的差异程度，该发音损失项用于表征该样本音频片段和该目标音频片段在音素特征空间的差异程度，该语义损失项用于表征该样本音频片段和该目标音频片段在语义特征空间的差异程度。

在一些实施例中，基于图7的装置组成，该获取子子单元包括：

变换子子子单元，被配置为执行在不同采样率下，对该样本音频片段和该目标音频片段均进行时频变换，得到该样本音频片段的样本频率信号和该目标音频片段的目标频率信号；

确定子子子单元，被配置为执行基于不同采样率下的该样本频率信号和该目标频率信号，确定时频损失项和信噪损失项，该时频损失项用于表征该样本频率信号和该目标频率信号在频率幅值上的差异程度，该信噪损失项用于表征该目标频率信号的信噪比；

获取子子子单元，被配置为执行基于该时频损失项和该信噪损失项，获取该频谱损失项。

在一些实施例中，该确定子子子单元被配置为执行：

对任一采样率下的该样本频率信号中任一样本音频帧的任一样本频率分量，在该目标频率信号中确定与该样本频率分量对应的目标频率分量；

获取该样本频率分量的幅值和该目标频率分量的幅值之间的L1范数；

获取该样本频率分量的幅值的自然对数和该目标频率分量的幅值的自然对数之间的L2范数；

基于多个采样率下的多个样本音频帧各自在多个样本频率分量上的该L1范数和该L2范数，获取该时频损失项。

在一些实施例中，该确定子子子单元被配置为执行：

将该目标频率分量的幅值除以频率特征夹角的余弦值，得到该目标频率信号的信号信息，该频率特征夹角是指该样本频率分量和该目标频率分量在频域空间的特征夹角；

将该目标频率分量和该信号特征相减，得到该目标频率信号的噪声信息；

基于多个采样率下的多个样本音频帧各自在多个样本频率分量上的该信号信息和该噪声信息，获取该信噪损失项。

在一些实施例中，该获取子子单元被配置为执行：

将该样本音频片段输入音素特征提取模型，得到样本音素特征，该样本音素特征用于表征该样本音频片段中音频帧的音素在发音上的特征；

将该目标音频片段输入该音素特征提取模型，得到目标音素特征，该目标音素特征用于表征该目标音频片段中音频帧的音素在发音上的特征；

基于该样本音素特征和该目标音素特征，获取该发音损失项。

在一些实施例中，该获取子子单元被配置为执行：

将该样本音频片段输入语义特征提取模型，得到样本语义特征，该样本语义特征用于表征该样本音频片段中音频帧在语义上的特征；

将该目标音频片段输入该语义特征提取模型，得到目标语义特征，该目标语义特征用于表征该目标音频片段中音频帧在语义上的特征；

基于该样本语义特征和该目标语义特征，获取该语义损失项。

关于上述实施例中的装置，其中各个单元执行操作的具体方式已经在有关该音频生成模型的训练方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图8示出了本公开实施例提供的一种电子设备的结构框图，以电子设备为终端800为例进行说明。该终端800可以是：智能手机、平板电脑、MP3播放器(Moving PictureExperts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(MovingPicture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端800还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端800包括有：处理器801和存储器802。

处理器801可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器801可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器801也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器801可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器801还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器802可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器802还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器802中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器801所执行以实现本公开中各个实施例提供的音频信号的处理方法或音频生成模型的训练方法。

在一些实施例中，终端800还可选包括有：***设备接口803和至少一个***设备。处理器801、存储器802和***设备接口803之间可以通过总线或信号线相连。各个***设备可以通过总线、信号线或电路板与***设备接口803相连。具体地，***设备包括：射频电路804、触摸显示屏805、摄像头组件806、音频电路807、定位组件808和电源809中的至少一种。

***设备接口803可被用于将I/O(Input/Output，输入/输出)相关的至少一个***设备连接到处理器801和存储器802。在一些实施例中，处理器801、存储器802和***设备接口803被集成在同一芯片或电路板上；在一些其他实施例中，处理器801、存储器802和***设备接口803中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路804用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路804通过电磁信号与通信网络以及其他通信设备进行通信。射频电路804将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路804包括：天线***、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路804可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路804还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本公开对此不加以限定。

显示屏805用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏805是触摸显示屏时，显示屏805还具有采集在显示屏805的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器801进行处理。此时，显示屏805还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏805可以为一个，设置终端800的前面板；在另一些实施例中，显示屏805可以为至少两个，分别设置在终端800的不同表面或呈折叠设计；在再一些实施例中，显示屏805可以是柔性显示屏，设置在终端800的弯曲表面上或折叠面上。甚至，显示屏805还可以设置成非矩形的不规则图形，也即异形屏。显示屏805可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件806用于采集图像或视频。可选地，摄像头组件806包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件806还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路807可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器801进行处理，或者输入至射频电路804以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端800的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器801或射频电路804的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路807还可以包括耳机插孔。

定位组件808用于定位终端800的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件808可以是基于美国的GPS(GlobalPositioning System，全球定位***)、中国的北斗***、俄罗斯的格雷纳斯***或欧盟的伽利略***的定位组件。

电源809用于为终端800中的各个组件进行供电。电源809可以是交流电、直流电、一次性电池或可充电电池。当电源809包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端800还包括有一个或多个传感器810。该一个或多个传感器810包括但不限于：加速度传感器811、陀螺仪传感器812、压力传感器813、光学传感器814以及接近传感器815。

加速度传感器811可以检测以终端800建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器811可以用于检测重力加速度在三个坐标轴上的分量。处理器801可以根据加速度传感器811采集的重力加速度信号，控制触摸显示屏805以横向视图或纵向视图进行用户界面的显示。加速度传感器811还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器812可以检测终端800的机体方向及转动角度，陀螺仪传感器812可以与加速度传感器811协同采集用户对终端800的3D动作。处理器801根据陀螺仪传感器812采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器813可以设置在终端800的侧边框和/或触摸显示屏805的下层。当压力传感器813设置在终端800的侧边框时，可以检测用户对终端800的握持信号，由处理器801根据压力传感器813采集的握持信号进行左右手识别或快捷操作。当压力传感器813设置在触摸显示屏805的下层时，由处理器801根据用户对触摸显示屏805的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

光学传感器814用于采集环境光强度。在一个实施例中，处理器801可以根据光学传感器814采集的环境光强度，控制触摸显示屏805的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏805的显示亮度；当环境光强度较低时，调低触摸显示屏805的显示亮度。在另一个实施例中，处理器801还可以根据光学传感器814采集的环境光强度，动态调整摄像头组件806的拍摄参数。

接近传感器815，也称距离传感器，通常设置在终端800的前面板。接近传感器815用于采集用户与终端800的正面之间的距离。在一个实施例中，当接近传感器815检测到用户与终端800的正面之间的距离逐渐变小时，由处理器801控制触摸显示屏805从亮屏状态切换为息屏状态；当接近传感器815检测到用户与终端800的正面之间的距离逐渐变大时，由处理器801控制触摸显示屏805从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图8中示出的结构并不构成对终端800的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图9是本公开实施例提供的一种电子设备的结构示意图，以电子设备为服务器900为例进行说明。该服务器900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(Central Processing Units，CPU)901和一个或一个以上的存储器902，其中，该存储器902中存储有至少一条程序代码，该至少一条程序代码由该处理器901加载并执行以实现上述各个实施例提供的音频信号的处理方法或音频生成模型的训练方法。当然，该服务器900还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器900还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种包括至少一条指令的计算机可读存储介质，例如包括至少一条指令的存储器，上述至少一条指令可由电子设备中的处理器执行以完成上述实施例中的音频信号的处理方法或音频生成模型的训练方法。可选地，上述计算机可读存储介质可以是非临时性计算机可读存储介质，例如，该非临时性计算机可读存储介质可以包括ROM(Read-Only Memory，只读存储器)、RAM(Random-Access Memory，随机存取存储器)、CD-ROM(Compact Disc Read-Only Memory，只读光盘)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品，包括一条或多条指令，该一条或多条指令可以由电子设备的处理器执行，以完成上述各个实施例提供的音频信号的处理方法或音频生成模型的训练方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种音频信号的处理方法，其特征在于，包括：

确定由所述历史音频帧和所述未来音频帧构成的音频片段，所述音频片段为多个音频帧构成的音频帧序列；获取所述音频片段的缺失指示信息，所述缺失指示信息为多个音频帧的缺失指示参数构成的参数序列，用于指示所述音频片段中的任一音频帧是否缺失，对所述音频帧序列中任一音频帧，将所述音频帧和所述参数序列中所述音频帧的缺失指示参数进行拼接，得到所述音频帧的双通道数据；获取由多个音频帧的双通道数据构成的扩展音频数据；对所述扩展音频数据进行编码，得到所述扩展音频数据的音频编码特征；对所述音频编码特征进行解码，得到目标音频帧，所述目标音频帧的音素和语义均与所述音频帧相似；

2.根据权利要求1所述的方法，其特征在于，所述对所述扩展音频数据进行编码，得到所述扩展音频数据的音频编码特征包括：

3.根据权利要求2所述的方法，其特征在于，所述对所述音频编码特征进行解码，得到所述目标音频帧包括：

4.根据权利要求1所述的方法，其特征在于，对所述音频帧序列中任一音频帧，在所述音频帧缺失时，将所述音频帧的缺失指示参数赋值为1，在所述音频帧未缺失时，将所述音频帧的缺失指示参数赋值为0。

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述未来音频帧的帧数为目标帧数；或，所述未来音频帧的帧长为目标帧长；或，所述未来音频帧的播放持续时长为目标持续时长。

6.一种音频生成模型的训练方法，其特征在于，包括：

通过音频生成模型，获取样本音频片段关联的目标音频片段，所述样本音频片段中存在缺失的音频帧，所述目标音频片段中以合成的目标音频帧填充所述缺失的音频帧，其中，所述目标音频帧的合成过程包括：获取所述缺失的音频帧之前的历史音频帧和所述缺失的音频帧之后的未来音频帧，确定由所述历史音频帧和所述未来音频帧构成的音频片段，所述音频片段为多个音频帧构成的音频帧序列；获取所述音频片段的缺失指示信息，所述缺失指示信息为多个音频帧的缺失指示参数构成的参数序列，用于指示所述音频片段中的任一音频帧是否缺失，对所述音频帧序列中任一音频帧，将所述音频帧和所述参数序列中所述音频帧的缺失指示参数进行拼接，得到所述音频帧的双通道数据；获取由多个音频帧的双通道数据构成的扩展音频数据；对所述扩展音频数据进行编码，得到所述扩展音频数据的音频编码特征；对所述音频编码特征进行解码，得到所述目标音频帧；

7.根据权利要求6所述的方法，其特征在于，所述基于所述音频判别参数、所述样本音频片段和所述目标音频片段，迭代调整所述音频生成模型的参数包括：

8.根据权利要求7所述的方法，其特征在于，所述基于所述目标音频片段和所述样本音频片段，确定所述音频生成模型的重建损失项包括：

其中，所述频谱损失项用于表征所述样本音频片段和所述目标音频片段在频域空间的差异程度，所述发音损失项用于表征所述样本音频片段和所述目标音频片段在音素特征空间的差异程度，所述语义损失项用于表征所述样本音频片段和所述目标音频片段在语义特征空间的差异程度。

9.根据权利要求8所述的方法，其特征在于，所述基于所述样本音频片段和所述目标音频片段，获取所述音频生成模型的频谱损失项包括：

10.根据权利要求9所述的方法，其特征在于，所述基于不同采样率下的所述样本频率信号和所述目标频率信号，确定时频损失项包括：

11.根据权利要求9所述的方法，其特征在于，所述基于不同采样率下的所述样本频率信号和所述目标频率信号，确定信噪损失项包括：

12.根据权利要求8所述的方法，其特征在于，所述基于所述样本音频片段和所述目标音频片段，获取所述音频生成模型的发音损失项包括：

13.根据权利要求8所述的方法，其特征在于，所述基于所述样本音频片段和所述目标音频片段，获取所述音频生成模型的语义损失项包括：

14.一种音频信号的处理装置，其特征在于，包括：

第一合成单元，包括：

确定子单元，被配置为执行确定由所述历史音频帧和所述未来音频帧构成的音频片段，所述音频片段为多个音频帧构成的音频帧序列；

获取子单元，被配置为执行获取所述音频片段的缺失指示信息，所述缺失指示信息为多个音频帧的缺失指示参数构成的参数序列，用于指示所述音频片段中的任一音频帧是否缺失；

合成子单元，包括：融合子子单元，被配置为执行对所述音频帧序列中任一音频帧，将所述音频帧和所述参数序列中所述音频帧的缺失指示参数进行拼接，得到所述音频帧的双通道数据；获取由多个音频帧的双通道数据构成的扩展音频数据；编码子子单元，被配置为执行对所述扩展音频数据进行编码，得到所述扩展音频数据的音频编码特征；解码子子单元，被配置为执行对所述音频编码特征进行解码，得到目标音频帧，所述目标音频帧的音素和语义均与所述音频帧相似；

15.一种音频生成模型的训练装置，其特征在于，包括：

第一获取单元，被配置为执行通过音频生成模型，获取样本音频片段关联的目标音频片段，所述样本音频片段中存在缺失的音频帧，所述目标音频片段中以合成的目标音频帧填充所述缺失的音频帧，其中，所述目标音频帧的合成过程包括：获取所述缺失的音频帧之前的历史音频帧和所述缺失的音频帧之后的未来音频帧，确定由所述历史音频帧和所述未来音频帧构成的音频片段，所述音频片段为多个音频帧构成的音频帧序列；获取所述音频片段的缺失指示信息，所述缺失指示信息为多个音频帧的缺失指示参数构成的参数序列，用于指示所述音频片段中的任一音频帧是否缺失，对所述音频帧序列中任一音频帧，将所述音频帧和所述参数序列中所述音频帧的缺失指示参数进行拼接，得到所述音频帧的双通道数据；获取由多个音频帧的双通道数据构成的扩展音频数据；对所述扩展音频数据进行编码，得到所述扩展音频数据的音频编码特征；对所述音频编码特征进行解码，得到目标音频帧；

16.一种电子设备，其特征在于，包括：

一个或多个处理器；

其中，所述一个或多个处理器被配置为执行所述指令，以实现如权利要求1至权利要求5中任一项所述的音频信号的处理方法；或权利要求6至权利要求13中任一项所述的音频生成模型的训练方法。

17.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的至少一条指令由电子设备的一个或多个处理器执行时，使得所述电子设备能够执行如权利要求1至权利要求5中任一项所述的音频信号的处理方法；或权利要求6至权利要求13中任一项所述的音频生成模型的训练方法。