CN113539231B

CN113539231B - 音频处理方法、声码器、装置、设备及存储介质

Info

Publication number: CN113539231B
Application number: CN202011612387.8A
Authority: CN
Inventors: 林诗伦; 李新辉; 卢鲤
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2024-06-18
Anticipated expiration: 2040-12-30
Also published as: EP4210045A4; EP4210045A1; US20230035504A1; CN113539231A; WO2022142850A1; JP2023542012A

Abstract

本申请提供了一种音频处理方法、声码器、装置、设备及存储介质；方法包括：对待处理文本进行语音特征转换，得到至少一帧声学特征帧；通过帧率网络，从每帧声学特征帧中提取出条件特征；对当前帧进行频带划分与时域降采样，得到包含预设数量个采样点的n个子帧；通过采样预测网络，在第i轮预测过程中，对n个子帧中对应的当前m个相邻采样点同步进行采样值预测，得到m×n个子预测值，进而得到预设数量个采样点中每个采样点对应的n个子预测值；根据每个采样点对应的n个子预测值得到当前帧对应的音频预测信号；进而对至少一帧声学特征帧的每帧声学特征帧进行音频合成，得到目标音频。通过本申请，能够提高音频处理的速度与效率。

Description

音频处理方法、声码器、装置、设备及存储介质

技术领域

本申请涉及音视频处理技术，尤其涉及一种音频处理方法、声码器、装置、设备及存储介质。

背景技术

随着智能设备(如智能手机、智能音箱等)的快速发展，语音交互技术作为一种自然的交互方式得到越来越多的应用。作为语音交互技术中重要的一环，语音合成技术也取得了长足的进步。语音合成技术通过一定的规则或模型算法将文本转换为对应的音频内容。传统的语音合成技术主要基于拼接方法或统计参数方法。随着深度学习在语音识别领域不断取得突破，深度学习逐渐被引入到语音合成领域。得益于此，基于神经网络的声码器(Neural vocoder)取得了很大的进展。然而，目前的声码器通常需要基于音频特征信号中的多个采样时间点进行多次循环才能完成语音预测，进而完成语音合成，从而导致音频合成的处理速度较慢，降低了音频处理的效率。

发明内容

本申请实施例提供一种音频处理方法、声码器、装置、设备及存储介质，能够提高音频处理的速度与效率。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种音频处理方法，包括：

对待处理文本进行语音特征转换，得到至少一帧声学特征帧；

通过帧率网络，从所述至少一帧声学特征帧的每帧声学特征帧中，提取出所述每帧声学特征帧对应的条件特征；

对所述每帧声学特征帧中的当前帧进行频带划分与时域降采样，得到所述当前帧对应的n个子帧；其中，n为大于1的正整数；所述n个子帧的每个子帧包含预设数量个采样点；

通过采样预测网络，在第i轮预测过程中，对当前m个相邻采样点在所述n个子帧上对应的采样值进行同步预测，得到m×n个子预测值，进而得到所述预设数量个采样点中每个采样点对应的n个子预测值；其中，i为大于或等于1的正整数；m为大于或等于2且小于或等于所述预设数量的正整数；

根据所述每个采样点对应的n个子预测值得到所述当前帧对应的音频预测信号；进而对至少一帧声学特征帧的每帧声学特征帧对应的音频预测信号进行音频合成，得到所述待处理文本对应的目标音频。

本申请实施例提供一种声码器，包括：

帧率网络，用于从所述至少一帧声学特征帧的每帧声学特征帧中，提取出所述每帧声学特征帧对应的条件特征；

时域频域处理模块，用于对所述每帧声学特征帧中的当前帧进行频带划分与时域降采样，得到所述当前帧对应的n个子帧；其中，n为大于1的正整数；所述n个子帧的每个子帧包含预设数量个采样点；

采样预测网络，用于在第i轮预测过程中，对当前m个相邻采样点在所述n个子帧上对应的采样值进行同步预测，得到m×n个子预测值，进而得到所述预设数量个采样点中每个采样点对应的n个子预测值；其中，i为大于或等于1的正整数；m为大于或等于2且小于或等于所述预设数量的正整数；

信号合成模块，用于根据所述每个采样点对应的n个子预测值得到所述当前帧对应的音频预测信号；进而对至少一帧声学特征帧的每帧声学特征帧对应的音频预测信号进行音频合成，得到所述待处理文本对应的目标音频。

本申请实施例提供一种音频处理装置，包括：

文本语音转换模型，用于待处理文本进行语音特征转换，得到至少一帧声学特征帧；

上述装置中，当m等于2时，所述采样预测网络中包含独立的2n个全连接层，所述当前两个相邻采样点包括：所述第i轮预测过程中，当前时刻t对应的采样点t与下一时刻t+1对应的采样点t+1，其中，t为大于或等于1的正整数；

所述采样预测网络，还用于在第i轮预测过程中，基于所述采样点t对应的至少一个t时刻历史采样点，对所述采样点t在所述n个子帧上的线性采样值进行线性编码预测，得到n个t时刻子粗测值；

当i大于1时，基于第i-1轮预测过程对应的历史预测结果，结合所述条件特征，通过2n个全连接层，同步对所述采样点t与采样点t+1分别在所述n个子帧的每个子帧上的残差值进行前向残差预测，得到所述采样点t对应的n个t时刻残差值与所述采样点t+1对应的n个t+1时刻残差值；所述历史预测结果包含第i-1轮预测过程中，相邻两个采样点各自对应的n个残差值与子预测值；

基于所述采样点t+1对应的至少一个t+1时刻历史采样点，对所述采样点t+1在所述n个子帧上的线性采样值进行线性编码预测，得到n个t+1时刻子粗测值；

根据所述n个t时刻残差值与所述n个t时刻子粗测值，得到所述采样点t对应的n个t时刻子预测值，并根据所述n个t+1时刻残差值与所述n个t+1时刻子粗测值，得到n个t+1时刻子预测值；将所述n个t时刻子预测值与所述n个t+1时刻子预测值作为2n个子预测值。

上述装置中，所述采样预测网络，还用于获取采样点t-1对应的n个t-1时刻子粗测值，以及在所述第i-1轮预测过程中得到的n个t-1时刻残差值、n个t-2时刻残差值、n个t-1时刻子预测值与n个t-2时刻子预测值；对所述n个t时刻子粗测值、所述n个t-1时刻子粗测值、所述n个t-1时刻残差值、所述n个t-2时刻残差值、所述n个t-1时刻子预测值与所述n个t-2时刻预测值进行特征维度过滤，得到降维特征集合；通过所述2n个全连接层中的每个全连接层，结合所述条件特征，基于所述降维特征集合，同步对所述采样点t与采样点t+1分别在所述n个子帧的每个子帧上的残差值进行前向残差预测，分别得到所述n个t时刻残差值与所述n个t+1时刻残差值。

上述装置中，所述采样预测网络，还用于将所述降维特征集合中的n个t-2时刻降维残差值与n个t-2时刻降维预测值确定为t时刻激励值；所述n个t-2时刻降维残差值为所述n个t-2时刻残差值经过特征维度过滤后得到的；所述n个t-2时刻降维预测值为所述n个t-2时刻预测值经过特征维度过滤后得到的；将所述降维特征集合中的n个t-1时刻降维残差值与所述n个t-1时刻降维子预测值确定为t+1时刻激励值；所述n个t-1时刻降维残差值为所述n个t-1时刻残差值经过特征维度过滤后得到的；所述n个t-1时刻降维预测值为所述n个t-1时刻预测值经过特征维度过滤后得到的；在所述2n个全连接层中的n个全连接层中，基于所述条件特征与所述t时刻激励值，采用所述n个全连接层中的每个全连接层，同步根据所述n个t-1时刻降维子粗测值对所述采样点t进行前向残差预测，得到所述n个t时刻残差值；并且，在所述2n个全连接层中的另外n个全连接层中，基于所述条件特征与所述t+1时刻激励值，采用所述另外n个全连接层中的每个全连接层，同步根据所述n个t时刻降维子粗测值对所述采样点t+1进行前向残差预测，得到所述n个t+1时刻残差值。

上述装置中，所述采样预测网络中包含第一门控循环网络与第二门控循环网络，所述采样预测网络，还用于将所述n个t时刻子粗测值、所述n个t-1时刻子粗测值、所述n个t-1时刻残差值、所述n个t-2时刻残差值、所述n个t-1时刻子预测值与所述n个t-2时刻预测值进行特征维度合并，得到初始特征向量集合；基于所述条件特征，通过所述第一门控循环网络，对所述初始特征向量集合进行特征降维处理，得到中间特征向量集合；基于所述条件特征，通过所述第二门控循环网络，对所述中间特征向量进行特征降维处理，得到所述降维特征集合。

上述装置中，所述时域频域处理模块，还用于对所述当前帧进行频域划分，得到n个初始子帧；对所述n个初始子帧所对应的时域采样点进行降采样，得到所述n个子帧。

上述装置中，所述采样预测网络，还用于所述在第i轮预测过程中，通过采样预测网络，基于所述采样点t对应的至少一个t时刻历史采样点，对所述采样点t在所述n个子帧上的线性采样值进行线性编码预测，得到n个t时刻子粗测值之前，当t小于或等于预设窗口阈值时，将所述采样点t之前的全部采样点作为所述至少一个t时刻历史采样点；所述预设窗口阈值表征线性编码预测可处理的最大采样点的数量；或者，

当t大于所述预设窗口阈值时，将从所述采样点t-1至采样点t-k范围内对应的采样点，作为所述至少一个t时刻历史采样点；其中，k为预设窗口阈值。

上述装置中，所述采样预测网络，还用于所述在第i轮预测过程中，通过采样预测网络，基于所述采样点t对应的至少一个t时刻历史采样点，对所述采样点t在所述n个子帧上的线性采样值进行线性编码预测，得到n个t时刻子粗测值之后，当i等于1时，通过所述2n个全连接层，结合所述条件特征与预设激励参数，同步对所述采样点t与所述采样点t+1分别在所述n个子帧上的残差值进行前向残差预测，得到所述采样点t对应的n个t时刻残差值与所述采样点t+1对应的n个t+1时刻残差值；基于所述采样点t+1对应的至少一个t+1时刻历史采样点，对所述采样点t+1在所述n个子帧上的线性采样值进行线性编码预测，得到n个t+1时刻子粗测值；根据所述n个t时刻残差值与所述n个t时刻子粗测值，得到所述采样点t对应的n个t时刻子预测值，并根据所述n个t+1时刻残差值与所述n个t+1时刻子粗测值，得到n个t+1时刻子预测值；将所述n个t时刻子预测值与所述n个t+1时刻子预测值作为所述2n个子预测值。

上述装置中，所述信号合成模块，还用于将所述每个采样点对应的n个子预测值进行频域叠加，得到所述每个采样点对应的信号预测值；将所述每个采样点对应的信号预测值进行时域信号合成，得到所述当前帧对应的音频预测信号；进而得到所述每帧声学特征对应的音频信号；将所述每帧声学特征对应的音频信号进行信号合成，得到所述目标音频。

上述装置中，所述文本语音转换模型，还用于获取待处理文本；对所述待处理文本进行规整化处理，得到待转换文本信息；对所述待转换文本信息进行声学特征预测，得到所述至少一帧声学特征帧。

本申请实施例提供一种电子设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本申请实施例提供的音频处理方法。

本申请实施例提供一种存储介质，存储有可执行指令，用于引起处理器执行时，实现本申请实施例提供的音频处理方法。

本申请实施例具有以下有益效果：

音频处理装置通过将每帧声学特征信号划分为频域上的多个子帧并对每个子帧进行降采样，降低了采样预测网络进行采样值预测时所需处理的整体采样点数量，进而，通过在一轮预测过程中同时对多个相邻时间的采样点的进行预测，实现了对多个采样点的同步处理，从而显著减少了采样预测网络预测音频信号时所需的循环次数，提高了音频合成的处理速度，并提高了音频处理的效率。

附图说明

图1是本申请实施例提供的目前的LPCNet声码器的一个可选的结构示意图；

图2是本申请实施例提供的音频处理***架构的一个可选的结构示意图一；

图3是本申请实施例提供的音频处理***在车载应用场景下的一个可选的结构示意图一；

图4是本申请实施例提供的音频处理***架构的一个可选的结构示意图二；

图5是本申请实施例提供的音频处理***在车载应用场景下的一个可选的结构示意图二；

图6是本申请实施例提供的音频处理装置的一个可选的结构示意图；

图7是本申请实施例提供的多频带多时域的声码器的一个可选的结构示意图；

图8是本申请实施例提供的音频处理方法的一个可选的流程示意图一；

图9是本申请实施例提供的音频处理方法的一个可选的流程示意图二；

图10是本申请实施例提供的音频处理方法的一个可选的流程示意图三；

图11是本申请实施例提供的音频处理方法的一个可选的流程示意图四；

图12是本申请实施例提供的帧率网络与采样预测网络的网络架构的一个可选的示意图；

图13是本申请实施例提供的音频处理方法的一个可选的流程示意图五；

图14是本申请实施例提供的音频处理装置的一个可选的结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)语音合成：也被称为文字转语音(Text to Speech，TTS)，其作用是将计算机自己产生的或外部输入的文字信息转变为可以听得懂的、流利的语音并朗读出来。

2)频谱：频谱(Spectrograms)是指一个时域的信号在频域下的表示方式，可以针对信号进行傅里叶变换而得，所得的结果是分别以幅度及相位为纵轴，频率为横轴的两张图，语音合成技术应用中多会省略相位的信息，只保留不同频率下对应的幅度信息。

3)基频：在声音中，基频(Fundamental frequency)是指一个复音中基音的频率，用符号FO表示。在构成一个复音的若干个音中，基音的频率最低，强度最大。基频的高低决定一个音的高低。平常所谓语音的频率，一般指的是基音的频率。

4)声码器：声码器(Vocoder)源自人声编码器(Voice Encoder)的缩写，又称语音信号分析合成***，其作用是将声学特征转换为声音。

5)GMM：混合高斯模型(Gaussian Mixture Model)是单一高斯概率密度函数的延伸，用多个高斯概率密度函数更为精确地对变量分布进行统计建模。

6)DNN：深度神经网络(Deep Neural Network)是一种判别模型，是包含超过两个隐藏层的多层感知机(Multi-layer perceptron neural networks，MLP)，除了输入节点外，每个节点都是一个带有非线性激活函数的神经元，与MLP一样，DNN可以使用反向传播算法进行训练。

7)CNN：卷积神经网络(Convolutional Neural Network)是一种前馈神经网络，其神经元可对感受野内的单元进行响应。CNN通常由多个卷积层和顶端的全连接层组成，其通过共享参数降低模型的参数量，使之在图像和语音识别方面得到广泛应用。

8)RNN：循环神经网络(Recurrent Neural Network，RNN)是一类以序列(sequence)数据为输入，在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络(Recursive Neural Network)。

9)LSTM：长短时记忆网络(Long Short-Term Memory)，是一种循环神经网络，它在算法中加入了一个判断信息有用与否的Cell。一个Cell中放置了输入门、遗忘门和输出门。信息进入LSTM后，根据规则来判断是否有用。符合算法认证的信息才会留下，不符的信息则通过遗忘门被遗忘。该网络适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。

10)GRU：循环门单元(Gate Recurrent Unit)，是循环神经网络的一种。和LSTM一样，也是为了解决长期记忆和反向传播中的梯度等问题而提出的。与LSTM相比，GRU内部少了一个“门控”，参数比LSTM少，在多数情况下能够达到与LSTM相当的效果并有效降低计算耗时。

11)Pitch：基音周期。通常，语音信号简单的可以分为两类。一类是具有短时周期性的浊音，人在发浊音时，气流通过声门使声带产生张驰振荡式振动，产生一股准周期脉冲气流，这一气流激励声道就产生浊音，又称有声语音，它携带着语音中的大部分能量，其周期称为基音周期(Pitch)。另一类是具有随机噪声性质的清音，在声门关闭时由口腔压迫其中的空气发出。

12)LPC：线性预测编码(Linear Predictive Coding)，语音信号可以被建模为一个线性时变***的输出，该***的输入激励信号为(浊音期间)周期脉冲或(清音期间)随机噪声。语音信号的采样可以用过去的采样线性拟合来逼近，然后通过局部最小化实际采样和线性预测采样之间的差值平方和，即可得出一组预测系数，即LPC。

13)LPCNet：线性预测编码网络是一个数字信号处理和神经网络巧妙结合应用于语音合成中的声码器的工作，可以在普通的CPU上实时合成高质量语音。

目前，在基于神经网络的声码器中，Wavenet作为神经声码器的开山之作，为后续的该领域的工作提供了重要参考，但由于其自递归(即预测当前的采样点需要依赖前面时刻的采样点)的前向方式，导致实时性上很难满足大规模线上应用的要求。针对Wavenet存在的问题，基于流的神经声码器如Parallel Wavenet、Clarinet应运而生。这类声码器通过蒸馏的方式，使教师模型与学生模型所预测的分布(混合逻辑斯特分布、单高斯分布)尽可能相近。蒸馏学习完成后，在前向时使用可并行的学生模型来提升整体的速度。但是由于基于流的声码器整体结构仍较为复杂，存在训练流程割裂，训练稳定性不佳的问题，因此基于流的声码器仅能在成本较高的GPU上实现实时合成，对于大规模线上应用而言，成本过高。随后，有着更简单结构的自递归模型，如Wavernn、LPCNet相继被推出。在原本较为简单的结构上进一步引入了量化优化及矩阵稀疏优化，使得其能在单CPU上达到一个相对不错的实时性。但是对于大规模线上应用而言，还需要更快的声码器。

目前，LPCNet声码器主要由帧率网络(Frame Rate Network，FRN)与采样率网络(Sample Rate Network，SRN)构成。如图1所示，其中，帧率网络10通常以多维音频特征作为输入，经过多层卷积的处理提取高层语音特征作为后续采样率网络20的条件特征f；采样率网络20可以基于多维音频特征进行LPC系数计算，并基于LPC系数，结合在当前时刻之前的多个时刻上预测得到的采样点预测值S_t-16...S_t-1，以线性预测编码输出当前时刻的采样点所对应的当前粗测值p_t。采样率网络将上一时刻的采样点对应的预测值S_t-1，上一时刻的采样点对应的预测误差e_t-1、当前粗测值p_t以及帧率网络10输出的条件特征f作为输入，输出当前时刻的采样点对应的预测误差e_t；之后，采样率网络20再使用当前粗测值p_t加上当前时刻的采样点对应的预测误差e_t，得到当前时刻的预测值S_t。采样率网络20针对多维音频特征中的每个采样点进行同样的处理，不断循环运行，最终完成对所有采样点的采样值预测，根据每个采样点上的预测值得到整个需要合成的目标音频。由于通常音频采样点数量较多，以采样率为16Khz为例，10ms的音频包含160个采样点。因此，为了合成10ms音频，目前的声码器中的SRN需要循环160次，整体计算量还是存在很大的优化空间。

本申请实施例提供一种音频处理方法、声码器、装置、设备及存储介质，能够提高音频处理的速度和效率。下面说明本申请实施例提供的电子设备的示例性应用，本申请实施例提供的电子设备可以实施为智能机器人、智能音箱、笔记本电脑，平板电脑，台式计算机，机顶盒，移动设备(例如，移动电话，便携式音乐播放器，个人数字助理，专用消息设备，便携式游戏设备)等各种类型的用户终端，也可以实施为服务器。下面，将说明电子设备实施为服务器时示例性应用。

参见图2，图2是本申请实施例提供的音频处理***100-1的一个可选的架构示意图，为实现支撑一个智能语音应用，终端400(示例性示出了终端400-1、终端400-2与终端400-3)通过网络连接服务器200，网络可以是广域网或者局域网，又或者是二者的组合。

终端400上安装有智能语音应用的客户端410(示例性示出了客户端410-1、客户端410-2和客户端410-3)，客户端410可以将需要进行智能语音合成的待处理文本发送至服务端。服务器200用于接收到待处理文本后，对待处理文本进行语音特征转换，得到至少一帧声学特征帧；通过帧率网络，从至少一帧声学特征帧的每帧声学特征帧中，提取出每帧声学特征帧对应的条件特征；对每帧声学特征帧中的当前帧进行频带划分与时域降采样，得到当前帧对应的n个子帧；其中，n为大于1的正整数；n个子帧的每个子帧包含预设数量个采样点；通过采样预测网络，在第i轮预测过程中，对当前m个相邻采样点在n个子帧上对应的采样值进行同步预测，得到m×n个子预测值，进而得到预设数量个采样点中每个采样点对应的n个子预测值；其中，i为大于或等于1的正整数；m为大于或等于2且小于或等于预设数量的正整数；根据每个采样点对应的n个子预测值得到当前帧对应的音频预测信号；进而对至少一帧声学特征帧的每帧声学特征帧对应的音频预测信号进行音频合成，得到待处理文本对应的目标音频。服务器200还可以进一步进行对目标音频的压缩等后处理操作，将处理后的目标音频通过流式或整句返回的方式返回到终端400。终端400在接收到返回的音频之后即可在客户端410中进行流畅自然的语音播放。由于在音频处理***100-1的整个处理过程中，服务器200能够通过采样预测网络同时预测相邻时间的多个子带特征对应的预测值，预测音频时所需的循环次数较少，从而使得服务器后台语音合成服务延迟很小，客户端410可立即获得返回的音频。使得终端400的用户可以在短时间内听到待处理文本所转化的语音内容，解放双眼，交互自然便捷。

在一些实施例中，服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端400可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例中不做限制。

在一些实施例中，如图3所示，终端400可以是车载设备400-4，示例性的，车载设备400-4可以是安装在车辆设备内部的车载电脑，还可以是安装在车辆设备外部的用于控制车辆的控制设备等，智能语音应用的客户端410可以是车载服务客户端410-4，用于显示车辆的相关行驶信息并提供对车辆上各类设备的操控以及提供其他扩展功能。当车载服务客户端410-4接收到外部发送的文本类消息，如新闻消息、路况消息，或紧急消息等包含文本信息的消息时，可以基于用户的操作指令，如用户通过语音、屏幕或按键等操作触发语音播报指令后，车载服务***响应于语音播报指令，将文本消息发送至服务器200-1，由服务器200-1从文本消息中提取出待处理文本，并对待处理文本进行上述的音频处理过程，生成对应的目标音频。服务器200-1将目标音频发送至车载服务客户端410-4，由车载服务客户端410-4调用相应的界面显示和车载多媒体设备对目标音频进行播放。

下面，将说明设备实施为终端时示例性应用。参见图4，图4是本申请实施例提供的音频处理***100-2的一个可选的架构示意图，为实现支撑一个垂直领域下的可定制个性化语音合成应用，如在小说朗读、新闻播报等领域的专属音色语音合成服务，终端500通过网络连接服务器300，网络可以是广域网或者局域网，又或者是二者的组合。

服务器300用于预先根据音色定制需求，通过采集各种音色的音频，如不同性别或不同音色类型的发音人音频形成语音库，通过语音库对内置的初始语音合成模型进行训练，得到具备语音合成功能的服务器端模型，并将训练完成的服务器端模型部署在终端500上，成为终端500上的后台语音处理模型420。终端500上安装有智能语音应用411(如阅读类APP，新闻客户端等)，当用户需要通过智能语音应用411朗读某个文本时，智能语音应用411可以获取用户提交的所需语音朗读的文本，将该文本作为待处理文本，发送给后台语音模型420，通过后台语音模型420，对待处理文本进行语音特征转换，得到至少一帧声学特征帧；通过帧率网络，从至少一帧声学特征帧的每帧声学特征帧中，提取出每帧声学特征帧对应的条件特征；对每帧声学特征帧中的当前帧进行频带划分与时域降采样，得到当前帧对应的n个子帧；其中，n为大于1的正整数；n个子帧中的每个子帧包含预设数量个采样点；通过采样预测网络，在第i轮预测过程中，对当前m个相邻采样点在n个子帧上对应的采样值进行同步预测，得到m×n个子预测值，进而得到预设数量个采样点中每个采样点对应的n个子预测值；其中，i为大于或等于1的正整数；m为大于或等于2且小于或等于预设数量的正整数；根据每个采样点对应的n个子预测值得到当前帧对应的音频预测信号；进而对至少一帧声学特征帧的每帧声学特征帧对应的音频预测信号进行音频合成，得到待处理文本对应的目标音频，并传递给智能语音应用411的前台交互界面进行播放。个性化定制语音合成对***的鲁棒性、泛化性及实时性等提出了更高的要求，本申请实施例提供的可模块化的端到端的音频处理***可根据实际情况灵活做出调整，在几乎不影响合成效果的前提下，保障了不同需求下***的高适配性。

在一些实施例中，参见图5，终端500可以为车载设备500-1，车载设备500-1与另一用户设备500-2如手机、平板电脑等以有线或无线的方式相连接。示例性的，可以通过蓝牙方式连接，也可以通过USB方式连接等等。用户设备500-2可以将自身的文本，如短消息、文档等通过连接发送至车载设备500-1上的智能语音应用411-1。示例性的，用户设备500-2在接收到通知消息时，可以将通知消息自动转发至智能语音应用411-1，或者，用户设备500-2也可以基于用户在用户设备应用上的操作指令，将本地保存的文档发送至智能语音应用411-1。智能语音应用411-1收到推送的文本时，可以基于对语音播报指令的响应，将文本内容作为待处理文本，通过后台语音模型，对待处理文本进行上述的音频处理过程，生成对应的目标音频。智能语音应用411-1进而调用相应的界面显示和车载多媒体设备对目标音频进行播放。

参见图6，图6是本申请实施例提供的电子设备的结构示意图，图6所示的电子设备包括：至少一个处理器410、存储器450、至少一个网络接口420和用户接口430。终端400中的各个组件通过总线***440耦合在一起。可理解，总线***440用于实现这些组件之间的连接通信。总线***440除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图6中将各种总线都标为总线***440。

处理器410可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口430包括使得能够呈现媒体内容的一个或多个输出装置431，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口430还包括一个或多个输入装置432，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器450可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器450可选地包括在物理位置上远离处理器410的一个或多个存储设备。

存储器450包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Me mory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memor y)。本申请实施例描述的存储器450旨在包括任意适合类型的存储器。

在一些实施例中，存储器450能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作***451，包括用于处理各种基本***服务和执行硬件相关任务的***程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块452，用于经由一个或多个(有线或无线)网络接口420到达其他计算设备，示例性的网络接口420包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

呈现模块453，用于经由一个或多个与用户接口430相关联的输出装置431(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作***设备和显示内容和信息的用户接口)；

输入处理模块454，用于对一个或多个来自一个或多个输入装置432之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本申请实施例提供的装置可以采用软件方式实现，图6中示出了存储在存储器450中的音频处理装置455，其可以是程序和插件等形式的软件，包括以下软件模块：文本语音转换模型4551、帧率网络4552、时域频域处理模块4553、采样预测网络4554和信号合成模块4555，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。

将在下文中说明各个模块的功能。

在另一些实施例中，本申请实施例提供的装置可以采用硬件方式实现，作为示例，本申请实施例提供的装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本申请实施例提供的音频处理方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specif ic Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic De vice)、复杂可编程逻辑器件(CPLD，ComplexProgrammable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable GateArray)或其他电子元件。

本申请实施例提供一种多频带多时域的声码器，该声码器可以与文本语音转换模型相结合，将文本语音转换模型根据待处理文本所输出的至少一帧声学特征帧转换为目标音频；也可以与其他音频处理***中的音频特征提取模块相结合，起到将音频特征提取模块输出的音频特征转换为音频信号的作用。具体的根据实际情况进行选择，本申请实施例不作限定。

如图7所示，本申请实施例提供的声码器包含时域频域处理模块51、帧率网络52、采样预测网络53和信号合成模块54。其中，帧率网络52可以对输入的声学特征信号进行高层抽象，从至少一帧声学特征帧的每帧声学特征帧中提取出该帧对应的条件特征。声码器进而可以基于每帧声学特征帧对应的条件特征，对该帧声学特征中每个采样点上的采样信号值进行预测。以声码器对至少一帧声学特征帧中的当前帧进行处理为例，对于每帧声学特征帧中的当前帧，时域频域处理模块51可以对当前帧进行频带划分与时域降采样，得到当前帧对应的n个子帧；n个子帧中的每个子帧包含预设数量个采样点。采样预测网络53用于在第i轮预测过程中，对当前m个相邻采样点在n个子帧上对应的采样值进行同步预测，得到m×n个子预测值，进而得到预设数量个采样点中每个采样点对应的n个子预测值；其中，i为大于或等于1的正整数；m为大于或等于2且小于或等于预设数量的正整数；信号合成模块54，用于根据每个采样点对应的n个子预测值得到当前帧对应的音频预测信号；进而对每帧声学特征帧对应的音频预测信号进行音频合成，得到待处理文本对应的目标音频。

人发声音是通过人肺部挤压出来的气流通过声带产生震动波，通过空气传播到耳朵，因此，采样预测网络可以通过声源激励(模拟从肺部发出气流)和声道响应(vocaltract response)***来进行音频信号采样值的预测。在一些实施例中，采样预测网络53可以如图7所示，包括线性预测编码模块53-1与采样率网络53-2。其中，线性预测编码模块53-1可以计算出m个采样点中每个采样点在n个子帧上对应的子粗测值，作为声道响应；采样率网络53-2可以根据帧率网络52提取出的条件特征，在一轮预测过程中，以m个采样点为前向预测的时间跨度，同时完成m个相邻采样点中每个采样点分别在n个子帧上对应的残差值，作为声源激励(Excitation)，进而根据声道响应与声源激励模拟出相应的音频信号。具体地，对于在一些实施例中，以m等于2，即采样预测网络的预测时间跨度为2个采样点为例，在第i轮预测过程中，线性预测编码模块53-1可以根据当前时刻t上的采样点t所对应的至少一个t时刻历史采样点中，每个历史采样点对应的n个子预测值，对采样点t在n个子帧上的线性采样值进行线性编码预测，得到n个t时刻子粗测值，作为采样点t的声道响应；在对采样点t对应的残差值进行预测时，由于预测时间跨度为2个采样点，因此采样率网络53-2可以将第i-1轮预测过程中采样点t-2对应的n个t-2时刻残差值与n个t-2时刻子预测值作为激励值，结合条件特征与n个t-1时刻子粗测值，对采样点t在n个子帧中分别对应的残差值进行前向预测，得到采样点t对应的n个t时刻残差值。同时，在对采样点t对应的残差值进行预测时，将第i-1轮预测过程中采样点t-1对应的n个t-1时刻残差值与n个t-1时刻子预测值作为激励值，结合条件特征，对采样点t+1在n个子帧中分别对应的残差值进行前向预测，得到采样点t+1对应的n个t+1时刻残差值。采样率网络53-2可以根据上述过程，自递归地对n个子帧中的降采样后的预设数量个采样点进行残差预测，直至得到每个采样点对应的n个残差值。

本申请实施例中，采样预测网络53可以根据n个t时刻残差值与n个t时刻子粗测值得到采样点t对应的n个t时刻子预测值，并将采样点t作为采样点t+1对应的至少一个t+1时刻历史采样点之一，根据至少一个t+1时刻历史采样点中每个t+1时刻历史采样点对应的子预测值，对采样点t+1在n个子帧上对应的线性采样值进行线性编码预测，得到n个t+1时刻子粗测值，作为采样点t的声道响应；进而根据n个t+1时刻子粗测值与n个t+1时刻残差值得到n个t+1时刻子预测值，将n个t时刻子预测值与n个t+1时刻子预测值作为2n个子预测值，从而完成第i轮预测过程。第i轮预测过程结束后，采样预测网络53当前相邻两个采样点t与采样点t+1进行更新，开始第i+1轮采样值预测过程，直至预设数量个采样点全部预测完毕，声码器可以通过信号合成模块54得到当前帧对应的音频信号的信号波形。

可以理解的是，本申请实施例提供的声码器有效地降低了将声学特征转换为音频信号所需的计算量，并且实现了多个采样点的同步预测，可以在保证高实时率的同时，输出高可理解度、高自然度、高保真度的音频。

需要说明的是，上述实施例中，将声码器的预测时间跨度设置为两个采样点，即设置m为2是在综合考虑声码器处理效率与音频合成质量的基础上的一种优选的示例性应用，实际应用时也可以根据工程的需要将m设置为其他时间跨度参数值，具体的根据实际情况进行选择，本申请实施例不作限定。当m设置为其他值时，预测过程和每轮预测过程中每个采样点对应的激励值的选取与上述m＝2时类似，此处不再赘述。

下面，结合本申请实施例提供的示例性应用和实施，说明本申请实施例提供的音频处理方法。

参见图8，图8是本申请实施例提供的音频处理方法的一个可选的流程示意图，将结合图8示出的步骤进行说明。

S101、对待处理文本进行语音特征转换，得到至少一帧声学特征帧。

本申请实施例提供的音频处理方法可应用在智能语音应用的云服务中，进而服务于使用该云服务的用户，如银行智能客服、以及背单词软件等学习类软件，也可以应用在终端本地应用的书籍智能朗读、新闻播报等智能语音场景。

本申请实施例中，音频处理装置可以通过预设的文本语音转换模型，对待转换文本信息进行语音特征转换，输出的至少一帧声学特征帧。

本申请实施例中，文本语音转换模型可以是由CNN、DNN网络或RNN网络构建的序列到序列(Sequence to Sequence)模型，序列到序列模型主要由编码器和解码器两部分构成；其中，编码器可以将语音数据、原始文本、视频数据等一系列具有连续关系的数据抽象为序列，并从原始文本中的字符序列，如句子中提取鲁棒序列表达，将其编码为能够映射出句子内容的固定长度的向量，从而将原始文本中的自然语言转换为能够被神经网络识别和处理的数字特征；解码器可以将编码器得到的固定长度的向量映射为对应序列的声学特征，并将多个采样点上的特征集合成一个观测单位，即一帧，从而得到至少一帧声学特征帧。

本申请实施例中，至少一帧声学特征帧可以是至少一帧音频频谱信号，可以通过频域的频谱图进行表示。每个声学特征帧中包含预设数量的特征维度，特征维度表征特征中向量的数量，而特征中的向量用于对各类特征信息，如音调、共振峰、频谱、发音域函数等进行描述。示例性的，至少一帧声学特征帧可以是梅尔刻度声谱图，也可以是线性对数幅度谱图，或者是巴克刻度声谱图等等，本申请实施例对至少一帧声学特征帧的提取方法和特征的数据形式不作限定。

在一些实施例中，每帧声学特征帧中可以包含18维BFCC特征(Bark-Fre quencyCepstral Coefficients)加上2维声调(Pitch)相关特征。

由于日常生活中的声音的模拟信号的频率一般都在8kHz以下，根据抽样定理，16kHz的采样率足以使得采样出来的音频数据包含大多数声音信息。16kHz意味着1秒的时间内采样16k个信号样本，在一些实施例中，每帧声学特征帧的帧长可以是10ms，则对于采样率为16KHZ的音频信号，每帧声学特征帧中可以包含160个采样点。

S102、通过帧率网络，从至少一帧声学特征帧的每帧声学特征帧中，提取出每帧声学特征帧对应的条件特征。

本申请实施例中，音频处理装置可以通过帧率网络对至少一帧声学特征帧进行多层卷积的处理，提取出每帧声学特征帧的高层语音特征作为该帧声学特征帧对应的条件特征。

在一些实施例中，音频处理装置可以通过S101将待处理文本转换为100帧声学特征帧，再通过帧率网络对100帧声学特征帧同时进行处理，得到对应的100帧条件特征。

在一些实施例中，帧率网络可以包含依次串联的两个卷积层与两个全连接层。示例性的，两个卷积层可以是两个filter尺寸为3的卷积层(conv3x1)，对于包含18维BFCC特征加2维声调特征的声学特征帧，每帧中的20维特征首先通过两个卷积层，根据该帧前两帧与该帧后两帧的声学特征帧产生5帧的感受野，并将5帧的感受野添加到残差连接，然后通过两个全连接层输出一个128维条件向量f，作为条件特征，用于辅助采样率网络进行前向残差预测。

需要说明的是，本申请实施例中，对于每个声学特征帧，帧率网络对应的条件特征只计算一次。即当采样率网络在对该声学特征帧对应的降采样后的多个采样点对应的采样值进行递归式地预测时，该帧对应的条件特征在该帧对应的递归预测过程中保持不变。

S103、对每帧声学特征帧中的当前帧进行频带划分与时域降采样，得到当前帧对应的n个子帧；其中，n为大于1的正整数；n个子帧中的每个子帧包含预设数量个采样点。

本申请实施例中，为了降低采样预测网络的循环预测次数，音频处理装置可以通过对每帧声学特征帧中的当前帧进行频带划分，然后对划分后的频带中所包含的时域上的采样点进行降采样，以减少每个划分后频带中包含的采样点数量，从而得到当前帧对应的n个子帧。

在一些实施例中，频域划分过程可以通过滤波器组来实现。示例性的，当n等于4时，对于频域范围为0-8k的当前帧，音频处理装置可以通过包含四个带通滤波器的滤波器组如Pseudo-QMF(Pseudo Quadratue Mirror Filter Bank)滤波器组，以2k带宽为单位，从当前帧中分别划分出0-2k、2-4k、4-6k、6-8k频带对应的特征，对应得到当前帧对应的4个初始子帧。

在一些实施例中，对于当前帧中包含160个采样点的情况，音频处理装置将当前帧划分为4个频域上的初始子帧后，由于频域划分仅是基于频带的划分，因此每个初始子帧中包含的采样点仍然是160个。音频处理装置进一步通过降采样滤波器对每个初始子帧进行降采样，将每个初始子帧中的采样点减少到40个，从而得到当前帧对应的4个子帧。

本申请实施例中，音频处理装置也可以通过其他软件或硬件的方法对当前帧进行频带划分，具体的根据实际情况进行选择，本申请实施例不作限定。音频处理装置在对至少一帧声学特征帧中的每一帧进行频带划分和时域降采样时，可以将每一帧作为当前帧，以同样的处理过程进行划分和时域降采样。

S104、通过采样预测网络，在第i轮预测过程中，对当前m个相邻采样点在n个子帧上对应的采样值进行同步预测，得到m×n个子预测值，进而得到预设数量个采样点中每个采样点对应的n个子预测值；其中，i为大于或等于1的正整数；m为大于或等于2且小于或等于预设数量的正整数。

本申请实施例中，音频处理装置在得到至少一帧声学特征帧之后，需要将至少一帧声学特征帧转化为音频信号的波形表达。因此，对于一帧声学特征帧，音频处理装置需要预测在每个采样点在频域上对应的线性频率刻度上的频谱幅度，作为每个采样点的采样预测值，进而通过每个采样点的采样预测值得到该帧声学特征帧对应的音频信号波形。

本申请实施例中，频域的每个子帧在时域上对应的采样点是相同的，都包含有相同时刻的预设数量个采样点，音频处理装置可以在一轮预测过程中，同时对频域上的n个子帧在相邻时刻的m个采样点上所分别对应采样值进行预测，得到m×n个子预测值，从而可以大大缩短预测一个声学特征帧所需的循环次数。

本申请实施例中，音频处理装置可以通过同样的处理过程，对时域上的预设数量个采样点中的m个相邻的采样点进行预测，例如，预设数量个采样点中包含采样点t₁、t₂、t₃、t₄…t_n，当m＝2时，音频处理装置可以在一轮预测过程中，对采样点t₁以及采样点t₂进行同步处理，在一轮预测过程中同时预测出采样点t₁在频域上的n个子帧对应的n个子预测值、以及采样点t₂在n个子帧上对应的n个子预测值，作为2n个子预测值；并在下一轮预测过程中，将采样点t₃和t₄作为当前相邻两个采样点，以相同的方式对采样点t₃和t₄进行同步处理，同时预测出采样点t₃和采样点t₄对应的2n个子预测值。音频处理装置通过采样预测网络，以自递归的方式完成预设数量个采样点中的全部采样点的采样值预测，得到每个采样点对应的n个子预测值。

S105、根据每个采样点对应的n个子预测值得到当前帧对应的音频预测信号；进而对至少一帧声学特征帧的每帧声学特征帧对应的音频预测信号进行音频合成，得到待处理文本对应的目标音频。

本申请实施例中，每个采样点对应的n个子预测值表征了该采样点在n个频带上的音频信号预测幅度。音频处理装置可以针对每个采样点，对该采样点对应的n个子预测值进行频域的合并，得到该采样点的在全频带上对应的信号预测值。音频处理装置进而将当前帧中的每个采样点对应在预设时间序列中的次序，对每个采样点对应的信号预测值进行时域的合并，得到当前帧对应的音频预测信号。

本申请实施例中，采样预测网络对每一帧声学特征帧进行相同的处理，可以通过至少一帧声学特征帧预测出全部信号波形，从而得到目标音频。

可以理解的是，本申请实施例中，音频处理装置通过将每帧声学特征信号划分为频域上的多个子帧并对每个子帧进行降采样，降低了采样预测网络进行采样值预测时所需处理的整体采样点数量，进而，通过在一轮预测过程中同时对多个相邻时间的采样点的进行预测，实现了对多个采样点的同步处理，从而显著减少了采样预测网络预测音频信号时所需的循环次数，提高了音频合成的处理速度，并提高了音频处理的效率。

在本申请的一些实施例中，S103具体可以执行S1031-S1032来实现，如下：

S1031、对当前帧进行频域划分，得到n个初始子帧；

S1032、对n个初始子帧所对应的时域采样点进行降采样，得到n个子帧。

可以理解的是，通过对每个子帧进行时域降采样，可以去除每个子帧中的冗余信息，减少采样预测网络基于每个进行递归预测时所需处理的循环次数，从而进一步提高了音频处理的速度和效率。

本申请实施例中，当m等于2时，采样预测网络可以包含独立的2n个全连接层，相邻m个采样点包括：第i轮预测过程中，当前时刻t对应的采样点t与下一时刻t+1对应的采样点t+1，其中，t为大于或等于1的正整数。如图9所示，图8中的S104可以通过S1041-S1044来实现，将结合各步骤进行说明。

S1041、在第i轮预测过程中，通过采样预测网络，基于采样点t对应的至少一个t时刻历史采样点，对采样点t在n个子帧上的线性采样值进行线性编码预测，得到n个t时刻子粗测值。

本申请实施例中，在第i轮预测过程中，音频处理装置首先通过采样预测网络，对n个子帧在当前时刻的采样点t对应的n个线性采样值进行线性编码预测，得到n个t时刻子粗测值。

本申请实施例中，在第i轮预测过程中，采样预测网络在对采样点t对应的n个t时刻子粗测值进行预测时，需要参考采样点t之前的至少一个历史采样点的信号预测值，通过线性组合方式求解出采样点t时刻的信号预测值。采样预测网络所需参考的历史采样点的最大数量即为预设窗口阈值。音频处理装置可以根据采样点t在预设时间序列中的次序，结合采样预测网络的预设窗口阈值，确定对采样点t进行线性编码预测时所对应的至少一个历史采样点。

在一些实施例中，音频处理装置S1041之前，还可以通过S201或S202来确定出采样点t对应的至少一个t时刻历史采样点，如下：

S201、当t小于或等于预设窗口阈值时，将采样点t之前的全部采样点作为至少一个t时刻历史采样点；预设窗口阈值表征线性编码预测可处理的最大采样点的数量。

在一些实施例中，当当前帧中包含160个采样点，预设窗口阈值为16，也即采样预测网络中的线性预测模块进行一次预测，所能处理的最大队列为16个采样点对应的全部子预测值时，对于采样点15，由于采样点15所在预设时间序列中的次序还未超出预设窗口阈值，因此线性预测模块可以将从采样点15之前的全部采样点，即采样点1到采样点14范围内的14个采样点作为至少一个t时刻历史采样点。

S202、当t大于预设窗口阈值时，将从采样点t-1至采样点t-k范围内对应的采样点，作为至少一个t时刻历史采样点；其中，k为预设窗口阈值。

本申请实施例中，随着采样值预测过程的逐轮递归，线性预测模块的预测窗口在多个采样点的预设时间序列上相应的逐步滑动。在一些实施例中，当t大于16时，如线性预测模块在对采样点18进行线性编码预测时，预测窗口的终点滑动至采样点17的位置，线性预测模块将采样点17至采样点2范围内的16个采样点作为至少一个t时刻历史采样点。

本申请实施例中，音频处理装置中的线性预测模块在采样点t对应至少一个t时刻历史采样点中，获取每个t时刻历史采样点对应的n个子预测值，作为至少一个t时刻历史子预测值；根据至少一个t时刻历史子预测值对采样点t的音频信号线性值进行线性编码预测，得到采样点t对应的n个t时刻子粗测值。

需要说明的是，本申请实施例中，对于当前帧中的首个采样点，由于没有首个采样点对应的历史采样点上的子预测值可以参考，音频处理装置可以结合预设线性预测参数对首个采样点，即i＝1，且t＝1的采样点t进行线性编码预测，得到首个采样点对应的n个t时刻子粗测值。

S1042、当i大于1时，基于第i-1轮预测过程对应的历史预测结果，结合条件特征，通过2n个全连接层，同步对采样点t与采样点t+1分别在n个子帧的每个子帧上的残差值进行前向残差预测，得到采样点t对应的n个t时刻残差值与采样点t+1对应的n个t+1时刻残差值；历史预测结果包含第i-1轮预测过程中，相邻两个采样点各自对应的n个残差值与子预测值。

本申请实施例中，当i大于1时，说明音频处理装置可以获取到第i轮预测过程的上一轮预测结果作为第i轮预测过程的激励，通过采样预测网络进行音频信号的非线性误差值的预测。

本申请实施例中，历史预测结果包含第i-1轮预测过程中，相邻两个采样点各自对应的n个残差值与子预测值。音频处理装置可以基于第i-1轮的历史预测结果，结合条件特征，通过2n个全连接层，同时对n个子帧在采样点t与采样点t+1上分别对应的残差值进行前向残差预测，得到采样点t对应的n个t时刻残差值与采样点t+1对应的n个t+1时刻残差值。

在一些实施例中，如图10所示，S1042可以通过S301-S303来实现，将结合各步骤进行说明。

S301、当i大于1时，获取采样点t-1对应的n个t-1时刻子粗测值，以及在第i-1轮预测过程中得到的n个t-1时刻残差值、n个t-2时刻残差值、n个t-1时刻子预测值与n个t-2时刻子预测值。

本申请实施例中，当i大于1时，相对于第i轮预测过程中的当前时刻t，第i-1轮预测过程所处理的采样点为采样点t-2与采样点t-1，采样预测网络第i-1轮预测过程中可以得到的历史预测结果包括：采样点t-2对应的n个t-2时刻子粗测值、n个t-2时刻残差值与n个t-2时刻子预测值；以及采样点t-1对应的n个t-1时刻粗测值、n个t-1时刻残差值与n个t-1时刻子预测值。采样预测网络从第i-1轮预测过程对应的历史预测结果中，获取的n个t-1时刻子粗测值，以及n个t-1时刻残差值、n个t-2时刻残差值、n个t-1时刻子预测值与n个t-2时刻子预测值，以在上述数据基础上进行第i轮的中采样点t和采样点t+1上的采样值预测。

S302、对n个t时刻子粗测值、n个t-1时刻子粗测值、n个t-1时刻残差值、n个t-2时刻残差值、n个t-1时刻子预测值与n个t-2时刻预测值进行特征维度过滤，得到降维特征集合。

本申请实施例中，为了降低网络运算的复杂度，采样预测网络需要将所需处理的特征数据进行降维处理，从中去掉对预测结果影响较小的维度上的特征数据，提高网络运算效率。

在一些实施例中，采样预测网络中包含第一门控循环网络与第二门控循环网络，S302可以通过S3021-S3023来实现，将结合各步骤进行说明。

S3021、将n个t时刻子粗测值、n个t-1时刻子粗测值、n个t-1时刻残差值、n个t-2时刻残差值、n个t-1时刻子预测值与n个t-2时刻预测值进行特征维度合并，得到初始特征向量集合。

本申请实施例中，音频处理装置将n个t时刻子粗测值、n个t-1时刻子粗测值、n个t-1时刻残差值、n个t-2时刻残差值、n个t-1时刻子预测值与n个t-2时刻预测值从特征维度的角度进行合并，得到用于残差预测的信息特征总维度集合，作为初始特征向量。

S3022、基于条件特征，通过第一门控循环网络，对初始特征向量集合进行特征降维处理，得到中间特征向量集合。

本申请实施例中，第一门控循环网络中可以对不同维度的特征向量进行权重分析，并基于权重分析的结果，保留对残差预测重要且有效的维度上的特征数据，遗忘无效维度上的特征数据，从而实现对初始特征向量集合的降维处理，得到中间特征向量集合。

在一些实施例中，门控循环网络可以是GRU网络，也可以是LSTM网络，具体的根据实际情况进行选择，本申请实施例不作限定。

S3023、基于条件特征，通过第二门控循环网络，对中间特征向量进行特征降维处理，得到降维特征集合。

本申请实施例中，音频处理装置基于条件特征，通过第二门控循环网络对中间特征向量进行再次降维，以去除冗余信息，减少后续预测过程的工作量。

S303、通过2n个全连接层中的每个全连接层，结合条件特征，基于降维特征集合，同步对所述采样点t与采样点t+1分别在所述n个子帧的每个子帧上的残差值进行前向残差预测，分别得到n个t时刻残差值与n个t+1时刻残差值。

在一些实施例中，基于图10，如图11所示，S303可以通过执行S3031-S3033的过程来实现，将结合各步骤进行说明。

S3031、将降维特征集合中的n个t-2时刻降维残差值与n个t-2时刻降维预测值确定为t时刻激励值；n个t-2时刻降维残差值为n个t-2时刻残差值经过特征维度过滤后得到的；n个t-2时刻降维预测值为n个t-2时刻预测值经过特征维度过滤后得到的。

本申请实施例中，音频处理装置可以将第i-1轮预测过程中得到的n个t-2时刻降维残差值与n个t-2时刻降维预测值作为第i轮预测过程的声道激励，以利用采样率网络的前向预测能力，对t时刻的残差值进行预测。

S3032、将降维特征集合中的n个t-1时刻降维残差值与n个t-1时刻降维子预测值确定为t+1时刻激励值；n个t-1时刻降维残差值为n个t-1时刻残差值经过特征维度过滤后得到的；n个t-1时刻降维预测值为n个t-1时刻预测值经过特征维度过滤后得到的。

S3033、在2n个全连接层中的n个全连接层中，基于条件特征与t时刻激励值，采用n个全连接层中的每个全连接层，同时根据n个t-1时刻降维子粗测值对采样点t进行前向残差预测，得到n个t时刻残差值；同时，在2n个全连接层中的另外n个全连接层中，基于条件特征与t+1时刻激励值，采用另外n个全连接层中的每个全连接层，同时根据n个t时刻降维子粗测值对采样点t+1进行前向残差预测，得到n个t+1时刻残差值。

本申请实施例中，2n个全连接层同时并独立进行工作，其中的n个全连接层用于对采样点t的相关预测过程进行处理。具体地，该n个全连接层中的每个全连接层对应进行采样点t在n个子帧中的每个子帧上的残差值预测处理，根据一个子帧上的t-1时刻降维子粗测值，结合条件特征与该子帧上的t时刻激励值(即该子帧在n个t-2时刻降维残差值与n个t-2时刻降维预测值中对应的t-2时刻降维残差值与t-2时刻降维预测值)，预测出采样点t在该子帧上对应的残差值，进而通过n个全连接层得到采样点t在每个子帧上的残差值，也即n个t时刻残差值。

同时，与上述过程类似地，2n个全连接层中的另外n个全连接层对应进行采样点t在n个子帧中的每个子帧上的残差值预测处理，根据一个子帧上的t时刻降维子粗测值，结合条件特征与该子帧上的t+1时刻激励值(即该子帧在n个t-1时刻降维残差值与n个t-1时刻降维预测值中对应的t-1时刻降维残差值与t-1时刻降维预测值)，预测出采样点t+1在该子帧上的残差值，进而通过另外n个全连接层得到采样点t+1在每个子帧上的残差值，也即n个t+1时刻残差值。

S1043、基于采样点t+1对应的至少一个t+1时刻历史采样点，对采样点t+1在n个子帧上的线性采样值进行线性编码预测，得到n个t+1时刻子粗测值。

本申请实施例中，S1043为线性预测算法的预测窗口滑动至采样点t+1时的线性预测过程，音频处理装置可以通过与S1041类似的过程，获得采样点t+1对应的至少一个t+1时刻历史子预测值，根据至少一个t+1时刻历史子预测值对采样点t+1对应的线性采样值进行线性编码预测，得到n个t+1时刻子粗测值。

S1044、根据n个t时刻残差值与n个t时刻子粗测值，得到采样点t对应的n个t时刻子预测值，并根据n个t+1时刻残差值与n个t+1时刻子粗测值，得到n个t+1时刻子预测值；将n个t时刻子预测值与n个t+1时刻子预测值作为2n个子预测值。

本申请实施例中，对于采样点t，音频处理装置可以通过信号叠加的方式，结合n个子帧中的每个子帧，将表征音频信号的线性信息的n个t时刻子粗测值，与表征非线性随机噪声信息的n个t时刻残差值的信号幅度进行叠加处理，得到采样点t对应的n个t时刻子预测值。

同样地，音频处理装置可以将n个t+1时刻残差值与n个t+1时刻子粗测值进行信号叠加处理，得到n个t+1时刻子预测值。音频处理装置进而将n个t时刻子预测值与n个t+1时刻子预测值作为2n个子预测值。

在一些实施例中，基于上述图8-图11中方法流程，音频处理装置中的帧率网络与采样预测网络的网络架构图可以如图12所示，其中，采样预测网络中包含m×n个对偶全连接层，用于对一轮预测过程中时域上的m个采样点分别频域上的n个子帧中的每个子帧上对应的采样值进行预测。以n＝4，m＝2为例，对偶全连接层1至对偶全连接层8为采样预测网络110中包含的2*4个独立的全连接层；帧率网络111可以通过两个卷积层与两个全连接层，从当前帧中提取出条件特征f，带通降采样滤波器组112对当前帧进行频域划分和时域降采样，得到的b1至b4的4个子帧；每个子帧在时域上对应包含40个采样点。

图12中，采样预测网络110可以通过多轮自递归的循环预测过程，实现对时域上的40个采样点的采样值预测。对于多轮预测过程中的第i轮预测过程，采样预测网络110可以通过LPC系数计算与t时刻LPC预测值计算，根据至少一个t时刻历史采样点对应的至少一个t时刻历史子预测值得到当前时刻的采样点t对应的n个t时刻子粗测值进而获取第i-1轮预测过程中对应的n个t-1时刻子粗测值/>n个t-2时刻子预测值/>n个t-2时刻残差值/>n个t-1时刻子预测值/>与n个t-1时刻残差值/>与/>共同送入合并层进行特征维度合并，得到初始特征向量集合。采样预测网络110通过第一门控循环网络和第二门控循环网络，结合条件特征f对初始特征向量集合进行降维处理，得到用于预测的降维特征集合，进而将降维特征集合分别送入8个对偶连接层，通过其中的4个对偶连接层，对采样点t对应的n个残差值进行预测，得到采样点t在4个子帧上对应的4个残差值/>同时，通过其中另外的4个对偶连接层，对采样点t+1对应的4个残差值进行预测，得到采样点t+1在4个子帧上对应的4个残差值/>采样预测网络110进而可以根据/>与/>得到采样点t在4个子帧上对应的4个子预测值/>根据/>得到采样点t+1对应的至少一个t+1时刻历史子预测值/>通过t+1时刻LPC预测值计算，得到采样点t+1在4个子帧上对应的4个子粗测值/>采样预测网络110根据/>与得到采样点t+1在4个子帧上对应的4个子预测值/>从而完成第i轮预测过程，更新下一轮预测过程中采样点t与采样点t+1，以同样的方式进行循环预测，直至时域上的40个采样点全部预测完毕时，得到每个采样点对应的4个子预测值。

可以看出，上述实施例中，本申请实施例中的方法将采样预测网络的循环次数从目前的160次减少到了160/4(子帧数)/2(相邻采样点个数)，即20次，从而大大减少了采样预测网络的循环处理次数，继而提高了音频处理装置的处理速度和处理效率。

需要说明的是，本申请实施例中，当m为其他值时，采样预测网络110中的对偶全连接层的数量需要对应设置为m*n个，并且在预测过程中，对每个采样点的前向预测时间跨度为m个，也即对每个采样点进行残差值预测时，使用上一轮预测过程中，该采样点对应的前m个采样点的历史预测结果作为激励值进行残差预测。

在本申请的一些实施例中，基于图8-图11，S1041之后，还可以执行S1045-1047，将结合各步骤进行说明。

S1045、当i等于1时，通过2n个全连接层，结合条件特征与预设激励参数，同时对采样点t与采样点t+1进行前向残差预测，得到采样点t对应的n个t时刻残差值与采样点t+1对应的n个t+1时刻残差值。

本申请实施例中，对于首轮预测过程，即i＝1时，由于没有上一轮的历史预测结果作为激励值，音频处理装置可以结合条件特征与预设激励参数，通过2n个全连接层，结合条件特征与预设激励参数，同时对采样点t与采样点t+1进行前向残差预测，得到采样点t对应的n个t时刻残差值与采样点t+1对应的n个t+1时刻残差值。

在一些实施例中，预设激励参数可以是0，也可以根据实际需要设置为其他值，具体的根据实际情况进行选择，本申请实施例不作限定。

S1046、基于采样点t+1对应的至少一个t+1时刻历史采样点，对n个子帧在采样点t+1对应的线性采样值进行线性编码预测，得到n个t+1时刻子粗测值。

本申请实施例中，S1046的过程与S1043描述一致，此处不再赘述。

S1047、根据n个t时刻残差值与n个t时刻子粗测值，得到采样点t对应的n个t时刻子预测值，并根据n个t+1时刻残差值与n个t+1时刻子粗测值，得到n个t+1时刻子预测值；将n个t时刻子预测值与n个t+1时刻子预测值作为2n个子预测值。

本申请实施例中，S1047的过程与S1044描述一致，此处不再赘述。

在本申请的一些实施例中，基于图8-图11，如图13所示，S105可以通过执行S1051-1053来实现，将结合各步骤进行说明。

S1051、将每个采样点对应的n个子预测值进行频域叠加，得到每个采样点对应的信号预测值；

本申请实施例中，由于n个子预测值表征了在一个采样点每个子帧频域上的信号幅值，音频处理装置可以通过频域划分的反过程，将每个采样点对应的n个子预测值进行频域叠加，得到每个采样点对应的信号预测值。

S1052、将每个采样点对应的信号预测值进行时域信号合成，得到当前帧对应的音频预测信号；进而得到每帧声学特征对应的音频信号。

本申请实施例中，由于预设数量个采样点是按时间序列进行排列的，因此音频处理装置可以在时域上对每个采样点对应的信号预测值按顺序进行信号合成，得到当前帧对应的音频预测信号。音频处理装置可以通过循环处理的方式，在每轮循环过程中将至少一帧声学特征帧的每帧声学特征作为当前帧进行信号合成，进而得到每帧声学特征对应的音频信号。

S1053、将每帧声学特征对应的音频信号进行信号合成，得到目标音频。

本申请实施例中，音频处理装置将每帧声学特征对应的音频信号进行信号合成，得到目标音频。

在本申请的一些实施例中，基于图8-图11以及图13，S101可以通过执行S1011-1013来实现，将结合各步骤进行说明。

S1011、获取待处理文本；

S1012、对待处理文本进行预处理，得到待转换文本信息；

本申请实施例中，文本的预处理最终生成目标音频的质量的影响至关重要。音频处理装置所获取的待处理文本，通常带有空格和标点符号的字符，可以在许多语境中产生不同语义，因此可能导致待处理文本被误读，或者可能会导致一些词语被跳过或重复。因此，音频处理装置需要先对待处理文本进行预处理，以规整化待处理文本的信息。

在一些实施例中，音频处理装置对待处理文本进行预处理可以包括：在待处理文本中大写所有字符；删除所有中间标点符号；用统一结束符，如句号或问号结束每一个句子；用特殊的分隔符替换单词之间的空格等等，具体的根据实际情况进行选择，本申请实施例不作限定。

S1013、通过文本语音转换模型，对待转换文本信息进行声学特征预测，得到至少一帧声学特征帧。

本申请实施例中，文本语音转换模型为已经训练完成的，能够将文本信息转换为声学特征的神经网络模型。音频处理装置使用文本语音转换模型，根据待转换文本信息中的至少一个文本序列，对应转换为至少一个声学特征帧，从而实现对待转换文本信息的声学特征预测。

可以理解的是，本申请实施例中，通过对待处理文本进行预处理，可以提高目标音频的音频质量；并且，音频处理装置可以将最原始的待处理文本作为输入数据，通过本申请实施例中的音频处理方法输出待处理文本最终的数据处理结果，即目标音频，实现了对待处理文本端到端的处理过程，减少了***模块间的过渡处理，并且增加了音频处理装置的整体契合度。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用。

参见图14，本申请实施例中提出一种音频处理装置的示例性应用，包括文本语音转换模型14-1与多频带多时域声码器14-2。其中文本转换语音模型14-1采用带有注意力机制的序列到序列的Tacotron结构模型，包含CHBG编码器141、注意力模块142、解码器143与CHBG平滑模块144。其中，CHBG编码器用于将原始文本中的句子作为序列，从句子中提取鲁棒序列表达，将其编码为能够映射出固定长度的向量。注意力模块142用于关注鲁棒序列表达的所有词语，通过计算注意力得分，协助编码器进行更好的编码。解码器143用于将编码器得到的固定长度的向量映射为对应序列的声学特征，并通过CBHG平滑模块对输出更平滑的声学特征，从而得到至少一帧声学特征帧。至少一帧声学特征帧进入多频带多时域声码器14-2，通过多频带多时域声码器中的帧率网络145，计算出每一帧的条件特征f，同时，每帧声学特征帧被带通降采样滤波器组146划分为4个子帧，并对每个子帧进行时域降采样后，4个子帧进入自递归的采样预测网络147，在采样预测网络147中通过LPC系数计算(Compute LPC)与LPC当前预测值计算(Compute predicition)，预测出当前轮中的当前时刻t的采样点t在4个子帧上的线性预测值，得到4个t时刻子粗测值并且，采样预测网络147以每轮两个采样点的为前向预测步长，从上一轮预测的历史预测结果中，获取采样点t-1在4个子帧上对应的4个子预测值/>采样点、采样点t-1在4个子帧上的子粗测值采样点t-1在4个子帧上的残差值/>采样点t-2在4个子帧上的子预测值/>以及采样点在4个子帧上的残差值/>结合条件特征f，共同送入采样预测网络中的合并层(concat层)进行特征维度合并，得到初始特征向量；初始特征向量进而通过90％稀疏的384维第一门控循环网络(GRU-A)与一个正常的16维第二门控循环网络(GRU-B)进行特征降维，得到降维特征集合；采样预测网络147将降维特征集合送入8个256维的对偶全连接(双FC)层，通过8个256维的双FC层，结合条件特征f，基于/>与/>预测出采样点t在4个子帧上的子残差值/>同时，基于/>与/>预测出采样点t+1在4个子帧上的子残差值/>采样预测网络147可以通过叠加/>与/>得到采样点t在4个子帧上的子预测值/>这样，采样预测网络147可以根据/>采用预测窗口滑动的方式预测出采样点t+1在4个子帧上对应的子粗测值/>采样预测网络147通过叠加/>与得到采样点t+1对应的4个子预测值/>采样预测网络147将/>以及/>作为下一轮即i+1预测过程的激励值，并更新下一轮预测过程对应的当前相邻两个采样点进行循环处理，直至得到该帧声学特征帧在每个采样点上的4个子预测值，多频带多时域声码器14-2通过音频合成模块148，将每个采样点上的4个子预测值进行频域合并，得到每个采样点上的音频信号，并通过音频合成模块148，对每个采样点上的音频信号进行时域合并，得到该帧对应的音频信号。音频合成模块148将至少一帧声学特征帧中的每帧对应的音频信号进行合并，得到至少一帧声学特征帧对应的一段音频，也即最开始输入音频处理装置的原始文本对应的目标音频。

可以理解的是，本申请实施例提供的音频处理装置中虽然增加了7个对偶全连接层，GRU-A层的输入矩阵将变大，但可以通过查表操作使得此输入开销的影响忽略不计，并且，相对于传统声码器，多频带多时域策略将采样预测网络自递归所需的周期数减少了8倍。因此，在没有其他计算优化的情况下，声码器的速度提高了2.75倍。并且，经过招募实验人员进行主观质量打分后，本申请的音频处理装置的所合成的目标音频在主观质量评分上仅降低了3％，从而实现了在基本不影响音频处理质量的基础上提高了音频处理的速度和效率。

下面继续说明本申请实施例提供的音频处理装置455的实施为软件模块的示例性结构，在一些实施例中，如图6所示，存储在存储器450中的音频处理装置455中的软件模块可以包括：

文本语音转换模型4551，用于对待处理文本进行语音特征转换，得到至少一帧声学特征帧；

帧率网络4552，用于通过帧率网络，从所述至少一帧声学特征帧的每帧声学特征帧中，提取出所述每帧声学特征帧对应的条件特征；

时域频域处理模块4553，用于对所述每帧声学特征帧中的当前帧进行频带划分与时域降采样，得到所述当前帧对应的n个子帧；其中，n为大于1的正整数；所述n个子帧的每个子帧包含预设数量个采样点；

采样预测网络4554，用于在第i轮预测过程中，对当前m个相邻采样点在所述n个子帧上对应的采样值进行同步预测，得到m×n个子预测值，进而得到所述预设数量个采样点中每个采样点对应的n个子预测值；其中，i为大于或等于1的正整数；m为大于或等于2且小于或等于所述预设数量的正整数；

信号合成模块4555，用于根据所述每个采样点对应的n个子预测值得到所述当前帧对应的音频预测信号；进而对至少一帧声学特征帧的每帧声学特征帧对应的音频预测信号进行音频合成，得到所述待处理文本对应的目标音频。

在一些实施例中，当m等于2时，所述采样预测网络中包含独立的2n个全连接层，所述相邻两个采样点包括：所述第i轮预测过程中，当前时刻t对应的采样点t与下一时刻t+1对应的采样点t+1，其中，t为大于或等于1的正整数；

所述采样预测网络4554，还用于在第i轮预测过程中，通过采样预测网络，基于所述采样点t对应的至少一个t时刻历史采样点，对所述采样点t在所述n个子帧上的线性采样值进行线性编码预测，得到n个t时刻子粗测值；当i大于1时，基于第i-1轮预测过程对应的历史预测结果，结合所述条件特征，通过2n个全连接层，同步对所述采样点t与采样点t+1分别在所述n个子帧的每个子帧上的残差值进行前向残差预测，得到所述采样点t对应的n个t时刻残差值与所述采样点t+1对应的n个t+1时刻残差值；所述历史预测结果包含第i-1轮预测过程中，相邻两个采样点各自对应的n个残差值与子预测值；基于所述采样点t+1对应的至少一个t+1时刻历史采样点，对所述采样点t+1在所述n个子帧上的线性采样值进行线性编码预测，得到n个t+1时刻子粗测值；根据所述n个t时刻残差值与所述n个t时刻子粗测值，得到所述采样点t对应的n个t时刻子预测值，并根据所述n个t+1时刻残差值与所述n个t+1时刻子粗测值，得到n个t+1时刻子预测值；将所述n个t时刻子预测值与所述n个t+1时刻子预测值作为2n个子预测值。

在一些实施例中，所述采样预测网络4554，还用于获取采样点t-1对应的n个t-1时刻子粗测值，以及在所述第i-1轮预测过程中得到的n个t-1时刻残差值、n个t-2时刻残差值、n个t-1时刻子预测值与n个t-2时刻子预测值；对所述n个t时刻子粗测值、所述n个t-1时刻子粗测值、所述n个t-1时刻残差值、所述n个t-2时刻残差值、所述n个t-1时刻子预测值与所述n个t-2时刻预测值进行特征维度过滤，得到降维特征集合；通过所述2n个全连接层中的每个全连接层，结合所述条件特征，基于所述降维特征集合，同步对所述采样点t与采样点t+1分别在所述n个子帧的每个子帧上的残差值进行前向残差预测，分别得到所述n个t时刻残差值与所述n个t+1时刻残差值。

在一些实施例中，所述采样预测网络4554，还用于将所述降维特征集合中的n个t-2时刻降维残差值与n个t-2时刻降维预测值确定为t时刻激励值；所述n个t-2时刻降维残差值为所述n个t-2时刻残差值经过特征维度过滤后得到的；所述n个t-2时刻降维预测值为所述n个t-2时刻预测值经过特征维度过滤后得到的；将所述降维特征集合中的n个t-1时刻降维残差值与所述n个t-1时刻降维子预测值确定为t+1时刻激励值；所述n个t-1时刻降维残差值为所述n个t-1时刻残差值经过特征维度过滤后得到的；所述n个t-1时刻降维预测值为所述n个t-1时刻预测值经过特征维度过滤后得到的；在所述2n个全连接层中的n个全连接层中，基于所述条件特征与所述t时刻激励值，采用所述n个全连接层中的每个全连接层，同步根据所述n个t-1时刻降维子粗测值对所述采样点t进行前向残差预测，得到所述n个t时刻残差值；并且，在所述2n个全连接层中的另外n个全连接层中，基于所述条件特征与所述t+1时刻激励值，采用所述另外n个全连接层中的每个全连接层，同步根据所述n个t时刻降维子粗测值对所述采样点t+1进行前向残差预测，得到所述n个t+1时刻残差值。

在一些实施例中，所述采样预测网络中包含第一门控循环网络与第二门控循环网络，所述采样预测网络4554，还用于将所述n个t时刻子粗测值、所述n个t-1时刻子粗测值、所述n个t-1时刻残差值、所述n个t-2时刻残差值、所述n个t-1时刻子预测值与所述n个t-2时刻预测值进行特征维度合并，得到初始特征向量集合；基于所述条件特征，通过所述第一门控循环网络，对所述初始特征向量集合进行特征降维处理，得到中间特征向量集合；基于所述条件特征，通过所述第二门控循环网络，对所述中间特征向量进行特征降维处理，得到所述降维特征集合。

在一些实施例中，所述时域频域处理模块4553，还用于对所述当前帧进行频域划分，得到n个初始子帧；对所述n个初始子帧所对应的时域采样点进行降采样，得到所述n个子帧。

在一些实施例中，所述采样预测网络4554，还用于在第i轮预测过程中，通过采样预测网络，基于所述采样点t对应的至少一个t时刻历史采样点，对所述采样点t在所述n个子帧上的线性采样值进行线性编码预测，得到n个t时刻子粗测值之前，当t小于或等于预设窗口阈值时，将所述采样点t之前的全部采样点作为所述至少一个t时刻历史采样点；所述预设窗口阈值表征线性编码预测可处理的最大采样点的数量；或者，当t大于所述预设窗口阈值时，将从所述采样点t-1至采样点t-k范围内对应的采样点，作为所述至少一个t时刻历史采样点；其中，k为预设窗口阈值。

在一些实施例中，所述采样预测网络4554，还用于所述在第i轮预测过程中，通过采样预测网络，基于所述采样点t对应的至少一个t时刻历史采样点，对所述采样点t在所述n个子帧上的线性采样值进行线性编码预测，得到n个t时刻子粗测值之后，当i等于1时，通过所述2n个全连接层，结合所述条件特征与预设激励参数，同步对所述采样点t与所述采样点t+1分别在所述n个子帧上的残差值进行前向残差预测，得到所述采样点t对应的n个t时刻残差值与所述采样点t+1对应的n个t+1时刻残差值；基于所述采样点t+1对应的至少一个t+1时刻历史采样点，对所述采样点t+1在所述n个子帧上的线性采样值进行线性编码预测，得到n个t+1时刻子粗测值；根据所述n个t时刻残差值与所述n个t时刻子粗测值，得到所述采样点t对应的n个t时刻子预测值，并根据所述n个t+1时刻残差值与所述n个t+1时刻子粗测值，得到n个t+1时刻子预测值；将所述n个t时刻子预测值与所述n个t+1时刻子预测值作为所述2n个子预测值。

在一些实施例中，所述信号合成模块4555，还用于将所述每个采样点对应的n个子预测值进行频域叠加，得到所述每个采样点对应的信号预测值；将所述每个采样点对应的信号预测值进行时域信号合成，得到所述当前帧对应的音频预测信号；进而得到所述每帧声学特征对应的音频信号；将所述每帧声学特征对应的音频信号进行信号合成，得到所述目标音频。

在一些实施例中，所述文本语音转换模型4551，还用于获取待处理文本；对所述待处理文本进行预处理，得到待转换文本信息；通过文本语音转换模型，对所述待转换文本信息进行声学特征预测，得到所述至少一帧声学特征帧。

需要说明的是，以上装置实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本申请装置实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例上述的音频处理方法。

本申请实施例提供一种存储有可执行指令的存储介质，即计算机可读存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的方法，例如，如图8-图11，以及图13中示出的方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EP ROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件***中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(H TML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

综上所述，通过本申请实施例对待处理文本进行预处理，可以提高目标音频的音频质量；并且，音频处理装置可以将最原始的待处理文本作为输入数据，通过本申请实施例中的音频处理方法输出待处理文本最终的数据处理结果，即目标音频，实现了对待处理文本端到端的处理过程，减少了***模块间的过渡处理，并且增加了音频处理装置的整体契合度；并且本申请实施例通过将每帧声学特征信号划分为频域上的多个子帧并对每个子帧进行降采样，降低了采样预测网络进行采样值预测时所需处理的整体采样点数量，进而，通过在一轮预测过程中同时对多个相邻时间的采样点的进行预测，实现了对多个采样点的同步处理，从而显著减少了采样预测网络预测音频信号时所需的循环次数，提高了音频合成的处理速度，并提高了音频处理的效率。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种音频处理方法，其特征在于，包括：

对所述每帧声学特征帧中的当前帧进行频带划分与时域降采样，得到所述当前帧对应的n个子帧；其中，n为大于1的正整数；所述n个子帧的每个子帧包含预设数量个采样点；相邻两个采样点包括：第i轮预测过程中，当前时刻t对应的采样点t与下一时刻t+1对应的采样点t+1，其中，t为大于或等于1的正整数；

在第i轮预测过程中，通过采样预测网络，基于采样点t对应的至少一个t时刻历史采样点，对所述采样点t在所述n个子帧上的线性采样值进行线性编码预测，得到n个t时刻子粗测值；

当i大于1时，基于第i-1轮预测过程对应的历史预测结果，结合所述条件特征，通过所述采样预测网络中的2n个全连接层，同步对所述采样点t与采样点t+1分别在所述n个子帧的每个子帧上的残差值进行前向残差预测，得到所述采样点t对应的n个t时刻残差值与所述采样点t+1对应的n个t+1时刻残差值；所述历史预测结果包含第i-1轮预测过程中，相邻两个采样点各自对应的n个残差值与子预测值；

根据所述n个t时刻残差值与所述n个t时刻子粗测值，得到所述采样点t对应的n个t时刻子预测值，并根据所述n个t+1时刻残差值与所述n个t+1时刻子粗测值，得到n个t+1时刻子预测值；将所述n个t时刻子预测值与所述n个t+1时刻子预测值作为2n个子预测值，进而得到所述预设数量个采样点中每个采样点对应的n个子预测值；

2.根据权利要求1所述的方法，其特征在于，所述基于第i-1轮预测过程对应的历史预测结果，结合所述条件特征，通过所述采样预测网络中的2n个全连接层，同步对所述采样点t与采样点t+1分别在所述n个子帧的每个子帧上的残差值进行前向残差预测，得到所述采样点t对应的n个t时刻残差值与所述采样点t+1对应的n个t+1时刻残差值，包括：

获取采样点t-1对应的n个t-1时刻子粗测值，以及在所述第i-1轮预测过程中得到的n个t-1时刻残差值、n个t-2时刻残差值、n个t-1时刻子预测值与n个t-2时刻子预测值；

对所述n个t时刻子粗测值、所述n个t-1时刻子粗测值、所述n个t-1时刻残差值、所述n个t-2时刻残差值、所述n个t-1时刻子预测值与所述n个t-2时刻预测值进行特征维度过滤，得到降维特征集合；

通过所述2n个全连接层中的每个全连接层，结合所述条件特征，基于所述降维特征集合，同步对所述采样点t与采样点t+1分别在所述n个子帧的每个子帧上的残差值进行前向残差预测，分别得到所述n个t时刻残差值与所述n个t+1时刻残差值。

3.根据权利要求2所述的方法，其特征在于，所述通过所述2n个全连接层中的每个全连接层，结合所述条件特征，基于所述降维特征集合，同步对所述采样点t与采样点t+1分别在所述n个子帧的每个子帧上的残差值进行前向残差预测，分别得到所述n个t时刻残差值与所述n个t+1时刻残差值，包括：

将所述降维特征集合中的n个t-2时刻降维残差值与n个t-2时刻降维预测值确定为t时刻激励值；所述n个t-2时刻降维残差值为所述n个t-2时刻残差值经过特征维度过滤后得到的；所述n个t-2时刻降维预测值为所述n个t-2时刻预测值经过特征维度过滤后得到的；

将所述降维特征集合中的n个t-1时刻降维残差值与所述n个t-1时刻降维子预测值确定为t+1时刻激励值；所述n个t-1时刻降维残差值为所述n个t-1时刻残差值经过特征维度过滤后得到的；所述n个t-1时刻降维预测值为所述n个t-1时刻预测值经过特征维度过滤后得到的；

在所述2n个全连接层中的n个全连接层中，基于所述条件特征与所述t时刻激励值，采用所述n个全连接层中的每个全连接层，同步根据所述n个t-1时刻降维子粗测值对所述采样点t进行前向残差预测，得到所述n个t时刻残差值；

并且，在所述2n个全连接层中的另外n个全连接层中，基于所述条件特征与所述t+1时刻激励值，采用所述另外n个全连接层中的每个全连接层，同步根据所述n个t时刻降维子粗测值对所述采样点t+1进行前向残差预测，得到所述n个t+1时刻残差值。

4.根据权利要求2所述的方法，其特征在于，所述采样预测网络中包含第一门控循环网络与第二门控循环网络，所述对所述n个t时刻子粗测值、所述n个t-1时刻子粗测值、所述n个t-1时刻残差值、所述n个t-2时刻残差值、所述n个t-1时刻子预测值与所述n个t-2时刻预测值进行特征维度过滤，得到降维特征集合，包括：

将所述n个t时刻子粗测值、所述n个t-1时刻子粗测值、所述n个t-1时刻残差值、所述n个t-2时刻残差值、所述n个t-1时刻子预测值与所述n个t-2时刻预测值进行特征维度合并，得到初始特征向量集合；

基于所述条件特征，通过所述第一门控循环网络，对所述初始特征向量集合进行特征降维处理，得到中间特征向量集合；

基于所述条件特征，通过所述第二门控循环网络，对所述中间特征向量进行特征降维处理，得到所述降维特征集合。

5.根据权利要求1-4任一项所述的方法，其特征在于，所述对所述每帧声学特征帧中的当前帧进行频带划分与时域降采样，得到所述当前帧对应的n个子帧，包括：

对所述当前帧进行频域划分，得到n个初始子帧；

对所述n个初始子帧所对应的时域采样点进行降采样，得到所述n个子帧。

6.根据权利要求1-4任一项所述的方法，其特征在于，所述在第i轮预测过程中，通过采样预测网络，基于采样点t对应的至少一个t时刻历史采样点，对所述采样点t在所述n个子帧上的线性采样值进行线性编码预测，得到n个t时刻子粗测值之前，所述方法还包括：

当t小于或等于预设窗口阈值时，将所述采样点t之前的全部采样点作为所述至少一个t时刻历史采样点；所述预设窗口阈值表征线性编码预测可处理的最大采样点的数量；或者，

7.根据权利要求1-4任一项所述的方法，其特征在于，所述在第i轮预测过程中，通过采样预测网络，基于采样点t对应的至少一个t时刻历史采样点，对所述采样点t在所述n个子帧上的线性采样值进行线性编码预测，得到n个t时刻子粗测值之后，所述方法还包括：

当i等于1时，通过所述2n个全连接层，结合所述条件特征与预设激励参数，同步对所述采样点t与所述采样点t+1分别在所述n个子帧上的残差值进行前向残差预测，得到所述采样点t对应的n个t时刻残差值与所述采样点t+1对应的n个t+1时刻残差值；

根据所述n个t时刻残差值与所述n个t时刻子粗测值，得到所述采样点t对应的n个t时刻子预测值，并根据所述n个t+1时刻残差值与所述n个t+1时刻子粗测值，得到n个t+1时刻子预测值；将所述n个t时刻子预测值与所述n个t+1时刻子预测值作为所述2n个子预测值。

8.根据权利要求1-4任一项所述的方法，其特征在于，所述根据所述每个采样点对应的n个子预测值得到所述当前帧对应的音频预测信号；进而对至少一帧声学特征帧的每帧声学特征帧对应的音频预测信号进行音频合成，得到所述待处理文本对应的目标音频，包括：

将所述每个采样点对应的n个子预测值进行频域叠加，得到所述每个采样点对应的信号预测值；

将所述每个采样点对应的信号预测值进行时域信号合成，得到所述当前帧对应的音频预测信号；进而得到所述每帧声学特征对应的音频信号；

将所述每帧声学特征对应的音频信号进行信号合成，得到所述目标音频。

9.根据权利要求1所述的方法，其特征在于，所述对待处理文本进行语音特征转换，得到至少一帧声学特征帧，包括：

获取待处理文本；

对所述待处理文本进行预处理，得到待转换文本信息；

通过文本语音转换模型，对所述待转换文本信息进行声学特征预测，得到所述至少一帧声学特征帧。

10.一种声码器，其特征在于，包括：

帧率网络，用于从至少一帧声学特征帧的每帧声学特征帧中，提取出所述每帧声学特征帧对应的条件特征；

时域频域处理模块，用于对所述每帧声学特征帧中的当前帧进行频带划分与时域降采样，得到所述当前帧对应的n个子帧；其中，n为大于1的正整数；所述n个子帧的每个子帧包含预设数量个采样点；相邻两个采样点包括：第i轮预测过程中，当前时刻t对应的采样点t与下一时刻t+1对应的采样点t+1，其中，t为大于或等于1的正整数；

采样预测网络，用于在第i轮预测过程中，通过采样预测网络，基于采样点t对应的至少一个t时刻历史采样点，对所述采样点t在所述n个子帧上的线性采样值进行线性编码预测，得到n个t时刻子粗测值；当i大于1时，基于第i-1轮预测过程对应的历史预测结果，结合所述条件特征，通过所述采样预测网络中的2n个全连接层，同步对所述采样点t与采样点t+1分别在所述n个子帧的每个子帧上的残差值进行前向残差预测，得到所述采样点t对应的n个t时刻残差值与所述采样点t+1对应的n个t+1时刻残差值；所述历史预测结果包含第i-1轮预测过程中，相邻两个采样点各自对应的n个残差值与子预测值；基于所述采样点t+1对应的至少一个t+1时刻历史采样点，对所述采样点t+1在所述n个子帧上的线性采样值进行线性编码预测，得到n个t+1时刻子粗测值；根据所述n个t时刻残差值与所述n个t时刻子粗测值，得到所述采样点t对应的n个t时刻子预测值，并根据所述n个t+1时刻残差值与所述n个t+1时刻子粗测值，得到n个t+1时刻子预测值；将所述n个t时刻子预测值与所述n个t+1时刻子预测值作为2n个子预测值，进而得到所述预设数量个采样点中每个采样点对应的n个子预测值；

信号合成模块，用于根据所述每个采样点对应的n个子预测值得到所述当前帧对应的音频预测信号；进而对至少一帧声学特征帧的每帧声学特征帧对应的音频预测信号进行音频合成，得到目标音频。

11.一种音频处理装置，其特征在于，包括：

文本语音转换模型，用于对待处理文本进行语音特征转换，得到至少一帧声学特征帧；

12.一种电子设备，其特征在于，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至9任一项所述的方法。

13.一种存储介质，其特征在于，存储有可执行指令，用于被处理器执行时，实现权利要求1至9任一项所述的方法。