CN112562634B

CN112562634B - 多风格音频合成方法、装置、设备及存储介质

Info

Publication number: CN112562634B
Application number: CN202011385987.5A
Authority: CN
Inventors: 梁爽; 陈闽川; 马骏; 王少军
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-12-02
Filing date: 2020-12-02
Publication date: 2024-05-10
Anticipated expiration: 2040-12-02
Also published as: CN112562634A; WO2022116432A1

Abstract

本发明涉及人工智能领域，公开了一种多风格音频合成方法、装置、设备及存储介质。该方法包括：获取待处理的文本数据和单风格的第一梅尔谱；将所述第一梅尔谱输入预置风格提取网络进行特征提取，得到第一风格特征；将所述文本数据输入预置梅尔谱生成网络中的编码器进行特征提取以及将提取到的第一文本特征与所述第一风格特征进行拼接，得到第一融合特征；将所述第一融合特征输入预置梅尔谱生成网络中的解码器进行特征转换，得到第二梅尔谱；将所述第二梅尔谱输入预置声码器进行音频生成，得到多风格音频。本发明利用风格特征作为声码器的条件特征，能够生成多风格的音频。

Description

多风格音频合成方法、装置、设备及存储介质

技术领域

本发明涉及人工智能领域，尤其涉及一种多风格音频合成方法、装置、设备及存储介质。

背景技术

随着语音合成技术的高速发展，语音合成在情感计算、信号处理领域具有重要的研究意义。语音合成领域产生了越来越多基于深度学习的声学建模方法。深度学习技术极大地推进了音频合成领域的发展，音频合成技术也大大地提升了人机交互的体验。音频合成技术赋予了计算机像人一样的说话能力，可以从声学特征中捕捉到发音特点，合成流畅度较好、韵律较好的音频。

目前虽然有很多音频合成方法可以合成高质量逼真的音频，但这些音频往往只具有单一的风格，比如只是单一说话人，合成出的语音只含有一种情感，或者合成的风格往往是播报风格、客服风格、朗诵风格等其中的一种风格，如何使合成的音频具有多种风格仍是音频合成领域的一个重要问题。

发明内容

本发明的主要目的在于解决现有合成音频存在风格单一而无法满足用户需求的技术问题。

本发明第一方面提供了一种多风格音频合成方法，所述多风格音频合成包括：

获取待处理的文本数据和单风格的第一梅尔谱；

将所述第一梅尔谱输入预置风格提取网络进行特征提取，得到第一风格特征；

将所述文本数据输入预置梅尔谱生成网络中的编码器进行特征提取以及将提取到的第一文本特征与所述第一风格特征进行拼接，得到第一融合特征；

将所述第一融合特征输入预置梅尔谱生成网络中的解码器进行特征转换，得到第二梅尔谱；

将所述第二梅尔谱输入预置声码器进行音频生成，得到多风格音频。

可选的，在本发明第一方面的第一种实现方式中，所述风格提取网络采用的第一训练模型包括：三层CNN网络、VIB网络、GRU网络、线性层和归一化层，在所述获取待处理的文本数据和单风格的第一梅尔谱之前，还包括：

获取多种单风格的梅尔谱样本；

将所述梅尔谱样本输入所述三层CNN网络进行特征提取，得到第一特征向量；

将所述第一特征向量输入所述VIB网络进行特征分解，得到第一分解向量；

将所述第一分解向量输入所述GRU网络进行风格提取，得到第一风格特征向量；

将所述第一风格特征向量输入所述线性层进行线性运算，得到第一风格输出向量；

将所述第一风格输出向量输入所述归一化层进行归一化处理，得到第二风格特征；

根据所述第二风格特征，调用预置损失函数对所述第一训练模型进行优化，直至所述第一训练模型收敛，得到所述风格提取网络。

可选的，在本发明第一方面的第二种实现方式中，所述梅尔谱生成网络采用的第二训练模型包括：编码器和解码器，其中，所述编码器依次由嵌入层、卷积神经网络和LTSM网络构成，所述解码器依次由Pre-net网络、RNN网络和两层残差GRU网络构成，在所述获取待处理的文本数据和单风格的第一梅尔谱之前，还包括：

获取多个文本数据样本和多种风格特征样本；

将所述文本数据样本输入所述嵌入层进行向量转换，得到第一文本初始向量；

将所述第一文本初始向量输入所述卷积神经网络进行特征提取，得到第一文本特征向量；

将所述第一文本特征向量输入所述LTSM网络进行文本转换，得到第二文本特征；

拼接所述第二文本特征和所述风格特征样本，得到第二融合特征；

将所述第二融合特征输入所述Pre-net网络进行非线性变换，得到第一融合序列；

将所述第一融合序列输入所述RNN网络进行函数运算，得到第一声谱图；

将所述第一声谱图输入所述两层残差GRU网络进行残差运算，得到第三梅尔谱；

根据所述第三梅尔谱，调用预置优化函数对所述第二训练模型进行参数优化，直至所述第二训练模型收敛，得到所述梅尔谱生成网络。

可选的，在本发明第一方面的第三种实现方式中，所述将所述第一梅尔谱输入预置风格提取网络进行特征提取，得到第一风格特征包括：

将所述第一梅尔谱输入所述三层CNN网络进行特征提取，得到第二特征向量；

将所述第二特征向量输入所述VIB网络进行特征分解，得到第二分解向量；

将所述第二分解向量输入所述GRU网络进行风格提取，得到第二风格特征向量；

将所述第二风格特征向量输入所述线性层进行线性运算，得到第二风格输出向量；

将所述第二风格输出向量输入所述归一化层进行归一化处理，得到所述第一风格特征。

可选的，在本发明第一方面的第四种实现方式中，所述梅尔谱生成网络中的编码器依次由嵌入层、卷积神经网络和LTSM网络构成，所述将所述文本数据输入预置梅尔谱生成网络中的编码器进行特征提取，得到第一文本特征包括：

将所述文本数据输入所述嵌入层进行向量转换，得到第二文本初始向量；

将所述第二文本初始向量输入所述卷积神经网络进行特征提取，得到第二文本特征向量；

将所述第二文本特征向量输入所述LTSM网络进行文本转换，得到第一文本特征。

可选的，在本发明第一方面的第五种实现方式中，所述将所述文本数据输入预置梅尔谱生成网络中的编码器进行特征提取以及将提取到的第一文本特征与所述第一风格特征进行拼接，得到第一融合特征包括：

将所述第二文本特征向量输入所述LTSM网络进行文本转换，得到第一文本特征；

拼接所述第一风格特征与所述第一文本特征，得到所述第一融合特征。

可选的，在本发明第一方面的第六种实现方式中，所述声码器包括：生成器和判别器，所述将所述第二梅尔谱输入预置声码器进行音频生成，得到多风格音频包括：

将所述第二梅尔谱输入所述生成器进行音频生成，得到所述第二梅尔谱对应的音频；

将所述第二梅尔谱对应的音频输入所述判别器进行特征匹配，得到所述第二梅尔谱对应的音频的特征匹配度；

判断所述特征匹配度是否超过预置特征匹配度阈值；

若是，则将所述第二梅尔谱对应的音频作为所述声码器的输出音频，得到所述多风格音频。

本发明第二方面提供了一种多风格音频合成装置，所述多风格音频合成装置包括：

获取模块，用于获取待处理的文本数据和单风格的第一梅尔谱；

第一提取模块，用于将所述第一梅尔谱输入预置风格提取网络进行特征提取，得到第一风格特征；

第二提取模块，用于将所述文本数据输入预置梅尔谱生成网络中的编码器进行特征提取以及将提取到的第一文本特征与所述第一风格特征进行拼接，得到第一融合特征；

处理模块，用于将所述第一融合特征输入预置梅尔谱生成网络中的解码器进行特征转换，得到第二梅尔谱；

生成模块，用于将所述第二梅尔谱输入预置声码器进行音频生成，得到多风格音频。

可选的，在本发明第二方面的第一种实现方式中，所述风格提取网络采用的第一训练模型包括：三层CNN网络、VIB网络、GRU网络、线性层和归一化层，所述多风格音频生成装置还包括：

第一训练模块，用于获取多种单风格的梅尔谱样本；将所述梅尔谱样本输入所述三层CNN网络进行特征提取，得到第一特征向量；将所述第一特征向量输入所述VIB网络进行特征分解，得到第一分解向量；将所述第一分解向量输入所述GRU网络进行风格提取，得到第一风格特征向量；将所述第一风格特征向量输入所述线性层进行线性运算，得到第一风格输出向量；将所述第一风格输出向量输入所述归一化层进行归一化处理，得到第二风格特征；根据所述第二风格特征，调用预置损失函数对所述第一训练模型进行优化，直至所述第一训练模型收敛，得到所述风格提取网络。

可选的，在本发明第二方面的第二种实现方式中，所述梅尔谱生成网络采用的第二训练模型包括：编码器和解码器，其中，所述编码器依次由嵌入层、卷积神经网络和LTSM网络构成，所述解码器依次由Pre-net网络、RNN网络和两层残差GRU网络构成，所述多风格音频生成装置还包括：

第二训练模块，用于获取多个文本数据样本和多种风格特征样本；将所述文本数据样本输入所述嵌入层进行向量转换，得到第一文本初始向量；将所述第一文本初始向量输入所述卷积神经网络进行特征提取，得到第一文本特征向量；将所述第一文本特征向量输入所述LTSM网络进行文本转换，得到第二文本特征；拼接所述第二文本特征和所述风格特征样本，得到第二融合特征；将所述第二融合特征输入所述Pre-net网络进行非线性变换，得到第一融合序列；将所述第一融合序列输入所述RNN网络进行函数运算，得到第一声谱图；将所述第一声谱图输入所述两层残差GRU网络进行残差运算，得到第三梅尔谱；根据所述第三梅尔谱，调用预置优化函数对所述第二训练模型进行参数优化，直至所述第二训练模型收敛，得到所述梅尔谱生成网络。

可选的，在本发明第二方面的第三种实现方式中，所述第一提取模块具体用于：

将所述第一梅尔谱输入所述三层CNN网络进行特征提取，得到第二特征向量；将所述第二特征向量输入所述VIB网络进行特征分解，得到第二分解向量；将所述第二分解向量输入所述GRU网络进行风格提取，得到第二风格特征向量；将所述第二风格特征向量输入所述线性层进行线性运算，得到第二风格输出向量；将所述第二风格输出向量输入所述归一化层进行归一化处理，得到所述第一风格特征。

可选的，在本发明第二方面的第四种实现方式中，所述第二提取模块具体用于：

将所述文本数据输入所述嵌入层进行向量转换，得到第二文本初始向量；将所述第二文本初始向量输入所述卷积神经网络进行特征提取，得到第二文本特征向量；将所述第二文本特征向量输入所述LTSM网络进行文本转换，得到第一文本特征；拼接所述第一风格特征与所述第一文本特征，得到所述第一融合特征。

可选的，在本发明第二方面的第五种实现方式中，所述处理模块具体用于：

将所述第一融合特征输入所述Pre-net网络进行非线性变换，得到第二融合序列；将所述第二融合序列输入所述RNN网络进行函数运算，得到第二声谱图；将所述第二声谱图输入所述两层残差GRU网络进行残差运算，得到所述第二梅尔谱。

可选的，在本发明第二方面的第六种实现方式中，所述声码器包括：生成器和判别器，所述生成模块具体用于：

将所述第二梅尔谱输入所述生成器进行音频生成，得到所述第二梅尔谱对应的音频；将所述第二梅尔谱对应的音频输入所述判别器进行特征匹配，得到所述第二梅尔谱对应的音频的特征匹配度；判断所述特征匹配度是否超过预置特征匹配度阈值；若所述特征匹配度超过预置特征匹配度阈值，则将所述第二梅尔谱对应的音频作为所述声码器的输出音频，得到多风格音频。

本发明第三方面提供了一种多风格音频合成设备，包括：存储器和至少一个处理器，所述存储器中存储有指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述多风格音频合成设备执行上述的多风格音频合成方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的多风格音频合成方法。

本发明提供的技术方案中，基于深度学习网络构建了可以自动提取梅尔谱中特征的风格提取网络，利用风格提取网络可直接对单风格的梅尔谱进行特征提取，得到风格特征，将风格特征和梅尔谱生成网络中的编码器提取得到的文本特征进行拼接，得到融合特征，生成的融合特征综合了文本特征和风格特征，最后将融合特征作为声码器的输入，可以使声码器中合成的音频不再是单一的风格，而是多风格的音频。本发明利用风格提取网络所提取的风格特征作为声码器的条件特征，合成的音频包含多种风格。

附图说明

图1为本发明实施例中多风格音频合成方法的第一个实施例示意图；

图2为本发明实施例中多风格音频合成方法的第二个实施例示意图；

图3为本发明实施例中多风格音频合成装置的一个实施例示意图；

图4为本发明实施例中多风格音频合成设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种多风格音频合成方法、装置、设备及存储介质。本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中多风格音频合成方法的第一个实施例包括：

101、获取待处理的文本数据和单风格的第一梅尔谱；

可以理解的是，本发明的执行主体可以为多风格音频合成装置，还可以是终端或者服务器，具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

本实施例中，所述文本数据为音频分割后得到的内容信息、文字信息等生成的Text文本，所述梅尔谱是通过短时傅里叶变换，将声音信号进行分帧、加窗，再对每一帧做傅里叶变换，再把每一帧的结果沿另一维度堆叠，得到一张图，即为声谱图，因为声谱图较大，为了得到合适大小的声音特征，将声谱图通过梅尔尺度滤波器组变为梅尔频谱，得到梅尔谱。获取的第一梅尔谱为单一风格，所述单一风格包含多种风格，例如：愤怒，高兴，男性声音，女性声音等。

102、将所述第一梅尔谱输入预置风格提取网络进行特征提取，得到第一风格特征；

本实施例中，所述风格提取网络依次由三层CNN网络、VIB网络、GRU网络、线性层和归一化层构成，将所述第一梅尔谱输入风格提取网络中所述三层CNN网络通过残差运算提取出梅尔谱中的特征，通过VIB网络对提取出梅尔谱中的特征进行过滤，过滤掉冗杂信息，再通过GRU网络将特征的上下文之间联系起来，得到第一风格特征。

可选的，在一实施例中，所述将所述第一梅尔谱输入预置风格提取网络进行特征提取，得到第一风格特征包括：

本实施例中，风格提取网络包含三层CNN网络，一层VIB网络，两层GRU网络，一层线性层和一层归一化层。其中，CNN的输入和输出采用残差的结构，CNN是特征提取层是为了从输入中提取特征。VIB的为变分信息瓶颈，VIB的优点在于可以最小化输入与输出的互信息，从而阻止不必要的信息经过它，这样过滤掉与风格无关的信息，比如：内容信息，可以起到特征分解的作用。GRU可以捕捉上下文关系，由于音频通常是一个序列，每一帧并不是独立的，上下文互相有依赖，所以用GRU来捕捉这些依赖，然后将GRU最后一步的状态作为输出。线性层则是将维度映射到自定义的维度，比如：128维，归一化层是为了将特征进行归一化，通过归一化处理，特征的幅值不会影响到分类器的概率计算。

103、将所述文本数据输入预置梅尔谱生成网络中的编码器进行特征提取以及将提取到的第一文本特征与所述第一风格特征进行拼接，得到第一融合特征；

本实施例中，所述梅尔谱生成网络中的编码器采用的是传统TTS模型的编码器，所述编码器依次由嵌入层、卷积神经网络和LTSM网络构成，所述嵌入层将输入文本数据转换为向量，通过卷积运算将输入向量中的特征信息提取出来并过滤掉输入文本数据中不重要的信息，保留关键信息，然后通过LTSM网络将提取出来的特征转换第一文本特征，最后将所述第一文本特征和所述第一风格特征拼接在一起，得到第一融合特征。

可选的，在一实施例中，所述将所述文本数据输入预置梅尔谱生成网络中的编码器进行特征提取以及将提取到的第一文本特征与所述第一风格特征进行拼接，得到第一融合特征包括：

本实施例中，将文本数据输入嵌入层进行embedding向量转换，得到第二文本初始向量，将所述第二文本初始向量输入卷积神经网络中进行特征提取，所述卷积神经网络过滤掉冗杂信息，得到特征信息输出特征向量，将特征向量输入LTSM网络进行特征信息的文本转换，得到第一文本特征。对所述文本特征和所述风格特征进行拼接，例如：当文本特征的维度为(B,T,D₁)时,其中，B指的是Batch size，即每次训练多个样本，T指的是样本在时间维度上的长度，比如“nin hao”的长度为7(含空格)，D₁指每个特征每个文本特有的维度，通常为了使得特征表达更丰富，会采用一个比较大的数，如512。风格提取网络输出的风格特征通常为(B,1,D₂),B指代Batch size，第二个数是指时间维度上1，D₂指的是每个特征的维度。将所述第一文本特征和所述第一风格特征拼接起来就是先将风格特征在时间维度上复制成(B,T,D₂)，之后再在最后一维上拼起来，得到融合特征(B,T,D₁+D₂)。

104、将所述第一融合特征输入预置梅尔谱生成网络中的解码器进行特征转换，得到第二梅尔谱；

本实施例中，所述梅尔谱生成网络中的解码器依次由Pre-net网络、RNN网络和两层残差GRU网络构成，生成的梅尔谱既有风格特征也有文本数据的特征，得到第二梅尔谱。

可选的，在一实施例中，所述将所述第一融合特征输入预置梅尔谱生成网络中的解码器进行特征转换，得到第二梅尔谱包括：

将所述第一融合特征输入所述Pre-net网络进行非线性变换，得到第二融合序列；

将所述第二融合序列输入所述RNN网络进行函数运算，得到第二声谱图；

将所述第二声谱图输入所述两层残差GRU网络进行残差运算，得到所述第二梅尔谱。

本实施例中，所述Pre-net网络主要是对融合特征进行非线性变换，得到融合序列，所述RNN网络包含256个GRU，所述RNN网络对融合序列的函数运算，得到声谱图，将所述声谱图输入两层残差GRU网络进行残差运算，所述GRU单元预测多个非重叠的帧，相邻的帧有一定的关联性，每个字符在发音的时候，可能对应了多个帧，因此每个GRU单元输出为多个帧的音频，得到第二梅尔谱。

105、将所述第二梅尔谱输入预置声码器进行音频生成，得到多风格音频。

本实施例中，所述声码器采用Melgan，在合成的时候，将所述第二梅尔谱输入所述Melgan生成音频，本实施例中引入了风格特征作为条件特征，等同于将音色信息作为一个额外的信息给了Melgan，可以使Melgan生成的音频具备多种风格。

本发明实施例中，鉴于音频合成时需要依靠人工对每一条输入的音频进行风格标注，因此基于深度学习网络构建了可以自动提取梅尔谱中特征的风格提取网络，利用风格提取网络可直接对单风格的梅尔谱进行特征提取，得到风格特征，将风格特征和梅尔谱生成网络中的编码器提取得到的文本特征进行拼接，得到融合特征，生成的融合特征综合了文本特征和风格特征，所述融合特征作为声码器的输入，可以使声码器中合成的音频不再是单一的风格，而是多风格的音频。本发明利用风格提取网络所提取的风格特征作为声码器的条件特征，合成的音频包含多种风格。

请参阅图2，本发明实施例中多风格音频合成方法的第二个实施例包括：

201、获取待处理的文本数据和单风格的第一梅尔谱；

202、将所述第一梅尔谱输入预置风格提取网络进行特征提取，得到第一风格特征；

203、将所述文本数据输入预置梅尔谱生成网络中的编码器进行特征提取以及将提取到的第一文本特征与所述第一风格特征进行拼接，得到第一融合特征；

204、将所述第一融合特征输入预置梅尔谱生成网络中的解码器进行特征转换，得到第二梅尔谱；

205、将所述第二梅尔谱输入所述生成器进行音频生成，得到所述第二梅尔谱对应的音频；

206、将所述第二梅尔谱对应的音频输入所述判别器进行特征匹配，得到所述第二梅尔谱对应的音频的特征匹配度；

207、判断所述特征匹配度是否超过预置特征匹配度阈值；

208、若是，则将所述第二梅尔谱对应的音频作为所述声码器的输出音频，得到所述多风格音频。

本实施例中，所述声码器采用Melgan，所述Melgan由生成器和判别器组成，生成器负责接受输入的梅尔谱并生成对应的音频，判别器负责根据预置特征匹配度的预置对所述多风格音频进行特征匹配，若匹配度超过所述预置则将生成器生成的音频输出，得到多风格音频。

本发明实施例中，声码器的输入是梅尔谱，输出是音频，由于要提高声码器在输入为多风格的梅尔谱时具有好的表现能力，添加了一个风格特征作为声码器的条件特征，得到具有高特征匹配度的多风格音频。

为了更好的理解本发明，下面对本发明中所述风格提取网络和梅尔谱生成网络的训练过程进行详细的说明。

(一)风格提取网络

本实施例中，风格提取网络采用的第一训练模型包括：三层CNN网络、VIB网络、GRU网络、线性层和归一化层，在所述获取待处理的文本数据和单风格的第一梅尔谱之前，还包括：

1.1、获取多种单风格的梅尔谱样本；

1.2、将所述梅尔谱样本输入所述三层CNN网络进行特征提取，得到第一特征向量；

1.3、将所述第一特征向量输入所述VIB网络进行特征分解，得到第一分解向量；

1.4、将所述第一分解向量输入所述GRU网络进行风格提取，得到第一风格特征向量；

1.5、将所述第一风格特征向量输入所述线性层进行线性运算，得到第一风格输出向量；

1.6、将所述第一风格输出向量输入所述归一化层进行归一化处理，得到第二风格特征；

1.7、根据所述第二风格特征，调用预置损失函数对所述第一训练模型进行优化，直至所述第一训练模型收敛，得到所述风格提取网络。

本实施例中，所述第一训练模型训练时，随机截取32帧梅尔谱送入网络进行训练，采用交叉熵对网络进行优化，训练时计算网络的交叉熵损失函数loss值，根据loss值对比重建出来的梅尔谱和真实的梅尔谱相差的距离，相差越多，loss值越大，相差越少，loss值越低。采用梯度下降法，沿着梯度下降的方向进行权重更新，当loss值达到4以下时，此时生成的梅尔谱和真实的梅尔谱高度接近，所述第一训练模型收敛，得到风格提取网络。

(二)梅尔谱生成网络

本实施例中，梅尔谱生成网络采用的第二训练模型包括：编码器和解码器，其中，所述编码器依次由嵌入层、卷积神经网络和LTSM网络构成，所述解码器依次由Pre-net网络、RNN网络和两层残差GRU网络构成，在所述获取待处理的文本数据和单风格的第一梅尔谱之前，还包括：

2.1、获取多个文本数据样本和多种风格特征样本；

2.2、将所述文本数据样本输入所述嵌入层进行向量转换，得到第一文本初始向量；

2.3、将所述第一文本初始向量输入所述卷积神经网络进行特征提取，得到第一文本特征向量；

2.4、将所述第一文本特征向量输入所述LTSM网络进行文本转换，得到第二文本特征；

2.5、拼接所述第二文本特征和所述风格特征样本，得到第二融合特征；

2.6、将所述第二融合特征输入所述Pre-net网络进行非线性变换，得到第一融合序列；

2.7、将所述第一融合序列输入所述RNN网络进行函数运算，得到第一声谱图；

2.8、将所述第一声谱图输入所述两层残差GRU网络进行残差运算，得到第三梅尔谱；

2.9、根据所述第三梅尔谱，调用预置优化函数对所述第二训练模型进行参数优化，直至所述第二训练模型收敛，得到所述梅尔谱生成网络。

本实施例中，所述第二训练模型训练时，采用梅尔谱的L1 loss和风格提取网络的loss之和为优化函数，训练网络时，当风格提取网络loss降低至4以下时，将风格提取网络loss权重置为0，因为当风格提取网络的loss太低时，风格提取网络会过拟合，当loss在4以下的时，风格提取网络可以提出显著特征，不需要再进一步训练，所述第二训练模型收敛，得到梅尔谱生成网络。

上面对本发明实施例中多风格音频合成方法进行了描述，下面对本发明实施例中多风格音频合成装置进行描述，请参阅图3，本发明实施例中多风格音频合成装置一个实施例包括：

获取模块301，用于获取待处理的文本数据和单风格的第一梅尔谱；

第一提取模块302，用于将所述第一梅尔谱输入预置风格提取网络进行特征提取，得到第一风格特征；

第二提取模块303，用于将所述文本数据输入预置梅尔谱生成网络中的编码器进行特征提取以及将提取到的第一文本特征与所述第一风格特征进行拼接，得到第一融合特征；

处理模块304，用于将所述第一融合特征输入预置梅尔谱生成网络中的解码器进行特征转换，得到第二梅尔谱；

生成模块305，用于将所述第二梅尔谱输入预置声码器进行音频生成，得到多风格音频。

可选的，在一实施例中，所述风格提取网络采用的第一训练模型包括：三层CNN网络、VIB网络、GRU网络、线性层和归一化层，所述多风格音频生成装置还包括：

可选的，在一实施例中，所述梅尔谱生成网络采用的第二训练模型包括：编码器和解码器，其中，所述编码器依次由嵌入层、卷积神经网络和LTSM网络构成，所述解码器依次由Pre-net网络、RNN网络和两层残差GRU网络构成，所述多风格音频生成装置还包括：

可选的，在一实施例中，所述第一提取模块302具体用于：

可选的，在一实施例中，所述第二提取模块303具体用于：

可选的，在一实施例中，所述处理模块304具体用于：

可选的，在一实施例中，所述声码器包括：生成器和判别器，所述生成模块305具体用于：

上面图3从模块化功能实体的角度对本发明实施例中的多风格音频合成装置进行详细描述，下面从硬件处理的角度对本发明实施例中多风格音频合成设备进行详细描述。

图4是本发明实施例提供的一种多风格音频合成设备的结构示意图，该多风格音频合成设备400可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)410(例如，一个或一个以上处理器)和存储器420，一个或一个以上存储应用程序433或数据432的存储介质430(例如一个或一个以上海量存储设备)。其中，存储器420和存储介质430可以是短暂存储或持久存储。存储在存储介质430的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对多风格音频合成设备400中的一系列指令操作。更进一步地，处理器410可以设置为与存储介质430通信，在多风格音频合成设备400上执行存储介质430中的一系列指令操作。

多风格音频合成设备400还可以包括一个或一个以上电源440，一个或一个以上有线或无线网络接口460，一个或一个以上输入输出接口460，和/或，一个或一个以上操作***431，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图4示出的多风格音频合成设备结构并不构成对多风格音频合成设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种多风格音频合成设备，所述多风格音频合成设备包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行上述各实施例中的所述多风格音频合成方法的步骤。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述多风格音频合成方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种多风格音频合成方法，其特征在于，所述多风格音频合成方法包括：

获取待处理的文本数据和单风格的第一梅尔谱；

将所述第一梅尔谱输入预置风格提取网络进行特征提取，得到第一风格特征，所述风格提取网络为第一训练模型经过训练后得到的模型，所述第一训练模型包括依次连接的三层CNN网络、VIB网络、GRU网络、线性层和归一化层；

将所述文本数据输入预置梅尔谱生成网络中的编码器进行特征提取以及将提取到的第一文本特征与所述第一风格特征进行拼接，得到第一融合特征，所述梅尔谱生成网络为第二训练模型经过训练后得到的模型，所述第二训练模型包括编码器和解码器，其中，所述编码器依次由嵌入层、卷积神经网络和LTSM网络构成，所述解码器依次由Pre-net网络、RNN网络和两层残差GRU网络构成；

将所述第二梅尔谱输入预置声码器进行音频生成，得到多风格音频；

在所述获取待处理的文本数据和单风格的第一梅尔谱之前，还包括：

获取多个文本数据样本和多种风格特征样本；

将所述文本数据样本输入第二训练模型的嵌入层进行向量转换，得到第一文本初始向量；

将所述第一文本初始向量输入第二训练模型的卷积神经网络进行特征提取，得到第一文本特征向量；

将所述第一文本特征向量输入第二训练模型的LTSM网络进行文本转换，得到第二文本特征；

将所述第二融合特征输入第二训练模型的Pre-net网络进行非线性变换，得到第一融合序列；

将所述第一融合序列输入第二训练模型的RNN网络进行函数运算，得到第一声谱图；

将所述第一声谱图输入第二训练模型的两层残差GRU网络进行残差运算，得到第三梅尔谱；

2.根据权利要求1所述的多风格音频合成方法，其特征在于，在所述获取待处理的文本数据和单风格的第一梅尔谱之前，还包括：

获取多种单风格的梅尔谱样本；

3.根据权利要求2所述的多风格音频合成方法，其特征在于，所述将所述第一梅尔谱输入预置风格提取网络进行特征提取，得到第一风格特征包括：

4.根据权利要求1所述的多风格音频合成方法，其特征在于，所述将所述文本数据输入预置梅尔谱生成网络中的编码器进行特征提取以及将提取到的第一文本特征与所述第一风格特征进行拼接，得到第一融合特征包括：

5.根据权利要求1所述的多风格音频合成方法，其特征在于，所述将所述第一融合特征输入预置梅尔谱生成网络中的解码器进行特征转换，得到第二梅尔谱包括：

6.根据权利要求1-5中任一项所述的多风格音频合成方法，其特征在于，所述声码器包括：生成器和判别器，所述将所述第二梅尔谱输入预置声码器进行音频生成，得到多风格音频包括：

判断所述特征匹配度是否超过预置特征匹配度阈值；

7.一种多风格音频合成装置，执行如权利要求1-6中任一项所述的多风格音频合成方法，其特征在于，所述多风格音频合成装置包括：

8.一种多风格音频合成设备，其特征在于，所述多风格音频合成设备包括：存储器和至少一个处理器，所述存储器中存储有指令；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述多风格音频合成设备执行如权利要求1-6中任一项所述的多风格音频合成方法。

9.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现如权利要求1-6中任一项所述的多风格音频合成方法。