CN114333762B

CN114333762B - 基于表现力的语音合成方法、***、电子设备及存储介质

Info

Publication number: CN114333762B
Application number: CN202210218342.5A
Authority: CN
Inventors: 路文焕; 张凯莉
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2022-03-08
Filing date: 2022-03-08
Publication date: 2022-11-18
Anticipated expiration: 2042-03-08
Also published as: CN114333762A

Abstract

本发明公开了一种基于表现力的语音合成方法、***、电子设备及存储介质。该合成***由预训练后的ASR模型和改进的TTS模型联合组成；ASR模型用于将音频序列转换为文本序列，改进的TTS模型由改进的Tacotron模型和神经声码器组成，改进的Tacotron模型在原始Tacotron模型的基础上添加了共享层和风格编码器；共享层用于将TTS模型和ASR模型整合到一个网络中，风格编码器用于从参考音频中提取风格嵌入信息；神经声码器将声学特征重建音频。本发明提出的表现力语音合成***有助于提取到理想状态的风格向量，解决了内容泄露的问题，显著提升了语音合成的表现力和准确率。

Description

基于表现力的语音合成方法、***、电子设备及存储介质

技术领域

本发明涉及语音信号处理技术领域，尤其涉及一种基于表现力的语音合成方法、***、电子设备及存储介质。

背景技术

语音合成（Speech synthesis）又称文语转换(Text-to-speech,TTS)，目的是将输入的文本转换成流畅自然的语音。语音合成是实现智能人机语音交互的关键技术，并且在很多领域已经广泛使用，例如智能机器人，智能客户服务，会议助理等等。近几年来，随着深度神经网络技术的发展，端到端语音合成技术得到了迅速的发展，语音的自然度已经接近于真实人类的声音。但是目前大多数合成的语音缺乏表现力，由于没有情感的互动，听众常常觉得无聊或者不满意。目前越来越多的应用需要高表现力的合成语音。例如，有声读物，新闻阅读器，会议助理等。

现有技术中，关于表现力语音合成的研究主要是从参考音频中学习韵律和整体风格的潜在表示，然后将这种潜在表示与文本信息结合，实现合成语音风格的迁移和控制。在表现力语音合成的研究中，最近常用无监督的方法是基于全局风格标记（Global StyleTokens）。这个方法使得合成音频的风格模仿参考音频的风格。具体的说，参考音频经过一个风格编码器提取出风格信息，这个风格信息隐式的包含了例如节奏、时长、能量、基频等声学特征，但是这个提取的风格信息耦合了一定的内容信息，从而导致合成语音质量的下降。这是因为在模型训练阶段，输入的文本内容与参考音频的内容是一致的，导致风格编码器对参考音频中的一些内容进行编码。但是在推理阶段，当输入的文本内容与参考音频内容不一致时，解码器将从风格信息中得到内容，这将与实际输入的文本信息发生冲突。因此合成的语音将受到一定的影响，出现错词，漏词，模糊词等问题，这种现象称为“内容泄露”。内容泄露问题对合成语音的质量有显著的负面影响。

目前，实现风格信息和内容的信息的解耦主要有三种方法：第一种是对模型训练添加辅助任务，例如添加了语音识别（ASR）引导的模型训练任务，他们使用未配对的文本和参考音频对TTS模型进行训练，使用预训练的ASR模型的词错率作为TTS模型的额外的学习目标，来阻止参考编码器编码文本信息；第二种是使用对抗训练的方式解耦风格信息中内容信息；第三种是使用信息瓶颈的思想，迫使模型只关注风格信息。但是，上述方法并没有达到良好的解耦效果，合成的语音还是受到一定的影响。

发明内容

因此，本发明的目的在于提供一种基于表现力的语音合成方法、***、电子设备及计算及存储介质，解决现有语音合成技术中存在的内容泄露的问题，实现风格信息和内容的信息的解耦。

为了实现上述目的，本发明的一种基于表现力的语音合成方法，包括以下步骤：

S1、将预训练的ASR模型和改进的TTS模型进行联合训练后，作为联合训练模型；

S2、获取输入文本和参考音频序列；作为联合训练模型的输入信息；

S3、利用预训练的ASR模型，从参考音频序列中提取高维的隐式特征；

S4、利用改进的TTS模型去除所述高维的隐式特征中的内容信息，生成纯净的风格嵌入信息；

S5、将输入文本生成文本嵌入信息，将所述文本嵌入信息与所述风格嵌入信息结合后，输入改进的TTS模型中的解码器，预测出声学特征梅尔谱和线性谱，利用神经声码器将预测的梅尔谱进行音频重构，得到目标风格的音频。

进一步，优选的，在S1中，所述联合训练模型，采用预训练的ASR模型和改进的TTS模型进行联合训练，包括如下步骤：

将输入文本和参考音频序列，按比例分割为训练集及测试集；

对ASR模型和改进的TTS模型分别进行预训练，使用改进的TTS模型中的共享层将预训练后的ASR模型添加到改进的TTS模型中，执行联合训练。

进一步，优选的，在S4中，利用改进的TTS模型去除所述高维的隐式特征中的内容信息，生成纯净的风格嵌入信息，采用如下方法：

将参考音频序列转换成梅尔谱，所述梅尔谱作为联合训练模型共享层的输入，在执行ASR模型的任务中，在梯度反向传播过程以对抗训练的方式执行梯度反转，去除内容信息，生成纯净的风格嵌入信息。

进一步，优选的，所述联合训练模型的训练总损失包括TTS任务的重构损失和ASR 任务的对抗损失，所述TTS任务的重构损失的损失函数

按照如下公式进行计算：

其中，

是生成的梅尔谱，

是从梅尔谱中生成的线性谱，y和z是学习目标，

是均方误差函数。

进一步，优选的，所述ASR任务的对抗损失的损失预测函数

如下：

其中，x是学习目标，

是预测的字符序列，

是交叉熵损失函数。

本发明一种基于表现力的语音合成***，包括联合训练模型，所述联合训练模型包括预训练的ASR模型和改进的TTS模型；

所述ASR模型包括编码器和解码器，参考音频序列经由编码器和解码器得到预测的文本序列；

所述改进的TTS模型包括共享层、风格编码器和传统TTS模型；所述共享层用于嵌入上述ASR模型，所述风格编码器用于以参考音频序列为输入，使用上述ASR模型进行对抗训练和梯度反转，得到去除内容的风格嵌入信息；所述传统TTS模型，用于将输入文本信息经由文本编码器得到文本嵌入信息，将所得文本嵌入信息与风格嵌入系信息拼接作为解码器的输入，预测得到声学特征梅尔谱和线性谱，利用神经声码器进行音频重构，得到与参考音频序列相同风格的合成音频。

进一步，优选的，所述传统的TTS模型包括文本编码器、注意力机制和解码器；所述文本编码器用于将输入文本编码为文本嵌入信息，所述解码器用于将所述的文本嵌入信息和风格嵌入信息结合预测出声学特征，所述注意力机制用于学习所述文本嵌入信息与所述声学特征的对齐关系；所述神经声码器用于将预测的声学特征重建为音频。

进一步，优选的，所述ASR模型和TTS模型的预训练过程包括：将输入文本和参考音频序列按比例分割为训练集及测试集；对ASR模型和TTS模型分别进行预训练。

本发明还提供一种电子设备，包括处理器与存储器，所述存储器，用于存储计算机程序；所述处理器，用于执行所述计算机程序时，实现如上述基于表现力的语音合成方法的步骤。

本发明还提供一种计算机存储介质，所述计算机存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述基于表现力的语音合成方法的步骤。

本申请公开的基于表现力的语音合成方法、***、电子设备及存储介质，相比于现有技术，至少具有以下优点：

本申请提供的基于表现力的语音合成方法、***、电子设备及存储介质，采用预训练好的ASR模型和TTS模型进行联合训练，进而合成出高表现力的语音。在联合训练中，ASR任务进行梯度反向传播并以对抗训练的方式执行梯度反转，使得参考音频不能被ASR模型很好的识别，从而达到了去除内容信息的目的，有助于提取到理想状态的风格嵌入，解决了内容泄露的问题，在主观评价和客观评价两个方面显著提升了语音合成的表现力和准确率。

附图说明

图1为本发明的基于表现力的语音合成方法的流程示意图；

图2为本发明的基于表现力的语音合成***中改进TTS模型的结构图；

图3为本发明的基于表现力的语音合成***中ASR模型的结构图；

图4为本发明的基于表现力的语音合成***ASR模型和TTS模型联合训练的结构示意图；

图5为不同的总损失对应的词错率变化折线图。

具体实施方式

以下通过附图和具体实施方式对本发明作进一步的详细说明。

如图1所示，本发明一方面实施例提供的一种基于表现力的语音合成方法，包括以下步骤：

在S1中，所述联合训练模型，采用ASR模型和改进的TTS模型进行联合训练，包括如下步骤：

将输入文本和参考音频序列按比例分割为训练集及测试集；

对ASR模型和改进的TTS模型分别进行预训练。

本发明对TTS任务和声码器WaveRNN采用Blizzard Challenge 2013（BC2013）数据集作为模型的训练和测试数据集，本数据集包含多种说话风格，一共选取29679条文本音频对。其中，29479对用来训练，200对用来测试。数据参数：采样率为16kHZ、编码为16bitsigned-integer；对ASR任务采用VCTK数据集作为模型的训练和测试，数据参数：采样率为16kHZ、编码为16bit signed-integer。

所述TTS模型由改进Tacotron模型和神经声码器组成，所述改进Tacotron模型在原始Tacotron模型的基础上添加了共享层和风格编码器；风格编码器作用是从参考音频序列中提取风格嵌入信息，它由6个2D卷积层和一个GRU层组成，最后一个GRU状态通过一个全连接层生成一个128维的风格嵌入信息，然后这个风格嵌入信息与输入文本生成的文本嵌入信息结合，作为Tacotron的解码器的输入，最后合成出想要风格的音频；共享层是一个BLSTM结构，在联合训练中充当桥梁作用，将TTS模型和ASR模型整合到一个网络中。改进Tacotron模型的结构如图2所示。

ASR模型的预训练过程包括采用LAS模型作为ASR模型，所述LAS是一个带有注意力机制的序列到序列的语音识别模型，主要由两大部分组成：包括Listener模块（Listen）和Speller模块（包括Attend and Spell）。Listener模块为一个编码器，用于从音频序列中提取高维的隐式特征；Speller模块为一个解码器，用于将Listener模块提取的高维的隐式特征转换为字符序列。 LAS模型的结构如图3所示。

联合训练过程如图4所示，添加预训练好的ASR模型到改进的TTS模型，然后继续联合训练这两个模型，在联合训练过程中，保持ASR模型的参数不变。具体的，首先将参考音频序列转换成梅尔谱，然后将梅尔谱作为共享层的输入，将共享层的输出作为风格编码器的输入，提取纯净的风格嵌入信息，这也就意味着，此时的风格嵌入信息是不包含内容信息的。最后，风格嵌入信息与来自文本编码器的文本嵌入信息合并作为解码器的输入，预测出梅尔谱和线性谱。

在一个优选的实施例中，在S4中，去除参考音频序列中的内容信息得到纯净的风格信息，采用如下方法：

在预训练ASR任务中，我们在梯度反向传播过程中以对抗训练的方式执行梯度反转，目的是为了让参考音频序列不能被ASR模型很好的识别，保持此时的ASR模型的参数不变。然后使用共享层将预训练的ASR模型结合到改进的TTS模型继续执行联合训练，ASR模型将参考音频序列转换成梅尔谱，然后将梅尔谱作为共享层的输入，将共享层的输出作为风格编码器的输入，提取纯净的风格嵌入信息，这也就意味着，此时的风格嵌入信息是不包含内容信息的。最后，风格嵌入信息与来自文本编码器的文本嵌入信息合并作为解码器的输入，预测出梅尔谱和线性谱，最后使用声码器将梅尔谱重构成音频。

如图4为两个模型进行联合训练的示意图，在联合训练中，模型总损失包括TTS任务的重构损失和ASR任务的对抗损失。

具体的，TTS任务的重构损失的损失函数

按照如下公式进行计算：

其中，

是生成的梅尔谱，

是从梅尔谱中生成的线性谱，y和z是学习目标，

是均方误差函数。

进一步，优选的，ASR任务的对抗损失的损失预测函数

如下：

其中，x是学习目标，

是预测的字符序列，

是交叉熵损失函数。

在训练阶段，我们需要不断的更新TTS模型来最小化重构损失

，同时最大化对抗损失

。

所以我们的总损失为：

实验过程中，根据实验结果，我们设置

=20。总损失定义为以上公式的原因是为了防止模型崩溃。具体的，在实验中我们根据词错率（WER）的大小来选择重构损失和对抗损失的组合权重，希望合成的语音有更少的错词模糊词出现。不同组合权重的实验结果，如图5 所示。

与上述描述的

是一致的。而

=

。在实验中我们发现当总损失为

有很高的词错率并且模型最终会崩溃。同时，当

有一个低的权重值时，词错率越低，并且合成语音的质量也越好。因此我们使用了一个自适应对抗权重策略来阻止模型崩塌。

神经声码器是把声学特征转成可播放的语音波形。声码器的好坏直接决定了音频的音质高低。这里选择是基于神经网络的声码器WaveRNN。使用BC2013数据集对模型进行训练和测试。

合成阶段，将输入文本和参考音频序列输入训练好的模型中，从参考音频序列中提取出该音频风格信息，通过解码器，声码器，可以合成出该风格的音频。此模型合成的音频比原始模型合成的音频在风格上更偏向于参考音频序列的风格。

实验的结果采用主观和客观测试进行评价。将本发明与其他两个基线***进行对比。第一个基线***是预训练的改进的TTS***，第二个基线***是指之前的研究对TTS模型训练使用添加辅助任务的办法（ASR_guide：在训练过程中，该模型使得生成的语音很好的被ASR识别，并利用ASR的任务不断引导TTS的训练，使得合成的语音更加清晰。）。

本发明使用了词错率（WER）和词信息丢失（WIL）（结果如表1所示）作为客观评价的指标，值越小，表明越少的错词、漏词、模糊词的情况出现。对于测试，本发明任意选择了60个合成的样本。本发明使用Sphinx API来识别不同模型的合成语音，然后调用jiwer包的wer和wil函数进行测试。

表1 每个模型合成语音的WER和WIL

本发明使用了如下表2所示的主观意见得分（MOS）和如下表3所示的ABX偏好测试来作为主观评价的指标。MOS测试评价合成语音的自然度和质量。MOS的评分标准为1-5分，1代表最差，5代表最好，得分越高表示结果的语音自然度和音色相似度越好。ABX偏好测试评价参考语音和合成语音的风格相似度。风格迁移包括平行风格迁移和非平行风格迁移，平行风格迁移指参考音频的内容和要合成文本的内容是一致的。非平行风格迁移指参考音频的内容和要合成文本的内容是不一致的。具体的，先让他们听真实参考音频，接下来让他们听此发明合成的音频和基线***（ASR_guide）合成的音频，让他们判断，哪一个合成的音频风格更像真实参考音频的风格，如果很难判断哪一个更像，也可以不做判断。

表2 表现力TTS的语音自然度（95%的置信区间）

表3 ABX偏好测试来作为主观评价的指标

	基线***ASR	中等	本方案
				平行	25.00%	37.50%	37.50%
非平行	22.50%	29.20%	48.30%

本发明还提供一种基于表现力的语音合成***，用于实施上述方法，包括联合训练模型，所述联合训练模型包括预训练的ASR模型和预训练的改进的TTS模型；包括联合训练模型，所述联合训练模型包括预训练的ASR模型和改进的TTS模型；

所述改进的TTS模型包括共享层、风格编码器和传统TTS模型；所述共享层用于嵌入上述ASR模型，所述风格编码器用于以参考音频序列为输入，使用上述ASR模型进行对抗训练和梯度反转，得到去除内容的风格嵌入信息；所述改进的TTS模型，用于将输入文本信息经由文本编码器得到文本嵌入信息，将所得文本嵌入信息与风格嵌入系信息拼接作为解码器的输入，预测得到声学特征梅尔谱和线性谱，利用神经声码器进行音频重构，得到与参考音频序列相同风格的合成音频。

改进的TTS模型包括文本编码器、注意力机制和解码器；所述文本编辑器用于将输入的文本序列编码为文本嵌入信息，所述解码器用于将所述的文本嵌入信息和风格嵌入信息结合预测出声学特征，所述注意力机制用于学习所述文本嵌入信息与所述声学特征的对齐关系；所述神经声码器用于将预测的声学特征重建为音频。

ASR模型和改进的TTS模型的预训练过程包括：将输入文本和参考音频序列按比例分割为训练集及测试集；对ASR模型和TTS模型分别进行预训练，具体训练过程，参见上述方法实施例，在此不再赘述。

显然，上述实施例仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种基于表现力的语音合成方法，其特征在于，包括以下步骤：

S1、将预训练的ASR模型和改进的TTS模型进行联合训练后，作为联合训练模型；所述联合训练模型的训练总损失包括TTS任务的重构损失和ASR任务的对抗损失，在训练阶段，不断的更新TTS模型来最小化重构损失L_recog，并最大化对抗损失L_gan；

所述TTS任务的重构损失的重构损失函数L_recog按照如下公式进行计算：

其中，

是生成的梅尔谱，

是从梅尔谱中生成的线性谱，y和z是学习目标；L_mse是均方误差函数；

所述ASR任务的对抗损失的对抗损失预测函数L_gan如下：

其中，x是学习目标，

是预测的字符序列，L_CE是交叉熵损失函数；

S4、利用改进的TTS模型去除所述高维的隐式特征中的内容信息，生成纯净的风格嵌入信息；包括如下方法：将参考音频序列转换成梅尔谱，所述梅尔谱作为联合训练模型共享层的输入，在执行ASR模型的任务中，在梯度反向传播过程以对抗训练的方式执行梯度反转，去除内容信息，生成纯净的风格嵌入信息；

2.根据权利要求1所述的基于表现力的语音合成方法，其特征在于，在S1中，所述联合训练模型，采用预训练的ASR模型和改进的TTS模型进行联合训练，包括如下步骤：将输入文本和参考音频序列，按比例分割为训练集及测试集；对ASR模型和改进的TTS模型分别进行预训练，使用改进的TTS模型中的共享层将预训练后的ASR模型添加到改进的TTS模型中，执行联合训练。

3.一种基于表现力的语音合成***，其特征在于，用于执行上述权利要求1-2中任意一项所述的基于表现力的语音合成方法，包括联合训练模型，所述联合训练模型包括预训练的ASR模型和改进的TTS模型；

所述改进的TTS模型包括共享层、风格编码器和传统TTS模型；所述共享层用于嵌入上述ASR模型，所述风格编码器用于以参考音频序列为输入，使用上述ASR模型进行对抗训练和梯度反转，得到去除内容的风格嵌入信息；所述传统TTS模型，用于将输入文本信息经由文本编码器得到文本嵌入信息，将所得文本嵌入信息与风格嵌入系信息拼接作为解码器的输入，预测得到声学特征梅尔谱和线性谱，利用神经声码器进行音频重构，得到与参考音频相同风格的合成音频。

4.根据权利要求3所述的基于表现力的语音合成***，其特征在于，所述传统的TTS模型包括文本编码器、注意力机制和解码器；所述文本编码器用于将输入文本编码为文本嵌入信息，所述解码器用于将所述的文本嵌入信息和风格嵌入信息结合预测出声学特征，所述注意力机制用于学习所述文本嵌入信息与所述声学特征的对齐关系；所述神经声码器用于将预测的的声学特征重建为音频。

5.根据权利要求3所述的基于表现力的语音合成***，其特征在于，所述ASR模型和TTS模型的预训练过程包括：将音频数据集按比例分割为训练集及测试集；对ASR模型和TTS模型分别进行预训练。

6.一种电子设备，其特征在于，包括处理器与存储器，所述存储器，用于存储计算机程序；所述处理器，用于执行所述计算机程序时，实现如权利要求1至2中任一项所述基于表现力的语音合成方法的步骤。

7.一种计算机存储介质，其特征在于，所述计算机存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至2中任一项所述基于表现力的语音合成方法的步骤。