CN114023300A

CN114023300A - 一种基于扩散概率模型的中文语音合成方法

Info

Publication number: CN114023300A
Application number: CN202111295924.5A
Authority: CN
Inventors: 王海舟; 范润琦; 吴英奡; 许晋荣; 张新悦; 吴心宇
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2021-11-03
Filing date: 2021-11-03
Publication date: 2022-02-08

Abstract

本发明公开了一种基于扩散概率模型的中文语音合成方法，该方法首先构建中文文本前端处理模块，然后构建基于前向注意力机制的端到端频谱生成网络，最后使用基于扩散概率模型的Diffwave声码器进行中文语音合成。本发明采用前向注意力机制解决中文长句子合成中出现的语音帧对齐效果差等问题；并且在声码器部分使用基于扩散概率模型的非自回归型Diffwave声码器，显著提高模型合成语音的质量与效率。

Description

一种基于扩散概率模型的中文语音合成方法

技术领域

本发明涉及人工智能语音合成技术领域，具体涉及一种基于扩散概率模型的中文语音合成方法。

背景技术

语音合成技术通常指文本到语音的转换。随着互联网技术，信息技术和人工智能等领域的不断发展成熟，智能终端的普及和换代，以合成人工语音技术为代表的新兴人机交互方式悄然开始流行。现如今语音合成已经开始广泛的应用于地图导航，语音助手，有声书阅读，短视频配音等场景。

随着深度学***衡。WaveNet堆叠多层一维扩展卷积，卷积核的跨度为2，通过这种结构，感受野随着层数的增多而指数级增大，导致合成速度慢。而传统的非自回归语音合成的主要问题是语音合成质量较低，如FastSpeech模型可以通过并行的梅尔谱图生成，加快了合成过程，FastSpeech基于Transformer结构进行训练，但提取的对齐效果不够准确，且得到的目标梅尔频谱存在一些信息损失，因此音质效果较差。

发明内容

针对上述问题，本发明的目的在于提供一种基于扩散概率模型的中文语音合成方法，通过在解码器中使用前向注意力机制，并利用基于扩散概率模型的Diffwave声码器实现更高效，更高质量的中文语音合成。技术方案如下：

一种基于扩散概率模型的中文语音合成方法，包括以下步骤：

S1：文本前端处理：

获取文本数据集，构建中文文本前端处理模块，对文本数据集进行普通话文本转音素处理、文本正则化处理，以及标点符号的删除或转化处理，得到音素序列；

S2：构建基于前向注意力机制的端到端频谱生成网络对处理后的文本进行编码和解码：

编码：编码器模块将输入的所述音素序列处理得到隐层序列，每个解码时刻，注意力机制对输入序列进行一个软选择，得到一个注意力的上下文向量，作为解码器的输入；

解码：解码器模块通过预处理网络进行时间步长的预测，预处理网络的输出和注意力的上下文向量通过两个单向LSTM层堆栈连接和传递；通过线性变换投影LSTM层输出与注意力的上下文向量的连接预测目标频谱图框架；将预测的梅尔谱图通过一个5层卷积后处理网络，将预测残差添加到预测中，以改善整体重构；

S3：使用基于扩散概率模型的Diffwave声码器进行中文语音合成：

所述扩散概率模型将噪声和目标波形的映射关系分成了T个步骤，形成了一条马尔可夫链，针对该链的扩散过程，即从目标音频到噪声进行训练，然后通过反向过程，即从噪声到目标音频进行解码。

进一步的，所述普通话文本转音素处理具体为：对于文本数据集每个句子中汉字从左到右的顺序，优先从词拼音库中查找是否存在以该汉字开头的词，并检查文本中该汉字后面的汉字是否与该词中匹配，若匹配，直接从词拼音库中获取该词的拼音；若不匹配，则从字拼音库中获取该汉字的拼音。

更进一步的，所述编码器模块包括：一个字符嵌入层，一个3层卷积，一个双向LSTM层；输入字符被编码成128维的字符向量；然后穿过一个3层卷积，每层卷积包含256个5×1的卷积核，即每个卷积核横跨5个字符，卷积层对输入的字符序列进行大跨度上下文建模，卷积层后接批归一化，使用ReLU激活函数进行激活；最后一个卷积层的输出被传送到双向LSTM层生成编码特征；

H＝EncoderRecurrency(f_e) (2)

其中，f_e为编码特征，F₁、F₂、F₃为3个卷积核，relu(·)表示各卷积层上的非线性激活；

表示对字符序列X做嵌入，EncoderRecurrency(·)表示编码器中的循环神经网络双向LSTM，H为输出的编码器隐状态。

更进一步的，设输入编码器的音素序列为x＝[x₁,x₂,…,x_N]，N表示音素序列的长度，经过编码器的处理得到隐层序列h＝[h₁,h₂,…,h_N]，在每个解码时刻k，注意力机制对输入序列进行一个软选择，得到一个上下文向量c_k，作为解码器的输入；

设注意力机制的查询向量为s_k，注意力机制选择一个编码器1到N之间的位置输出作为输入，该位置用一个随机变量π_k∈{1,…,N}来表示，则注意力机制的建模目标为该位置变量的概率分布：p(π_k|h,s_k)；上下文向量计算由下式得到：

其中，y_k(n)＝p(π_k＝n|h,s_k)表示注意力在解码时刻k，停留在编码器的输出位置n的概率大小；

基于内容的注意力机制的计算方式为：

其中，W,V,b和v是模型的参数；e_k,n用于评价s_k和h_n的匹配程度；

假设不同时刻的注意力位置随机变量π_k在给定编码器的输出h和查询向量s_k以后是条件独立的，则得到一个对齐路径π_1:k＝{π₁,π₂,…,π_k}的概率为：

其中，s_1:k为查询向量集合{s₁,s₂,…,s_k}；y_k'(π_k')表示注意力在当前解码时刻k前的任意时刻k'，停留在编码器的输出位置π_k'的概率大小；

确定一个注意力的合法路径集合P内的每条路径都满足单调性和连续性，则给定单调路径的约束下，注意力分布的条件概率为：

p(π_k|h,s_1:k,π_0:k∈P) (6)

则定义前向变量a_k(n)为：

采用动态规划算法，通过前一个时刻得到的前向变量，递推得到当前时刻的前向变量：

a_k(n)＝(a_k-1(n)+a_k-1(n-1))y_k(n) (8)

从前向变量中得到新的注意力概率：

在式(3)中用a_k(n)来替代y_k(n)计算上下文向量c_k：

更进一步的，所述S3具体包括：

S31：定义q_data(x₀)为

上的数据分布，其中L是数据维度；定义

t＝0,1,…,T为有着相同维度的变量序列，t为扩散步数的索引，T为扩散总步数；所述扩散概率模型包括扩散过程和反向过程；

扩散过程的目的是通过一条马尔可夫链将x₀逐渐映射到多维正态分布，即：

其中，q(x_t|x_t-1)被定义为和常数β_t有关的高斯分布

I为单位矩阵；反向过程则是基于正态分布的采样进行生成：

p_latent(x_T)＝N(0,I) (12)

其中，p_latent(x_T)为各向同性高斯分布，转移概率p_θ(x_t-1|x_t)参数化为高斯分布N(x_t-1；μ_θ(x_t,t),σ_θ(x_t,t)²I)；

模型μ_θ和模型σ_θ各有两个输入：扩散步数

和变量

其中L是数据维度；模型μ_θ输出一个L维向量作为均值，模型σ_θ输出一个实数作为标准差；p_θ(x_t-1|x_t)的目的是在扩散过程中逐渐消除高斯噪声，最终生成符合目标分布的数据；

S32：抽样

对于反向过程，生成过程首先对x_T:N(0,I)抽样，之后对x_t-1:p_θ(x_t-1|x_t)，t＝T,T-1,...,1抽样；输出的x₀是一个抽样数据；

S33：训练

在训练前，首先剖析模型的训练目标，即最大似然度p_θ(x₀)；通过最大化变分下界来训练模型，公式为：

其中，

表示x对于分布q_data(x₀)的期望，

表示x对于分布q(x₁,...,x_T)的期望；ELBO为证据下界；

定义基于扩散过程中调度方差的常数：

且对于t>1，有

其中，β_t为前向过程方差；为便于表示，使用替代符号α_t表示α_t＝1-β_t

然后，μ_θ和σ_θ的参数化定义：

其中，

是一个同样以x_t和扩散步数t为输入的神经网络；σ_θ(x_t,t)固定为常数

对于该参数化下的每一步，给出如下ELBO的闭型表达式：

假设给定一系列固定调度

让∈～N(0,I)和x₀～q_data；则在期望E_q的参数化下，得到：

对于常数c和κ_t，其中

且对于t>1,有

最小化以下未加权的ELBO变量以提高生成质量：

其中，t均匀取值于1,...,T；

S34：扩散步嵌入：

将不同的扩散步t作为输入，模型对应不同的t会输出不同的∈_θ(·,t)；对每个t使用128维的编码向量；

在编码上应用三个全连接层，其中前两个FC共享各残差层之间的参数；最后一个FC将第二个FC的输出映射为C维嵌入向量；之后广播这个向量并将其加到每个残差层的输入中。

本发明的有益效果是：本发明采用前向注意力机制解决中文长句子合成中出现的语音帧对齐效果差等问题；并且在声码器部分使用基于扩散概率模型的非自回归型Diffwave声码器，显著提高模型合成语音的质量与效率。

附图说明

图1为本发明基于深度学习的中文语音合成模型图。

图2为梅尔频谱图比较；(a)真实语音；(b)本发明模型；(c)Tacotron2+Griffin-Lim；(d)Tacotron2+WaveRNN；(e)Tacotron2+MB-MelGAN；(f)FastSpeech2+MB-MelGAN。

具体实施方式

下面结合附图和具体实施例对本发明做进一步详细说明。如图1所示，本发明基于深度学习的中文语音合成模型整个框架主要包含三个部分：文本前端处理、频谱生成网络(编码器和解码器)和声码器。

1、文本前端处理

(1)普通话文本转音素(grapheme-to-phoneme,G2P)

对于每个句子中汉字从左到右的顺序，优先从词拼音库(下载地址：https://github.com/mozillazg/phrase-pinyin-data)中查找是否存在以该汉字开头的词并检查该汉字后面的汉字是否与该词匹配，若满足条件，直接从词库中获取拼音；若不满足条件，从字拼音库(下载地址：https://github.com/mozillazg/pinyin-data)中获取该汉字的拼音。

(2)文本正则化(text normalization,TN)

中文文本正则化是把非汉字字符串转化为汉字串以确定其读音的过程。本实施例运用正则表达式对文本进行处理，实现NSW(Non-Standard-Word，非标准字)规范化，规则见表1。

表1文本规范化规则表

(3)标点符号

对于中文标点符号，只保留＇，。？！＇四种符号，其余符号按照下列规则转换到这四个符号之一，详见表2。

表2符号转换规则表

替换前	替换后
		括号、引号、规定范围外的特殊符号	忽略
冒号、破折号、顿号、英文逗号	’，’
		英文感叹号	'！'
英文问号	'？'
		英文句号、分号、省略号	’。’
连续出现相同的'，。？！'	只保留一个

2、编码器

编码器的目的是从输入的文本序列中提取健壮的序列表达。编码器模块包含一个字符嵌入层(Character Embedding)，一个3层卷积，一个双向LSTM(Long Short-TermMemory，长短期记忆)层。输入字符被编码成128维的字符向量；然后穿过一个3层卷积，每层卷积包含256个5×1的卷积核，即每个卷积核横跨5个字符，卷积层会对输入的字符序列进行大跨度上下文建模(类似于N-grams)，这里使用卷积层获取上下文主要是由于实践中循环神经网络很难捕获长时依赖；卷积层后接批归一化(batch normalization)，使用ReLU(Rectified Linear Unit,修正线性单元)激活函数

进行激活；最后一个卷积层的输出被传送到一个双向的LSTM层用以生成编码特征，这个LSTM包含512个单元(每个方向256个单元)。

H＝EncoderRecurrency(f_e) (2)

其中，F1、F2、F3为3个卷积核，ReLU为每一个卷积层上的非线性激活，E表示对字符序列X做embedding，EncoderRecurrency表示编码器中的循环神经网络双向LSTM，H为输出的编码器隐状态。编码器隐状态生成后，就会被送入注意力机制，以生成编码向量。编码器部分参数见表3。

表3编码器部分参数列表

模型参数	参数值
		embedding_dim	128
conv_layers_num	3
		conv_kernel_size	5
conv_filters	256
		lstm_units	256

3、解码器

本发明中的解码器采用自回归递归结构，可以从编码的输入序列中预测出一帧一帧的梅尔谱图。解码器首先将之前的时间步长的预测通过一个包含2个完全连接层256个隐藏ReLU单元的小型预处理网络。作为信息瓶颈的预处理网络中的Dropout对学习注意力至关重要，有利于提升模型的泛化性。预处理网络的输出和注意力的上下文向量通过两个单向LSTM层堆栈连接和传递。通过线性变换投影LSTM输出与注意力的上下文向量的连接预测目标频谱图框架。最后，将预测的梅尔谱图通过一个5层卷积后处理网络，该后处理网络将预测残差添加到预测中，以改善整体重构。解码器部分参数见表4。

表4解码器部分参数列表

模型参数	参数值
		prenet_layers	[256,256]
decoder_layers	2
		decoder_lstm_units	256
dropout_rate	0.5

(1)前向注意力机制

在解码器中，采用了前向注意力机制来提高模型对长文本的处理能力。

假设有音素作为输入序列x＝[x₁,x₂,…,x_N]，其中N表示音素序列的长度。输入经过序列到序列模型编码器的处理得到隐层序列h＝[h₁,h₂,…,h_N]。在每个解码时刻k，注意力机制对输入序列进行一个软选择，得到一个上下文向量c_k，作为解码器的输入。假设注意力机制的查询向量(query vector)为s_k，—般使用的是解码器RNN在当前时刻的状态向量。注意力机制选择一个编码器的一个1到N之间的位置输出作为输入，这个位置可以用一个随机变量π_k∈{1,…,N}来表示，那么注意力机制的建模目标为该位置变量的概率分布：p(π_k|h,s_k)。上下文向量计算由下式得到：

基于内容的注意力机制的计算方式为：

其中，W,V,b和v是模型的参数，e_k,n用于评价s_k和h_n的匹配程度。

假设不同时刻的注意力位置随机变量π_k在给定编码器的输出h和查询向量s_k以后是条件独立的。所以可以得到一个对齐路径π_1:k＝{π₁,π₂,…,π_k}的概率为：

在初始化状态，本方法规定π₀＝1。

考虑一个注意力的路径集合，该集合记为P。该集合是一个合法路径的集合，即集合内的每条路径都满足两个特性。第一是单调性：即注意力停留的位置只会单调增长，

第二是连续性：即时间连续的两个注意力位置之间不会发生跳跃，

本发明考虑给定单调路径的约束下，注意力分布的条件概率：

p(π_k|h,s_1:k,π_0:k∈P)(6)

使用这个条件概率作为注意力分布的系数是为了在概率公式中引入一个条件项。条件项排除了在语音生成任务中的非法路径，即所有违反单调性规则的路径，可以使得概率空间大大减小，对于语音合成任务更加合理。因为在这个任务中，注意力对齐的路径显然是单调递增，而且不会发生跳跃的。为了描述该算法的计算过程，首先定义前向变量：

该算法中的前向变量和CTC(Connectionist Temporal Classification)算法中前向变量的相似和不同之处。相似之处在于该前向变量都是一个“合法”路径概率的集合，而且不同时刻之间的概率分布满足条件独立性。但是CTC的每个时刻输出描述的是一个输出标签概率，注意力机制描述的是一个注意力位置的随机变量的概率分布。而且对于什么是“合法”路径的规定也不一样。对于CTC算法，合法路径的含义是满足能够对应到正确标签序列的所有路径的集合；而对于前向注意力机制，合法路径的含义是能够满足单调性和连续性的所有路径的集合。类似于CTC算法，前向变量的计算不需要通过穷举所有的合法路径再求和，这样的算法复杂度会达到指数级别，导致运算无法进行。前向变量可以通过巧妙的前向算法来实现，核心思想是动态规划算法，通过前一个时刻得到的前向变量，递推得到当前时刻的前向变量：

a_k(n)＝(a_k-1(n)+a_k-1(n-1))y_k(n) (8)

因此，可以从前向变量中得到新的注意力概率：

得到新的注意力概率后，我们就可以在式(3)中用

来替代y_k(n)计算上下文向量c_k。修改后的递推算式如下：

注意力机制部分参数见表5。

表5注意力机制部分参数列表

模型参数	参数值
		smoothing	False
attention_dim	128
		attention_filters	32
attention_kernel	31
		cumulative_weights	True

(2)后处理网络

后处理网络的目标是将序列到序列的目标输出转换成为可以被合成为波形的目标表达，要学习的是如何预测在线性频率标度上采样的频谱幅值。后处理网络构建的另一个目的是它还能够看到所有解码序列，和总是从左到右顺序运行的普通的序列到序列结构不一样，这样构建可以同时获得前向和后向的双向信息，用以纠正单帧的预测错误。本发明中后处理网络为5层卷积神经网络，每层由256个5×1卷积核和一个批标准化处理组成，除了最后一层卷积，每层的批标准化处理都后接一个tanh激活函数。后处理网络部分参数见表6。

表6后处理网络部分参数列表

模型参数	参数值
		postnet_layers_num	5
postnet_kernel_size	5
		postnet_filters	256

4.声码器

本发明选择基于扩散概率模型(Diffusion Probabilistic Model)的音频生成模型来进行语音波的生成。

扩散概率模型是一种基于马尔可夫链的概率模型，它将噪声和目标波形的映射关系分成了T个步骤，形成了一条马尔可夫链。针对该链的扩散过程(从目标音频到噪声)进行训练，然后通过反向过程(从噪声到目标音频)进行解码。

首先定义q_data(x₀)为

上的数据分布，其中L是数据维度；定义

t＝0,1,…,T为有着相同维度的变量序列，t为扩散步数的索引，T为扩散总步数。一个扩散模型有两个过程组成，扩散过程和反向过程。

(1)扩散过程(diffusion process)：

扩散过程的目的是通过一条马尔可夫链将x₀逐渐映射到多维正态分布(高斯噪声)，即：

其中q(x_t|x_t-1)被定义为和常数β_t有关的高斯分布

该过程相当于迭代的添加少量的高斯噪声，最终将目标转换为不同维度间相互独立的多维正态分布。

(2)反向过程(reserve process)：

反向过程则是基于正态分布的采样进行生成：

p_latent(x_T)＝N(0,I) (12)

式中，p_latent(x_T)为各向同性高斯分布，转移概率p_θ(x_t-1|x_t)参数化为N(x_t-1；μ_θ(x_t,t),σ_θ(x_t,t)²I)。其中，模型μ_θ和σ_θ各有两个输入：扩散步数

和变量

μ_θ输出一个L维向量作为均值，σ_θ输出一个实数作为标准差。p_θ(x_t-1|x_t)的目的是在扩散过程中逐渐消除高斯噪声，最终生成符合目标分布的数据。

(3)抽样：

对于反向过程，生成过程首先对x_T:N(0,I)抽样，之后对x_t-1:p_θ(x_t-1|x_t)，t＝T,T-1,...,1抽样。输出的x₀是一个抽样数据。

(4)训练：

在训练前，首先要剖析模型的训练目标，即最大似然度p_θ(x₀)，公式为：

其中，

表示x对于分布q_data(x₀)的期望，

表示x对于分布q(x₁,...,x_T)的期望；ELBO为证据下界。

在一定参数化条件下，扩散模型的ELBO(Evidence Lower Bound，证据下界)可以通过闭型计算出来。这不仅加快了计算速度，也避免了方差过大的Monte Carlo估计。该参数化被它与Langevin动力学去噪分数匹配之间的联系所驱动。为了引入这个参数化，定义基于扩散过程中调度方差的常数：

且对于t>1，有

其中，β_t为前向过程方差；为便于表示，使用符号α_t＝1-β_t

然后，μ_θ和σ_θ的参数化定义：

其中，

对于该参数化下的每一步，给出如下ELBO的闭型表达式：

假设给定一系列固定调度

和x₀～q_data；则在期望E_q的参数化下，得到：

对于常数c和κ_t，其中

且对于t>1,有

其中c与优化目的无关。证明的关键思想是将ELBO展开成具有闭型表达式的可控高斯分布之间的KL发散的和。

最小化以下未加权的ELBO变量可以提高生成质量：

其中，t均匀取值于1,...,T。因此，在本发明模型中也使用了这个训练目标。

(5)扩散步嵌入：

将不同的扩散步t作为输入，模型对应不同的t会输出不同的ε_θ(·,t)。对每个t使用128维的编码向量。

然后在编码上应用三个全连接(fully connected，FC)层，其中前两个FC共享各残差层之间的参数。最后一个FC将第二个FC的输出映射为C维(残差通道数)嵌入向量。之后广播这个向量并将其加到每个残差层的输入中。

该模型有一个调节器(Conditioner)来编码条件信息，比如梅尔谱、说话人标记等。在训练和解码的时候，提前设置好扩散总轮数T和β_t。比如效果最好的T＝200，β_t＝[1×10^-4,0.02]，即初始1×10^-4，每次迭代增加0.02。T越大，迭代的次数也就越多，生成效果也就更好。

(6)调节器：使用原始音频的80波段梅尔谱图作为调节器来测试这些神经声码器。将FFT的大小设置为1024，跳转大小设置为256，窗口大小设置为1024。对梅尔谱图进行了256次采样，通过带漏泄的ReLU(α＝0.4)函数，进行了两层转置的二维卷积(在时间和频率上)交错。对于每一层，上采样跨步在时间上为16，二维滤波器大小为[32,3]。上采样后，使用特定层的Conv1×1将80个梅尔波段映射为2个残差通道，然后在每个残差层的gate-tanh非线性函数之前添加调节因子作为扩展卷积的偏置项。声码器部分参数见表7。

表7声码器部分参数列表

5、数据集和训练

训练在搭载Nvidia GTX 1080Ti的服务器环境下进行，数据集来自2018年11月9日语音合成技术方案提供商标贝科技免费开放的中文女声合成数据库(BZNSYN)(下载地址：https://weixinxcxdb.oss-cn-beijing.aliyuncs.com/gwYinPinKu/BZNSYP.rar)，其中包含了10000句中文女声(总时长约12小时)和所有音频文件对应的文本标注文档。实验中划分数据集的95％作为训练集，5％作为测试集。

音频文件会先被处理成梅尔频谱特征矩阵，用作语音的声学特征提取，并在train.txt文件里面将拼音标注同声谱对应起来。

对于文本，将其转化为拼音序列，符号只保留＇，。？！＇四种，其余符号按照文本前端中提及的规则转换到这四个符号之一。模型中使用词嵌入层，通过训练不断地学习到语料库中的每个字的词向量。

在训练频谱生成网络的过程中，将Batch Size设置为32，同时使用了学习率指数衰减，初始学习率设置为0.001，当迭代步数达到50k的时候开始指数衰减，最小衰减到0.00001(大约在310k步)。

在声码器的训练中，为保证数据一致性，使用模型生成的的梅尔谱图作为输入，并使用了Adam优化器，批量大小为16，学习率为2×10^-4，训练步骤为1M。

6、特征提取：

(1)词嵌入

语音合成技术就是要让机器学会将每一个包括空格和标点在内的字符，对应到梅尔声谱的某几帧。

因为纯文本数据是无法作为深度学习输入的，所以对于中文而言，首先要把汉字序列对于转化成拼音序列(符号只保留'，。？！'四种)，再将拼音序列转化为一个个对应的向量。使用标准差为steddev的截断正态分布的词嵌入层，通过训练不断地学习到语料库中的每个字的词向量。

(2)音频特征提取

对于音频，主要是提取出它的梅尔频谱特征。梅尔倒频谱参数(Mel-FrequencyCepstral Coefficients，MFCC)是一种比较常用的音频特征，对于声音来说，它其实是一个一维的时域信号，直观上很难看出频域的变化规律，我们知道，可以使用傅里叶变化，得到它的频域信息，但是又丢失了时域信息，无法看到频域随时域的变化，这样就没法很好地描述声音，为了解决这个问题，使用短时傅里叶时频分析方法，运用第三方库librosa(下载地址：https://pypi.org/project/librosa/#history)提取MFCC特征。

7、实验：

(1)评测方法介绍

通过主观评价和客观评价方法来对本发明模型进行评估。

1)主观评价方式：

本发明模型使用的主观评价方法为平均意见得分(Mean Opinion Score，MOS)，主要关注合成语音的自然度和可懂度，MOS值的评分标准分为5级，为1～5分，分数越高则表示语音质量越好。平均意见得分的评估标准见表8。

表8平均意见得分的评估标准

级别	分数	评价标准
			优	5.0	发音清晰；延迟小，交流流畅，总体听感很好；非常相似
良	4.0	发音清晰、可懂；延迟小，交流欠流畅，有点杂音；较为相似
			中	3.0	基本可以听懂；有一定延迟，可以交流，整体感觉不流畅；中度相似
差	2.0	勉强可以听懂，听不太清；延迟较大，交流需要重复多遍；略微相似
			劣	1.0	发音不清晰，很难听懂；延迟大，交流不通畅；完全不相似

MOS值计算：

选取M个句子评估K个语音合成***，共生成MK个样本，由N个被试评分，希望求得***的平均得分μ。为提高度量结果的随机显著性，使用95％置信区间内的评分作为***的平均得分，公式如下：

μ_mn＝μ+x_m+y_n+z_mn (20)

其中，

用于建模句子质量、被试偏好和主观不确定性，

取决于具体的被测试***和测试环境。之后计算

公式如下：

可由最小二乘估计获得，公式如下：

得到的平均得分方差的估计值为：

结合上式并根据t分布求得平均得分的置信区间为：

其中，t分布的自由度为min(N,M)-1，置信度选择95％，可查表获得t的值。

2)客观评价方式：

在客观评测方法中，使用梅尔倒谱失真(Mel Cepstral Distortion，MCD)度量合成语音和真实语音之间的差异，MCD表示转换后语音的MFCC特征与标准输出语音的MFCC特征的差距，失真值越小，合成语音音质越好。

MCD计算公式：

其中，α是缩放因子，其值一般为

l和m分别为梅尔倒谱索引和帧索引，M为语音帧数，L为梅尔倒谱维数，s(l,m)和

分别为真实语音和合成语音的梅尔倒谱。

(2)语音合成模型比较实验

为了证明本发明提出的语音合成模型在语音合成质量和自然度中有明显的优势，挑选了目前主流的基于深度学习的语音合成模型进行了实验。包括自回归模型Tacotron2(Jonathan Shen,Ruoming Pang,Ron J.Weiss,Mike Schuster,Navdeep Jaitly,ZonghengYang,Zhifeng Chen,Yu Zhang,Yuxuan Wang,RJ Skerry-Ryan,Rif A.Saurous,YannisAgiomyrgiannakis,and Yonghui Wu.Natural TTS Synthesis by Conditioning WaveNeton Mel Spectrogram Predictions[C].Proceeding of 43th IEEE InternationalConference on Acoustics,Speech and Signal Processing(ICASSP 2018),Calgary,Alberta,Canada,April 15-20,2018,pp.4779-4783.)和非自回归模型FastSpeech2(YiRen,Chenxu Hu,Xu Tan,Tao Qin,Sheng Zhao,Zhou Zhao,Tie-Yan Liu.FastSpeech 2:Fast and High-Quality End-to-End Text to Speech[J].arXiv preprint arXiv:2006.04558,2020.)，通过主观评价和客观评价的方法对不同模型进行了实验。

根据以上模型的特点，搭配了三种流行的的声码器用于比较实验：Griffin-Lim(Perraudin N,Balazs P,

P L.A Fast Griffin-Lim Algorithm[C].Proceeding of 14th IEEE Workshop on Applications of Signal Processing toAudio and Acoustics(WASPAA 2013),New Paltz,New York,U.S.A,October 2013,pp.1-4.)，MB-MelGAN(Geng Yang,Shan Yang,Kai Liu,Peng Fang,Wei Chen,Lei Xie.Multi-Band Melgan:Faster Waveform Generation For High-Quality Text-To-Speech[C].Proceeding of the 8th IEEE Spoken Language Technology Workshop(SLT 2021),Shenzhen,China,January 2021,pp.492-498.)和WaveRNN(Nal Kalchbrenner,ErichElsen,Karen Simonyan,Seb Noury,Norman Casagrande,Edward Lockhart,FlorianStimberg,A¨aron van den Oord,Sander Dieleman,Koray Kavukcuoglu.EfficientNeural Audio Synthesis[C].Proceeding of 35th International Conference onMachine Learning(ICML 2018),Stockholm,Sweden,July 2018,pp.2410-2419.)。

Griffin-Lim：该模型在已知幅度谱、不知道相位谱的条件下生成语音。Griffin-Lim获取整个频谱图，通过在频率域和时域之间反复转换，迭代地估计缺失的相位信息。在本实验中，使用了从频率到时间域的60次迭代。

MB-MelGAN：即Multi-Band MelGAN。该模型在MelGAN的基础上，增加了生成器的感受野，同时用多分辨率短时傅里叶变换损失代替特征匹配损失，以带来更好的训练质量和更好的训练稳定性。

WaveRNN：该模型是一种基于神经网络的高速音频合成声码器，它具有一个单层的RNN网络架构，使用了两个softmax层。WavRNN的一个优点是使用了矩阵稀疏化，这将使合成速度提高10倍。

在主观评测方法中，使用平均意见得分(MOS)评估合成语音质量与自然度。首先从测试集中随机选取20条文本，合成语音与真实语音混合在一起并随机打乱组成待测语音集，15个测试人员在噪声小于30分贝的同一实验室环境中对每条语音进行打分，回收所有测试人员的打分结果，排除误差较大的评分数据，然后按照95％的置信度计算平均得分作为最终得分。

在客观评测方法中，本实施例使用梅尔倒谱失真(MCD)度量合成语音和真实语音之间的差异。并选择了20条文本用于语音合成，并且每个文本存在对应的真实录音音频。首先分别计算不同模型对于这20条文本的MCD，对于每个模型再各自求平均值作为最终得分。

表9语音合成模型实验结果对比表

声学模型	MOS	MCD
			Tacotron2+Griffin-Lim	4.04±0.19	6.80
Tacotron2+MB-MelGAN	4.17±0.25	7.14
			Tacotron2+WaveRNN	4.19±0.10	6.69
FastSpeech2+MB-MelGAN	3.96±0.15	6.97
			本发明模型	4.22±0.30	6.22
真实语音	4.50±0.24	—

MOS与MCD实验结果如表9所示。从表9中可以看到，本发明模型MOS评分为4.22，高于其他模型，证明本发明模型语音合成质量与自然度更优。此外，本发明模型MCD评分为6.22，低于其他模型，说明本发明模型合成语音和真实语音之间的差异最小。

除了进行MCD的定量比较实验，本实施例还通过梅尔频谱图，用图形化的方式呈现出合成语音和真实语音之间的差异。图2为模型生成的梅尔频谱与真实梅尔频谱的对比，其中，图(a)为真实梅尔频谱，其他频谱图为各模型生成的梅尔频谱。从图2中可以看到，本发明模型生成的梅尔频谱图与其他语音合成模型相比更接近真实梅尔频谱。

Claims

1.一种基于扩散概率模型的中文语音合成方法，其特征在于，包括以下步骤：

S1：文本前端处理：

S2：构建基于前向注意力机制的端到端频谱生成网络对处理后的文本进行编码和解码：编码：编码器模块将输入的所述音素序列处理得到隐层序列，每个解码时刻，注意力机制对输入序列进行一个软选择，得到一个注意力的上下文向量，作为解码器的输入；

2.根据权利要求1所述的基于扩散概率模型的中文语音合成方法，其特征在于，所述普通话文本转音素处理具体为：对于文本数据集每个句子中汉字从左到右的顺序，优先从词拼音库中查找是否存在以该汉字开头的词，并检查文本中该汉字后面的汉字是否与该词中匹配，若匹配，直接从词拼音库中获取该词的拼音；若不匹配，则从字拼音库中获取该汉字的拼音。

3.根据权利要求1所述的基于扩散概率模型的中文语音合成方法，其特征在于，所述编码器模块包括：一个字符嵌入层，一个3层卷积，一个双向LSTM层；输入字符被编码成128维的字符向量；然后穿过一个3层卷积，每层卷积包含256个5×1的卷积核，即每个卷积核横跨5个字符，卷积层对输入的字符序列进行大跨度上下文建模，卷积层后接批归一化，使用ReLU激活函数进行激活；最后一个卷积层的输出被传送到双向LSTM层生成编码特征；