CN113488021A

CN113488021A - 一种提高语音合成自然度的方法

Info

Publication number: CN113488021A
Application number: CN202110906779.3A
Authority: CN
Inventors: 盛乐园
Original assignee: Hangzhou Xiaoying Innovation Technology Co ltd
Current assignee: Hangzhou Xiaoying Innovation Technology Co ltd
Priority date: 2021-08-09
Filing date: 2021-08-09
Publication date: 2021-10-08

Abstract

本发明公开了一种提高语音合成自然度的方法。它包括如下步骤：将文本通过字形到音素的工具得到与文本对应的音素，所有的音素组成一个音素字典，音素字典的个数作为嵌入层的维度，对文本的音素进行表征，由CBHG模块对表征的特征进行编码；将文本编码的结果作为输入，对每个音素的持续时间进行预测，预测结果与真实的标签作比对，对时长模型进行优化；将经过时长模型扩充后的特征进行解码，解码出的结果组合成一个复数的特征，解码出的复数特征经原始音频中短时傅里叶逆变换，还原为语音波形。本发明的有益效果是：可以降低模型的复杂度，减少计算量，节约计算及部署成本；提高合成语音的自然度，发音更加像真人。

Description

一种提高语音合成自然度的方法

技术领域

本发明涉及语音合成相关技术领域，尤其是指一种提高语音合成自然度的方法。

背景技术

由于深度学习的发展及在各领域的应用，语音合成也得到了很多的受益。语音合成大致也可以分为两个阶段：1.拼接法和参数法。拼接法是指在比较大的语料中寻找语音片段，然后根据要合成的文字，去搜索相应的语音片段组合起来。这样合成出的语音虽然是真人的声音，但是在一些全局的特征上表现会受到限制，比如说话的语气，韵律等。同时拼接法还需要比较大的语料，对数据集要求比较高。参数法是指根据统计模型建立文本参数与声学参数之间的映射模型。缺点是合成的语音有机械感不自然，参数调节很麻烦。2.基于深度学习的研究。基于深度学习的语音合成在往端到端方向上发展。合成的质量也越来越好，但是目前真正端到端的模型很少，基本都是通过梅尔频谱在文本与语音之间建立桥梁。这造成了合成语音自然度的损失。

现有的语音合成技术，首先文本会由一个正则化模块将文本处理成音素作为输入，然后经过一个嵌入层网络，对文本或音素进行表征，再将表征的特征通过一些特征提取网络进行编码。编码后特征的长度还是和输入的音素长度一致，只是维度由一维升到高维。根据文本编码的结果去预测文本或音素的发音时长。对预测的发音时长进行取整，这些时长的个数也是和音素的长度一致的。然后根据取整的时长对编码后的特征进行调节，最后可以得到与从真实语音中提取的梅尔频谱的长度一致的文本编码结果。将时长模型调节的结果通过深度学习网络进行特征的解码，与从真实语音中提取的梅尔频谱计算损失。将从真实语音中提取的梅尔频谱作为输入，利用神经网络模型比如：WaveNet，ParallelWaveNet，HifiGan等去预测真实的语音波形。在合成阶段的输入是解码出的梅尔频谱，并不是真实的梅尔频谱作为输入。现有的技术线路是由文本去预测梅尔频谱，然后由声码器根据预测的梅尔频谱去预测语音波形。并且这两个过程所计算的目标函数也不是一致的。

发明内容

本发明是为了克服现有技术中存在上述的不足，提供了一种能够减少计算量的提高语音合成自然度的方法。

为了实现上述目的，本发明采用以下技术方案：

一种提高语音合成自然度的方法，具体包括如下步骤：

（1）文本编码：将文本通过字形到音素的工具得到与文本对应的音素，然后所有的音素组成一个音素字典，音素字典的个数作为嵌入层的维度，对文本的音素进行表征，即通过深度学习中的Embedding将音素映射到一个特征向量；

（2）由CBHG模块对表征的特征进行编码，表征的特征指深度学习中的特征向量，编码是指将表征的特征通过CBHG模块进行映射到另外一种特征向量；

（3）时长模型：将文本编码的结果作为输入，经过3层的卷积神经网络和1层全连接层对每个音素的持续时间进行预测，持续时间指的是网络预测的一个时长；

（4）预测结果与真实的标签作比对，对时长模型进行优化；预测结果就是网络对时长的预测，真实标签就是每个音素真实的时长，网络预测的时长和训练集中音素的真实时长去计算误差，然后不断减少这个误差即对时长模型进行优化；

（5）语音解码：将经过时长模型扩充后的特征经过一个2层的双向长短期记忆网络进行解码，解码出的结果组合成一个复数的特征，和从原始音频中短时傅里叶变换提取的复数特征是对应的；

（6）解码出的复数特征经短时傅里叶逆变换，还原为语音波形。

由于本发明的目标优化函数是针对合成的语音波形和预测的音素发音时长，可以直接从原始的音频中学习到发音人的说话特征，包括：语气，停顿，说话方式等特性。所以相较于其他的语音合成***合成出的语音更加自然。本发明避开了现有技术的缺点，由文本直接预测波形，减少了中间过程，合成出更加自然的语音。本发明的优势是提出了一种端到端的语音合成***，这个***相较于其他的语音合成***：可以降低模型的复杂度，减少计算量，节约计算及部署成本；提高合成语音的自然度，发音更加像真人。

作为优选，在步骤（2）中，所述CBHG模块由一个一维卷积滤波器组、一个高速公路网络和一个双向门控循环单元的循环神经网络组成。

作为优选，在步骤（4）中，具体为：在获取音素的发音时长后，针对编码后的音素根据时长的数值进行扩充。

本发明的有益效果是：可以降低模型的复杂度，减少计算量，节约计算及部署成本；提高合成语音的自然度，发音更加像真人。

附图说明

图1是本发明的方法流程图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步的描述。

如图1所述的实施例中，一种提高语音合成自然度的方法，具体包括如下步骤：

（2）由CBHG模块对表征的特征进行编码，表征的特征指深度学习中的特征向量，编码是指将表征的特征通过CBHG模块进行映射到另外一种特征向量；CBHG模块由一个一维卷积滤波器组、一个高速公路网络和一个双向门控循环单元的循环神经网络组成。

（4）预测结果与真实的标签作比对，对时长模型进行优化；预测结果就是网络对时长的预测，真实标签就是每个音素真实的时长，网络预测的时长和训练集中音素的真实时长去计算误差，然后不断减少这个误差即对时长模型进行优化；具体为：在获取音素的发音时长后，针对编码后的音素根据时长的数值进行扩充。观察如图1中的长度调节器前后的输入和输出，具体来说就是假如有三个音素a，b，c，预测的时长分别是2，3，4，那么扩充之后就是aabbbcccc。

（5）语音解码：将经过时长模型扩充后的特征经过一个2层的双向长短期记忆网络进行解码，解码出的结果组合成一个复数的特征，和从原始音频中短时傅里叶变换提取的复数特征是对应的；2层的双向长短期记忆网络一般指的是双向的lstm，复数特征是区别于一般的特征，一般的都是实数域下的特征，复数域比实数域多了一部分，也就是特征由两部分组成，实部和虚部；短时傅里叶变换是一种数学上的一般运算，stft，也可以是用神经网络实现的短时傅里叶变换；

Claims

1.一种提高语音合成自然度的方法，其特征是，具体包括如下步骤：

2.根据权利要求1所述的一种提高语音合成自然度的方法，其特征是，在步骤（2）中，所述CBHG模块由一个一维卷积滤波器组、一个高速公路网络和一个双向门控循环单元的循环神经网络组成。

3.根据权利要求1所述的一种提高语音合成自然度的方法，其特征是，在步骤（4）中，具体为：在获取音素的发音时长后，针对编码后的音素根据时长的数值进行扩充。