CN116486782A

CN116486782A - 文本转语音模型训练方法、文本转语音方法及相关设备

Info

Publication number: CN116486782A
Application number: CN202310483492.3A
Authority: CN
Inventors: 吉祥
Original assignee: Jitter Technology Shenzhen Co ltd; Shenzhen Instant Construction Technology Co ltd
Current assignee: Jitter Technology Shenzhen Co ltd; Shenzhen Instant Construction Technology Co ltd
Priority date: 2023-04-28
Filing date: 2023-04-28
Publication date: 2023-07-25

Abstract

本申请涉及人工智能领域，提供一种文本转语音模型训练方法、文本转语音方法及相关设备，所述文本转语音模型训练方法包括：获取训练文本及所述训练文本对应的文本音频；对所述训练文本对应的文字编码数据进行时长预测，得到所述训练文本的预测发音长度特征；根据所述文本音频，得到所述训练文本的实际发音长度特征；将所述预测发音长度特征与所述实际发音长度特征进行比较，得到第一损失函数；根据所述第一损失函数，调整文本转语音模型的参数。利用上述方法能够提高文本转语音模型的进度，使得训练完成的文本转语音模型具有更准确的预测发音长度的能力，从而提高了文本转语音的准确率。

Description

文本转语音模型训练方法、文本转语音方法及相关设备

技术领域

本申请涉及人工智能技术领域，具体涉及一种文本转语音模型训练方法、文本转语音方法及相关设备。

背景技术

语音合成又称文语转换(Text to Speech，TTS)技术，是语音处理领域的一个重要研究方向，旨在让机器生成自然动听的人类语音。语音合成技术既可以单独适用于不同的场景之内，也可以作为尾部环节嵌入到语音交互的整体方案之中。语音合成模型经过长时间的发展，由最初的基于拼接合成，到参数合成，逐渐达到了现阶段感情充沛的、基于端到端合成。然而，基于端到端合成的文本转语音的方法往往运算量极大，导致文本转语音的效率较差。

发明内容

鉴于以上内容，有必要提出一种文本转语音模型训练方法、文本转语音方法及相关设备，能够降低文本转语音的运算量并提高文本转语音的效率。

本申请的实施例一提供一种文本转语音模型训练方法，所述方法包括：获取训练文本及所述训练文本对应的文本音频；基于预设的文本转语音模型，计算所述训练文本对应的文字编码数据；基于所述文本转语音模型，对所述训练文本对应的文字编码数据进行时长预测，得到所述训练文本的预测发音长度特征；根据所述文本音频，得到所述训练文本的实际发音长度特征；将所述预测发音长度特征与所述实际发音长度特征进行比较，得到第一损失函数；根据所述第一损失函数，调整文本转语音模型的参数。

在本申请的一个实施例中，所述方法还包括：基于所述文本转语音模型，对所述训练文本对应的文字编码数据进行特征提取，得到所述训练文本的声音特征；基于所述文本转语音模型，将所述声音特征与所述预测发音长度特征进行单调对齐融合，得到预测语音信息特征；根据所述文本音频，得到所述训练文本的实际语音信息特征；将所述预测语音信息特征与所述实际语音信息特征进行比较，得到第二损失函数；根据所述第二损失函数，调整所述文本转语音模型的参数。

在本申请的一个实施例中，所述方法还包括：基于所述文本转语音模型，对所述预测语音信息特征进行建模，得到所述训练文本的预测语音信息分布；基于所述文本转语音模型，对所述预测语音信息分布进行解码，得到目标音频数据；将所述目标音频数据与所述文本音频进行比较，得到第三损失函数；根据所述第三损失函数，调整所述文本转语音模型的参数。

本申请的实施例二提供一种文本转语音方法，所述方法包括：将目标文本输入预先训练的文本转语音模型，得到所述目标文本的音频数据，包括：计算所述目标文本对应的文字编码数据；对所述文字编码数据进行特征提取，得到所述目标文本的声音特征；根据所述文字编码数据进行时长预测，得到所述目标文本的发音长度信息特征；将所述声音特征与所述发音长度信息特征进行单调对齐融合，得到语音信息特征；对所述语音信息特征进行建模，得到所述目标文本的语音信息分布；对所述语音信息分布进行解码，得到所述音频数据；其中所述文本转语音模型是通过如上述的文本转语音模型训练方法训练得到的。

在本申请的一个实施例中，所述将所述声音特征与所述发音长度信息特征进行单调对齐融合，得到语音信息特征包括：将所述声音特征与所述发音长度信息特征进行单调对齐融合，得到目标特征；确定所述目标文本对应的情绪特征；

根据所述目标特征和所述情绪特征进行融合，得到所述语音信息特征。

在本申请的一个实施例中，所述根据所述目标特征和所述情绪特征进行融合，得到所述语音信息特征，包括：获取目标人声对应的声音特征；根据所述目标特征、所述声音特征和所述情绪特征进行融合，得到所述语音信息特征。

在本申请的一个实施例中，所述计算所述目标文本对应的文字编码数据，包括：对所述目标文本进行音素提取，得到音素信息；对所述音素信息进行发音编码，得到所述文字编码数据。

在本申请的一个实施例中，所述根据所述文字编码数据进行时长预测，得到所述目标文本的发音长度信息特征，包括：对所述文字编码数据加入噪声；根据加入噪声的文字编码数据进行时长预测，得到所述目标文本的发音长度信息特征。

本申请所述的文本转语音方法，通过将目标文本输入预先训练的文本转语音模型后，通过对所述文字编码数据进行特征提取，得到所述目标文本的声音特征；并根据得到的文字编码数据进行时长预测，得到所述目标文本的发音长度信息特征；接着将所述声音特征与所述发音长度信息特征进行单调对齐融合，得到语音信息特征，使得语音信息特征包含更多的信息，同时也降低了文本转视频的运算量；然后对所述语音信息特征进行建模，得到所述目标文本的语音信息分布；最后对所述语音信息分布进行解码，得到所述音频数据，得到目标文本对应的音频数据，上述方法降低了文本转视频的运算量，从而提高文本转语音的效率。

本申请的实施例三提供一种电子设备，所述电子设备包括处理器和存储器，所述处理器用于执行所述存储器中存储的计算机程序时实现所述文本转语音方法或文本转语音模型训练方法。

本申请的实施例四提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现所述文本转语音方法或文本转语音模型训练方法。

附图说明

图1是本申请一实施例提供的文本转语音模型训练方法的流程图。

图2是本申请实施例提供的一种文本转语音模型训练方法的结构示意图。

图3是本申请一实施例提供的文本转语音模型训练方法的流程图。

图4是本申请一实施例提供的文本转语音模型训练方法的流程图。

图5是本申请实施例提供的文本转语音方法的流程图。

图6是本申请实施例提供的一种电子设备的结构示意性框图。

具体实施方式

为了能够更清楚地理解本申请的上述目的、特征和优点，下面结合附图和具体实施例对本申请进行详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述在一个实施例中实施例的目的，不是旨在于限制本申请。

端到端合成降低了对语言学知识的要求，可批量实现多语种的合成***，语音自然程度高。端到端语音合成一定程度上解决了拼接合成和参数合成存在的部分缺陷。在一个实施例中，端到端合成***可以直接输入文本或者注音字符，通过文本或者文本特征直接建模，跳过声码器进行编码的阶段，减少了对声码器的依赖，弱化前端概念。但是其存在的缺点是文本转语音过程中运算量大，需要花费较多的时间进行处理，导致文本转语音的实时性低，文本转语音的效率较差。

为解决文本转语音过程中运算量大，文本转语音的实时性低，文本转语音的效率较差的问题，本申请实施例提供一种文本转语音方法、文本转语音模型训练方法，本申请实施例提供的文本转语音方法，将目标文本输入预先训练的文本转语音模型，得到目标文本对应的音频数据，可以减少文本转语音的运算量，从而提高了文本转语音的效率。

上述预先训练的文本转语音模型是通过本申请实施例提供的文本转语音模型训练方法进行训练得到的。本申请实施例提供的文本转语音模型训练方法可以应用于一个或者多个电子设备中。所述电子设备是一种能够按照事先设定或存储的计算机可读指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable Gate Array，FPGA)、数字信号处理器(Digital Signal Processor，DSP)、嵌入式设备等。所述电子设备可以包括存储设备、个人计算机、服务器、生产设备、平板电脑、智能手机等。所述电子设备所处的网络包括，但不限于：互联网、广域网、城域网、局域网、虚拟专用网络(Virtual Private Network，VPN)等。

为了使本申请实施例提供的文本转语音模型训练方法的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对该文本转语音模型训练方法进行详细描述。

图1是本申请一实施例提供的文本转语音模型训练方法的流程图。所述文本转语音模型训练方法应用于电子设备中，具体包括以下步骤，根据不同的需求，该流程图中步骤的顺序可以改变，某些可以省略。

步骤110，获取训练文本及所述训练文本对应的文本音频。

在本申请的一个实施例中，训练文本可以包括一段或多段文本，每个训练文本包括其对应的文本音频。文本音频为训练文本对应的语音音频，两者包含的内容一致，只是表示方式存在差异，一个用文本表示，一个用语音表示。例如，训练文本可以是文章中的一段或多个段落、脱口秀文稿、诗歌等文本；文章中的一段对应的文本音频可以为该段落的吟诵音频、脱口秀文稿对应的文本音频可以为脱口秀音频、诗歌对应的文本音频可以为诗歌音频。在本申请实施例中，可以获取已录制好的脱口秀音频作为文本音频，并将该脱口秀音频对应的脱口秀文稿作为该文本音频对应的训练文本。

步骤120，基于预设的文本转语音模型，计算所述训练文本对应的文字编码数据。可以将获取到的训练文本，输入预设的文本转语音模型进行计算，从而得到训练文本对应的文字编码数据。

文字编码数据为预设类型的数据，预设类型可以包括二进制的字节序列。

在本申请的一实施例中，对所述训练文本进行音素提取，得到音素信息；对所述音素信息进行发音编码，得到所述文字编码数据。

音素信息为训练文本对应的注音字符。将文本转化为注音字符可以避免不同语言中存在“同字不同音”的现象导致识别错误的情况发生。在本申请的一实施例中，当训练文本为中文时，对训练文本进行音素提取，即为将训练文本从汉语转化为拼音。示例性的，将汉语转化为拼音时，可以加上拼音的重音标记，即得到的音素信息中包括重音标记，通过在音素信息中包含更多的信息，可以提高文本转音频的准确率。

在本申请的一实施例中，文本转语音模型中包括音素提取模块，用于对训练文本进行音素提取，得到音素信息；文本转语音模型中还包括编码模块，用于对音素提取模块输出的音素信息进行编码，得到文字编码数据。图2为本申请实施例提供的一种文本转语音模型的结构示意图。如图2所示，文本转语音模型包括：音素提取模块201和编码模块202，将训练文本输入音素提取模块201，音素提取模块201输出的内容输入到编码模块202进行编码，得到文字编码数据。

步骤130，基于所述文本转语音模型，对所述训练文本对应的文字编码数据进行时长预测，得到所述训练文本的预测发音长度特征。

时长预测用于对文字编码数据对应的音素的时长进行预测，确定音素对应的时间占比。

预测发音长度特征中包括音素对应的时长占比。根据预测发音长度特征可以确定不同音素在训练文本对应的音频数据的音频时长中的时长占比。例如，预测发音长度特征为【1.5,0.8,1.2】时，表示训练文本对应的三个音素，其中第一个音素在训练文本对应的整个音频数据中的时间占比为1.5，第二个音素在训练文本对应的整个音频数据中的时间占比为0.8，第三个音素在训练文本对应的整个音频数据中的时间占比为1.2。当训练文本对应的整个音频数据的音频时长为7mins时，第一个音素对应的音频时长为3mins，第二个音素对应的音频时长为1.6mins，第三个音素对应的音频时长为2.4mins。

在本申请的一实施例中，文本转语音模型中还可包括发音时长预测模块，用于对文字编码数据进行时长预测，得到训练文本的预测发音长度特征。音素时长通过时长预测模块的可逆变换从随机噪音中采样得到，上述方法可以使得时长预测模块可以学习训练文本对应的对齐矩阵序列。在本申请的一些实施例中，时长预测模块会从随机噪音中得到采样值，将采样值转换为整型值。例如，采样值为【1.5,0.8,1.2】时，转化为整型值【2,1,2】。

在本申请的一实施例中，发音时长预测模块是一个基于流的生成模型，引入与时长序列相同时间分辨率和维度的随机变量和，利用近似后验分布采样这两个变量，训练目标为音素时长对数似然的变分下界。发音时长预测模块的原理可以通过如下公式进行说明：

其中，u、v表示与时长序列相同时间分辨率和维度的随机变量，q_φ(u，v|d，c_text)为近似后验分布。

在本申请的一实施例中，在对发音时长预测模块进行训练时，可以断开发音时长预测模块的梯度反传，防止该部分梯度影响到文本转语音模型中的其它模块。

步骤140，根据所述文本音频，得到所述训练文本的实际发音长度特征。

在本申请的一实施例中，电子设备可以基于文本音频对应的梅尔频谱，确定训练文本的实际发音长度特征。训练文本的实际发音长度特征包括音素对应的实际时长占比。根据实际发音长度特征可以确定不同音素在文本音频对应的音频时长中的时长占比。

步骤150，将所述预测发音长度特征与所述实际发音长度特征进行比较，得到第一损失函数。

在本申请的一些实施例中，电子设备可以通过预测发音长度特征与实际发音长度特征的差值，确定第一损失函数。第一损失函数用于使得调整后的文本转语音模型输出的预测发音长度特征无限接近与文本音频的实际发音长度特征。

步骤160，根据所述第一损失函数，调整所述文本转语音模型的参数。

根据所述第一损失函数调整所述文本转语音模型的参数，使得文本转语音模型输出的预测发音长度特征无限接近与文本音频的实际发音长度特征。

上述实施例提供的文本转语音模型训练方法，可以基于训练文本进行预测后的发音长度特征与训练文本的文本音频的实际发音长度特征的比较结果，确定第一损失函数，并确定的第一损失函数训练文本转语音模型中的参数，使得文本转语音模型拥有更准确预测的发音长度的能力，从而提高文本转语音的准确率。

图3是本申请一实施例提供的文本转语音模型训练方法的流程图。本实施例提供的文本转语音模型训练方法，可以对图1所示方法中的文本转语音模型进行优化。本实施例所示的方法可以在图1所示的步骤120后执行，执行时间不做任何限定。根据不同的需求，该流程图中步骤的顺序可以改变，某些可以省略。

步骤310，基于所述文本转语音模型，对所述训练文本对应的文字编码数据进行特征提取，得到所述训练文本的声音特征。声音特征用于表示训练文本对应的音频中的声音的特征。在本申请的一些实施例中，所述声音特征可以包括基频和声强。其中，基频通常是在说话时，其声带振动的频率，也就是声带开启与闭合一次的时间的倒数。对于音频信号，可以把一段较短的时间内的信号，看作周期信号，对于每段时间内的基频相连接，就可以形成基音轨迹曲线。声强是单位面积上声的功率，常用对数表示，其单位是dB。声强可以从声功率和声压两个角度来定义。

步骤320，基于所述文本转语音模型，将所述声音特征与所述预测发音长度特征进行单调对齐融合，得到预测语音信息特征。

由于文本转语音模型训练过程中没有对齐(alignment)的真实标签，因此在训练阶段的每一次迭代时可以需要估计训练文本和文本音频之间的对齐。为了估计训练文本和文本音频之间的对齐，可以通过文本转语音模型将所述训练文本对应的声音特征与所述预测发音长度特征进行单调对齐融合。

单调对齐融合使用的是单调对齐搜索(Monotonic Alignment Search，MAS)方法。单调对齐搜索方法用于寻找一个最优的对齐路径以最大化利用标准化流参数化数据的对数似然。单调对齐搜索方法的原理可以通过如下公式进行说明。

单调对齐搜索方法约束获得的最优对齐是单调且无跳过的，因为文本转语音优化目标是证据下界(Evidence Lower Bound，ELBO)而非确定的隐变量的对数似然，所以在本申请的一些实施例中，可以对上述单调对齐搜索方法的公式进行变形，以寻找最优的对齐路径以最大化ELBO。变形后单调对齐搜索方法的原理可以通过如下公式进行说明。

步骤330，根据所述文本音频，得到所述训练文本的实际语音信息特征。

在本申请的一些实施例中，电子设备可以将文本音频转化为梅尔谱，并将得到的梅尔谱输入编码器，得到训练文本的实际语音信息特征。

步骤340，将所述预测语音信息特征与所述实际语音信息特征进行比较，得到第二损失函数。

第二损失函数用于使得调整后的文本转语音模型输出的预测语音信息特征无限接近与文本音频的实际语音信息特征。

在本申请的一些实施例中，电子设备可以通过Kullback-Leibler divergence，简称KL散度，将所述预测语音信息特征与所述实际语音信息特征进行比较，得到第二损失函数。KL散度的原理可以通过如下公式进行说明。

L_kl＝log q_φ(z|x_lin)-log p_θ(z|c_text，A)

其中，z为线性谱经过后验编码器后得到的隐变量，x_lin是输入的音频，c_text为输入的文本信息，A为对齐矩阵，log q_φ(z|x_lin)表示给定音频x_lin的后验分布估计，log p_θ(z|c_text，A)表示给定文本c_text的隐变量Z的先验分布估计。

步骤350，根据所述第二损失函数，调整所述文本转语音模型的参数。

电子设备根据第二损失函数调整所述文本转语音模型的参数，使得文本转语音模型输出的预测发音长度特征无限接近与文本音频的实际发音长度特征。

上述实施例提供的文本转语音模型训练方法，可以基于训练文本进行预测后的语音信息特征与训练文本的文本音频的实际语音信息特征的比较结果，确定第二损失函数，并确定的第二损失函数训练文本转语音模型中的参数，使得文本转语音模型拥有更准确预测的语音信息特征的能力，从而提高文本转语音的准确率。

图4是本申请一实施例提供的文本转语音模型训练方法的流程图。本实施例提供的文本转语音模型训练方法，可以对图3所示方法中的文本转语音模型进行优化。本实施例所示的方法可以在图3所示的步骤320后执行，执行时间不做任何限定，可以在步骤340后执行，也可以在步骤350后执行。根据不同的需求，该流程图中步骤的顺序可以改变，某些可以省略。

步骤410，基于所述文本转语音模型，对所述预测语音信息特征进行建模，得到所述训练文本的预测语音信息分布。

在本申请的一些实施例中，预测语音信息分布为训练文本对应的正态分布的最优对齐矩阵。

在本申请的一些实施例中，文本转语音模型可以使用标准流(Flow)模型所述预测语音信息特征进行建模，得到训练文本的预测语音信息分布。

步骤420，基于所述文本转语音模型，对所述预测语音信息分布进行解码，得到目标音频数据。

在本申请的一些实施例中，文本转语音模型中包括解码器，可以使用解码器对预测语音信息分布进行解码，得到目标音频数据。

步骤430，将所述目标音频数据与所述文本音频进行比较，得到第三损失函数。

第三损失函数用于使得调整后的文本转语音模型输出的目标音频数据无限接近与文本音频。

在本申请的一些实施例中，电子设备可以将目标音频数据与所述文本音频输入判别器中进行比较。判别器可以用于区分输入的内容，是由解码器得到，还是真实音频的波形得到。

判别器可以通过用于对抗训练的最小二乘损失函数(least-squares lossfunction)和特别施加于生成器的特征匹配损失(feature-matching loss)等两种方法，计算第三损失函数。

对抗训练的最小二乘损失函数方法的原理可以通过如下公式进行说明。

特别施加于生成器的特征匹配损失方法的原理可以通过如下公式进行说明。

其中，T表示判别器的层数，D^l表示第L层判别器的输出特征图(feature map)，N_l表示特征图的数量。在本申请的一些实施例中，特征匹配损失可以看作是重建损失，用于约束判别器中间层的输出。

步骤440，根据所述第三损失函数，调整所述文本转语音模型的参数。

电子设备根据所述第三损失函数调整所述文本转语音模型的参数，使得文本转语音模型输出的目标音频数据无限接近与文本音频的文本音频。

上述实施例提供的文本转语音模型训练方法，可以基于训练文本进行预测后的目标音频数据与训练文本的文本音频的比较结果，确定第三损失函数，并确定的第三损失函数训练文本转语音模型中的参数，使得文本转语音模型能够生成更准确的目标音频数据，从而提高文本转语音的准确率。

在本申请的一实施例中，所述文本转语音模型训练方法，还包括：

基于文本转语音模型，确定训练文本对应的预测梅尔频谱；获取训练文本对应的实际梅尔频谱；将所述预测梅尔频谱与所述实际梅尔频谱进行比较，得到第四损失函数；根据所述第四损失函数，调整文本转语音模型的参数。

第四损失函数用于使得调整后的文本转语音模型输出的预测梅尔频谱无限接近与训练文本对应的实际梅尔频谱。

在本申请的一实施例中，可以使用如下公式计算第四损失函数。

上述实施例提供的文本转语音模型训练方法，可以基于训练文本进行预测后的预测梅尔频谱与训练文本的实际梅尔频谱的比较结果，确定第四损失函数，并确定的第四损失函数训练文本转语音模型中的参数，使得文本转语音模型能够生成更准确的梅尔频谱，从而提高文本转语音的准确率。

在本申请的实施例中，可以在第一损失函数、第二损失函数、第三损失函数和第四损失函数中任意选择一个或多个损失函数来对文本转语音模型进行训练。在选择损失函数进行训练后，会相应执行其对应的训练方法。例如，可以将图1和图3所示的训练方法进行结合对文本转语音模型进行训练；可以将图1、图3和图4所示的训练方法进行结合对文本转语音模型进行训练。在本申请的一实施例中，可以同时选择第一损失函数、第二损失函数、第三损失函数和第四损失函数对文本转语音模型进行训练。

本申请实施例提供的文本转语音方法，应用于电子设备。关于电子设备的一些描述可以参见上文中的相关描述。

所述文本转语音方法包括：将目标文本输入预先训练的文本转语音模型，得到所述目标文本的音频数据。所述文本转语音模型是通过本申请实施例提供的文本转语音模型训练方法训练得到的。

图5是本申请实施例提供的文本转语音方法的流程图。图5为将目标文本输入预先训练的文本转语音模型，得到所述目标文本的音频数据的具体实现步骤。预先训练的文本转语音模型是通过上述任意一个实施例方法训练得到的文本转语音模型。例如，可以使用图1所示实施例得到的文本转语音模型；也可以是使用图3所示实施例得到的文本转语音模型；或者也可以是图4所示实施例得到的文本转语音模型。所述文本转语音方法具体包括以下步骤，根据不同的需求，该流程图中步骤的顺序可以改变，某些可以省略。

步骤510，计算所述目标文本对应的文字编码数据。

在本申请的一实施例中，所述计算所述目标文本对应的文字编码数据，包括：

对所述目标文本进行音素提取，得到音素信息；

对所述音素信息进行发音编码，得到所述文字编码数据。

步骤520，对所述文字编码数据进行特征提取，得到所述目标文本的声音特征。

步骤530，根据所述文字编码数据进行时长预测，得到所述目标文本的发音长度信息特征。

在本申请的一实施例中，所述根据所述文字编码数据进行时长预测，得到所述目标文本的发音长度信息特征，包括：

对所述文字编码数据加入噪声；根据加入噪声的文字编码数据进行时长预测，得到所述目标文本的发音长度信息特征。

噪声是随机生成的信号，通过加入噪声可以增加文字编码数据的随机性，从而提高了计算目标文本的发音长度信息特征的准确性。

步骤540，将所述声音特征与所述发音长度信息特征进行单调对齐融合，得到语音信息特征。

在本申请的一实施例中，所述将所述声音特征与所述发音长度信息特征进行单调对齐融合，得到语音信息特征包括：

将所述声音特征与所述发音长度信息特征进行单调对齐融合，得到目标特征；

确定所述目标文本对应的情绪特征；

情绪特征用于表示音频对应的情感，如高兴、平静、生气和忧郁等。在本申请一实施例中，可以基于输入目标文本时，用户选择的情绪标签，确定所述目标文本对应的情绪特征。

上述方法通过将目标特征和所述情绪特征进行融合，得到所述语音信息特征，可以使得语音信息特征包含更丰富的信息，使得可以生成带有情绪的音频。

在本申请的一实施例中，所述根据所述目标特征和所述情绪特征进行融合，得到所述语音信息特征，包括：

获取目标人声对应的声音特征；根据所述目标特征、所述声音特征和所述情绪特征进行融合，得到所述语音信息特征。

声音特征用于表示音频的特点，如声调、音色等。在本申请一实施例中，可以基于输入目标文本时，用户选择的人物标签，确定所述目标文本对应的声音特征。

上述方法通过将目标特征、所述声音特征和所述情绪特征进行融合，得到所述语音信息特征进行融合，得到所述语音信息特征，可以使得语音信息特征包含更丰富的信息，使得可以生成带有情绪的音频。

步骤550，对所述语音信息特征进行建模，得到所述目标文本的语音信息分布。

步骤560，对所述语音信息分布进行解码，得到音频数据。

关于步骤510至560中的一些名词解释，一些具体实施方式，可以参见上文中的相关描述，如对图1至图4的相关描述，在此不再赘述。

上述实施例提高的文本转语音方法，将目标文本输入预先训练的文本转语音模型后，通过对所述文字编码数据进行特征提取，得到所述目标文本的声音特征；并根据得到的文字编码数据进行时长预测，得到所述目标文本的发音长度信息特征；接着将所述声音特征与所述发音长度信息特征进行单调对齐融合，得到语音信息特征，使得语音信息特征包含更多的信息，同时也降低了文本转视频的运算量；然后对所述语音信息特征进行建模，得到所述目标文本的语音信息分布；最后对所述语音信息分布进行解码，得到所述音频数据，得到目标文本对应的音频数据，上述方法降低了文本转视频的运算量，从而提高文本转语音的效率。

请参阅图6，图6为本申请实施例提供的一种电子设备的结构示意性框图。该电子设备30可以为服务器或电子设备。

电子设备30所处的网络包括但不限于互联网、广域网、城域网、局域网、虚拟专用网络(Virtual Private Network，VPN)等。

如图6所示，该电子设备30包括通过通信接口301、存储器302、处理器303、输入/输出(Input/Output，I/O)接口304及总线305。处理器303通过总线305分别耦合于通信接口301、存储器302、I/O接口304。

通信接口301用于进行通信。通信接口301可以为电子设备30上已有的接口，也可以为在电子设备30上新建的接口。通信接口301可以为网络接口，例如无线区域网络(Wireless Local Area Network，WLAN)接口，蜂窝网络通信接口或其组合等。

存储器302可用于可存储操作***和计算机程序。例如，存储器302存储了上述的字符加密方法对应的程序。

应当理解的是，存储器302可包括存储程序区和存储数据区。其中，存储程序区可用于存储操作***、至少一个方法所需的应用程序(比如字符加密方法等)等；存储数据区可存储根据电子装置30的使用所创建的数据等。此外，存储器302可以包括易失性存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart MediaCard,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他存储器件。

处理器303提供计算和控制能力，支撑整个计算机设备的运行。例如，处理器303用于执行存储器302内存储的计算机程序，以实现上述的字符加密方法中的步骤。

应当理解的是，处理器303是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

I/O接口304用于提供用户输入或输出的通道，例如I/O接口304可用于连接各种输入输出设备(鼠标、键盘或3D触控装置等)、显示器，使得用户可以录入信息，或者使信息可视化。

总线305至少用于提供电子设备30中的通信接口301、存储器302、处理器303、I/O接口304之间相互通信的通道。

本领域技术人员可以理解，图6示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，在一个实施例中，字符加密方法应用于电子设备，处理器303执行存储器302内存储的计算机程序，以实现如上所示的文本转语音方法或文本转语音模型训练方法。

具体地，处理器303对上述指令的具体实现方法可参考前述文本转语音方法或文本转语音模型训练方法实施例中相关步骤的描述，在此不赘述。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序中包括程序指令，所述程序指令被执行时所实现的方法可参照本申请文本转语音方法或文本转语音模型训练方法中的各个实施例。

其中，所述计算机可读存储介质可以是前述实施例所述的电子设备的内部存储单元，例如所述电子设备的硬盘或内存。所述计算机可读存储介质也可以是所述电子设备的外部存储设备，例如所述电子设备上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。

进一步地，所述计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序等；存储数据区可存储根据电子设备的使用所创建的数据等。

前述实施例提供的电子设备及计算机可读存储介质，通过对所述文字编码数据进行特征提取，得到所述目标文本的声音特征；并根据得到的文字编码数据进行时长预测，得到所述目标文本的发音长度信息特征；接着将所述声音特征与所述发音长度信息特征进行单调对齐融合，得到语音信息特征，使得语音信息特征包含更多的信息，同时也降低了文本转视频的运算量；然后对所述语音信息特征进行建模，得到所述目标文本的语音信息分布；最后对所述语音信息分布进行解码，得到所述音频数据，得到目标文本对应的音频数据，上述方法降低了文本转视频的运算量，从而提高文本转语音的效率。

还应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种文本转语音模型训练方法，其特征在于，所述方法包括：

获取训练文本及所述训练文本对应的文本音频；

基于预设的文本转语音模型，计算所述训练文本对应的文字编码数据；

基于所述文本转语音模型，对所述训练文本对应的文字编码数据进行时长预测，得到所述训练文本的预测发音长度特征；

根据所述文本音频，得到所述训练文本的实际发音长度特征；

将所述预测发音长度特征与所述实际发音长度特征进行比较，得到第一损失函数；

根据所述第一损失函数，调整所述文本转语音模型的参数。

2.根据权利要求1所述的文本转语音模型训练方法，其特征在于，所述方法还包括：

基于所述文本转语音模型，对所述训练文本对应的文字编码数据进行特征提取，得到所述训练文本的声音特征；

基于所述文本转语音模型，将所述声音特征与所述预测发音长度特征进行单调对齐融合，得到预测语音信息特征；

根据所述文本音频，得到所述训练文本的实际语音信息特征；

将所述预测语音信息特征与所述实际语音信息特征进行比较，得到第二损失函数；

根据所述第二损失函数，调整所述文本转语音模型的参数。

3.根据权利要求2所述的文本转语音模型训练方法，其特征在于，所述方法还包括：

基于所述文本转语音模型，对所述预测语音信息特征进行建模，得到所述训练文本的预测语音信息分布；

基于所述文本转语音模型，对所述预测语音信息分布进行解码，得到目标音频数据；

将所述目标音频数据与所述文本音频进行比较，得到第三损失函数；

根据所述第三损失函数，调整所述文本转语音模型的参数。

4.一种文本转语音方法，其特征在于，所述方法包括：

将目标文本输入预先训练的文本转语音模型，得到所述目标文本的音频数据，包括：

计算所述目标文本对应的文字编码数据；

对所述文字编码数据进行特征提取，得到所述目标文本的声音特征；

根据所述文字编码数据进行时长预测，得到所述目标文本的发音长度信息特征；

将所述声音特征与所述发音长度信息特征进行单调对齐融合，得到语音信息特征；

对所述语音信息特征进行建模，得到所述目标文本的语音信息分布；

对所述语音信息分布进行解码，得到所述音频数据；

其中所述文本转语音模型是通过如权利要求1至3任意一项所述的文本转语音模型训练方法训练得到的。

5.根据权利要求4所述的文本转语音方法，其特征在于，所述将所述声音特征与所述发音长度信息特征进行单调对齐融合，得到语音信息特征包括：

确定所述目标文本对应的情绪特征；

6.根据权利要求5所述的文本转语音方法，其特征在于，所述根据所述目标特征和所述情绪特征进行融合，得到所述语音信息特征，包括：

获取目标人声对应的声音特征；

根据所述目标特征、所述声音特征和所述情绪特征进行融合，得到所述语音信息特征。

7.根据权利要求4所述的文本转语音方法，其特征在于，所述计算所述目标文本对应的文字编码数据，包括：

对所述目标文本进行音素提取，得到音素信息；

对所述音素信息进行发音编码，得到所述文字编码数据。

8.根据权利要求4所述的文本转语音方法，其特征在于，所述根据所述文字编码数据进行时长预测，得到所述目标文本的发音长度信息特征，包括：

对所述文字编码数据加入噪声；

根据加入噪声的文字编码数据进行时长预测，得到所述目标文本的发音长度信息特征。

9.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，

所述存储器用于存储计算机程序；

所述处理器用于执行所述存储器中存储的计算机程序时实现如权利要求1至3中任意一项所述的文本转语音模型训练方法，或实现如权利要求4至8中任意一项所述的文本转语音方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至3中任意一项所述的文本转语音模型训练方法，或实现如权利要求4至8中任意一项所述的文本转语音方法。