CN112270917B

CN112270917B - 一种语音合成方法、装置、电子设备及可读存储介质

Info

Publication number: CN112270917B
Application number: CN202011128996.6A
Authority: CN
Inventors: 詹皓粤; 林悦
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2020-10-20
Filing date: 2020-10-20
Publication date: 2024-06-04
Anticipated expiration: 2040-10-20
Also published as: CN112270917A

Abstract

本申请提供了一种语音合成方法、装置、电子设备及可读存储介质，其中，语音合成方法包括：先获取待处理文本，以及待合成语音的音色特征，然后根据预设的语音文本对应的字形与统一字符之间的映射关系，将待处理文本转换成采用统一字符表示的文本字符集合，再从文本字符集合中提取出表示每个字和/或词的基频信息特征，将待处理文本对应的文本字符集合、提取出的基频信息特征以及音色特征输入至训练好的语音合成模型中，得到合成语音。在语音合成模型合成语音的过程中，通过在统一字符表示的文本中加入音色以及基频信息等特征，使得合成语音更加生动贴切，提高了语音合成的准确率，大大提高了语音交互的服务体验。

Description

一种语音合成方法、装置、电子设备及可读存储介质

技术领域

本申请涉及语音处理技术领域，具体而言，涉及一种语音合成方法、装置、电子设备及可读存储介质。

背景技术

近几年来，语音交互作为一种新型模式，不仅带来了崭新的用户体验，也扩大了各个产品设计思路及应用场景。语音合成技术是将文本转换成声音的技术。混合语言语音合成是指待合成文本中存在多种语言，将包括多种语言的文本转换成相应的声音。

现有技术中，将带有不同语言的文本转换成对应的语音时，通常使用混合语言语音合成模型，但是，混合语言语音合成模型在合成语音时，未考虑不同语言的发音特点，使得合成后的语音效果与实际相差较多，降低了语音交互的服务体验。

发明内容

有鉴于此，本申请的目的在于提供一种语音合成方法、装置、电子设备及可读存储介质，在语音合成模型合成语音的过程中，通过在统一字符表示的文本中加入音色以及基频信息等特征，使得合成语音更加生动贴切，提高了语音合成的准确率，大大提高了语音交互的服务体验。

第一方面，本申请实施例提供了一种语音合成方法，所述语音合成方法包括：

获取待处理文本，以及待合成语音的音色特征；

根据预设的语音文本对应的字形与统一字符之间的映射关系，将所述待处理文本转换成采用统一字符表示的文本字符集合；

从所述文本字符集合中提取出表示每个字和/或词的基频信息特征；

将所述待处理文本对应的文本字符集合、提取出的基频信息特征以及音色特征输入至训练好的语音合成模型中，得到合成语音。

优选地，所述根据预设的语音文本对应的字形与统一字符之间的映射关系，将所述待处理文本转换成采用统一字符表示的文本字符集合，包括：

确定所述待处理文本对应的字形，以及所述待处理文本中的多个字和/或词；

根据预设的语音文本对应的字形与音标之间的映射关系，确定所述待处理文本中的每个字和/或词对应的音标；

基于每个字和/或词对应的音标，以及每个字和/或词在所述待处理文本中的位置，确定采用音标表示的文本字符集合。

确定所述待处理文本中每个字和/或词对应的字形；

将每个字和/或词对应的字形输入至训练好的文本处理模型中，得到每个字和/或词对应的音标；

基于每个字和/或词在所述待处理文本中的位置，确定采用音标表示的文本字符集合。

优选地，所述将所述待处理文本对应的文本字符集合、提取出的基频信息特征以及音色特征输入至训练好的语音合成模型中，得到合成语音，包括：

将所述文本字符集合和所述基频信息特征输入至训练好的语音合成模型的前馈神经网络中进行线性处理，得到所述基频信息特征对应的第一线性特征和所述文本字符集合对应的第二线性特征；

将所述第一线性特征与所述第二线性特征整合后的特征结果输入至训练好的语音合成模型的多层卷积神经网络中，得到第一输出结果，将所述第一输出结果输入至训练好的语音合成模型的注意力模型中，得到第二输出结果；

将所述第一输出结果、所述第二输出结果和所述音色特征输入至训练好的语音合成模型中进行信息融合，得到所述待处理文本对应的合成语音。

优选地，通过以下步骤训练语音合成模型：

获取多个语音样本、与每个语音样本对应的样本文本和每个语音样本对应的音色样本特征；

针对于每个所述语音样本对应的样本文本，根据预设的语音文本对应的字形与统一字符之间的映射关系，将每个所述样本文本转换成采用统一字符表示的样本字符集合；

从每个所述样本字符集合中提取出表示每个字和/或词的基频信息样本特征；

基于所述样本字符集合、该样本字符集合对应的基频信息样本特征、音色样本特征以及语音样本，对构建好的神经网络模型进行训练，得到训练好的语音合成模型。

优选地，所述基于所述样本字符集合、该样本字符集合对应的基频信息样本特征、音色样本特征以及语音样本，对构建好的神经网络模型进行训练，得到训练好的语音合成模型，包括：

将所述样本字符集合和该样本字符集合对应的基频信息样本特征输入至构建好的神经网络模型的前馈神经网络中，得到所述基频信息样本特征对应的第一预测线性特征和所述样本字符集合对应的第二预测线性特征；

将所述第一预测线性特征与所述第二预测线性特征整合后的预测特征结果输入至构建好的神经网络模型的多层卷积神经网络中，得到第一预测输出结果，将所述第一预测输出结果输入至构建好的神经网络模型的注意力模型中，得到第二预测输出结果；

将所述第一预测输出结果、所述第二预测输出结果、所述音色样本特征和所述语音样本输入至构建好的神经网络模型中进行训练，调整所述神经网络模型的参数，得到训练好的语音合成模型。

优选地，通过以下步骤训练文本处理模型：

获取语料库中的多个语音样本，确定每个所述语音样本对应的样本文本；

确定所述样本文本中每个字和/或词对应的字形和音标；

将每个字和/或词对应的字形和音标输入至构建好的循环神经网络模型中进行训练，调整所述循环神经网络模型的参数，得到训练好的文本处理模型。

第二方面，本申请实施例提供了一种语音合成装置，所述语音合成装置包括：

获取模块，用于获取待处理文本，以及待合成语音的音色特征；

转换模块，用于根据预设的语音文本对应的字形与统一字符之间的映射关系，将所述待处理文本转换成采用统一字符表示的文本字符集合；

特征提取模块，用于从所述文本字符集合中提取出表示每个字和/或词的基频信息特征；

语音合成模块，用于将所述待处理文本对应的文本字符集合、提取出的基频信息特征以及音色特征输入至训练好的语音合成模型中，得到合成语音。

优选地，所述转换模块在用于根据预设的语音文本对应的字形与统一字符之间的映射关系，将所述待处理文本转换成采用统一字符表示的文本字符集合时，所述转换模块用于：

确定所述待处理文本中每个字和/或词对应的字形；

优选地，所述语音合成模块在用于将所述待处理文本对应的文本字符集合、提取出的基频信息特征以及音色特征输入至训练好的语音合成模型中，得到合成语音时，所述语音合成模块用于：

优选地，所述语音合成装置还包括合成模型训练模块，所述合成模型训练模块用于通过以下步骤训练语音合成模型：

优选地，所述合成模型训练模块在用于基于所述样本字符集合、该样本字符集合对应的基频信息样本特征、音色样本特征以及语音样本，对构建好的神经网络模型进行训练，得到训练好的语音合成模型时，所述合成模型训练模块用于：

优选地，所述语音合成装置还包括处理模型训练模块，所述处理模型训练模块用于通过以下步骤训练文本处理模型：

确定所述样本文本中每个字和/或词对应的字形和音标；

第三方面，本申请实施例提供了一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述处理器执行所述机器可读指令，以执行如第一方面所述的语音合成方法的步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如第一方面所述的语音合成方法的步骤。

本申请实施例提供了一种语音合成方法、装置、电子设备及可读存储介质，其中，语音合成方法包括：先获取待处理文本，以及待合成语音的音色特征，然后根据预设的语音文本对应的字形与统一字符之间的映射关系，将待处理文本转换成采用统一字符表示的文本字符集合，再从文本字符集合中提取出表示每个字和/或词的基频信息特征，将待处理文本对应的文本字符集合、提取出的基频信息特征以及音色特征输入至训练好的语音合成模型中，得到合成语音。这样一来，在语音合成模型合成语音的过程中，通过在统一字符表示的文本中加入音色以及基频信息等特征，使得合成语音更加生动贴切，提高了语音合成的准确率，大大提高了语音交互的服务体验。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例所提供的一种语音合成方法的流程图；

图2为本申请实施例所提供的一种语音合成装置的结构示意图之一；

图3为本申请实施例所提供的一种语音合成装置的结构示意图之二；

图4为本申请实施例所提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例，都属于本申请保护的范围。

首先，对本申请可适用的应用场景进行介绍。本申请可应用于语音合成技术领域，先获取待处理文本，以及待合成语音的音色特征，然后根据预设的语音文本对应的字形与统一字符之间的映射关系，将待处理文本转换成采用统一字符表示的文本字符集合，再从文本字符集合中提取出表示每个字和/或词的基频信息特征，将待处理文本对应的文本字符集合、提取出的基频信息特征以及音色特征输入至训练好的语音合成模型中，得到合成语音。在语音合成模型合成语音的过程中，通过在统一字符表示的文本中加入音色以及基频信息等特征，使得合成语音更加生动贴切，提高了语音合成的准确率，大大提高了语音交互的服务体验。

现有技术中，将带有不同语言的文本转换成对应的语音时，通常使用混合语言语音合成模型，但是，混合语言语音合成模型在合成语音时，未考虑不同语言的发音特点，使得合成后的语音效果与实际相差较多，降低了语音交互的服务体验。基于此，本申请实施例提供了一种语音合成方法、装置、电子设备及可读存储介质，在语音合成模型合成语音的过程中，通过在统一字符表示的文本中加入音色以及基频信息等特征，使得合成语音更加生动贴切，提高了语音合成的准确率，大大提高了语音交互的服务体验。

请参阅图1，图1为本申请实施例所提供的一种语音合成方法的流程图。如图1中所示，本申请实施例提供的语音合成方法，包括：

S110、获取待处理文本，以及待合成语音的音色特征。

该步骤中，待处理文本可以为单一语言的文本，也可以为混合语言的文本；待合成语音的音色特征可以根据用户的实际需求，在待处理文本合成语音的过程中添加的音色特征。

这里，可以提前设置好所需要的说话人的音色特征，在待处理文本合成语音的过程中，可以将事先设置好的音色特征加入语音合成过程中，进而得到具有该音色特征对应的发音音色的语音。

这样，针对不同的应用场景，设置不同的音色特征，可以提高语音交互的服务体验。

S120、根据预设的语音文本对应的字形与统一字符之间的映射关系，将所述待处理文本转换成采用统一字符表示的文本字符集合。

该步骤中，预先建立好语音文本对应的字形与统一字符之间的映射关系，然后获取待处理文本中每个字和/或词对应的字形，基于预先建立好的字形与统一字符之间的映射关系，将待处理文本转换成采用统一字符表示的文本字符集合。

其中，语音文本可以从音频数据中获得，得到的语音文本也可以是单一语言的文本，或是混合语言的文本；由于语音文本的语音不同，对应的字形也是不同的，所以需要建立字形与统一字符之间的映射关系；统一字符可以采用音标表示，这里的音标为国际音标，国际音标可以比较科学、精确地记录和区分语音。

进而，本申请实施例为了统一不同语言文本的输入表示，可以对不同语言的文本进行文本处理，采用不同语言文本使用统一字符的文本表达方式，主要对不同语言文本中的数字等特殊字符进行处理，并将不同语言文本转换为统一字符表示。这样，不管输入文本包括几种语言，都可以进行统一字符表示，在语音合成时，不需要再对语音合成模型的参数进行处理，方便混合语言文本的语音合成。

这里，对数字等特殊字符进行处理时，可以采用正则表达式对文本中的数字等特殊字符进行处理。

S130、从所述文本字符集合中提取出表示每个字和/或词的基频信息特征。

该步骤中，可以从采用统一字符表示的文本字符集合中提取每个字和/或词的基频信息特征，这里的基频信息特征表示为基频变化信息的二值化特征。

这里，特征提取得到的特征是与统一字符(音标)相关的基频变化信息的二值化特征，通常被认为是声音的音调，其中，音调也称为音高变化特征。

这样，可以获取文本字符集合中表示每个字和/或词的基频信息特征，然后在语音合成过程中加入该基频信息特征对应的音高变化特征，可以提高和改善语音合成效果，尤其可以提高小语种语音的合成效果。

S140、将所述待处理文本对应的文本字符集合、提取出的基频信息特征以及音色特征输入至训练好的语音合成模型中，得到合成语音。

该步骤中，语音合成模型的输入是文本字符集合、基频信息特征和音色特征，输出是合成语音，进而，基于预先训练好的语音合成模型，就可以将待处理文本转换成相关的合成语音。

这里，本申请实施例根据给定的待处理文本及音色特征生成对应音色及语义内容的合成语音，具体地，先将待处理文本进行文本处理，根据预设的语音文本对应的字形与统一字符之间的映射关系，将待处理文本转换成采用统一字符表示的文本字符集合；然后进行特征提取，从文本字符集合中提取出表示每个字和/或词的基频信息特征；最后将转换得到的文本字符集合，提取得到的基频信息特征以及音色特征同时输入到已经训练好的语音合成模型中，即可得到相应的合成语音。

这样一来，在使用语音合成模型合成语音的过程中，通过将不同语言的文本转换成统一字符表示，可以得到不同语言的文本相对应的完整的合成语音，减少了语音合成模型合成语音的处理时间，提高了工作效率，并且语音合成过程中保证了合成语音的连贯性和完整性，大大提高了语音交互的服务体验。除此之外，通过将不同语言的文本转换成统一字符表示，由此可以直接通过统一字符得到合成语音，提高了语音合成的准确率，增加了语音合成的普适性。

其中，在采用语音合成模型进行语音合成之前先进行语音合成模型的训练，得到最佳的语音合成模型。这样，在利用该语音合成模型合成语音时，才可以得到合成语音质量较高的合成语音。

综上可知，本申请实施例中的语音合成流程为：将不同语言的文本表示为统一字符的文本字符集合，获取该文本字符集合表示的音高变化特征，设置所需要的说话人音色特征，经过该语音合成模型生成对应的语音。

本申请实施例提供的语音合成方法，包括先获取待处理文本，以及待合成语音的音色特征，然后根据预设的语音文本对应的字形与统一字符之间的映射关系，将待处理文本转换成采用统一字符表示的文本字符集合，再从文本字符集合中提取出表示每个字和/或词的基频信息特征，将待处理文本对应的文本字符集合、提取出的基频信息特征以及音色特征输入至训练好的语音合成模型中，得到合成语音。这样一来，在语音合成模型合成语音的过程中，通过在统一字符表示的文本中加入音色以及基频信息等特征，使得合成语音更加生动贴切，提高了语音合成的准确率，大大提高了语音交互的服务体验。

在本申请实施例中，作为一种优选的实施例，步骤S120包括：确定所述待处理文本对应的字形，以及所述待处理文本中的多个字和/或词；根据预设的语音文本对应的字形与音标之间的映射关系，确定所述待处理文本中的每个字和/或词对应的音标；基于每个字和/或词对应的音标，以及每个字和/或词在所述待处理文本中的位置，确定采用音标表示的文本字符集合。

该步骤中，待处理文本由多个字和/或词组成，得到待处理文本对应的字形，即可得到每个字和/或词对应的字形，基于语音文本对应的字形与音标之间的映射关系，得到待处理文本中的每个字和/或词对应的音标，再基于每个字和/或词在待处理文本中的位置，得到采用音标表示的文本字符集合。

在本申请实施例中，作为一种优选的实施例，步骤S120包括：确定所述待处理文本中每个字和/或词对应的字形；将每个字和/或词对应的字形输入至训练好的文本处理模型中，得到每个字和/或词对应的音标；基于每个字和/或词在所述待处理文本中的位置，确定采用音标表示的文本字符集合。

该步骤中，采用文本处理模型进行文本统一字符的转换，输入可以是待处理文本中每个字和/或词对应的字形，输出可以是每个字和/或词对应的音标。

举例说明，文本处理模型可以为长短期记忆人工神经网络(Long Short-TermMemory，LSTM)，利用该LSTM模型可以将不同语言的文本转换成采用音标表示的文本字符集合。具体地，在应用该LSTM模型时，输入是每个字和/或词对应的字形，输出是每个字和/或词对应的音标。

在本申请实施例中，作为一种优选的实施例，步骤S140包括：将所述文本字符集合和所述基频信息特征输入至训练好的语音合成模型的前馈神经网络中进行线性处理，得到所述基频信息特征对应的第一线性特征和所述文本字符集合对应的第二线性特征；将所述第一线性特征与所述第二线性特征整合后的特征结果输入至训练好的语音合成模型的多层卷积神经网络中，得到第一输出结果，将所述第一输出结果输入至训练好的语音合成模型的注意力模型中，得到第二输出结果；将所述第一输出结果、所述第二输出结果和所述音色特征输入至训练好的语音合成模型中进行信息融合，得到所述待处理文本对应的合成语音。

该步骤中，通过将文本字符集合、基频信息特征和音色特征输入至训练好的语音合成模型中，经过语音合成模型的语音合成处理，得到待处理文本对应的合成语音。

具体地，基频信息特征和文本字符集合先各自经过一个前馈神经网络进行一次线性变化，得到基频信息特征对应的第一线性特征和文本字符集合对应的第二线性特征，之后将这两种特征拼接到一起，得到整合后的特征结果，再将整合后的特征结果经过多层卷积神经网络，得到第一输出结果，再将得到的第一输出结果输入到注意力模型中，得到第二输出结果，最后将注意力模型输出的第二输出结果和多层卷积神经网络输出的第一输出结果输入到循环神经网络中进行信息融合，最后对输出的信息融合结果进行线性拟合，得到待处理文本对应的合成语音。

进一步地，本申请实施例提供的语音合成方法通过以下步骤训练语音合成模型：

获取多个语音样本、与每个语音样本对应的样本文本和每个语音样本对应的音色样本特征。

该步骤中，语音样本来自语料库及公开数据库。从语音样本中提取出样本文本，并将样本文本作为输入样本，语音样本作为输出样本，若将样本文本输入至语音合成模型后，输出的合成语音与语音样本相近，则认为语音合成模型的训练完成，进而，可以应用该语音合成模型进行语音合成。

针对于每个所述语音样本对应的样本文本，根据预设的语音文本对应的字形与统一字符之间的映射关系，将每个所述样本文本转换成采用统一字符表示的样本字符集合。

该步骤中，在将每个样本文本转换成采用统一字符表示的样本字符集合之前，先进行文本处理模型的训练，根据训练好的文本处理模型，确定字形与统一字符之间的映射关系。

具体地，通过以下步骤训练文本处理模型：

获取语料库中的多个语音样本，确定每个所述语音样本对应的样本文本；确定所述样本文本中每个字和/或词对应的字形和音标；将每个字和/或词对应的字形和音标输入至构建好的循环神经网络模型中进行训练，调整所述循环神经网络模型的参数，得到训练好的文本处理模型。

该步骤中，先构建循环神经网络模型，将每个字和/或词对应的字形作为循环神经网络模型的输入，每个字和/或词对应的音标作为循环神经网络模型的输出，基于该输入和输出，对循环神经网络模型进行训练，不断调整循环神经网络模型的参数，直至循环神经网络模型基于字形得到的音标与样本文本中每个字和/或词对应的音标基本一致，确定文本处理模型训练完成。

从每个所述样本字符集合中提取出表示每个字和/或词的基频信息样本特征。

该步骤中，在从样本字符集合中提取基频信息样本特征之前，先进行特征提取模型的训练，根据训练好的特征提取模型，确定从每个样本字符集合中提取出表示每个字和/或词的基频信息样本特征。

这里，语料库对应一个特征提取模型，通过语料库内包含的语音样本直接对该特征提取模型进行训练，训练好的特征提取模型与文本处理模型连接，使得文本处理模型的输出可以作为特征提取模型的输入。

进而，文本处理模型提取的是音标的向量表示特征，即使用一些随机初始化的向量来表示音标，这些向量的数据会在训练过程中不断更新，最后得到的向量潜在地表示了对应音标的发音特征；特征提取模型得到的特征是与音标相关的基频变化信息的二值化特征。

这里，将样本字符集合、该样本字符集合对应的基频信息样本特征以及音色样本特征输入至构建好的神经网络模型进行训练，不断调整神经网络模型的参数，直至神经网络模型输出的合成语音与该样本字符集合对应的语音样本一致或高度相似后，才可以确定神经网络模型训练完成，得到训练好的语音合成模型。

这样，构建该语音合成模型时不需要同一说话人的混合语言语音数据，即如果需要合成中日英等多语言语音合成模型，只需要录制不同说话人单一语言的语音数据即可。通过将不同语言的文本表示为统一字符，不同语言之间的发音表示存在一定的重叠，同时加入了新的音高变化特征来提高语音合成模型的适用范围，可以构建成适用于常见语种及小语种等多语种的语音合成模型。进而，该语音合成模型可以适用于任意语种，也可以通过自定义文本的发音方式，支持自定义语言的语音合成。

具体地，所述基于所述样本字符集合、该样本字符集合对应的基频信息样本特征、音色样本特征以及语音样本，对构建好的神经网络模型进行训练，得到训练好的语音合成模型，包括：

这里，神经网络模型包括前馈神经网络、多层卷积神经网络、注意力模型等多个部分，在对神经网络模型进行训练时，需要根据神经网络模型最终的输出结果以及各个部分的输出结果不断的调整神经网络模型的参数，直至得到训练好的语音合成模型。

进而，由于语音合成技术执行与模型训练时对文本数据同样的处理过程，所以只需要录制不同说话人单一语言的语音数据，即可实现多说话人多语种混合语音的合成，提高了混合语言语音合成的效率，普适性较高。使用该方法能够在通过收集多个说话人单一语言语音数据构造一套多语种混合语音合成模型，从而高效地构建具有普适性的高品质语音合成模型，这样，不需要同一说话人的混合语言语音数据，且针对小语种发音特点可以进行改进，支持多语种混合语音的合成。

基于同一发明构思，本申请实施例中还提供了与语音合成方法对应的语音合成装置，由于本申请实施例中的装置解决问题的原理与本申请实施例上述语音合成方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

请参阅图2和图3，图2为本申请实施例所提供的一种语音合成装置的结构示意图之一，图3为本申请实施例所提供的一种语音合成装置的结构示意图之二。如图2中所示，所述语音合成装置200包括：

获取模块210，用于获取待处理文本，以及待合成语音的音色特征；

转换模块220，用于根据预设的语音文本对应的字形与统一字符之间的映射关系，将所述待处理文本转换成采用统一字符表示的文本字符集合；

特征提取模块230，用于从所述文本字符集合中提取出表示每个字和/或词的基频信息特征；

语音合成模块240，用于将所述待处理文本对应的文本字符集合、提取出的基频信息特征以及音色特征输入至训练好的语音合成模型中，得到合成语音。

优选地，所述转换模块220在用于根据预设的语音文本对应的字形与统一字符之间的映射关系，将所述待处理文本转换成采用统一字符表示的文本字符集合时，所述转换模块220用于：

确定所述待处理文本中每个字和/或词对应的字形；

优选地，所述语音合成模块240在用于将所述待处理文本对应的文本字符集合、提取出的基频信息特征以及音色特征输入至训练好的语音合成模型中，得到合成语音时，所述语音合成模块240用于：

进一步地，如图3中所示，所述语音合成装置200还包括合成模型训练模块250，所述合成模型训练模块250用于通过以下步骤训练语音合成模型：

优选地，所述合成模型训练模块250在用于基于所述样本字符集合、该样本字符集合对应的基频信息样本特征、音色样本特征以及语音样本，对构建好的神经网络模型进行训练，得到训练好的语音合成模型时，所述合成模型训练模块250用于：

优选地，所述语音合成装置200还包括处理模型训练模块260，所述处理模型训练模块260用于通过以下步骤训练文本处理模型：

确定所述样本文本中每个字和/或词对应的字形和音标；

本申请实施例提供的语音合成装置，包括获取模块、转换模块、特征提取模块和语音合成模块，其中，获取模块用于获取待处理文本，以及待合成语音的音色特征；转换模块用于根据预设的语音文本对应的字形与统一字符之间的映射关系，将待处理文本转换成采用统一字符表示的文本字符集合；特征提取模块用于从文本字符集合中提取出表示每个字和/或词的基频信息特征；语音合成模块用于将待处理文本对应的文本字符集合、提取出的基频信息特征以及音色特征输入至训练好的语音合成模型中，得到合成语音。这样一来，在语音合成模型合成语音的过程中，通过在统一字符表示的文本中加入音色以及基频信息等特征，使得合成语音更加生动贴切，提高了语音合成的准确率，大大提高了语音交互的服务体验。

请参阅图4，图4为本申请实施例所提供的一种电子设备的结构示意图。如图4中所示，所述电子设备400包括处理器410、存储器420和总线430。

所述存储器420存储有所述处理器410可执行的机器可读指令，当电子设备400运行时，所述处理器410与所述存储器420之间通过总线430通信，所述机器可读指令被所述处理器410执行时，可以执行如上述图1所示方法实施例中的语音合成方法的步骤，具体实现方式可参见方法实施例，在此不再赘述。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时可以执行如上述图1所示方法实施例中的语音合成方法的步骤，具体实现方式可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的***、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种语音合成方法，其特征在于，所述语音合成方法包括：

获取待处理文本，以及待合成语音的音色特征；所述待处理文本为单一语言的文本或混合语言的文本；所述待合成语音的音色特征为预先设置的说话人的音色特征；

根据预设的各种语言的语音文本对应的字形与统一字符之间的映射关系，将所述待处理文本转换成采用统一字符表示的文本字符集合；

将所述第一输出结果、所述第二输出结果和所述音色特征输入至训练好的语音合成模型中进行信息融合，得到所述待处理文本对应的合成语音；所述语音合成模型是通过多个说话人单一语言的语音数据构建的；所述合成语音为单一语种的语音或多语种混合语音。

2.根据权利要求1所述的语音合成方法，其特征在于，所述根据预设的各种语言的语音文本对应的字形与统一字符之间的映射关系，将所述待处理文本转换成采用统一字符表示的文本字符集合，包括：

3.根据权利要求1所述的语音合成方法，其特征在于，所述根据预设的各种语言的语音文本对应的字形与统一字符之间的映射关系，将所述待处理文本转换成采用统一字符表示的文本字符集合，包括：

确定所述待处理文本中每个字和/或词对应的字形；

4.根据权利要求1所述的语音合成方法，其特征在于，通过以下步骤训练语音合成模型：

5.根据权利要求4所述的语音合成方法，其特征在于，所述基于所述样本字符集合、该样本字符集合对应的基频信息样本特征、音色样本特征以及语音样本，对构建好的神经网络模型进行训练，得到训练好的语音合成模型，包括：

6.根据权利要求3所述的语音合成方法，其特征在于，通过以下步骤训练文本处理模型：

确定所述样本文本中每个字和/或词对应的字形和音标；

7.一种语音合成装置，其特征在于，所述语音合成装置包括：

获取模块，用于获取待处理文本，以及待合成语音的音色特征；所述待处理文本为单一语言的文本或混合语言的文本；所述待合成语音的音色特征为预先设置的说话人的音色特征；

转换模块，用于根据预设的各种语言的语音文本对应的字形与统一字符之间的映射关系，将所述待处理文本转换成采用统一字符表示的文本字符集合；

语音合成模块，用于将所述文本字符集合和所述基频信息特征输入至训练好的语音合成模型的前馈神经网络中进行线性处理，得到所述基频信息特征对应的第一线性特征和所述文本字符集合对应的第二线性特征；将所述第一线性特征与所述第二线性特征整合后的特征结果输入至训练好的语音合成模型的多层卷积神经网络中，得到第一输出结果，将所述第一输出结果输入至训练好的语音合成模型的注意力模型中，得到第二输出结果；将所述第一输出结果、所述第二输出结果和所述音色特征输入至训练好的语音合成模型中进行信息融合，得到所述待处理文本对应的合成语音；所述语音合成模型是通过多个说话人单一语言的语音数据构建的；所述合成语音为单一语种的语音或多语种混合语音。

8.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述处理器执行所述机器可读指令，以执行如权利要求1至6任一所述的语音合成方法的步骤。

9.一种计算机可读存储介质，其特征在于，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至6任一所述的语音合成方法的步骤。