CN115171644A

CN115171644A - 语音合成方法、装置、电子设备和存储介质

Info

Publication number: CN115171644A
Application number: CN202210749829.6A
Authority: CN
Inventors: 贺来朋; 周鸿斌; 叶剑豪; 吕翔; 印晶晶; 汤宗锦; 浦晟骄; 赵光程; 卢恒
Original assignee: Shanghai Himalaya Technology Co ltd
Current assignee: Shanghai Himalaya Technology Co ltd
Priority date: 2022-06-28
Filing date: 2022-06-28
Publication date: 2022-10-11

Abstract

本发明涉及语音处理技术领域，提供一种语音合成方法、装置、电子设备和存储介质。电子设备预存有用户的标识及其对应的音色特征和预设转换模型；获取用户输入的待合成文本和用户的标识，并基于用户的标识获取对应的音色特征和预设转换模型；然后利用预设合成模型对待合成文本进行语音合成，得到待转换音频；再利用预设转换模型基于音色特征对待转换音频进行音色转换，得到符合用户音色的音频。通过预设合成模型得到包含文本内容的音频，并通过预设转换模型将该音频进行音色转换得到包含文本内容且符合用户音色的音频。从而提升了合成效果和音频质量。

Description

语音合成方法、装置、电子设备和存储介质

技术领域

本发明涉及语音处理技术领域，具体而言，涉及一种语音合成方法、装置、电子设备和存储介质。

背景技术

目前，基于语音合成技术，用户可以输入文本得到自己朗读这段文本的音频，实现这一功能需要用户的语音数据。但是，由于用户提供的语音往往音质不高且数据量少，所以会出现语音合成的效果不佳，合成音频质量差的情况。

发明内容

有鉴于此，本发明的目的在于提供一种语音合成方法、装置、电子设备和存储介质。

为了实现上述目的，本发明实施例采用的技术方案如下：

第一方面，本发明提供一种语音合成方法，应用于电子设备，所述电子设备预存有用户的标识及其对应的音色特征和预设转换模型，所述方法包括：

获取所述用户输入的待合成文本和所述用户的标识；

基于所述用户的标识获取对应的音色特征和预设转换模型；

利用预设合成模型对所述待合成文本进行语音合成，得到待转换音频；

利用所述预设转换模型基于所述音色特征对所述待转换音频进行音色转换，得到符合所述用户音色的音频。

在可选的实施方式中，所述电子设备还预存有每种预设语音风格对应的基频特征和能量特征；

所述利用预设合成模型对所述待合成文本进行语音合成，得到待转换音频的步骤，包括：

获取所述用户选择的目标语音风格；

基于所述目标语音风格获取对应的目标基频特征和目标能量特征；

利用所述预设合成模型基于所述目标基频特征和所述目标能量特征，对所述待合成文本进行语音合成，得到包括所述目标语音风格的待转换音频。

在可选的实施方式中，所述利用所述预设转换模型基于所述音色特征对所述待转换音频进行音色转换，得到符合所述用户音色的音频的步骤，包括：

利用所述预设转换模型对所述待转换音频进行特征提取，得到目标语音后验图谱特征；所述目标语音后验图谱特征表示所述待转换音频的内容；

利用所述预设转换模型基于所述目标语音后验图谱特征和所述音色特征，生成目标梅尔谱特征；

利用所述预设转换模型基于所述目标梅尔谱特征，生成符合所述用户音色的音频。

在可选的实施方式中，所述预设转换模型是按照以下方式得到的：

基于多个语音样本对基础转换模型进行训练，得到初始转换模型；

基于所述用户的语音音频对所述初始转换模型进行训练，得到所述预设转换模型。

在可选的实施方式中，所述初始转换模型包括初始编码器、初始声学子模型和初始声码器；

所述基于所述用户的语音音频对所述初始转换模型进行训练，得到所述预设转换模型的步骤，包括：

根据所述用户的语音音频，得到实际梅尔谱特征和所述用户的音色特征；

利用所述初始编码器对所述用户的语音音频进行特征提取，得到语音后验图谱特征；所述语音后验图谱特征表示所述用户的语音音频的内容；

利用所述初始声学子模型基于所述语音后验图谱特征和所述用户的音色特征，生成预测梅尔谱特征；

基于所述实际梅尔谱特征和所述预测梅尔谱特征，对所述初始声学子模型进行训练得到目标声学子模型；

利用所述初始声码器基于所述预测梅尔谱特征，生成预测语音音频；

基于所述用户的语音音频和所述预测语音音频，对所述初始声码器进行训练得到目标声码器；

获得包括所述初始编码器、所述目标声学子模型和所述目标声码器的预设转换模型。

在可选的实施方式中，所述预设合成模型是按照以下方式得到的：

获取每种预设语音风格的多个语音样本，每个所述语音样本均具有标注文本；

利用基础合成模型提取每个所述标注文本的文本特征；

利用所述基础合成模型基于每个所述标注文本的文本特征进行预测，得到每个所述标注文本的时长特征、基频特征和能量特征；

利用所述基础合成模型基于每个所述标注文本的文本特征、时长特征、基频特征及能量特征，得到每个标注文本对应的梅尔谱特征；

利用所述基础合成模型基于每个标注文本对应的梅尔谱特征，得到每个合成音频；

基于全部语音样本和全部合成音频对所述基础合成模型进行训练，得到所述预设合成模型。

第二方面，本发明提供一种语音合成装置，应用于电子设备，所述电子设备预存有用户的标识及其对应的音色特征和预设转换模型，所述装置包括：

获取模块，用于获取所述用户输入的待合成文本和所述用户的标识；

基于所述用户的标识获取对应的音色特征和预设转换模型；

合成模块，用于利用预设合成模型对所述待合成文本进行语音合成，得到待转换音频；

转换模块，用于利用所述预设转换模型基于所述音色特征对所述待转换音频进行音色转换，得到符合所述用户音色的音频。

在可选的实施方式中，所述电子设备还预存有每种预设语音风格对应的基频特征和能量特征；所述合成模块具体用于：

获取所述用户选择的目标语音风格；

第三方面，本发明提供一种电子设备，包括处理器和存储器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时，实现前述实施方式中任一项所述的方法。

第四方面，本发明提供一种存储介质，所述存储介质上存储有计算机程序，该计算机程序被处理器执行时，实现前述实施方式中任一项所述的方法。

本发明实施例提供的语音合成方法、装置、电子设备和存储介质，电子设备预存有用户的标识及其对应的音色特征和预设转换模型；获取用户输入的待合成文本和用户的标识，并基于用户的标识获取对应的音色特征和预设转换模型；然后利用预设合成模型对待合成文本进行语音合成，得到待转换音频；再利用预设转换模型基于音色特征对待转换音频进行音色转换，得到符合用户音色的音频。通过预设合成模型得到包含文本内容的音频，并通过预设转换模型将该音频进行音色转换得到包含文本内容且符合用户音色的音频。从而提升了合成效果和音频质量。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本发明实施例提供的电子设备方框示意图；

图2示出了本发明实施例提供的语音合成方法的流程示意图之一；

图3示出了本发明实施例提供的语音合成方法的流程示意图之二；

图4示出了本发明实施例提供的语音合成方法的流程示意图之三；

图5示出了本发明实施例提供的语音合成方法的流程示意图之四；

图6示出了本发明实施例提供的语音合成方法的流程示意图之五；

图7示出了本发明实施例提供的语音合成装置的一种功能模块图。

图标：110-总线；120-处理器；130-存储器；150-I/O模块；170-通信接口；300-语音合成装置；310-获取模块；330-合成模块；350-转换模块；370-训练模块。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

目前，基于语音合成技术，用户可以输入文本得到自己朗读这段文本的音频，实现这一功能需要用户的语音数据。但是，由于用户提供的语音往往音质不高且数据量少。例如，用户的录音环境和设备通常无法达到专业录音条件，音频中往往存在噪声，同时音频的时长较短如几分钟，音频中所涵盖的音素有限。因此，基于用户提供的录音来实现语音合成，会出现合成效果不佳、合成音频质量差的情况。进而本发明提供了一种语音合成方法以解决上述问题。

请参照图1，是本发明实施例提供的一种电子设备的方框示意图。电子设备包括总线110、处理器120、存储器130、I/O模块150、通信接口170。

总线110可以是将上述元件相互连接并在上述元件之间传递通信(例如控制消息)的电路。

处理器120可以通过总线110从上述其它元件(例如存储器130、I/O模块150、通信接口170等)接收命令，可以解释接收到的命令，并可以根据所解释的命令来执行计算或数据处理。

处理器120可以是一种集成电路芯片，具有信号处理能力。该处理器120可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(NetworkProcessor，NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

存储器130可以存储从处理器120或其它元件(例如I/O模块150、通信接口170等)接收的命令或数据或者由处理器120或其它元件产生的命令或数据。

存储器130可以是但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-Only Memory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)。

I/O模块150可以接收经由输入-输出手段(例如，传感器、键盘、触摸屏等)从用户输入的命令或数据，并可以通过总线110向处理器120或存储器130传送接收到的命令或数据。并且用于显示从上述元件接收、存储、处理的各种信息(例如多媒体数据、文本数据)，可以向用户显示视频、图像、数据等。

通信接口170可用于与其他节点设备进行信令或数据的通信。

可以理解的是，图1所示的结构仅为电子设备的结构示意图，电子设备还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。

本发明实施例提供的电子设备可以是智能手机、个人计算机、平板电脑、可穿戴设备、超级移动个人计算机(ultra-mobilepersonalcomputer，UMPC)、上网本、个人数字助理(personaldigitalassistant，PDA)等。本发明实施例对此不作任何限制。

可以理解的是，电子设备中安装有音频应用程序，在该音频应用程序运行过程中，执行本发明实施例提供的语音合成方法。

下面将以上述的电子设备作为执行主体，执行本发明实施例提供的各个方法中的各个步骤，并实现对应技术效果。

请参阅图2，图2是本发明实施例提供的一种语音合成方法的流程示意图。

步骤S202，获取用户输入的待合成文本和用户的标识；

可以理解的是，电子设备中预存有用户的标识和该标识对应的音色特征和预设转换模型，还有预设合成模型。

在本实施例中，用户在使用音频应用程序的过程中，可以通过交互操作输入想要合成的文本即待合成文本，该交互操作可以通过语音、交互按键、物理按键、外部设备等方式实现。根据用户的交互操作，可以获取到待合成文本，并得到用户的标识。

步骤S204，基于用户的标识获取对应的音色特征和预设转换模型；

在本实施例中，基于获得的用户的标识，获取该标识对应的音色特征和预设转换模型。该音色特征表示该用户声音的音色。预设转换模型是基于该用户提供的语音音频训练得到的语音转换模型，其可以将任意的语音音频转换为符合用户音色的音频。

步骤S206，利用预设合成模型对待合成文本进行语音合成，得到待转换音频；

在本实施例中，预设合成模型是基于大量样本训练得到的语音合成模型，其可以将文本合成为语音。将待合成文本输入到预设合成模型，利用预设合成模型基于待合成文本进行语音合成，得到待转换音频。

可以理解的是，待转换音频的音色不是用户的音色，其可以是训练预设合成模型的全部样本中任意一个样本对应的说话人的音色。可选地，为了提高音频的合成效果，可以从全部样本选取一个与用户具有相似特征的说话人，将该说话人的音色作为待转换音频的音色。例如，用户性别为女，则选择性别为女的说话人。

步骤S208，利用预设转换模型基于音色特征对待转换音频进行音色转换，得到符合用户音色的音频；

在本实施例中，将待转换音频输入到预设转换模型，利用预设转换模型对待转换音频进行音色转换，即将待转换音频中的音色转换为符合用户音频的音频。

可以理解的是，预设合成模型是将文本转换为音频，其目的在于使音频中包含文本的内容；预设转换模型是将音色进行转换，其目的在于使音频中的音色转换为目标音色。也就是说，基于预设合成模型可以使音频获取到文本内容，基于预设转换模型可以使音色更好的转换为目标音色。由此，将预设合成模型和预设转换模型共同用于语音合成可以基于待合成文本得更符合用户音色的音频，进而提升了合成效果和音频质量。

可见通过上述步骤，电子设备预存有用户的标识及其对应的音色特征和预设转换模型；获取用户输入的待合成文本和用户的标识，并基于用户的标识获取对应的音色特征和预设转换模型；然后利用预设合成模型对待合成文本进行语音合成，得到待转换音频；再利用预设转换模型基于音色特征对待转换音频进行音色转换，得到符合用户音色的音频。通过预设合成模型得到包含文本内容的音频，并通过预设转换模型将该音频进行音色转换得到包含文本内容且符合用户音色的音频。从而提升了合成效果和音频质量。

可选地，为了满足用户可以合成多种语音风格的需求，对于上述步骤S206，本发明实施例提供了一种可能的实现方式，请参阅图3，其中上述步骤S206包括以下步骤：

步骤S206-1，获取用户选择的目标语音风格；

步骤S206-3，基于目标语音风格获取对应的目标基频特征和目标能量特征；

步骤S206-5，利用预设合成模型基于目标基频特征和目标能量特征，对待合成文本进行语音合成，得到包括目标语音风格的待转换音频。

可以理解的是，电子设备中还预存有多种预设语音风格，每种预设风格均有对应的基频特征和能量特征，这些预设语音风格可以是小说风格、新闻风格、广告风格等。

在本实施例中，用户可以选择想要合成的语音风格，即基于用户的选择操作，可以从多种预设语音风格中获取到用户选择的语音风格即得到目标语音风格，并获取该目标语音风格对应的基频特征和能量特征，即得到目标基频特征和目标能量特征；然后将待合成文本、目标基频特征和目标能量特征输入到预设合成模型，利用预设合成模型进行语音合成，得到包括目标语音风格的待转换音频。

例如，用户选择的是广告风格，则从多种预设语音风格中选取广告风格，并获取广告风格对应的基频特征和能量特征；然后利用预设合成模型基于待合成文本、广告风格对应的基频特征和能量特征进行语音合成，得到包括广告风格的待转换音频。

可见，获取用户选择的目标语音风格，并基于目标语音风格获取对应的目标基频特征和目标能量特征；再利用预设合成模型基于待合成文本、目标基频特征和目标能量特征进行语音合成，得到包括目标语音风格的待转换音频。通过提供多种语音风格以便用户选择，并基于选中的语音风格的基频和能量特征合成音频，从而提升了用户体验和音频的合成效果。

可选地，对于上述步骤S208，本发明实施例提供了一种可能的实现方式，请参阅图4，其中上述步骤S208包括以下步骤：

步骤S208-1，利用预设转换模型对待转换音频进行特征提取，得到目标语音后验图谱特征；目标语音后验图谱特征表示待转换音频的内容；

在本实施例中，将待转换音频输入到预设转换模型，可以利用预设转换模型进行特征提取，得到待转换音频的语音后验图谱特征即目标语音后验图谱特征，其表示待转换音频的内容。其中，语音后验图谱特征也称为PPG特征(phonetic posteriorgrams)，其主要用于表示语音中的内容信息，与语音的说话人无关。

步骤S208-3，利用预设转换模型基于目标语音后验图谱特征和音色特征，生成目标梅尔谱特征；

在本实施例中，基于获得的目标语音后验图谱特征和用户的音色特征，可以利用预设转换模型进行特征拼接，并将拼接后的特征进行解码和后处理即得到目标梅尔谱特征。目标梅尔谱特征可以理解为包含文本内容和用户音色的频谱。

可选地，也可以从用户提供的语音音频中提取出基频特征，基于该基频特征、目标语音后验图谱特征和用户的音色特征生成目标梅尔谱特征，以根据用户的发音习惯来更好的拟合用户的音色。

步骤S208-5，利用预设转换模型基于目标梅尔谱特征，生成符合用户音色的音频；

在本实施例中，基于获得的目标梅尔谱特征，利用预设转换模型生成音频，即得到符合用户音色且包含用户输入的文本内容的音频。

可见，利用预设转换模型对待转换音频进行特征提取，得到表示待转换音频的内容的目标语音后验图谱特征；并基于目标语音后验图谱特征和音色特征生成目标梅尔谱特征；再基于目标梅尔谱特征生成符合用户音色的音频。通过采用语音后验图谱特征，使进行音色转换时保留了音频原本的内容，从而保证了音频内容的准确性并且提升了音色转换的效果。

可选地，对上述实施例中的预设转换模型，本发明实施例提供了一种获得预设转换模型的可能实现方式，下面将对该实现方式进行介绍，请参阅图5。

步骤S212，基于多个语音样本对基础转换模型进行训练，得到初始转换模型；

步骤S214，基于用户的语音音频对初始转换模型进行训练，得到预设转换模型。

在本实施例中，可以采用多个高音质的语音样本对基础的语音转换模型进行训练，得到初始转换模型。可以理解为是预训练，即训练模型学习音色转换，使其具有音色转换功能。

再基于用户的语音音频对该初始转换模型进行训练，得到为该用户专门构建的语音转换模型。可以理解为是特定训练，即训练模型具有将任何音频的音色转换为该用户音色的功能。

可见，通过大量的高音质语音样本得到初始转换模型，可以使模型具有良好的音色转换能力，再基于用户的语音音频对该初始转换模型进行训练，得到为用户特定的语音转换模型。实现基于低音质且少量的音频资源得到良好的语音转换模型，进而提升了语音转换的效果。

可选地，对于上述步骤S214，本发明实施例提供了一种可能的实现方式。

步骤S214-1，根据用户的语音音频，得到实际梅尔谱特征和用户的音色特征；

在本实施例中，可以通过提取工具对用户的语音音频进行特征提取，得到该语音音频的梅尔谱特征即实际梅尔谱特征，以及该用户的音色特征。

步骤S214-3，利用初始编码器对用户的语音音频进行特征提取，得到语音后验图谱特征；语音后验图谱特征表示用户的语音音频的内容；

步骤S214-5，利用初始声学子模型基于语音后验图谱特征和用户的音色特征，生成预测梅尔谱特征；

步骤S214-7，基于实际梅尔谱特征和预测梅尔谱特征，对初始声学子模型进行训练得到目标声学子模型；

可以理解的是，初始转换模型包括初始编码器、初始声学子模型和初始声码器。初始编码器采用的是自动语音识别技术即ASR，其用于从语音中提取PPG特征，与说话人无关，则不需要再基于用户的语音音频进行训练。初始声学子模型可以是采用DurIAN框架的模型，初始声码器可以是采用HiFiGAN框架的模型。

在本实施例中，基于用户的语音音频，可以利用初始编码器从其中提取出表示该语音音频的内容的语音后验图谱特征；然后利用初始声学子模型基于用户的音色特征和语音后验图谱特征，生成预测梅尔谱特征；并基于实际梅尔谱特征和预测梅尔谱特征，对初始声学子模型进行训练如训练迭代至预设次数，即得到目标声学子模型。

步骤S214-9，利用初始声码器基于预测梅尔谱特征，生成预测语音音频；

步骤S214-10，基于用户的语音音频和预测语音音频，对初始声码器进行训练得到目标声码器；

在本实施例中，将初始声学子模型输出的预测梅尔谱特征输入到初始声码器，利用初始声码器生成预测语音音频；并基于用户的语音音频和预测语音音频，对初始声码器进行训练如训练迭代至预设次数，即得到目标声码器。

步骤S214-11，获得包括初始编码器、目标声学子模型和目标声码器的预设转换模型；

在本实施例中，初始转换模型经用户的语音音频训练后，则得到包括初始编码器、目标声学子模型和目标声码器的预设转换模型。

可选地，对上述实施例中的预设合成模型，本发明实施例提供了一种获得预设合成模型的可能实现方式，下面将对该实现方式进行介绍，请参阅图6。

步骤S222，获取每种预设语音风格的多个语音样本，每个语音样本均具有标注文本；

在本实施例中，可以预先设定多种语音风格，并获取每种语音风格的高音质语音样本，并且对每个语音样本进行标注，得到每个语音样本的标注文。

步骤S224，利用基础合成模型提取每个标注文本的文本特征；

在本实施例中，将每个语音样本的标注文本输入到基础合成模型，可以利用基础合成模型中的文本编码器进行特征提取，得到每个标注文本的文本特征。

步骤S226，利用基础合成模型基于每个标注文本的文本特征进行预测，得到每个标注文本的时长特征、基频特征和能量特征；

在本实施例中，基于获得的每个标注文本特征，可以利用基础合成模型中的时长预测模块、基频预测模块和能量预测模块分别进行预测，得到每个标注文本的时长特征、基频特征和能量特征。

步骤S228，利用基础合成模型基于每个标注文本的文本特征、时长特征、基频特征及能量特征，得到每个标注文本对应的梅尔谱特征；

在本实施例中，对于每个标注文本，可以将该标注文本的文本特征、时长特征、基频特征和能量特征进行特征拼接，并对拼接后的特征依次进行状态扩展处理、解码处理和后处理，得到该标注文本对应的梅尔谱特征。基于每个标注文本，则得到每个标注文本对应的梅尔谱特征。

步骤S230，利用基础合成模型基于每个标注文本对应的梅尔谱特征，得到每个合成音频；

在本实施例中，基于获得的每个标注文本对应的梅尔谱特征，可以利用基础合成模型中的声码器生成每个合成音频。

步骤S232，基于全部语音样本和全部合成音频对基础合成模型进行训练，得到预设合成模型；

在本实施例中，基于全部语音样本和全部合成音频对基础合成模型进行训练如训练迭代至预设次数，即得到预设合成模型。

为了执行上述实施例及各个可能的方式中的相应步骤，下面给出一种语音合成装置的实现方式。请参阅图7，图7为本发明实施例提供的一种语音合成装置300的功能模块图。需要说明的是，本实施例所提供的语音合成装置300，其基本原理及产生的技术效果和上述实施例相同，为简要描述，本实施例部分未提及之处，可参考上述的实施例中相应内容。该语音合成装置300包括：

获取模块310，用于获取用户输入的待合成文本和用户的标识；基于用户的标识获取对应的音色特征和预设转换模型；

合成模块330，用于利用预设合成模型对待合成文本进行语音合成，得到待转换音频；

转换模块350，用于利用预设转换模型基于音色特征对待转换音频进行音色转换，得到符合用户音色的音频。

可选地，合成模块330具体用于：获取用户选择的目标语音风格；基于目标语音风格获取对应的目标基频特征和目标能量特征；利用预设合成模型基于目标基频特征和目标能量特征，对待合成文本进行语音合成，得到包括目标语音风格的待转换音频。

可选地，转换模块350具体用于：利用预设转换模型对待转换音频进行特征提取，得到目标语音后验图谱特征；目标语音后验图谱特征表示待转换音频的内容；利用预设转换模型基于目标语音后验图谱特征和音色特征，生成目标梅尔谱特征；利用预设转换模型基于目标梅尔谱特征，生成符合用户音色的音频。

训练模块370，用于基于多个语音样本对基础转换模型进行训练，得到初始转换模型；基于用户的语音音频对初始转换模型进行训练，得到预设转换模型。

可选地，训练模块370还用于：根据用户的语音音频，得到实际梅尔谱特征和用户的音色特征；利用初始编码器对用户的语音音频进行特征提取，得到语音后验图谱特征；语音后验图谱特征表示用户的语音音频的内容；利用初始声学子模型基于语音后验图谱特征和用户的音色特征，生成预测梅尔谱特征；基于实际梅尔谱特征和预测梅尔谱特征，对初始声学子模型进行训练得到目标声学子模型；利用初始声码器基于预测梅尔谱特征，生成预测语音音频；基于用户的语音音频和预测语音音频，对初始声码器进行训练得到目标声码器；获得包括初始编码器、目标声学子模型和目标声码器的预设转换模型。

可选地，训练模块370还用于：获取每种预设语音风格的多个语音样本，每个语音样本均具有标注文本；利用基础合成模型提取每个标注文本的文本特征；利用基础合成模型基于每个标注文本的文本特征进行预测，得到每个标注文本的时长特征、基频特征和能量特征；利用基础合成模型基于每个标注文本的文本特征、时长特征、基频特征及能量特征，得到每个标注文本对应的梅尔谱特征；利用基础合成模型基于每个标注文本对应的梅尔谱特征，得到每个合成音频；基于全部语音样本和全部合成音频对基础合成模型进行训练，得到预设合成模型。

本发明实施例还提供了一种电子设备，包括处理器120和存储器130，存储器130存储有计算机程序，处理器执行计算机程序时，实现上述实施例揭示的语音合成方法。

本发明实施例还提供了一种存储介质，其上存储有计算机程序，该计算机程序被处理器120执行时实现本发明实施例揭示的语音合成方法。

综上所述，本发明实施例提供的语音合成方法、装置、电子设备和存储介质，电子设备预存有用户的标识及其对应的音色特征和预设转换模型；获取用户输入的待合成文本和用户的标识，并基于用户的标识获取对应的音色特征和预设转换模型；然后利用预设合成模型对待合成文本进行语音合成，得到待转换音频；再利用预设转换模型基于音色特征对待转换音频进行音色转换，得到符合用户音色的音频。通过预设合成模型得到包含文本内容的音频，并通过预设转换模型将该音频进行音色转换得到包含文本内容且符合用户音色的音频。从而提升了合成效果和音频质量。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音合成方法，其特征在于，应用于电子设备，所述电子设备预存有用户的标识及其对应的音色特征和预设转换模型，所述方法包括：

获取所述用户输入的待合成文本和所述用户的标识；

基于所述用户的标识获取对应的音色特征和预设转换模型；

2.根据权利要求1所述的方法，其特征在于，所述电子设备还预存有每种预设语音风格对应的基频特征和能量特征；

获取所述用户选择的目标语音风格；

3.根据权利要求1所述的方法，其特征在于，所述利用所述预设转换模型基于所述音色特征对所述待转换音频进行音色转换，得到符合所述用户音色的音频的步骤，包括：

4.根据权利要求1所述的方法，其特征在于，所述预设转换模型是按照以下方式得到的：

5.根据权利要求4所述的方法，其特征在于，所述初始转换模型包括初始编码器、初始声学子模型和初始声码器；

6.根据权利要求1所述的方法，其特征在于，所述预设合成模型是按照以下方式得到的：

利用基础合成模型提取每个所述标注文本的文本特征；

7.一种语音合成装置，其特征在于，应用于电子设备，所述电子设备预存有用户的标识及其对应的音色特征和预设转换模型，所述装置包括：

基于所述用户的标识获取对应的音色特征和预设转换模型；

8.根据权利要求7所述的装置，其特征在于，所述电子设备还预存有每种预设语音风格对应的基频特征和能量特征；所述合成模块具体用于：

获取所述用户选择的目标语音风格；

9.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时，实现权利要求1至6中任一项所述的方法。

10.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，该计算机程序被处理器执行时，实现权利要求1至6中任一项所述的方法。