CN108766413B

CN108766413B - 语音合成方法及***

Info

Publication number: CN108766413B
Application number: CN201810517280.1A
Authority: CN
Inventors: 孙见青
Original assignee: Beijing Yunzhisheng Information Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd
Priority date: 2018-05-25
Filing date: 2018-05-25
Publication date: 2020-09-25
Anticipated expiration: 2038-05-25
Also published as: CN108766413A

Abstract

本发明公开了一种语音合成方法及***，通过根据特定文本，获取发音人对应录制的录制语音；从所述录制语音中提取出基频信息f0₁，并对所述录制语音进行分析处理，获取所述录制语音对应的音素时长信息；根据所述特定文本以及得到的所述音素时长信息，利用预设参数合成模型，生成基频信息f0₀和频谱信息cep0；利用所述录制语音的基频信息f0₁和所述预设参数合成模型生成的基频信息f0₀，对所述录制语音的基频信息f0₁进行调域调整，得到最终基频信息；利用得到的最终基频信息和所述频谱信息cep0，通过声码器重构得到对应的合成语音；具有降低语音录制成本的有益效果，进一步提高了合成语音的自然度。

Description

语音合成方法及***

技术领域

本发明涉及数据处理技术领域，特别涉及一种语音合成方法及***。

背景技术

现有的语音合成自然度不是很理想，为了得到较高的合成自然度，有一些场景使用自然语音与合成语音相结合的方法，进行语音合成，对于出现频次较高的文本，预先录制好语音，对于其它文本，使用合成语音。由于出现频次较高的文本会经常发现变化，因此通常需要找发音人重新录制，耗费大量的人力物力和财力，代价比较大；且利用这种技术合成的语音，语音一致性也不理想。

发明内容

本发明提供一种语音合成方法及***，旨在无需找原有发音人录制语音，直接使用其他发音标准的发音人录制语音进行语音合成即可，降低语音录制成本，进一步提高合成语音的自然度。

本发明提供了一种语音合成方法，所述语音合成方法包括：

根据特定文本，获取发音人对应录制的录制语音；

从所述录制语音中提取出基频信息f0₁，并对所述录制语音进行分析处理，获取所述录制语音对应的音素时长信息；

根据所述特定文本以及得到的所述音素时长信息，利用预设参数合成模型，生成基频信息f0₀和频谱信息cep0；

利用所述录制语音的基频信息f0₁和所述预设参数合成模型生成的基频信息f0₀，对所述录制语音的基频信息f0₁进行调域调整，得到最终基频信息；

利用得到的最终基频信息和所述频谱信息cep0，通过声码器重构得到对应的合成语音。

优选地，所述对所述录制语音进行分析处理，获取所述录制语音对应的音素时长信息，包括：

对所述录制语音进行自动切分，得到对应的音素边界，根据得到的音素边界，获取所述录制语音对应的音素时长信息。

优选地，所述语音合成方法还包括：

利用语音数据库训练所述预设参数合成模型，并统计所述语音数据库对应的基频信息的均值

和标准差s₀。

优选地，所述利用所述录制语音的基频信息f0₁和所述预设参数合成模型生成的基频信息f0₀，对所述录制语音的基频信息f0₁进行调域调整，得到最终基频信息，包括：

根据所述录制语音的基频信息f0₁，统计所述基频信息f0₁对应的均值

和标准差s₁，并对所述基频信息f0₁进行调域调整，得到调整后的基频信息f0₂：

将调整后得到的所述基频信息f0₂与所述基频信息f0₀进行加权叠加，得到最终基频信息f0₃：

f0₃＝α*f0₂+(1-α)*f0₀；

其中，α为加权系数。

优选地，所述预设参数合成模型包括LSTM参数合成模型。

对应于以上实施例所提供的一种语音合成方法，本发明还提供了一种语音合成***，所述语音合成***包括：

语音获取模块，用于根据特定文本，获取发音人对应录制的录制语音；

语音合成模块，用于：

优选地，所述语音合成模块用于：

优选地，所述语音合成***还包括：

模型训练模块，用于利用语音数据库训练所述预设参数合成模型，并统计所述语音数据库对应的基频信息的均值

和标准差s₀。

优选地，所述语音合成模块用于：

f0₃＝α*f0₂+(1-α)*f0₀；

其中，α为加权系数。

优选地，所述预设参数合成模型包括LSTM参数合成模型。

本发明一种语音合成方法及***可以达到如下有益效果：

通过根据特定文本，获取发音人对应录制的录制语音；从所述录制语音中提取出基频信息f0₁，并对所述录制语音进行分析处理，获取所述录制语音对应的音素时长信息；根据所述特定文本以及得到的所述音素时长信息，利用预设参数合成模型，生成基频信息f0₀和频谱信息cep0；利用所述录制语音的基频信息f0₁和所述预设参数合成模型生成的基频信息f0₀，对所述录制语音的基频信息f0₁进行调域调整，得到最终基频信息；利用得到的最终基频信息和所述频谱信息cep0，通过声码器重构得到对应的合成语音；无需找原有发音人录制语音，直接使用其他发音标准的发音人录制语音并进行语音合成即可，具有降低语音录制成本的有益效果，也进一步提高了合成语音的自然度。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所指出的内容来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是本发明语音合成方法的一种实施方式的流程示意图；

图2是本发明语音合成方法的另一种实施方式的流程示意图；

图3是本发明语音合成***的一种实施方式的功能模块示意图；

图4是本发明语音合成***的一种实施方式的功能模块示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明提供一种语音合成方法及***，不需要请特定的发音人进行高频文本的补充录制，方便快捷，且得到的语音比直接采用对应的参数合成模型(例如LSTM参数合成模型)合成的语音的自然度明显高，因此提高了合成语音的自然度。如图1所示，图1是本发明语音合成方法的一种实施方式的流程示意图；本发明一种语音合成方法可以实施为如下描述的步骤S10-S50：

步骤S10、根据特定文本，获取发音人对应录制的录制语音；

本发明实施例中，在实际操作中，可以请发音标准的发音人，根据特定文本，来录制对应的语音，语音合成***根据上述特定文本，获取发音人对应录制的录制语音。上述“发音标准的发音人”可以是满足条件的任何自然人，比如，只要发音标准的人，均可以录制对应的语音。

步骤S20、从所述录制语音中提取出基频信息f0₁，并对所述录制语音进行分析处理，获取所述录制语音对应的音素时长信息；

语音合成***从获取的上述录制语音中提取出对应的基频信息f0₁，对所述录制语音进行分析处理；比如，语音合成***对上述录制语音进行自动切分，得到对应的音素边界，进而根据得到的上述音素边界，获取所述录制语音对应的音素时长信息。

步骤S30、根据所述特定文本以及得到的所述音素时长信息，利用预设参数合成模型，生成基频信息f0₀和频谱信息cep0；

语音合成***根据步骤S10中使用的特定文本和上述步骤S20中得到的因素时长信息，采用预设参数合成模型，生成基频信息f0₀和频谱信息cep0。其中，语音合成***采用的预设参数合成模型包括但不限于：LSTM(Long-Short Term Memory，长短期记忆模型)参数合成模型。

步骤S40、利用所述录制语音的基频信息f0₁和所述预设参数合成模型生成的基频信息f0₀，对所述录制语音的基频信息f0₁进行调域调整，得到最终基频信息；

步骤S50、利用得到的最终基频信息和所述频谱信息cep0，通过声码器重构得到对应的合成语音。

语音合成***根据录制语音对应的基频信息f0₁和上述预设参数合成模型(比如LSTM参数合成模型)生成的基频信息f0₀，对所述录制语音的基频信息f0₁进行调域调整，得到最终基频信息；进而，利用得到的最终基频信息和上述频谱信息cep0，通过声码器重构得到对应的合成语音。

进一步地，在本发明一优选的实施例中，如图2所示，图2是本发明语音合成方法的另一种实施方式的流程示意图；本发明语音合成方法还包括步骤S60：

步骤S60、利用语音数据库训练所述预设参数合成模型，并统计所述语音数据库对应的基频信息的均值

和标准差s₀。

本发明实施例中的预设参数合成模型，与图1所述实施例中描述的预设参数合成模型完全一致。语音合成***利用发音人对应的语音数据库，训练上述预设参数合成模型(比如LSTM参数合成模型)，并统计上述语音数据库对应的基频信息的均值

和标准差s₀。

根据得到的上述语音数据库对应的基频信息的均值

和标准差s₀，语音合成***利用所述录制语音的基频信息f0₁，对所述录制语音的基频信息f0₁进行调域调整，得到最终基频信息。比如，语音合成***按照如下方式得到对应的最终基频信息：

语音合成***根据所述录制语音的基频信息f0₁，统计所述基频信息f0₁对应的均值

f0₃＝α*f0₂+(1-α)*f0₀；

其中，α为加权系数。

进而，语音合成***利用得到的最终基频信息f0₃和所述频谱信息cep0，通过声码器重构得到对应的合成语音。

其中，本发明实施例中的上述步骤S60可以在图1所述实施例中的步骤S40之前的任一步骤实施，图2所述实施例仅以步骤S60在图1的步骤S10之前实施为例，进行描述。

本发明语音合成方法通过根据特定文本，获取发音人对应录制的录制语音；从所述录制语音中提取出基频信息f0₁，并对所述录制语音进行分析处理，获取所述录制语音对应的音素时长信息；根据所述特定文本以及得到的所述音素时长信息，利用预设参数合成模型，生成基频信息f0₀和频谱信息cep0；利用所述录制语音的基频信息f0₁和所述预设参数合成模型生成的基频信息f0₀，对所述录制语音的基频信息f0₁进行调域调整，得到最终基频信息；利用得到的最终基频信息和所述频谱信息cep0，通过声码器重构得到对应的合成语音；无需找原有发音人录制语音，直接使用其他发音标准的发音人录制语音进行语音合成即可，具有降低语音录制成本的有益效果，也进一步提高了合成语音的自然度。

基于图1和图2所述实施例的描述，本发明还提供了一种语音合成***；所述语音合成***能够实施图1和图2所描述的语音合成方法，从而提高合成语音的自然度。

如图3所示，图3是本发明语音合成***的一种实施方式的功能模块示意图；本发明语音合成***包括：语音获取模块100和语音合成模块200；其中：

所述语音获取模块100，用于根据特定文本，获取发音人对应录制的录制语音；

所述语音合成模块200，用于：

在本发明一优选的实施例中，所述语音合成模块200用于：

在本发明一优选的实施例中，如图4所示，图4是本发明语音合成***的一种实施方式的功能模块示意图，其中，所述语音合成***还包括：

模型训练模块300，用于利用语音数据库训练所述预设参数合成模型，并统计所述语音数据库对应的基频信息的均值

和标准差s₀。

在本发明一优选的实施例中，所述语音合成模块200用于：

f0₃＝α*f0₂+(1-α)*f0₀；

其中，α为加权系数。

在本发明一优选的实施例中，所述预设参数合成模型包括LSTM参数合成模型。

本发明语音合成***通过根据特定文本，获取发音人对应录制的录制语音；从所述录制语音中提取出基频信息f0₁，并对所述录制语音进行分析处理，获取所述录制语音对应的音素时长信息；根据所述特定文本以及得到的所述音素时长信息，利用预设参数合成模型，生成基频信息f0₀和频谱信息cep0；利用所述录制语音的基频信息f0₁和所述预设参数合成模型生成的基频信息f0₀，对所述录制语音的基频信息f0₁进行调域调整，得到最终基频信息；利用得到的最终基频信息和所述频谱信息cep0，通过声码器重构得到对应的合成语音；无需找原有发音人录制语音，直接使用其他发音标准的发音人录制语音进行语音合成即可，具有降低语音录制成本的有益效果，也进一步提高了合成语音的自然度。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。