CN111429878A

CN111429878A - 一种自适应语音合成方法及装置

Info

Publication number: CN111429878A
Application number: CN202010167018.6A
Authority: CN
Inventors: 贺来朋
Original assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date: 2020-03-11
Filing date: 2020-03-11
Publication date: 2020-07-17
Anticipated expiration: 2040-03-11
Also published as: CN111429878B

Abstract

本发明公开了一种自适应语音合成方法及装置，包括：利用预设录音和预设录音对应的文本标注数据对预设神经网络模型进行训练，得到训练后的预设神经网络模型；设计录音文本库以供用户挑选目标录音文本进行录音，得到当前录音；利用当前录音和目标录音文本对训练后的预设神经网络模型进行二次训练；利用二次训练后的预设神经网络模型提取待合成文本的静态语音参数，将静态语音参数输入到合成器中获得合成语音。有效的解决了现有技术中由于训练所需数据量较少且质量通常不高，以及模型预测精度不够等原因，导致合成的语音质量和精度都偏低的问题，提高了用户的体验感。

Description

一种自适应语音合成方法及装置

技术领域

本发明涉及语音合成技术领域，尤其涉及一种自适应语音合成方法及装置。

背景技术

近年来，随着语音技术的日趋成熟，语音合成技术正逐步应用于语音交互、声音播报、个性化声音制作等语音信号处理***中。在社会与商业领域，合成音作为一种声音的展现，给社会生活带来便利与丰富性，具有潜在广阔的使用价值，现有的语音合成技术是基于目标发音人大量的高质量录音和文本标注数据进行时长和声学模型训练，然后可以合成具有目标发音人音色的语音。由于需要大量的高质量语音来训练，所述提出了自适应语音合成***，即利用目标发音人少量的录音和文本数据快速构建合成***，产生目标发音人音色的合成语音。但是这种方法存在以下缺点：由于训练所需数据量较少且质量通常不高，以及模型预测精度不够等原因，导致合成的语音质量和精度都偏低，影响了用户的体验感。

发明内容

针对上述所显示出来的问题，本方法基于使用用户的当前录音数据对训练好的预设神经网络模型进行二次训练，最后根据二次训练好的预设神经网络模型对待合成文本进行语音合成。

一种自适应语音合成方法，包括以下步骤：

利用预设录音和所述预设录音对应的文本标注数据对预设神经网络模型进行训练，得到训练后的预设神经网络模型；

设计录音文本库以供用户挑选目标录音文本进行录音，得到当前录音；

利用所述当前录音和所述目标录音文本对所述训练后的预设神经网络模型进行二次训练；

利用二次训练后的预设神经网络模型提取待合成文本的静态语音参数，将所述静态语音参数输入到合成器中获得合成语音。

优选的，所述设计录音文本库以供用户挑选目标录音文本进行录音，得到当前录音，包括：

预先建立空白录音文本库；

获取N个录音文本输入到所述空白录音文本库中形成所述录音文本库；

接收到用户请求录音的指令时，推送M个第一录音文本以供选择，其中，所述第一录音文本为所述录音文本中任一录音文本；

确定所述M个第一录音文本中用户选择的第一录音文本为所述目标录音文本；

基于所述目标录音文本，接收用户的当前录音。

优选的，在利用所述当前录音和所述目标录音文本对所述训练后的预设神经网络模型进行二次训练之前，所述方法还包括：

获取所述当前录音中的每一句语音；

去除所述每一句语音中超过预设时长的静音段；

对所述每一句语音作去噪和去混响的预处理；

检测预处理之后的当前语音是否完整；

若是，则使用所述目标录音文本对应的标注；

否则，提醒用户所述预处理之后的当前语音不满足需求。

优选的，所述利用所述当前录音和所述目标录音文本对所述训练后的预设神经网络模型进行二次训练，包括：

提取所述预处理之后的当前语音的声学特征参数；

提取目标录音文本内容中的上下文相关联的第一语言学信息；

根据所述声学特征参数和所述第一语言学信息生成训练数据；

利用所述训练数据对所述训练后的预设神经网络模型进行二次训练。

优选的，所述利用二次训练后的预设神经网络模型提取待合成文本的静态语音参数，将所述静态语音参数输入到合成器中获得合成语音，包括：

获取所述待合成文本的第二语言学信息；

将所述第二语言学信息输入到所述二次训练后的预设神经网络模型中获得语音特征参数；

根据所述语音特征参数获取静态语音参数；

将所述静态语音参数输入到合成器中进行合成；

合成完毕后输出合成语音。

一种自适应语音合成装置，该装置包括：

第一训练模块，用于利用预设录音和所述预设录音对应的文本标注数据对预设神经网络模型进行训练，得到训练后的预设神经网络模型；

录音模块，用于设计录音文本库以供用户挑选目标录音文本进行录音，得到当前录音；

第二训练模块，用于利用所述当前录音和所述目标录音文本对所述训练后的预设神经网络模型进行二次训练；

合成模块，用于利用二次训练后的预设神经网络模型提取待合成文本的静态语音参数，将所述静态语音参数输入到合成器中获得合成语音。

优选的，所述录音模块，包括：

建立子模块，用于预先建立空白录音文本库；

第一获取子模块，用于获取N个录音文本输入到所述空白录音文本库中形成所述录音文本库；

推送子模块，用于接收到用户请求录音的指令时，推送M个第一录音文本以供选择，其中，所述第一录音文本为所述录音文本中任一录音文本；

确定子模块，用于确定所述M个第一录音文本中用户选择的第一录音文本为所述目标录音文本；

接收子模块，用于基于所述目标录音文本，接收用户的当前录音。

优选的，所述装置还包括：

获取模块，用于获取所述当前录音中的每一句语音；

去除模块，用于去除所述每一句语音中超过预设时长的静音段；

预处理模块，用于对所述每一句语音作去噪和去混响的预处理；

检测模块，用于检测预处理之后的当前语音是否完整；

确定模块，用于当所述检测模块检测所述预处理之后的当前语音是完整时，则使用所述目标录音文本对应的标注；

提醒模块，用于当所述检测模块检测所述预处理之后的当前语音不是完整时，提醒用户所述预处理之后的当前语音不满足需求。

优选的，所述第二训练模块，包括：

第一提取子模块，用于提取所述预处理之后的当前语音的声学特征参数；

第二提取子模块，用于提取目标录音文本内容中的上下文相关联的第一语言学信息；

生成子模块，用于根据所述声学特征参数和所述第一语言学信息生成训练数据；

训练子模块，用于利用所述训练数据对所述训练后的预设神经网络模型进行二次训练。

优选的，所述合成模块，包括：

第二获取子模块，用于获取所述待合成文本的第二语言学信息；

获得子模块，用于将所述第二语言学信息输入到所述二次训练后的预设神经网络模型中获得语音特征参数；

第三获取子模块，用于根据所述语音特征参数获取静态语音参数；

合成子模块，用于将所述静态语音参数输入到合成器中进行合成；

输出子模块，用于合成完毕后输出合成语音。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明所提供的一种自适应语音合成方法的工作流程图；

图2为本发明所提供的一种自适应语音合成方法的另一工作流程图；

图3为本发明所提供的一种自适应语音合成装置的结构图；

图4为本发明所提供的一种自适应语音合成装置的另一结构图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

近年来，随着语音技术的日趋成熟，语音合成技术正逐步应用于语音交互、声音播报、个性化声音制作等语音信号处理***中。在社会与商业领域，合成音作为一种声音的展现，给社会生活带来便利与丰富性，具有潜在广阔的使用价值，现有的语音合成技术是基于目标发音人大量的高质量录音和文本标注数据进行时长和声学模型训练，然后可以合成具有目标发音人音色的语音。由于需要大量的高质量语音来训练，所述提出了自适应语音合成***，即利用目标发音人少量的录音和文本数据快速构建合成***，产生目标发音人音色的合成语音。但是这种方法存在以下缺点：1、由于训练所需数据量较少且质量通常不高，以及模型预测精度不够等原因，导致合成的语音质量和精度都偏低，影响了用户的体验感。2、不同用户的录音环境差异很大，录入的语音数据会包含过长的静音段、噪声、混响等干扰，影响模型训练效果。3、用户的实际发音录音文本不一致，出现丢字、多字、重复、读错、过长的停顿等现象，都会导致音频数据与文本标注不匹配，从而影响模型训练效果。为了解决上述问题，本实施例公开了一种基于使用用户的当前录音数据对训练好的预设神经网络模型进行二次训练，最后根据二次训练好的预设神经网络模型对待合成文本进行语音合成的方法。

一种自适应语音合成方法，如图1所示，包括以下步骤：

步骤S101、利用预设录音和预设录音对应的文本标注数据对预设神经网络模型进行训练，得到训练后的预设神经网络模型；

步骤S102、设计录音文本库以供用户挑选目标录音文本进行录音，得到当前录音；

步骤S103、利用当前录音和目标录音文本对训练后的预设神经网络模型进行二次训练；

步骤S104、利用二次训练后的预设神经网络模型提取待合成文本的静态语音参数，将静态语音参数输入到合成器中获得合成语音；

在本实施例中，利用大量的高质量预设录音和设录音对应的文本标注数据对预设神经网络模型进行训练，来得到训练后的预设神经网络模型，然后用户根据自己的爱好和需求选择合适的目标录音文本进行录音，获得少量的当前录音，然后根据上述少量录音对训练后的预设神经网络模型进行二次训练，即可得到一个可以合成自己语音的新模型，根据上述新模型即可提取任一待合成文本的静态语音参数输入到合成器中获得用户的合成语音，特别的，上述大量的预设语音和预设语音对应的文本标注数据可以为任意一人的录音数据即可，并非需要用户本身的录音数据。上述预设神经网络模型包括时长模型和声学模型，即既注重用户语音合成的时长同时根据用户音色的不同合成不同的语音。

上述技术方案的工作原理为：利用预设录音和预设录音对应的文本标注数据对预设神经网络模型进行训练，得到训练后的预设神经网络模型，设计录音文本库以供用户挑选目标录音文本进行录音，得到当前录音，利用当前录音和目标录音文本对训练后的预设神经网络模型进行二次训练，利用二次训练后的预设神经网络模型提取待合成文本的静态语音参数，将静态语音参数输入到合成器中获得合成语音。

上述技术方案的有益效果为：用户可以根据预设录音对预设神经网络模型进行训练，然后根据自己的当前录音对训练后的预设神经网络模型进行二次训练，最后根据二次训练后预设神经网络模型来对自己的录音文本进行语音合成，由于第一次预设神经网路模型的训练是根据大量高质量预设录音训练的，故而模型合成的语音质量和精度都是极高的，根据当前录音对预设神经网络模型进行二次训练可以获得一个合成自己语音的模型，并且合成的语音质量和精度也是极高的，有效的解决了现有技术中由于训练所需数据量较少且质量通常不高，以及模型预测精度不够等原因，导致合成的语音质量和精度都偏低的问题，提高了用户的体验感。并且用户可以在录音文本库中挑选目标文本进行录音，使得选择多样化，解决了现有技术中由于不同用户的录音环境差异很大，录入的语音数据会包含过长的静音段、噪声、混响等干扰，影响模型训练效果的问题。

在一个实施例中，设计录音文本库以供用户挑选目标录音文本进行录音，得到当前录音，包括：

预先建立空白录音文本库；

获取N个录音文本输入到空白录音文本库中形成录音文本库；

接收到用户请求录音的指令时，推送M个第一录音文本以供选择，其中，第一录音文本为录音文本中任一录音文本；

确定M个第一录音文本中用户选择的第一录音文本为目标录音文本；

基于目标录音文本，接收用户的当前录音。

上述技术方案的有益效果为：通过提供用户可选的第一录音文本来使用户根据自身年龄、文化水平、地域、使用场景的情况来选择适合自己的目标录音文本，使用户有多个不同的选择，进一步的提高了用户的体验感。

在一个实施例中，在利用当前录音和目标录音文本对训练后的预设神经网络模型进行二次训练之前，上述方法还包括：

获取当前录音中的每一句语音；

去除每一句语音中超过预设时长的静音段；

对每一句语音作去噪和去混响的预处理；

检测预处理之后的当前语音是否完整；

若是，则使用目标录音文本对应的标注；

否则，提醒用户预处理之后的当前语音不满足需求；

在本实施例中，上述检测预处理之后的当前语音是否完整的步骤为：若发现处理之后的当前语音中有***错误或删除错误，则提示用户该条录音质量不满足需求，用户可选择重复当前文本或者切换一条新文本重新录音。如果没有***和删除错误，但是有替换错误，则该条语音可以接受，并使用识别器识别出的文本替换原始录音文本来生成标注。若没有上述识别错误，则使用原始录音文本对应的标注。

上述技术方案的有益效果为：通过对录入的语音做降噪和去混响处理，去除多余的静音段，提升了语音质量，同时为后边语音的合成提供了一个良好的样本。通过检测预处理之后的当前语音是否完整，根据当前语音质量选择重新录制或者对文本标注做修正，保证录音与文本标注的一致性。提升数据质量。

在一个实施例中，如图2所示，利用当前录音和目标录音文本对训练后的预设神经网络模型进行二次训练，包括：

步骤S201、提取预处理之后的当前语音的声学特征参数；

步骤S202、提取目标录音文本内容中的上下文相关联的第一语言学信息；

步骤S203、根据声学特征参数和第一语言学信息生成训练数据；

步骤S204、利用训练数据对训练后的预设神经网络模型进行二次训练。

上述技术方案的有益效果为：通过利用声学特征参数和第一语言学信息二次训练预设神经网络模型，提升了语音特征参数建模的准确性，也为合成语音所需要的静态语音参数的提取提供了一个良好模型。

在一个实施例中，利用二次训练后的预设神经网络模型提取待合成文本的静态语音参数，将静态语音参数输入到合成器中获得合成语音，包括：

获取待合成文本的第二语言学信息；

将第二语言学信息输入到二次训练后的预设神经网络模型中获得语音特征参数；

根据语音特征参数获取静态语音参数；

将静态语音参数输入到合成器中进行合成；

合成完毕后输出合成语音；

在本实施例中，上述语音特征参数包括动态语音参数，根据建立的模型将动态语音参数转化为静态语音参数。

上述技术方案的有益效果为：通过获取静态语音参数来合成语音，相比于动态语音参数更稳定，同时也去除了不稳定因素，使得合成的语音质量更高。

在一个实施例中，包括：

第1步：使用高质量的多发音人录音和文本标注数据训练多发音人混合基础神经网络模型(采用前馈神经网络加RNN-LSTM的模型结构)。在神经网络输入中加入说话人嵌入信息，以提升音色建模的稳定性；

第2步：在保证音素覆盖度的原则下，设计录音文本库，录音文本库数量远大于实际需要录制的句子数目N。为每个用户随机挑选N句录音文本，对于每一条录音文本，用户都可以选择跳过，并切换一条新的录音文本；

第3步：用户每录入一句语音，将录制的音频经过音频预处理模块，去除录音中过长的静音段，并且对输入音频做降噪和去混响处理；

第4步：将处理过的音频送入音频质量评估模块做语音识别检测，若发现有***错误或删除错误，则提示用户该条录音质量不满足需求，用户可选择重复当前文本或者切换一条新文本重新录音。如果没有***和删除错误，但是有替换错误，则该条语音可以接受，并使用识别器识别出的文本替换原始录音文本来生成标注。若没有上述识别错误，则使用原始录音文本对应的标注；

第5步：使用预处理过的音频提取声学特征参数(包含LF0，MCEP，BAP参数)，使用语音识别确认过的录音文本经过前端分析模块，提取上下文相关的语言学信息。使用上述语音特征参数和语言学信息生成神经网络模型的训练数据，以第1步中的基本模型作为源模型，采用自适应技术重训练时长和声学神经网络模型；

第6步：在合成阶段，根据输入的待合成文本，经过前端模型得到上下文相关语言学信息，使用第5步训练得到的时长和声学神经网络模型做推理，即可得到语音特征参数(包含动态特征参数)，再经过参数生成模块得到平滑的静态语音特征参数，将特征参数送入合成器即可得到目标发音人的合成语音。

上述技术方案的有益效果为：1.解决了现有***录音文本固定，无法更改的问题，在框定的范围内，给用户自由选择录音文本的空间，提升读音正确性和流畅度。2.对录音做降噪和去混响处理，去除多余的静音段，提升语音质量。3.对录音文件做质量评估，根据录音质量选择重新录制或者对文本标注做修正，保证录音与文本标注的一致性。提升数据质量，充分利用自适应***中为数不多的训练数据。4.采用神经网络模型(前馈网络加RNN-LSTM结构)，并结合动态参数建模和最大似然参数生成算法，提升语音特征参数建模的准确性。

本实施例还公开了一种自适应语音合成装置，如图3所示，该装置包括：

第一训练模块301，用于利用预设录音和预设录音对应的文本标注数据对预设神经网络模型进行训练，得到训练后的预设神经网络模型；

录音模块302，用于设计录音文本库以供用户挑选目标录音文本进行录音，得到当前录音；

第二训练模块303，用于利用当前录音和目标录音文本对训练后的预设神经网络模型进行二次训练；

合成模块304，用于利用二次训练后的预设神经网络模型提取待合成文本的静态语音参数，将静态语音参数输入到合成器中获得合成语音。

在一个实施例中，录音模块，包括：

建立子模块，用于预先建立空白录音文本库；

第一获取子模块，用于获取N个录音文本输入到空白录音文本库中形成录音文本库；

推送子模块，用于接收到用户请求录音的指令时，推送M个第一录音文本以供选择，其中，第一录音文本为录音文本中任一录音文本；

确定子模块，用于确定M个第一录音文本中用户选择的第一录音文本为目标录音文本；

接收子模块，用于基于目标录音文本，接收用户的当前录音。

在一个实施例中，上述装置还包括：

获取模块，用于获取当前录音中的每一句语音；

去除模块，用于去除每一句语音中超过预设时长的静音段；

预处理模块，用于对每一句语音作去噪和去混响的预处理；

检测模块，用于检测预处理之后的当前语音是否完整；

确定模块，用于当检测模块检测预处理之后的当前语音是完整时，则使用目标录音文本对应的标注；

提醒模块，用于当检测模块检测预处理之后的当前语音不是完整时，提醒用户预处理之后的当前语音不满足需求。

在一个实施例中，如图4所示，第二训练模块，包括：

第一提取子模块3031，用于提取预处理之后的当前语音的声学特征参数；

第二提取子模块3032，用于提取目标录音文本内容中的上下文相关联的第一语言学信息；

生成子模块3033，用于根据声学特征参数和第一语言学信息生成训练数据；

训练子模块3034，用于利用训练数据对训练后的预设神经网络模型进行二次训练。

在一个实施例中，合成模块，包括：

第二获取子模块，用于获取待合成文本的第二语言学信息；

获得子模块，用于将第二语言学信息输入到二次训练后的预设神经网络模型中获得语音特征参数；

第三获取子模块，用于根据语音特征参数获取静态语音参数；

合成子模块，用于将静态语音参数输入到合成器中进行合成；

输出子模块，用于合成完毕后输出合成语音。

本领域技术人员应当理解的是，本发明中的第一、第二指的是不同应用阶段而已。

本领域技术用户员在考虑说明书及实践这里公开的公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种自适应语音合成方法，其特征在于，包括以下步骤：

2.根据权利要求1所述自适应语音合成方法，其特征在于，所述设计录音文本库以供用户挑选目标录音文本进行录音，得到当前录音，包括：

预先建立空白录音文本库；

基于所述目标录音文本，接收用户的当前录音。

3.根据权利要求1所述自适应语音合成方法，其特征在于，在利用所述当前录音和所述目标录音文本对所述训练后的预设神经网络模型进行二次训练之前，所述方法还包括：

获取所述当前录音中的每一句语音；

去除所述每一句语音中超过预设时长的静音段；

对所述每一句语音作去噪和去混响的预处理；

检测预处理之后的当前语音是否完整；

若是，则使用所述目标录音文本对应的标注；

否则，提醒用户所述预处理之后的当前语音不满足需求。

4.根据权利要求1所述自适应语音合成方法，其特征在于，所述利用所述当前录音和所述目标录音文本对所述训练后的预设神经网络模型进行二次训练，包括：

提取所述预处理之后的当前语音的声学特征参数；

5.根据权利要求1所述自适应语音合成方法，其特征在于，所述利用二次训练后的预设神经网络模型提取待合成文本的静态语音参数，将所述静态语音参数输入到合成器中获得合成语音，包括：

获取所述待合成文本的第二语言学信息；

根据所述语音特征参数获取静态语音参数；

将所述静态语音参数输入到合成器中进行合成；

合成完毕后输出合成语音。

6.一种自适应语音合成装置，其特征在于，该装置包括：

合成模块，用于利用二次训练后的预设神经网络模型提取所述待合成文本的静态语音参数，将所述静态语音参数输入到合成器中获得合成语音。

7.根据权利要求6所述自适应语音合成装置，其特征在于，所述录音模块，包括：

建立子模块，用于预先建立空白录音文本库；

8.根据权利要求6所述自适应语音合成装置，其特征在于，所述装置还包括：

获取模块，用于获取所述当前录音中的每一句语音；

检测模块，用于检测预处理之后的当前语音是否完整；

9.根据权利要求6所述自适应语音合成装置，其特征在于，所述第二训练模块，包括：

10.根据权利要求6所述自适应语音合成装置，其特征在于，所述合成模块，包括：

输出子模块，用于合成完毕后输出合成语音。