CN114333759A

CN114333759A - 模型训练方法、语音合成方法、设备和计算机程序产品

Info

Publication number: CN114333759A
Application number: CN202111676481.4A
Authority: CN
Inventors: 谭志力
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2022-04-12

Abstract

本申请涉及智能语音领域，提供了一种模型训练方法、语音合成方法、设备和计算机程序产品。本申请能够提高文字音素转化模型的训练效率。该方法包括：从训练数据库中获取包含具有多种发音的目标文字的文本序列及该文本序列对应发音的音频素材，通过语音识别模型提取该音频素材对应的音素序列并将其作为音素序列标注结果，及将文本序列输入至待训练的文字音素转化模型得到其输出的音素序列预测结果，然后将该音素序列标注结果与音素序列预测结果进行比较获得音素序列预测偏差，根据该音素序列预测偏差调整待训练的文字音素转化模型参数，当满足训练完成条件时得到文字音素转化模型。

Description

模型训练方法、语音合成方法、设备和计算机程序产品

技术领域

本申请涉及智能语音技术领域，特别是涉及一种模型训练方法、语音合成方法、设备和计算机程序产品。

背景技术

语音识别和语音合成是目前应用广泛的智能语音技术，语音识别可以把人类的语音内容转换为文字，语音合成则为其逆过程，即输入一段文字生成对应的语音音频。

对于语音合成，当输入一段文字时，语音合成***将其转化为音素序列并以此音素序列生成音频。其中，对于多音字，虽然语音合成***中的文字音素转化模型会参考分词结果和上下文等信息判断文字发音得到对应音素，但仍会转化出错。

为找到文字音素转化模型的转化错误以训练模型使之得到优化，传统技术所采用的主要是人工穷举的方式，先根据目标文字人工创造对应的文本并对文本中的文字分别作人工音素标注得到模型训练样本，从而利用这些样本训练模型，但这种方式容易因人工音节标注的训练样本稀缺导致模型训练效率低而影响模型转化准确性的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种模型训练方法、语音合成方法、设备和计算机程序产品。

第一方面，本申请提供了一种模型训练方法。所述方法包括：

从训练数据库中获取包含目标文字的文本序列及所述文本序列对应发音的音频素材；所述目标文字为具有多种发音的文字；

通过语音识别模型提取所述音频素材对应的音素序列；

将所述文本序列输入至待训练的文字音素转化模型，得到所述待训练的文字音素转化模型输出的所述文本序列对应的音素序列预测结果；

将所述音素序列作为所述文本序列对应的音素序列标注结果与所述音素序列预测结果进行比较，得到音素序列预测偏差；

根据所述音素序列预测偏差调整所述待训练的文字音素转化模型参数，当满足训练完成条件时得到文字音素转化模型。

在一个实施例中，所述方法还包括：根据发音字典，获取具有多种发音的多种感兴趣文字；针对每一种感兴趣文字，查找对应的感兴趣文本序列；所述感兴趣文本序列包含对应的感兴趣文字且关联有感兴趣音频素材；所述感兴趣音频素材为所述感兴趣文本序列对应发音的音频素材；基于所述每一种感兴趣文字对应的感兴趣文本序列及所述感兴趣文本序列关联的感兴趣音频素材，构建所述训练数据库。

在一个实施例中，所述针对每一种感兴趣文字，查找对应的感兴趣文本序列，包括：获取原始音频素材；所述原始音频素材携带对应发音的原始文本序列的情况下，从所述原始文本序列中提取包含对应的感兴趣文字的单位语句作为所述感兴趣文本序列；所述感兴趣音频素材为所述原始音频素材中所述单位语句对应发音的素材片段。

在一个实施例中，还包括：所述原始音频素材未携带所述原始文本序列的情况下，将所述原始音频素材转化为对应的原始音频内容文本，根据所述原始音频内容文本得到所述原始文本序列。

在一个实施例中，所述方法还包括：当不满足所述训练完成条件时，从所述训练数据库中获取包含所述目标文字的另一文本序列及所述另一文本序列对应发音的音频素材，并基于所述另一文本序列及其对应发音的音频素材继续对所述待训练的文字音素转化模型进行训练。

在一个实施例中，所述通过语音识别模型提取所述音频素材对应的音素序列，包括：确定所述音频素材中各音素位对应的音素概率；基于所述各音素位对应的音素概率，选取概率最高的音素路径；所述音素路径由所述各音素位依序组成；根据所述概率最高的音素路径，获取所述音素序列。

在一个实施例中，所述音素位包括所述目标文字对应的目标音素位；所述目标音素位对应的音素概率包括所述目标文字分别在多种发音下对应的音素概率。

第二方面，本申请还提供了一种语音合成方法。所述方法包括：

获取目标文本；将所述目标文本输入至根据如上所述的模型训练方法训练得到的文字音素转化模型，得到所述文字音素转化模型输出的所述目标文本对应的音素转化结果；根据所述音素转化结果生成对应的语音。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

从训练数据库中获取包含目标文字的文本序列及所述文本序列对应发音的音频素材；所述目标文字为具有多种发音的文字；通过语音识别模型提取所述音频素材对应的音素序列；将所述文本序列输入至待训练的文字音素转化模型，得到所述待训练的文字音素转化模型输出的所述文本序列对应的音素序列预测结果；将所述音素序列作为所述文本序列对应的音素序列标注结果与所述音素序列预测结果进行比较，得到音素序列预测偏差；根据所述音素序列预测偏差调整所述待训练的文字音素转化模型参数，当满足训练完成条件时得到文字音素转化模型。

第四方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

上述模型训练方法、语音合成方法、设备和计算机程序产品，从训练数据库中获取包含具有多种发音的目标文字的文本序列及该文本序列对应发音的音频素材，通过语音识别模型提取该音频素材对应的音素序列并将其作为音素序列标注结果，及将文本序列输入至待训练的文字音素转化模型得到其输出的音素序列预测结果，然后将该音素序列标注结果与音素序列预测结果进行比较获得音素序列预测偏差，根据该音素序列预测偏差调整待训练的文字音素转化模型参数，当满足训练完成条件时得到文字音素转化模型。该方案基于训练数据库中丰富的文本序列及其对应发音的音频素材，借助语音识别模型高效地完成从训练数据库中的文本序列-音频素材到文本序列-音素序列的转化，解决针对多音字的文本序列-音素序列数据稀缺的问题，然后将文本序列作为待训练模型的输入及将转化得到的音素序列作为音素序列标注结果对待训练模型进行训练，在满足训练完成条件时得到文字音素转化模型，使待训练文字音素转化模型能基于高效获取的丰富的文本序列-音素序列得到高效的充分的训练，提高文字音素转化模型的训练效率，可实现文字音素转化模型纠错全过程的全自动化，迅速检查大量测试样例，大幅节省人工干预及时间资源，由此也使文字音素转化模型在应用阶段对多音字转化准确率的提升得到保证。

附图说明

图1为一个实施例中模型训练方法的流程示意图；

图2为一个实施例中构建训练数据库的步骤的流程示意图；

图3为一个实施例中提取音素序列的步骤的流程示意图；

图4为一个实施例中处理音频素材的过程的流程示意图；

图5为一个应用示例中模型训练方法的流程示意图；

图6为一个实施例中语音合成方法的流程示意图；

图7为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的模型训练方法及语音合成方法，可以应用于如终端、服务器等计算机设备中。其中，终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

以下结合各实施例及相应附图对本申请提供的模型训练方法及语音合成方法进行说明。

在一个实施例中，如图1所示，提供了一种模型训练方法，包括以下步骤：

步骤S101，从训练数据库中获取包含目标文字的文本序列及该文本序列对应发音的音频素材。

本步骤中，目标文字是指具有多种发音的文字，文字的类型可以包括中文字、英文字等等，以中文字作为文字为例，如多音字“长”，其发音可以包括“chang(第二声)”和“zhang(第三声)”，可作为目标文字；文本序列是包含该目标文字的文本序列，如对于目标文字“长”，文本序列可以是“长春的雪很美”；音频素材是该文本序列对应发音的一段音频，如对于文本序列“长春的雪很美”，音频素材是“长春的雪很美”对应的音频，该音频可采用真人发音的音频。其中，该目标文字的文本序列及其对应发音的音频素材包括在预先构建的训练数据库中，该训练数据库中可括感兴趣文本序列集以及感兴趣音频素材集；其中，感兴趣文本序列集中包括多个感兴趣文本序列，对于每一感兴趣文本序列，其中都可包含有至少一个或多个多音字；感兴趣音频素材集中包括多个感兴趣音频素材，该多个感兴趣音频素材分别与感兴趣文本序列集中的多个感兴趣文本序列相对应，即感兴趣文本序列集中一个感兴趣文本序列，在感兴趣音频素材集中存在一个其对应发音的感兴趣音频素材。基于此，本步骤在确定目标文字后，可从训练数据库中的感兴趣文本序列集获取包含该目标文字的文本序列，及从训练数据库中的感兴趣音频素材集获取该文本序列对应发音的音频素材，从而从训练数据库中已有的大量的数据中快速提取出包含目标文字的文本序列及其对应发音的音频素材。

步骤S102，通过语音识别模型提取音频素材对应的音素序列。

本步骤主要是通过已有的语音识别模型提取步骤S101所获得的音频素材对应的音素序列。其中，音素序列由语音识别模型基于该音频素材所识别得到的各音素排列组成。示例性的，音频素材可以是文本序列“长春的雪很美”对应的音频，本步骤通过已有的语音识别模型提取该音频对应的音素序列可以表示为“chang chun de xue henmei”，在实际应用中，该音素序列中还可对相应的音素进行声调标识，如在音素序列中将“chang”标识为第二声等等。

步骤S103，将文本序列输入至待训练的文字音素转化模型，得到待训练的文字音素转化模型输出的文本序列对应的音素序列预测结果；

步骤S104，将音素序列作为文本序列对应的音素序列标注结果与音素序列预测结果进行比较，得到音素序列预测偏差；

上述步骤S103和S104中，将文本序列及其发音对应的音素序列一并组成为用于文字音素转化模型训练的模型训练样本；该文字音素转化模型是指用于将文字转化为对应音素的模型，可为G2P模型(grapheme to phoneme)。示例性的，文本序列为“长春的雪很美”，对应发音的音素序列为“chang chun de xue henmei”，由此模型训练样本可表示为{“长春的雪很美”,“chang chun de xue hen mei”}，其中“长春的雪很美”作为待训练的文字音素转化模型的输入，“chang chun de xue hen mei”作为对应的音素序列标注结果，将“长春的雪很美”输入待训练的文字音素转化模型，待训练的文字音素转化模型输出对应的音素序列预测结果，然后将该模型输出的音素序列预测结果与前述音素序列标注结果进行比较得到音素序列预测偏差，该音素序列预测偏差表征在模型训练阶段，文字音素转化模型所输出的文本序列对应的音素序列预测结果相对于音素序列标注结果的偏差。

步骤S105，根据音素序列预测偏差调整待训练的文字音素转化模型参数，当满足训练完成条件时得到文字音素转化模型。

本步骤主要是根据音素序列预测结果相对于音素序列标注结果的偏差调整待训练的文字音素转化模型的网络参数，使参数调整后的文字音素转化模型满足训练完成条件时，得到训练好的文字音素转化模型。实际应用中，可利用损失函数根据音素序列预测结果相对于音素序列标注结果的偏差即音素序列预测偏差计算每轮训练的损失值，基于每轮训练的损失值调整待训练的文字音素转化模型参数，然后进入下一轮训练并获得下一轮的损失值，训练完成条件可以是损失阈值条件，当本轮损失值满足损失阈值条件(如该轮损失值小于或等于损失阈值)时，可确定其满足训练完成条件，将该轮训练得到的文字音素转化模型作为训练好的文字音素转化模型。

上述方法，基于训练数据库中丰富的文本序列及其对应发音的音频素材，借助语音识别模型高效地完成从训练数据库中的文本序列-音频素材到文本序列-音素序列的转化，解决针对多音字的文本序列-音素序列数据稀缺的问题，然后将文本序列作为待训练模型的输入及将转化得到的音素序列作为音素序列标注结果对待训练模型进行训练，在满足训练完成条件时得到文字音素转化模型，使待训练文字音素转化模型能基于高效获取的丰富的文本序列-音素序列得到高效的充分的训练，提高文字音素转化模型的训练效率，可实现文字音素转化模型纠错全过程的全自动化，迅速检查大量测试样例，大幅节省人工干预及时间资源，由此也使文字音素转化模型在应用阶段对多音字转化准确率的提升得到保证。

对于训练数据库的构建，在一个实施例中，如图2所示，上述方法还包括以下步骤：

步骤S201，根据发音字典，获取具有多种发音的多种感兴趣文字。

本步骤中，可在发音字典中查找重复项得到具有多种发音的文字，该具有多种发音的文字称为感兴趣文字。在发音字典中查找的具有多种发音的文字数量为多个，从而得到具有多种发音的多种感兴趣文字，示例性的，在发音字典中查找重复项可得到如“长”、“好”等具有多种发音的多种感兴趣文字。

步骤S202，针对每一种感兴趣文字，查找对应的感兴趣文本序列。

本步骤针对步骤S201所获得的每一种感兴趣文字，查找其对应的感兴趣文本序列。其中，感兴趣文本序列包含两个特点；第一个是包含对应的感兴趣文字，如文本序列“长春的雪很美”中包含感兴趣文字“长”；第二个是关联有感兴趣音频素材，该感兴趣音频素材是指感兴趣文本序列对应发音的音频素材，即文本序列“长春的雪很美”需关联有“长春的雪很美”对应的音频。对于感兴趣文本序列的获取，示例性的，可从音视频的字幕中识别包含感兴趣文字“长”的文本序列作为感兴趣文本序列，然后从该音视频中提取该感兴趣文本序列对应的音频作为感兴趣音频素材。在实际应用中，针对每一种感兴趣文字，所查找的对应的感兴趣文本序列可以包括多个，例如针对感兴趣文字“长”，可查找对应的感兴趣文本序列包括：“长春的雪很美”、“长在哨所旁”。

步骤S203，基于每一种感兴趣文字对应的感兴趣文本序列及感兴趣文本序列关联的感兴趣音频素材，构建训练数据库。

基于如上步骤S201和S202，可获得每一种感兴趣文字对应的感兴趣文本序列及感兴趣文本序列关联的感兴趣音频素材，然后可将每一种感兴趣文字对应的感兴趣文本序列整理为感兴趣文本序列集，将各感兴趣文本序列关联的感兴趣音频素材整理为感兴趣音频素材集，从而基于该感兴趣文本序列集和感兴趣音频素材集，以及该两个集合之间的关于文本序列与音频素材的关联关系，构建训练数据库。由此，本实施例所构建的训练数据库可供目标文字确定后，快速且准确地获得所需的文本序列及其对应发音的音频素材。

在一个实施例中，进一步的，步骤S202中的针对每一种感兴趣文字，查找对应的感兴趣文本序列，具体包括：

获取原始音频素材；原始音频素材携带对应发音的原始文本序列的情况下，从原始文本序列中提取包含对应的感兴趣文字的单位语句作为感兴趣文本序列；感兴趣音频素材为该原始音频素材中单位语句对应发音的素材片段。

本实施例中，对于感兴趣文本序列的获取，可在获得原始音频素材的基础上进行。具体的，原始音频素材可以包括带字幕的音频和视频、说书视频等等，即可先采集已有的大量的带字幕的音频和视频、说书视频等音频数据作为原始音频素材。然后，如果原始音频素材携带对应发音的原始文本序列，例如该原始音频素材已标注了相应字幕，该标注的字幕对应为原始文本序列，在这种情况下，可从该原始文本序列中查找并提取感兴趣文本序列。具体的，在该原始文本序列中定位出包含前述对应的感兴趣文字的单位语句，如原始文本序列为“你好，我是长春人，我的名字是张三。今天我来这里的原因是……”，感兴趣文字为“长”，则定位得到该感兴趣文字“长”所在的单位语句为“我是长春人”。在确定原始文本序列中感兴趣文字所在的单位语句后，便可根据原始文本序列与原始音频素材在时间上的对应关系，从原始音频素材中截取出该单位语句对应发音的素材片段作为感兴趣音频素材。通过本实施例的方案，能够在所获取的原始音频素材携带相应原始文本序列的情况下，迅速且准确地获得感兴趣文本序列及其对应的感兴趣音频素材，且基于单位语句及单位语句对应发音的素材片段构建训练数据库，可使得在模型训练阶段从训练数据库中提取的文本序列及音频素材在包含目标文字对应发音的前提下满足模型训练对训练样本在长度及内容上的要求，保证模型训练效果。

在一个实施例中，还包括：原始音频素材未携带原始文本序列的情况下，将原始音频素材转化为对应的原始音频内容文本，根据原始音频内容文本得到原始文本序列。

本实施例主要是在原始音频素材中未携带对应原始文本序列的情况下，如所获取的原始音频素材是未标注字幕的音视频，可通过语音识别模型/语音识别工具将该原始音频素材转化对应的原始音频内容文本，如将一段原始音频素材输入到语音识别模型/语音识别工具中，得到语音识别模型/语音识别工具对应输出的原始音频内容文本可以是“你好，我是长春人，我的名字是张三。今天我来这里的原因是……”，然后可直接将该原始音频内容文本“你好，我是长春人，我的名字是张三。今天我来这里的原因是……”作为原始文本序列。在获得原始文本序列后，便可采用如上实施例所公开的查找对应的感兴趣文本序列的方式获得所需的感兴趣文本序列及对应发音的感兴趣音频素材。由此实现基于无字幕标注的原始音频素材提取感兴趣文本序列及感兴趣音频素材构建训练数据库用于模型训练的目的，达到可扩大原始音频素材取材范围进而丰富模型训练样本的技术效果。

对于文字音素转化模型的训练，在一个实施例中，上述方法还包括：

当不满足训练完成条件时，从训练数据库中获取包含目标文字的另一文本序列及另一文本序列对应发音的音频素材，并基于另一文本序列及其对应发音的音频素材继续对待训练的文字音素转化模型进行训练。

本实施例中，训练完成条件可以是在一定模型参数调整次数下的损失阈值条件。具体的，前述实施例中，利用包含目标文字的文本序列及其对应的音频素材对待训练的文字音素转化模型进行训练过程中对模型参数进行调整，调整后可再次使用该文本序列及音频素材对参数调整后的模型进行训练并判断是否满足损失阈值条件，若否则继续进行参数调整后持续训练。但当针对该模型的参数调整达到一定的次数仍不满足损失阈值条件时，确定其属于本实施例中的不满足训练完成条件的情况，此时从训练数据库中获取包含该目标文字的另一文本序列及该另一文本序列对应发音的音频素材，如目标文字为“长”，原训练采用“长春的雪很美”及其对应发音的音频素材进行模型训练，此时从训练数据库中获取如“长在哨所旁”或“长门又误佳期声清凄”作为另一文本序列及其对应发音的音频素材，进而用新获取的“长在哨所旁”或“长门又误佳期声清凄”及其对应发音的音频素材继续对待训练的文字音素转化模型进行训练，保证模型训练准确性及有效性。

对于音素序列的提取，在一个实施例中，如图3所示，步骤S102中的通过语音识别模型提取音频素材对应的音素序列，包括：

步骤S301，确定音频素材中各音素位对应的音素概率；

步骤S302，基于各音素位对应的音素概率，选取概率最高的音素路径；该音素路径由各音素位依序组成；

步骤S303，根据述概率最高的音素路径，获取音素序列。

本实施例如上步骤S301至S303可由语音识别模型执行，结合图4进行说明。具体的，步骤S301中，可由语音识别模型中声学模型识别得到音频素材中各音素位对应的音素概率，如对于“长春……”这一文本对应的音频素材，可由声学模型识别得到其中包括“chang/zhang”所在音素位、“chun”所在音素位对应的音素概率。对此，在一些实施例中，该音素位包括上述目标文字对应的目标音素位，该目标音素位对应的音素概率包括该目标文字分别在多种发音下对应的音素概率。示例性的，对于目标文字“长”，目标音素位为“chang/zhang”所在音素位，则该目标音素位对应的音素概率包括目标文字“长”分别在“chang”及“zhang”这两种发音下对应的音素概率，如图4所示，目标文字“长”在“chang”发音下对应的音素概率为9.7，在“zhang”发音下对应音素概率0.5。本实施例方案可获取各种多音字准确发音的音素序列以供模型针对多音字转化的训练和优化。

如图4中，步骤S301具体可获得第一音素位(“chang/zhang”所在音素位)对应的音素概率包括9.7和0.5，第二音素位(“chun”所在音素位)对应的音素概率为9.8等等。步骤S302主要是寻找概率最高的音素路径。其中，该音素路径是由各音素位依序组成的路径，如图4中，第一音素位、第二音素位、……可依序组成音素路径，但第一音素位对应有音素概率9.7和0.5，即各音素位均可能对应有一个或者多个音素概率，步骤S302结合各音素位对应的音素概率，在整体上找出概率最高的音素路径，在实际应用中可采用维特比(viterbi)算法计算出该概率最高的音素路径，如图4中，由此可得到概率最高的音素路径为第一音素位“chang”、第二音素位“chun”形成的音素路径。步骤S303中，在确定概率最高的音素路径后，可将其整理得到音素序列“chang chun……”。

通过本实施例的方案可在音频素材进行音素提取/识别中存在一音素位对应多音素概率时从整体的角度选取概率最高的音素路径最终形成音素序列，提高音素序列提取的准确性，在多音字的场景下准确提取各种多音字准确发音的音素序列以供模型在多音字转化误差方面得到有效训练及优化

在一个应用示例中，参考图5，具体的，可先从发音字典中查找重复项得到如多音字“长”，其发音可以包括“chang”和“zhang”，该多音字“长”可作为感兴趣文字，然后查找对应的感兴趣文本序列“长门又误佳期声清漆”、“长在哨所旁”和“长春的雪很美”等等及对应发音的感兴趣音频素材加入训练数据库，且这些感兴趣音频素材采用真人音频而非机器合成音频以确保模型训练有效性。基于此，在模型训练阶段，可将多音字“长”作为目标文字，从训练数据库中获取如“长门又误佳期声清漆”、“长在哨所旁”、“长春的雪很美”等文本序列及对应发音的音频素材，这些音频素材可作为真人音频进行音素序列提取，通过语音识别模型提取音频素材对应的符合真人读法的音素序列如“chang men you……”、“zhangzai shao……”和“chang chun de……”等等，作为音素序列标注结果，然后可将前述如“长门又误佳期声清漆”、“长在哨所旁”、“长春的雪很美”等文本序列输入待训练的文字音素转化模型(G2P模型)，待训练的文字音素转化模型输出得到音素序列预测结果如“zhang menyou……”、“zhang zai shao……”和“chang chun de……”等等，然后将该音素序列预测结果与前述对应的音素序列标注结果进行比较查找多音字错误，得到音素序列预测偏差，然后根据该音素序列预测偏差对该文字音素转化模型进行模型参数调整，在满足训练完成条件时得到训练好的文字音素转化模型。

本应用实例可借助语音识别技术基于已有的海量的丰富的音频数据库迅速获得大量的文本-音素序列作为模型训练样本，通过丰富的已有音频数据解决文本-音素数据稀少的问题，将该模型训练样本应用于文字音素转化模型训练，通过作为标注结果的音素序列与音素序列预测结果的比较得到预测偏差调整模型参数，实现文字音素转化模型纠错全过程的全自动化，免除人工干预，从而能迅速检查大量测试样例，大大提高了文字音素转化模型修正的效率，大幅节省人工干预、检查时间，让模型转化的准确率得到快速优化。

在一个实施例中，还提供了一种语音合成方法，如图6所示，所述方法包括：

步骤S601，获取目标文本；

步骤S602，将目标文本输入至根据如上实施例所述的模型训练方法训练得到的文字音素转化模型，得到文字音素转化模型输出的目标文本对应的音素转化结果；

步骤S603，根据音素转化结果生成对应的语音。

本实施例是对基于如上实施例所述的模型训练方法所得到的文字音素转化模型的应用。具体的，目标文本可以是用户输入的一段文字内容，也可以是需要向用户反馈的一段文字内容，将该段文字内容输入至该文字音素转化模型，文字音素转化模型将该段文字内容转化为对应的音素序列即目标文本对应的音素转化结果，最后以此音素转化结果生成音频进行播放。其中，本实施例的文字音素转化模型是基于如上述模型训练方法训练所得，其对多音字具有精确的音素转化能力，由此即便是在目标文本具有多音字的情况下，本实施例借助该文字音素转化模型仍能精确地生成目标文本对应的语音进行播放，提升语音转化、合成能力。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图7所示。该计算机设备包括通过***总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储文本序列、音频素材等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种模型训练方法、语音合成方法。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive RandomAccess Memory，MRAM)、铁电存储器(Ferroelectric RandomAccess Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(RandomAccess Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static RandomAccess Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccessMemory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种模型训练方法，其特征在于，所述方法包括：

通过语音识别模型提取所述音频素材对应的音素序列；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据发音字典，获取具有多种发音的多种感兴趣文字；

针对每一种感兴趣文字，查找对应的感兴趣文本序列；所述感兴趣文本序列包含对应的感兴趣文字且关联有感兴趣音频素材；所述感兴趣音频素材为所述感兴趣文本序列对应发音的音频素材；

基于所述每一种感兴趣文字对应的感兴趣文本序列及所述感兴趣文本序列关联的感兴趣音频素材，构建所述训练数据库。

3.根据权利要求2所述的方法，其特征在于，所述针对每一种感兴趣文字，查找对应的感兴趣文本序列，包括：

获取原始音频素材；

所述原始音频素材携带对应发音的原始文本序列的情况下，从所述原始文本序列中提取包含对应的感兴趣文字的单位语句作为所述感兴趣文本序列；所述感兴趣音频素材为所述原始音频素材中所述单位语句对应发音的素材片段。

4.根据权利要求3所述的方法，其特征在于，还包括：

所述原始音频素材未携带所述原始文本序列的情况下，将所述原始音频素材转化为对应的原始音频内容文本，根据所述原始音频内容文本得到所述原始文本序列。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

当不满足所述训练完成条件时，从所述训练数据库中获取包含所述目标文字的另一文本序列及所述另一文本序列对应发音的音频素材，并基于所述另一文本序列及其对应发音的音频素材继续对所述待训练的文字音素转化模型进行训练。

6.根据权利要求1至5任一项所述的方法，其特征在于，所述通过语音识别模型提取所述音频素材对应的音素序列，包括：

确定所述音频素材中各音素位对应的音素概率；

基于所述各音素位对应的音素概率，选取概率最高的音素路径；所述音素路径由所述各音素位依序组成；

根据所述概率最高的音素路径，获取所述音素序列。

7.根据权利要求6所述的方法，其特征在于，所述音素位包括所述目标文字对应的目标音素位；所述目标音素位对应的音素概率包括所述目标文字分别在多种发音下对应的音素概率。

8.一种语音合成方法，其特征在于，所述方法包括：

获取目标文本；

将所述目标文本输入至根据权利要求1至7任一项所述的模型训练方法训练得到的文字音素转化模型，得到所述文字音素转化模型输出的所述目标文本对应的音素转化结果；

根据所述音素转化结果生成对应的语音。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。

10.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。