CN105336322B

CN105336322B - 多音字模型训练方法、语音合成方法及装置

Info

Publication number: CN105336322B
Application number: CN201510641654.7A
Authority: CN
Inventors: 李秀林; 肖朔; 白洁; 张辉; 彭平; 彭一平; 陈杰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-09-30
Filing date: 2015-09-30
Publication date: 2017-05-10
Anticipated expiration: 2035-09-30
Also published as: CN105336322A

Abstract

本发明公开了一种用于语音合成的多音字模型训练方法、语音合成方法及装置，其中，该方法包括：对语音数据集合和文本集合进行处理，以生成训练语料集合，其中，文本集合与语音数据集合对应，训练语料集合包括文本和与文本对应的拼音序列；提取文本的特征信息；以及根据特征信息和拼音序列对多音字模型进行训练。上述用于语音合成的多音字模型训练方法，在训练多音字模型的过程中，无需人工对文本的拼音进行标注，大大减少了多音字模型的训练周期，同时，避免了由人工标注错误而造成训练的多音字模型不准确情况的发生，提高了所训练的多音字模型的准确性。

Description

多音字模型训练方法、语音合成方法及装置

技术领域

本发明涉及语音技术领域，尤其涉及一种用于语音合成的多音字模型训练方法、语音合成方法及装置。

背景技术

语音合成，又称文语转换(Text to Speech)技术，是一种能够将文字信息转化为语音并进行朗读的技术。其涉及声学、语言学、数字信号处理、计算机科学等多个学科技术，是中文信息处理领域的一项前沿技术，解决的主要问题是如何将文字信息转化为可听的声音信息。

在语音合成***中，将文本信息转换为声音信息的过程为：首先需要对输入的文本进行处理，包括预处理、分词、词性标注、多音字预测、韵律层级预测等，然后再通过声学模型，预测各个单元对应的声学特征，最后利用声学参数直接通过声码器合成声音，或者从录音语料库中挑选单元进行拼接，以生成与文本对应的声音信息。

其中，多音字预测是整个语音合成***的基础之一，多音字朗读的正确与否，极大的影响了听者对合成声音语义的理解情况(也即TTS***的可懂度指标)。如果多音字预测准确率高，可以大大改善用户体验，使合成出来的语音易于理解，听起来也更加自然流畅。因此，如何提高多音字预测的准确性对于语音合成***是十分重要的。

相关技术中，多音字预测的方法主要有以下两种方式：

第一种方式，基于人工总结的规则方法对多音字进行预测。具体地，具有一定语言专业知识的人，针对每个不同的多音字所蕴含的各类语言现象进行归纳总结，整理出一条条规则，再由程序开发人员将这些规则转写成计算机能够理解的代码，并应用于多音字预测。

第二种方式，基于概率统计模型对多音字进行预测。具体地，人工基于注音词典对样本数据进行标注，并提取样本数据的文本特征，并基于文本特征和人工标注的样本数据对概率统计模型进行训练，以生成全局最优的统计模型，然后通过统计模型对输入的文本进行多音字预测。

然而，在实现本发明的过程中，发明人发现相关技术存在至少以下问题：

针对第一种方式来说，(1)耗费人力，且规则总结的周期较长。由于规则之间可能会存在冲突，撰写一个规则后，需要花费精力去验证效果，以防止规则之间产生冲突，进而无法对多音字进行预测。这个过程极其耗时，尤其是在规则繁多的情况下，人工总结出效果很好的一系列规则，可能需要花费几个月的时间。(2)规则存在片面性和局限性问题。早期和后期总结的规则，由于考虑的侧重点发生变化而存在一定的矛盾和不一致性并逐渐造成规则冗余，导致质量逐渐低下，且人工很难发现问题并修正。又或者规则只考虑到了某一类特定条件下的效果，但在其他语境下就会产生不适用的情况。(3)规则存在低扩展性和低健壮性问题。多音字预测问题依赖于分词等前端自然语言处理模块的结果，人工规则只能基于在当前分词结果下进行总结和编写，一旦今后前端分词结果发生了变化，已经总结的规则可能就不适用了。

针对第二种方式来说，在训练模型的过程中，往往需要大量人工标注的样本数据，人工标注样本数据耗时长，效率低，而且也会有人为的错误造成数据质量的下降，从而影响所训练的模型的多音字预测的效果。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种用于语音合成的多音字模型训练方法，该方法在训练多音字模型的过程中，无需人工对文本的拼音进行标注，大大减少了多音字模型的训练周期，同时，避免了由人工标注错误而造成训练的多音字模型不准确情况的发生，提高了所训练的多音字模型的准确性。

本发明的第二个目的在于提出一种语音合成方法。

本发明的第三个目的在于提出一种用于语音合成的多音字模型训练装置。

本发明的第四个目的在于提出一种用于语音合成装置。

为达上述目的，本发明第一方面实施例提出了一种用于语音合成的多音字模型训练方法，包括：对语音数据集合和文本集合进行处理，以生成训练语料集合，其中，所述文本集合与所述语音数据集合对应，所述训练语料集合包括文本和与所述文本对应的拼音序列；提取所述文本的特征信息；以及根据所述特征信息和所述拼音序列对多音字模型进行训练。

本发明实施例的用于语音合成的多音字模型训练方法，对语音数据集合和文本集合进行处理，以生成训练语料集合，并提取训练语料集合文本的特征信息，以及根据特征信息和拼音序列对多音字模型进行训练，由此，在训练多音字模型的过程中，无需人工对文本的拼音进行标注，大大减少了多音字模型的训练周期，同时，避免了由人工标注错误而造成训练的多音字模型不准确情况的发生，提高了所训练的多音字模型的准确性。

为达上述目的，本发明第二方面实施例提出了一种使用本发明第一方面实施例所述的多音字模型进行语音合成的方法，包括：获取待合成文本，对所述待合成文本进行分词；对分词后的待合成文本进行词性标注，并通过韵律预测模型对词性标注后的待合成文本进行韵律预测，以生成所述待合成文本的韵律特征；提取所述待合成文本的特征信息；将所述特征信息输入所述多音字模型，并根据所述多音字模型对所述待合成文本进行多音字预测，以生成所述待合成文本的多音字预测结果；根据所述多音字预测结果和所述韵律特征对所述待合成文本进行注音，以生成所述待合成文本的注音结果；根据所述注音结果、所述韵律特征及所述待测文本的上下文特征对所述待合成文本进行声学预测，以生成所述待合成文本的声学参数序列；以及根据所述声学参数序列生成所述待合成文本的语音合成结果。

本发明实施例的语音合成方法，获取待合成文本，对待合成文本进行分词，并对分词后的待合成文本进行词性标注，并通过韵律预测模型对词性标注后的待合成文本进行韵律预测，以生成待合成文本的韵律特征，以及提取待合成文本的特征信息，并将特征信息输入多音字模型，并根据多音字模型对待合成文本进行多音字预测，以生成待合成文本的多音字预测结果，以及根据多音字预测结果和韵律特征对待合成文本进行注音，以生成待合成文本的注音结果，根据注音结果、韵律特征及待测文本的上下文特征对待合成文本进行声学预测，以及根据声学参数序列生成待合成文本的语音合成结果，由此，对待合成文本的多音字进行了准确预测，进而使得合成出的语音更加易于理解，且更加流畅自然，提升了用户体验。

为达上述目的，本发明第三方面实施例提出了一种用于语音合成的多音字模型训练装置，包括：处理模块，用于对语音数据集合和文本集合进行处理，以生成训练语料集合，其中，所述文本集合与所述语音数据集合对应，所述训练语料集合包括文本和与所述文本对应的拼音序列；提取模块，用于提取所述文本的特征信息；以及训练模块，用于根据所述特征信息和所述拼音序列对多音字模型进行训练。

本发明实施例的用于语音合成的多音字模型训练装置，通过处理模块对语音数据集合和文本集合进行处理，以生成训练语料集合，并提取模块提取训练语料集合文本的特征信息，以及训练模块根据特征信息和拼音序列对多音字模型进行训练，由此，在训练多音字模型的过程中，无需人工对文本的拼音进行标注，大大减少了多音字模型的训练周期，同时，避免了由人工标注错误而造成训练的多音字模型不准确情况的发生，提高了所训练的多音字模型的准确性。

为达上述目的，本发明第四方面实施例提出了一种使用本发明第三方面实施例所述的多音字模型进行语音合成的装置，包括：分词模块，用于对所述待合成文本进行分词；词性标注模块，用于对分词后的待合成文本进行词性标注；韵律预测模块，用于通过韵律预测模型对词性标注后的待合成文本进行韵律预测，以生成所述待合成文本的韵律特征；提取模块，用于提取所述待合成文本的特征信息；多音字预测模块，用于将所述特征信息输入所述多音字模型，并根据所述多音字模型对所述待合成文本进行多音字预测，以生成所述待合成文本的多音字预测结果；注音模块，用于根据所述多音字预测结果和韵律特征对所述待合成文本进行注音，以生成所述待合成文本的注音结果；声学预测模块，用于根据注音结果、韵律特征及待测文本的上下文特征对待合成文本进行声学预测；以及语音合成模块，用于根据所述声学参数序列生成所述待合成文本的语音合成结果。

本发明实施例的语音合成装置，通过获取模块获取待合成文本，分词模块对待合成文本进行分词，词性标注模块对分词后的待合成文本进行词性标注，然后韵律预测模块通过韵律预测模型对词性标注后的待合成文本进行韵律预测，以生成待合成文本的韵律特征，以及提取模块提取待合成文本的特征信息，并多音字预测模块将特征信息输入多音字模型，并根据多音字模型对待合成文本进行多音字预测，以生成待合成文本的多音字预测结果，以及注音模块根据多音字预测结果和韵律特征对待合成文本进行注音，以生成待合成文本的注音结果，声学预测模块根据注音结果、韵律特征及待测文本的上下文特征对待合成文本进行声学预测，以及根语音合成模块据声学参数序列生成待合成文本的语音合成结果，由此，对待合成文本的多音字进行了准确预测，进而使得合成出的语音更加易于理解，且更加流畅自然，提升了用户体验。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

图1是本发明一个实施例的用于语音合成的多音字模型训练方法的流程图。

图2是步骤S1的细化流程图。

图3是步骤S11的细化流程图。

图4是音子序列的网络结构的示例图一。

图5是包含静音的音子序列的网络结构的示例图。

图6是音子序列的网络结构的示例图二。

图7是根据本发明一个实施例的语音合成方法的流程图。

图8是本发明一个实施例的用于语音合成的多音字模型训练装置的结构示意图。

图9是本发明另一个实施例的用于语音合成的多音字模型训练装置的结构示意图。

图10是根据本发明一个实施例的语音合成装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的用于语音合成的多音字模型训练方法、语音合成方法及装置。

如图1所示，该用于语音合成的多音字模型训练方法包括：

S1，对语音数据集合和文本集合进行处理，以生成训练语料集合。

其中，文本集合与语音数据集合对应，训练语料集合包括多音字的句子的文本和与文本对应的拼音序列。

在本发明的一个实施例中，根据语音数据集合和文本集合生成训练语料集合的过程，如图2所示，可以包括：

S11，对语音数据集合和文本集合进行预处理，以生成目标候选语音数据集合和目标候选文本集合。

其中，目标候选语音数据集合与目标候选文本集合对应。

在本发明的一个实施例中，针对S11的实施过程，如图3所示，具体可以包括以下步骤：

S111，计算语音数据集合中的语音数据的能量信息和过零率信息，并根据能量信息和过零率信息将大段的语音切分成句子级别的片段。

S112，计算切分后的语音数据的信噪比，并将信噪比小于第一预设阈值的语音数据从语音数据集合中删除，以生成第一候选语音数据集合。

为了提高所训练的多音字模型的准确性，可将语音数据集合中的语音数据切分成句子级别的片段后，针对切分后的语音数据，可计算切换后的语音数据的信噪比，并将语音数据集合中信噪比小于第一预设阈值的语音数据筛选掉，以生成第一候选语音数据集合，由此，减少了噪音对后续训练多音字模型产生的影响。

其中，第一预设阈值是***中预先设置的信噪比的阈值，例如，第一预设阈值为5db，即将语音数据集合中信噪比小于5db的语音数据删除。

S113，从文本集合中获取与被删除的语音数据对应的文本信息，并将对应的文本信息从文本集合中删除，以生成第一候选文本集合。

S114，利用语音识别***对第一候选语音数据集合中的句子级别的语音数据进行语音识别，以生成句子级别的语音数据的文本信息。

S115，计算识别出的文本信息与句子级别的语音数据的原始文本信息的相似度，并将相似度小于第二预设阈值的文本信息从第一候选文本集合删除，以生成目标候选文本信息集合。

为了进一步提高用于训练多音字模型的数据的准确性，可通过语音识别***对第一候选数据集合中的以句子为单位的语音数据进行识别，以生成对应语音数据的文本信息。

其中，第二预设阈值是***中预先设置的相似度的阈值，例如，第二预设阈值为80％，针对一段语音数据，语音识别***对其进行语音识别，所获得的语音识别结果为“他们一行访问公司”，假定第一候选文本集合中与该语音数据对应的文本信息为“他们一行人访问公司”，通过计算可确定上述两个文本信息之间的相似度为(相同的字符数)/原始文本的字符数＝8/9＝88.9％，计算出的相似度大于第二预设值，因此，可保留该文本信息。

S116，从第一候选语音数据集合中获取与被删除的文本信息对应的语音数据，并将对应的语音数据从第一候选语音数据集合中删除，以生成目标候选语音数据集合。

S12，针对目标候选文本集合中的文本信息，生成文本信息对应的第一拼音序列，并基于第一拼音序列构建该文本信息的有限音子网络结构。

由于语音识别的识别结果会受到其他因素(例如语音质量、内容等)的影响，因此，使用目标候选文本集合中的文本信息进行后续处理。

具体地，针对目标候选文本集合中的文本信息，可先对文本信息进行分词，并对分词后的文本信息进行词性标注，然后，通过韵律预测模型对词性标注后的文本信息进行韵律预测，以生成文本信息的韵律特征信息，以及根据注音词典和韵律特征信息对文本信息进行注音，以生成文本信息的第一拼音序列，基于音子序列构建文本信息的第一音子序列网络结构，然后对第一音子序列网络结构加入静音进行扩展，以生成包含静音路径的第二音子序列网络结构，并将包含静音路径的第二音子序列网络结构作为有限音子网络结构。

需要说明的是，该实施例中的对文本信息进行分词、词性标注均是为了韵律预测服务的，韵律预测的目的，是为了实现正确的变调(如上声变调、“一”“不”变调等)，可以使自动生成的有限音子网络中的序列，与实际发音更加接近。

其中，注音词典中包含每个字及其对应的一个或者多个拼音。例如，“单”字注音词典中保存的拼音为：dan1，shan4。

通常对于汉语来说，文本信息的音子序列即是该文本信息对应的声韵母发音序列。以i为例，在拼音yi中的发音与其在zhi中的发音，在语音学上是不同的，因此，在实际***中，可采用不同的符号来表示。

例如，文本信息为：他们一行人访问公司，在基于该文本信息的韵律特征和注音词典进行注音后，所获得的拼音序列有两个，分别为拼音序列1：ta1 men5 yi1 xing2 ren2fang3 wen4 gong1 si1；拼音序列2：ta1 men5 yi1 hang2 ren2 fang3 wen4 gong1 si1。其中，si1表示静音，拼音后的数字表示音调，1表示一声，2表示二声，3表示三声，4表示四声，5表示轻声。在获得至少一个拼音序列后，可采用声韵母拆分算法对所获得的拼音序列进行简单拆分，以生成该文本信息的音子序列，并根据音子序列构建第一音子序列网络结构。其中，“他们一行人访问公司”对应的第一音子序列网络结构的形式如图4所示，通过图4可以看出，只有“行”是多音字，所以在“行”处对应的两条路径。其中，需要说明的是，如果句子中有多个多音字，都需要进行展开。由于语音中往往存在静音片段，所以在获得第一音子序列网络结构后，还需进一步扩展成加入静音(用sil表示)路径，以生成包含静音路径的第二音子序列网络结构，第二音子网络结构即是该文本信息的有限音子网络结构。在句子首尾及每个音节后加入静音路径，所获得包含静音的第二音子网络结构的形式，如图5所示。

其中，需要理解的是在句子首尾及每个音节后加入静音路径仅是添加静音的一种示例，在实际应用中，还可以其他方式加入静音，例如，可结合分词的结果，将静音路径只增加到句子首尾以及词语结束位置。

S13，从目标候选语音数据集合中获取与文本信息对应的语音数据。

S14，提取语音数据的声学特征信息，并利用声学模型和有限音子网络结构进行有限网络解码，生成语音数据的音子序列，并删除音子序列中的静音，合并声韵母以生成语音数据的第二拼音序列。

其中，声学特征信息可以包括时长、谱、基频等特征。

具体地，在生成文本信息的有限音子网络结构后，可获取该文本信息对应的语音数据，并提取该语音数据的声学特征信息，并将声学特征信息输入至声学模型，并利用声学模型和有限音子网络结构对语音数据进行有限网络解码，生成该语音数据的音子序列。

其中，声学模型可以是采用隐马尔科夫模型(HMM，Hiden Markov Model)进行建模的。

如果采用隐马尔科夫模型，则每个音子对应一个基于上下文的HMM，每个HMM一般由多个状态组成。有限网络解码的过程，就是对每一帧的声学参数，判断其在不同HMM的概率，找到一条最优路径。

在获得最优路径后，可获得该语音数据对应的状态序列，以及根据状态序列可恢复出该语音数据对应的音子序列。

由于拼音序列不需要静音相关的信息，因此在生成该语音数据的音子序列后，可将该语音数据的音子序列中的静音去除，并对去除静音的音子序列进行声韵母合并，即可生成语音数据所对应的第二拼音序列。

S15，根据第二拼音序列确定文本信息的拼音序列。

S16，根据文本信息和文本信息的拼音序列，生成训练语料集合。

例如，文本信息为：他们一行人访问公司，假定根据该文本信息所获得的拼音序列有两个，分别为拼音序列1：ta1 men5 yi1 xing2 ren2 fang3 wen4 gong1 si1；拼音序列2：ta1 men5 yi1 hang2 ren2 fang3 wen4 gong1 si1。其中，si1表示静音。假定该文本信息对应的音子序列的有限音子网络结构如图5所示，在从目标候选语音数据集合中获得该文本信息对应的语音数据后，可提取该语音数据的声学特征信息，并通过声学模型对该语音数据进行有限网络解码，并生成该语音数据的音子序列，由于拼音序列不需要静音相关的信息，因此，可将该语音数据的音子序列中的静音去除，去除静音后的音子序列的网络结构如图6所示，然后将音子序列的网络结构转换为音子序列，并对音子序列进行声韵母合并之后，即可获得语音数据的的第二拼音序列为ta1 men5 yi1 xing2 ren2 fang3 wen4gong1 si1。通过第二拼音序列可确定该文本信息对应的拼音序列为ta1 men5 yi1 xing2ren2 fang3 wen4 gong1 si1。

S2，提取文本的特征信息。

S3，根据特征信息和拼音序列对多音字模型进行训练。

其中，特征信息可以包括分词特征、字面特征和词性特征中的一种或多种。

具体地，在获得多音字的句子的特征信息后，可通过预设算法对特征信息和拼音序列进行多音字训练，并根据训练结果建立多音字模型。

其中，预设算法可以包括但不限于最大熵算法、TBL(transformation basedlearning，基于转换的学习方法)算法、决策树或者神经网络算法等算法。

例如，文本信息为：他们一行人访问公司，可提取该文本信息的字面特征和词性特征，假定该文本信息对应的拼音序列为ta1 men5 yi1 xing2 ren2 fang3 wen4 gong1si1，在通过神经网络算法对文本信息和拼音序列进行训练后，根据训练结果可确定该文本信息特征格式为：他们/r一行/a人/n访问/v公司/n中的多音字“行”的拼音为xing2。

需要理解的是，算法不同所需要的特征信息有所不同，在实际应用中，可根据需求提取文本信息的特征信息。

可以理解，多音字模型是应用于语音合成***中的。在语音合成***中，多音字预测是整个***的基础之一。因此，在通过本发明实施例的训练方法生成一个具有高预测准确性的多音字模型之后，可将该多音字模型应用到语音合成***中。为此，本发明还提出了一种语音合成方法。

图7是根据本发明一个实施例的语音合成方法的流程图。需要说明的是，本发明实施例的语音合成方法所使用的多音字模型是由前述实施例的用于语音合成的多音字模型训练方法所生成的。

如图7所示，该语音合成方法可以包括：

S701，获取待合成文本，对待合成文本进行分词。

S702，对分词后的待合成文本进行词性标注，并通过韵律预测模型对词性标注后的待合成文本进行韵律预测，以生成待合成文本的韵律特征。

S703，提取待合成文本的特征信息。

S704，将特征信息输入多音字模型，并根据多音字模型对待合成文本进行多音字预测，以生成待合成文本的多音字预测结果。

S705，根据多音字预测结果和韵律特征对待合成文本进行注音，以生成待合成文本的注音结果。

例如，待合成文本为：我们一行人去上海，可提取该待合成文本的字面特征和词性特征，并将字面特征和词性特征输入至多音字模型中，多音字模型可根据输入字面特征和词性特征，确定待合成文本中的“行”是个多音字，且对应的拼音为xing2，其中，2表示“形”字的声调。

S706，根据注音结果、韵律特征及待测文本的上下文特征对待合成文本进行声学预测，以生成待合成文本的声学参数序列。

具体地，可将待合成文本的注音结果、韵律特征及上下文信息输入到声学预测模型中，从而对待预测文本进行声学预测，生成对应的时长、谱、基频等声学参数序列。

S707，根据声学参数序列生成待合成文本的语音合成结果。

具体地，可利用声码器根据声学参数序列合成语音信号，从而生成最终的语音合成结果。

本发明实施例的语音合成方法，获取待合成文本，对待合成文本进行分词，并对分词后的待合成文本进行词性标注，并通过韵律预测模型对词性标注后的待合成文本进行韵律预测，以生成待合成文本的韵律特征，以及提取待合成文本的特征信息，并将特征信息输入多音字模型，并根据多音字模型对待合成文本进行多音字预测，以生成待合成文本的多音字预测结果，以及根据多音字预测结果和韵律特征对待合成文本进行注音，以生成待合成文本的注音结果，根据注音结果、韵律特征及待测文本的上下文特征对待合成文本进行声学预测，以生成待合成文本的声学参数序列，以及根据声学参数序列生成待合成文本的语音合成结果，由此，对待合成文本的多音字进行了准确预测，进而使得合成出的语音更加易于理解，且更加流畅自然，提升了用户体验。

为了实现上述实施例，本发明还提出了一种用于语音合成的多音字模型训练装置。

如图8所示，该用于语音合成的多音字模型训练装置包括处理模块110、提取模块120和训练模块130，其中：

处理模块110用于对语音数据集合和文本集合进行处理，以生成训练语料集合，其中，文本集合与语音数据集合对应，训练语料集合包括文本和与文本对应的拼音序列；提取模块120用于提取文本的特征信息；以及训练模块130用于根据特征信息和拼音序列对多音字模型进行训练。

如图9所示，上述处理模块110可以包括预处理单元111、第一生成单元112、获取单元113、处理单元114、确定单元115和第二生成单元116，其中，

预处理单元111用于对语音数据集合和文本集合进行预处理，以生成目标候选语音数据集合和目标候选文本集合，其中，目标候选语音数据集合与目标候选文本集合对应。

第一生成单元112用于针对目标候选文本集合中的文本信息，生成文本信息对应的第一拼音序列，并基于第一拼音序列构建文本信息的有限音子网络结构。

获取单元113用于从目标候选语音数据集合中获取与文本信息对应的语音数据。

处理单元114用于提取语音数据的声学特征信息，并利用声学模型和有限音子网络结构进行有限网络解码，生成语音数据的音子序列，并删除音子序列中的静音，合并声韵母以生成语音数据的第二拼音序列。

确定单元115用于根据第二拼音序列确定文本信息的拼音序列。

第二生成单元116用于根据文本信息和文本信息的拼音序列，生成训练语料集合。

具体地，预处理单元111具体用于：计算语音数据集合中的语音数据的能量信息和过零率信息，并根据能量信息和过零率信息将大段的语音切分成句子级别的片段；计算切分后的语音数据的信噪比，并将信噪比小于第一预设阈值的语音数据从语音数据集合中删除，以生成第一候选语音数据集合；从文本集合中获取与被删除的语音数据对应的文本信息，并将对应的文本信息从文本集合中删除，以生成第一候选文本集合；利用语音识别***对第一候选语音数据集合中的句子级别的语音数据进行语音识别，以生成句子级别的语音数据的文本信息；计算识别出的文本信息与句子级别的语音数据的原始文本信息的相似度，并将相似度小于第二预设阈值的文本信息从第一候选文本集合删除，以生成目标候选文本信息集合；以及从第一候选语音数据集合中获取与被删除的文本信息对应的语音数据，并将对应的语音数据从第一候选语音数据集合中删除，以生成目标候选语音数据集合。其中，预处理单元生成目标候选语音数据集合和目标候选文本信息集合的具体过程，如图3所示，此处不再赘述。

具体地，上述第一生成单元112具体用于：对文本信息进行分词，并对分词后的文本信息进行词性标注；通过韵律预测模型对词性标注后的文本信息进行韵律预测，以生成文本信息的韵律特征信息；根据注音词典和韵律特征信息对文本信息进行注音，以生成文本信息的第一拼音序列，并对第一拼音序列进行声韵母拆分，以生成文本信息的音子序列；基于音子序列构建文本信息的第一音子序列网络结构；对第一音子序列网络结构加入静音进行扩展，以生成包含静音路径的第二音子序列网络结构，并将包含静音路径的第二音子序列网络结构作为有限音子网络结构。

训练模块300具体用于：通过预设算法对特征信息和拼音序列进行多音字训练，并根据训练结果建立多音字模型。

其中，特征信息包括分词特征、字面特征和词性特征中的一种或多种。

其中，需要理解的是，在用于训练多音字模型的算法不同时，算法不同所需要的特征信息有所不同，在实际应用中，可根据需求提取文本信息的特征信息。

需要说明的是，前述对用于语音合成的多音字模型训练方法实施例的解释说明也适用于该实施例的用于语音合成的多音字模型训练装置，此处不再赘述。

为了实现上述实施例，本发明还提出了一种语音合成装置。

图10是根据本发明一个实施例的语音合成装置的结构示意图。需要说明的是，本发明实施例的语音合成装置所使用的多音字模型是由上述任一个实施例的用于语音合成的多音字模型训练装置所生成的。

如图10所示，该语音合成装置可以包括获取模块210、分词模块220、词性标注模块230、韵律预测模块240、提取模块250、多音字预测模块260、注音模块270、声学预测模块280和语音合成模块290，其中：

获取模块210用于获取待合成文本。

分词模块220用于对待合成文本进行分词。

词性标注模块230用于对分词后的待合成文本进行词性标注。

韵律预测模块240用于通过韵律预测模型对词性标注后的待合成文本进行韵律预测，以生成待合成文本的韵律特征。

提取模块250用于提取待合成文本的特征信息。

多音字预测模块260用于将特征信息输入多音字模型，并根据多音字模型对待合成文本进行多音字预测，以生成待合成文本的多音字预测结果。

注音模块270用于根据多音字预测结果和韵律特征对待合成文本进行注音，以生成待合成文本的注音结果。

声学预测模块280用于根据注音结果、韵律特征及待测文本的上下文特征对待合成文本进行声学预测，以生成待合成文本的声学参数序列，以生成待合成文本的声学参数序列。

语音合成模块290用于根据声学参数序列生成待合成文本的语音合成结果。

需要说明的是，前述对语音合成方法实施例的解释说明也适用于该实施例的语音合成装置，此处不再赘述。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用，或结合这些指令执行***、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种用于语音合成的多音字模型训练方法，其特征在于，包括以下步骤：

对语音数据集合和文本集合进行处理，以生成训练语料集合，其中，所述文本集合与所述语音数据集合对应，所述训练语料集合包括文本和与所述文本对应的拼音序列；

提取所述文本的特征信息；以及

根据所述特征信息和所述拼音序列对多音字模型进行训练；

其中，所述对语音数据集合和文本集合进行处理，以生成训练语料集合，具体包括：

对所述语音数据集合和所述文本集合进行预处理，以生成目标候选语音数据集合和目标候选文本集合，其中，所述目标候选语音数据集合与所述目标候选文本集合对应；

针对所述目标候选文本集合中的文本信息，生成所述文本信息对应的第一拼音序列，并基于所述第一拼音序列构建所述文本信息的有限音子网络结构；

从所述目标候选语音数据集合中获取与所述文本信息对应的语音数据；

提取所述语音数据的声学特征信息，并利用声学模型和所述有限音子网络结构进行有限网络解码，生成所述语音数据的音子序列，并删除所述音子序列中的静音，合并声韵母以生成所述语音数据的第二拼音序列；

根据所述第二拼音序列确定所述文本信息的拼音序列；以及

根据所述文本信息和所述文本信息的拼音序列，生成所述训练语料集合。

2.如权利要求1所述的方法，其特征在于，所述对所述语音数据集合和所述文本集合进行预处理，以生成目标候选语音数据集合和目标候选文本集合，具体包括：

计算所述语音数据集合中的语音数据的能量信息和过零率信息，并根据所述能量信息和所述过零率信息将大段的语音切分成句子级别的片段；

计算切分后的语音数据的信噪比，并将信噪比小于第一预设阈值的语音数据从所述语音数据集合中删除，以生成第一候选语音数据集合；

从所述文本集合中获取与被删除的语音数据对应的文本信息，并将对应的文本信息从所述文本集合中删除，以生成第一候选文本集合；

利用语音识别***对第一候选语音数据集合中的句子级别的语音数据进行语音识别，以生成所述句子级别的语音数据的文本信息；

计算识别出的文本信息与所述句子级别的语音数据的原始文本信息的相似度，并将相似度小于第二预设阈值的文本信息从所述第一候选文本集合删除，以生成所述目标候选文本信息集合；以及

从所述第一候选语音数据集合中获取与被删除的文本信息对应的语音数据，并将对应的语音数据从所述第一候选语音数据集合中删除，以生成所述目标候选语音数据集合。

3.如权利要求1所述的方法，其特征在于，所述生成所述文本信息对应的第一拼音序列，并基于所述第一拼音序列构建所述文本信息的有限音子网络结构，具体包括：

对所述文本信息进行分词，并对分词后的文本信息进行词性标注；

通过韵律预测模型对词性标注后的文本信息进行韵律预测，以生成所述文本信息的韵律特征信息；

根据注音词典和所述韵律特征信息对所述文本信息进行注音，以生成所述文本信息的第一拼音序列；

对所述第一拼音序列进行声韵母拆分，以生成所述文本信息的音子序列；

基于所述音子序列构建所述文本信息的第一音子序列网络结构；

对所述第一音子序列网络结构加入静音进行扩展，以生成包含静音路径的第二音子序列网络结构，并将所述包含静音路径的第二音子序列网络结构作为所述有限音子网络结构。

4.如权利要求1所述的方法，其特征在于，所述根据所述特征信息和所述拼音序列对多音字模型进行训练，具体包括：

通过预设算法对所述特征信息和所述拼音序列进行多音字训练，并根据训练结果建立所述多音字模型。

5.如权利要求1-4任一项所述的方法，其特征在于，所述特征信息包括分词特征、字面特征和词性特征中的一种或多种。

6.一种使用如权利要求1至5中任一项所述的多音字模型进行语音合成的方法，其特征在于，包括：

获取待合成文本，对所述待合成文本进行分词；

对分词后的待合成文本进行词性标注，并通过韵律预测模型对词性标注后的待合成文本进行韵律预测，以生成所述待合成文本的韵律特征；

提取所述待合成文本的特征信息；

将所述特征信息输入所述多音字模型，并根据所述多音字模型对所述待合成文本进行多音字预测，以生成所述待合成文本的多音字预测结果；

根据所述多音字预测结果和所述韵律特征对所述待合成文本进行注音，以生成所述待合成文本的注音结果；

根据所述注音结果、所述韵律特征及所述待合成文本的上下文特征对所述待合成文本进行声学预测，以生成所述待合成文本的声学参数序列；以及

根据所述声学参数序列生成所述待合成文本的语音合成结果。

7.一种用于语音合成的多音字模型训练装置，其特征在于，包括：

处理模块，用于对语音数据集合和文本集合进行处理，以生成训练语料集合，其中，所述文本集合与所述语音数据集合对应，所述训练语料集合包括文本和与所述文本对应的拼音序列；

提取模块，用于提取所述文本的特征信息；以及

训练模块，用于根据所述特征信息和所述拼音序列对多音字模型进行训练；

其中，所述处理模块，具体包括：

预处理单元，用于对所述语音数据集合和所述文本集合进行预处理，以生成目标候选语音数据集合和目标候选文本集合，其中，所述目标候选语音数据集合与所述目标候选文本集合对应；

第一生成单元，用于针对所述目标候选文本集合中的文本信息，生成所述文本信息对应的第一拼音序列，并基于所述第一拼音序列构建所述文本信息的有限音子网络结构；

获取单元，用于从所述目标候选语音数据集合中获取与所述文本信息对应的语音数据；

处理单元，用于提取所述语音数据的声学特征信息，并利用声学模型和所述有限音子网络结构进行有限网络解码，生成所述语音数据的音子序列，并删除所述音子序列中的静音，合并声韵母以生成所述语音数据的第二拼音序列；

确定单元，用于根据所述第二拼音序列确定所述文本信息的拼音序列；以及

第二生成单元，用于根据所述文本信息和所述文本信息的拼音序列，生成所述训练语料集合。

8.如权利要求7所述的装置，其特征在于，所述预处理单元，具体用于：

9.如权利要求7所述的装置，其特征在于，所述第一生成单元，具体用于：

10.如权利要求7所述的装置，其特征在于，所述训练模块，具体用于：

11.如权利要求7-10任一项所述的装置，其特征在于，所述特征信息包括分词特征、字面特征和词性特征中的一种或多种。

12.一种使用如权利要求7至11中任一项所述的多音字模型进行语音合成的装置，其特征在于，包括：

获取模块，用于获取待合成文本；

分词模块，用于对所述待合成文本进行分词；

词性标注模块，用于对分词后的待合成文本进行词性标注；

韵律预测模块，用于通过韵律预测模型对词性标注后的待合成文本进行韵律预测，以生成所述待合成文本的韵律特征；

提取模块，用于提取所述待合成文本的特征信息；

多音字预测模块，用于将所述特征信息输入所述多音字模型，并根据所述多音字模型对所述待合成文本进行多音字预测，以生成所述待合成文本的多音字预测结果；

注音模块，用于根据所述多音字预测结果和所述韵律特征对所述待合成文本进行注音，以生成所述待合成文本的注音结果；

声学预测模块，用于根据所述注音结果、所述韵律特征及所述待合成文本的上下文特征对所述待合成文本进行声学预测，以生成所述待合成文本的声学参数序列；以及

语音合成模块，用于根据所述声学参数序列生成所述待合成文本的语音合成结果。