WO2017067206A1

WO2017067206A1 - 个性化多声学模型的训练方法、语音合成方法及装置

Info

Publication number: WO2017067206A1
Application number: PCT/CN2016/087321
Authority: WO
Inventors: 李秀林
Original assignee: 百度在线网络技术（北京）有限公司
Priority date: 2015-10-20
Filing date: 2016-06-27
Publication date: 2017-04-27
Also published as: US10410621B2; CN105185372A; US20180254034A1; CN105185372B

Abstract

一种用于语音合成的个性化多声学模型的训练方法、语音合成方法及装置，其中，该方法包括：基于训练语音数据的第一声学特征数据和与训练语音数据对应的第一文本标注数据，训练基准声学模型（S11）；获取目标用户的语音数据（S12）；根据基准声学模型和语音数据，训练第一目标用户声学模型（S13）；根据第一目标用户声学模型和第一文本标注数据生成第一文本标注数据的第二声学特征数据（S14）；以及基于第一文本标注数据和第二声学特征数据，训练第二目标用户声学模型（S15）。该模型训练方法，在训练目标用户声学模型过程中，降低了对目标用户的语音数据的规模的要求，利用少量的用户语音数据就可训练出多个包含目标用户的语音特点的个性化声学模型。

Description

个性化多声学模型的训练方法、语音合成方法及装置

相关申请的交叉引用

本申请要求百度在线网络技术(北京)有限公司于2015年10月20日提交的、发明名称为“个性化多声学模型的训练方法、语音合成方法及装置”的、中国专利申请号“201510684475.1”的优先权。

技术领域

本发明涉及语音技术领域，尤其涉及一种用于语音合成的个性化多声学模型的训练方法、语音合成方法及装置。

背景技术

语音合成，又称文语转换(Text to Speech)技术，是一种能够将文字信息转化为语音并进行朗读的技术。其涉及声学、语言学、数字信号处理、计算机科学等多个学科技术，是中文信息处理领域的一项前沿技术，解决的主要问题是如何将文字信息转化为可听的声音信息。

在语音合成***中，将文本信息转换为声音信息的过程为：首先需要对输入的文本进行处理，包括预处理、分词、词性标注、多音字预测、韵律层级预测等，然后再通过声学模型，预测各个单元对应的声学特征，最后利用声学参数直接通过声码器合成声音，或者从录音语料库中挑选单元进行拼接，以生成与文本对应的声音信息。

其中，声学模型是整个语音合成***的基础之一，声学模型通常是通过对大规模的语音数据进行训练而得到的。训练声学模型的过程为：首先，设计一定数量的录音文本语料，以满足音子覆盖、韵律覆盖等要求。其次，挑选合适的发音人，发音人据此录制语音数据。接下来，进行文本、拼音、韵律、单元边界的标注，标注好的数据用于模型训练、音库生成。由此可以看出，训练一个声学模型的过程比较复杂，周期比较长，并且训练过程中是基于固定发音人的语音数据训练的，因此，在通过该声学模型合成语音的过程中，所合成的语音的音色是固定的。

然而，在很多情况下希望用自己的声音、家人/朋友的声源，或者明星的声音进行语音合成，即用户希望语音合成***所合成的语音具有个性的语音特点。为了满足个性化声音的需求，相关技术中获得个性化的声学模型的方式主要包括以下两种方式：

第一种方式，利用平行语料或者非平行语料，在声学参数层面，训练用户所需的个性化的声学模型。

第二种方式，采用模型间的映射，实现基准声学模型与个性化的声学模型之间的转换。具体地，采用HMM-GMM(Hidden Markov Models and Gaussian Mixture Models，隐马尔可夫模型和高斯混合模型)建模，并进行决策树间的映射，以生成个性化的声学模型。

然而，在实现本发明的过程中，发明人发现相关技术存在至少以下问题：

针对第一种方式来说，(1)采用平行语料，在声学参数层面，训练个性化的声学模型，要求两个发音人按照同样的文本来生成原始语音，而这一点有时候是不太现实的。并且采用平行语料，语料规模的要求可能会比较高，所需的时间比较长，加工量比较大，难以快速获得个性化的声学模型。(2)采用非平行语音，在声学参数层面，训练个性化的声学模型。由于两个发音人按照不同的文本生成原始语音，且同一个音节，在不同的句子环境中，发音是明显有区别的，因此，如果把不同发音人的不同句子中的某个相同音子做映射，则容易造成所训练得到的个性化的声学模型不准确，从而导致合成的语音不够自然。

针对第二种方式来说，由于决策树是一种浅层模型，其描述能力有限，尤其在用户的语音数据量比较少时，所生成的个性化的声学模型的准确性不高，从而造成预测出的参数可能有不连贯的情况，进而使合成的语音出现跳变、音色不稳定等现象，造成语音的不自然。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种用于语音合成的个性化多声学模型的训练方法，该方法在训练目标用户声学模型过程中，降低了对目标用户的语音数据的规模的要求，利用少量的用户语音数据就可训练出多个包含目标用户的语音特点的个性化声学模型，进而可满足个性化语音需求，提升了用户体验度。

本发明的第二个目的在于提出一种语音合成方法。

本发明的第三个目的在于提出一种语音合成方法。

本发明的第四个目的在于提出一种用于语音合成的个性化多声学模型的训练装置。

本发明的第五个目的在于提出一种用于语音合成装置。

本发明的第六个目的在于提出一种用于语音合成装置。

为达上述目的，本发明第一方面实施例提出了一种用于语音合成的个性化多声学模型的训练方法，包括：基于训练语音数据的第一声学特征数据和与所述训练语音数据对应的第一文本标注数据，训练基准声学模型；获取目标用户的语音数据；根据所述基准声学模型和所述语音数据，训练第一目标用户声学模型；根据所述第一目标用户声学模型和所述第一文本标注数据生成所述第一文本标注数据的第二声学特征数据；以及基于所述第一文本标注数据和所述第二声学特征数据，训练第二目标用户声学模型。

本发明实施例的用于语音合成的个性化多声学模型的训练方法，首先基于训练语音数据的第一声学特征数据和与训练语音数据对应的第一文本标注数据，训练基准声学模型，然后获取目标用户的语音数据，并根据基准声学模型和语音数据，训练第一目标用户声学模型，进而根据第一目标用户声学模型和第一文本标注数据生成第一文本标注数据的第二声学特征数据，最后基于第一文本标注数据和第二声学特征数据，训练第二目标用户声学模型，由此，在训练目标用户声学模型过程中，降低了对目标用户的语音数据的规模的要求，例如可以从几千句的规模降低到几百句甚至几十句，即可以利用少量的用户语音数据就可训练出多个包含目标用户的语音特点的个性化声学模型，进而可满足个性化语音需求，提升了用户体验度。

为达上述目的，本发明第二方面实施例提出了一种使用本发明第一方面实施例所述的第一目标用户声学模型进行语音合成的方法，包括：获取待合成文本，对所述待合成文本进行分词；对分词后的待合成文本进行词性标注，并通过韵律预测模型对词性标注后的待合成文本进行韵律预测，以生成所述待合成文本的韵律特征；根据分词结果、词性标注结果和所述韵律特征对所述待合成文本进行注音，以生成所述待合成文本的注音结果；将所述注音结果、所述韵律特征及所述待合成文本的上下文特征输入至第一目标用户声学模型，通过所述第一目标用户声学模型对所述待合成文本进行声学预测，以生成所述待合成文本的声学参数序列；以及根据所述声学参数序列生成所述待合成文本的语音合成结果。

本发明实施例的语音合成方法，首先获取待合成文本，对待合成文本进行分词，然后对分词后的待合成文本进行词性标注，并通过韵律预测模型对词性标注后的待合成文本进行韵律预测，以生成待合成文本的韵律特征，进而根据分词结果、词性标注结果和韵律特征对待合成文本进行注音，以生成待合成文本的注音结果，并将注音结果、韵律特征及待合成文本的上下文特征输入至第一目标用户声学模型，通过第一目标用户声学模型对待合成文本进行声学预测，以生成待合成文本的声学参数序列，最后根据声学参数序列生成待合成文本的语音合成结果，由此，使得语音合成***中合成出的语音合成结果中包含目标用户的语音特点，满足了用户生成个性化语音的需求，提升了用户体验。

为达上述目的，本发明第三方面实施例提出了一种使用本发明第一方面实施例所述的第二目标用户声学模型进行语音合成的方法，包括：获取待合成文本，对所述待合成文本进行分词；对分词后的待合成文本进行词性标注，并通过韵律预测模型对词性标注后的待合成文本进行韵律预测，以生成所述待合成文本的韵律特征；根据所述分词结果、词性标注结果和韵律特征对所述待合成文本进行注音，以生成所述待合成文本的注音结果；将所述注音结果、所述韵律特征及所述待合成文本的上下文特征输入至第二目标用户声学模型，通过所述第二目标用户声学模型对所述待合成文本进行声学预测，以生成所述待合成文本的声学参数序列；以及根据所述声学参数序列生成所述待合成文本的语音合成结果。

本发明实施例的语音合成方法，首先获取待合成文本，对待合成文本进行分词，然后对分词后的待合成文本进行词性标注，并通过韵律预测模型对词性标注后的待合成文本进行韵律预测，以生成待合成文本的韵律特征，进而根据分词结果、词性标注结果和韵律特征对待合成文本进行注音，以生成待合成文本的注音结果，并将注音结果、韵律特征及待合成文本的上下文特征输入至第二目标用户声学模型，通过第二目标用户声学模型对待合成文本进行声学预测，以生成待合成文本的声学参数序列，最后根据声学参数序列生成待合成文本的语音合成结果，由此，使得语音合成***中合成出的语音合成结果中包含目标用户的语音特点，满足了用户生成个性化语音的需求，提升了用户体验。

为达上述目的，本发明第四方面实施例提出了一种用于语音合成的个性化多声学模型的训练装置，包括：第一模型训练模块，用于基于训练语音数据的第一声学特征数据和与所述训练语音数据对应的第一文本标注数据，训练基准声学模型；获取模块，用于获取目标用户的语音数据；第二模型训练模块，用于根据所述基准声学模型和所述语音数据，训练第一目标用户声学模型；生成模块，用于根据所述第一目标用户声学模型和所述第一文本标注数据生成所述第一文本标注数据的第二声学特征数据；以及第三模型训练模块，用于基于所述第一文本标注数据和所述第二声学特征数据，训练第二目标用户声学模型。

本发明实施例的用于语音合成的个性化多声学模型的训练装置，通过第一模型训练模块基于训练语音数据的第一声学特征数据和与训练语音数据对应的第一文本标注数据，训练基准声学模型，获取模块获取目标用户的语音数据，并第二模型训练模块根据基准声学模型和语音数据，训练第一目标用户声学模型，进而生成模块根据第一目标用户声学模型和第一文本标注数据生成第一文本标注数据的第二声学特征数据，最后第三模型训练模块基于第一文本标注数据和第二声学特征数据，训练第二目标用户声学模型，由此，在训练目标用户声学模型过程中，降低了对目标用户的语音数据的规模的要求，例如可以从几千句的规模降低到几百句甚至几十句，即可以利用少量的用户语音数据就可训练出多个包含目标用户的语音特点的个性化声学模型，进而可满足个性化语音需求，提升了用户体验度。

为达上述目的，本发明第五方面实施例提出了一种使用本发明第四方面实施例所述的第一目标用户声学模型进行语音合成的装置，包括：获取模块，用于获取待合成文本；分词模块，用于对所述待合成文本进行分词；词性标注模块，用于对分词后的待合成文本进行词性标注；韵律预测模块，用于通过韵律预测模型对词性标注后的待合成文本进行韵律预测，以生成所述待合成文本的韵律特征；注音模块，用于根据分词结果、词性标注结果和所述韵律特征对所述待合成文本进行注音，以生成所述待合成文本的注音结果；声学预测模块，用于将所述注音结果、所述韵律特征及所述待合成文本的上下文特征输入至第一目标用户声学模型，通过所述第一目标用户声学模型对所述待合成文本进行声学预测，以生成所述待合成文本的声学参数序列；以及语音合成模块，用于根据所述声学参数序列生成所述待合成文本的语音合成结果。

本发明实施例的语音合成装置，首先通过获取模块获取待合成文本，然后分词模块对待合成文本进行分词，词性标注模块对分词后的待合成文本进行词性标注，韵律预测模块通过韵律预测模型对词性标注后的待合成文本进行韵律预测，以生成待合成文本的韵律特征，进而注音模块根据分词结果、词性标注结果和韵律特征对待合成文本进行注音，以生成待合成文本的注音结果，并声学预测模块将注音结果、韵律特征及待合成文本的上下文特征输入至第一目标用户声学模型，通过第一目标用户声学模型对待合成文本进行声学预测，以生成待合成文本的声学参数序列，最后声学预测模块根据声学参数序列生成待合成文本的语音合成结果，由此，使得语音合成***中合成出的语音合成结果中包含目标用户的语音特点，满足了用户生成个性化语音的需求，提升了用户体验。

为达上述目的，本发明第六方面实施例提出了一种使用本发明第四方面实施例所述的第二目标用户声学模型进行语音合成的装置，包括：获取模块，用于获取待合成文本；分词模块，用于对所述待合成文本进行分词；词性标注模块，用于对分词后的待合成文本进行词性标注；韵律预测模块，用于通过韵律预测模型对词性标注后的待合成文本进行韵律预测，以生成所述待合成文本的韵律特征；注音模块，用于根据所述分词结果、词性标注结果和韵律特征对所述待合成文本进行注音，以生成所述待合成文本的注音结果；声学预测模块，用于将所述注音结果、所述韵律特征及所述待合成文本的上下文特征输入至第二目标用户声学模型，通过所述第二目标用户声学模型对所述待合成文本进行声学预测，以生成所述待合成文本的声学参数序列；以及语音合成模块，用于根据所述声学参数序列生成所述待合成文本的语音合成结果。

本发明实施例的语音合成装置，首先通过获取模块获取待合成文本，然后分词模块对待合成文本进行分词，词性标注模块对分词后的待合成文本进行词性标注，韵律预测模块通过韵律预测模型对词性标注后的待合成文本进行韵律预测，以生成待合成文本的韵律特征，进而注音模块根据分词结果、词性标注结果和韵律特征对待合成文本进行注音，以生成待合成文本的注音结果，并声学预测模块将注音结果、韵律特征及待合成文本的上下文特征输入至第二目标用户声学模型，通过第二目标用户声学模型对待合成文本进行声学预测，以生成待合成文本的声学参数序列，最后声学预测模块根据声学参数序列生成待合成文本的语音合成结果，由此，使得语音合成***中合成出的语音合成结果中包含目标用户的语音特点，满足了用户生成个性化语音的需求，提升了用户体验。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

图1是本发明一个实施例的用于语音合成的个性化多声学模型的训练方法的流程图。

图2是步骤S13的细化流程图。

图3是根据本发明一个实施例的语音合成方法的流程图。

图4是根据本发明另一个实施例的语音合成方法的流程图。

图5是本发明一个实施例的用于语音合成的个性化多声学模型的训练装置的结构示意图。

图6是本发明另一个实施例的用于语音合成的个性化多声学模型的训练装置的结构示意图

图7是根据本发明一个实施例的语音合成装置的结构示意图。

图8是根据本发明另一个实施例的语音合成装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的用于语音合成的个性化多声学模型的训练方法、语音合成方法及装置。

如图1所示，该用于语音合成的个性化多声学模型的训练方法包括：

S11，基于训练语音数据的第一声学特征数据和与训练语音数据对应的第一文本标注数据，训练基准声学模型。

具体地，为了使得训练得到的基准声学模型具有较好的音子覆盖和韵律覆盖能力，且能够描述多种语音现象，可先设计一定数量的录音文本语料，然后挑选合适的发音人，以获取大规模非目标用户的训练语音数据，以及提取训练语音数据的第一声学特征数据，并对与训练语音数据对应录音文本语料进行标注，以获得训练语音数据的第一文本标注数据。

其中，第一声学特征数据中包含时长、谱、基频等声学特征。

其中，第一文本标注数据包含拼音、韵律层级标注等文本特征。

在获得训练语音数据的第一声学特征数据和与训练数据语音数据对应的第一文本标注数据后，可通过神经网络对第一声学特征数据和第一文本标注数据进行训练，并根据训练结果生成基准声学模型。

S12，获取目标用户的语音数据。

其中，语音数据中包含目标用户的语音特点。

具体地，获取目标用户的语音数据的方式有多种，在实际应用中，可根据需要选择，例如，可通过采用现场录制的方式获取目标用户的语音数据，或者直接使用目标用户现有的语音数据。

下面以采用现场录制的方式详细说明获取目标用户的语音数据的过程。

一般情况下，首先根据音子覆盖以及韵律覆盖等指标，预先设计录音文本，并提供给目标用户进行朗读，以获得目标用户的语音数据。

在设计录音文本时，例如汉语文本，优选的，设置录音文本包含全部的声韵母，以提高后续模型训练的准确度。

需要说明的是，本发明可以直接由用户设备录制目标用户的语音数据，并执行后续操作，还可以由用户设备录制目标用户的语音数据后，并发送网络设备，由网络设备执行后续操作。

其中，需要说明的是，上述用户设备可以是计算机、智能手机和平板电脑等具有各种操作***的硬件设备，上述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或给予云计算的由大量计算机或网络服务器构成的云。

进一步的，在录制目标用户的语音数据时，优选的，将目标用户的语音数据进行实时保存，若目标用户不能一次性完成全部目标用户的语音数据的录制，可保留当前录制的目标用户的语音数据，并在下次录制时，继续完成剩余未录制的目标用户的语音数据。

S13，根据基准声学模型和语音数据，训练第一目标用户声学模型。

在获取目标用户的语音数据后，可在基准声学模型基础上，利用目标用户的语音数据，通过自适应技术，例如，可通过LSTM(Long Short-Term Memory，长短时记忆网络)神经网络结构或双向LSTM神经网络结构，训练第一目标用户声学模型，使基准声学模型自适应更新为第一目标用户声学模型。

通过上述描述，可知基准声学模型是基于大规模的训练语音数据，通过神经网络结构训练得到的，且基准声学模型具有较好的音子覆盖和韵律覆盖能力，能够较多的语音现象。因此，基准声学模型已构建好模型的框架结构，例如多层神经网络结构以及神经元连接关系等，所以在训练第一目标用户声学模型时，仅需获取少量目标用户的语音数据，在上述基准声学模型基础上，自适应训练更新即可获得第一目标用户声学模型，使第一目标用户声学模型不仅具有基准声学模型中的通用信息，还具有目标用户的语音特点。

具体地，在本发明的一个实施例中，根据基准声学模型和语音数据，训练第一目标用户声学模型的过程，如图2所示，可以包括：

S131，对语音数据进行声学特征提取，以获取语音数据的第三声学特征数据。

可选的，在对语音数据进行声学特征提取之前，还可以包括对目标用户的语音数据进行数据降噪、数据检测、数据筛选以及切分等预处理，例如滤除目标用户的语音数据中的空白数据段等，以提高用于训练第一目标用户数据的语音数据的准确性。

具体地，可从目标用户的语音数据中提取出时长、频谱和基频等声学特征。

S132，对语音数据进行语音标注，以获取语音数据的第二文本标注数据。

具体地，在获得语音数据后，可通过自动识别方法或人工标注方法对语音数据进行语音标注，以获取语音数据的第二文本标注数据。

其中，第二文本标注数据包含拼音、韵律层级标注等文本特征数据。

S133，根据基准声学模型、第三声学特征数据和第二文本标注数据，训练第一目标用户声学模型。

具体地，在获得目标用户的语音数据的第三声学特征数据和第二文本标注数据后，可先获取基准声学模型的神经网络结构，然后，根据第三声学特征数据、第二文本标注数据以及基准声学模型的神经网络结构，训练第一目标用户声学模型。

具体而言，根据第三声学特征数据、第二文本标注数据以及基准声学模型的神经网络结构，通过神经网络自适应技术，进行迭代运算，更新基准声学模型神经网络结构中神经元的连接权值等参数，以获得具有目标用户语音特点的第一目标用户声学模型。

S14，根据第一目标用户声学模型和第一文本标注数据生成第一文本标注数据的第二声学特征数据。

具体地，为了可以生成多种复杂度的声学模型，满足在不同终端设备上的使用要求，在获得第一目标用户声学模型后，还可以将构建基准声学模型的第一文本标注数据输入至第一目标用户声学模型中，以生成第一文本标注数据对应的第二声学特征数据。由此，获取一个较大规模的具有目标用户的语音特点的声学特征数据。

其中，第二声学特征数据包含时长、谱、基频等声学特征。

S15，基于第一文本标注数据和第二声学特征数据，训练第二目标用户声学模型。

具体地，基于隐马尔可夫模型(HMM，Hidden Markov Models)，对第一文本标注数据和第二声学特征数据进行训练，并根据训练结果建立第二目标用户声学模型。由于第二声学特征数据中已经涵盖了目标用户的语音特点，因此，训练所得到的第二目标用户声学模型，能够较好地描述不同上下文情况下的个性化声音特点。相对于直接根据目标用户的语音数据直接训练所获得的HMM声学模型来说，第二目标用户声学模型可以覆盖更广泛的语言现象。而且，由于其应用到语音合成***中的运算量远小于基于LSTM神经网络或者双向LSTM神经网络进行预测的运算量，所以非常适合一些运算能力较低的设备。

可以理解，上述训练所获得的多个声学模型是应用于语音合成***中的。在语音合成***中，声学模型是整个***的基础之一。因此，在通过本发明实施例的训练方法生成多个目标用户的声学模型之后，可将多个声学模型应用到语音合成***中，此时，用户可根据自己的设备情况，或者意愿，有选择地选择语音合成***中所使用的个性化的声学模型，语音合成***将根据用户所选择的声学模型进行语音合成。为此，本发明还提出了一种语音合成方法。

图3是根据本发明一个实施例的语音合成方法的流程图。在该实施例中，假定用户选择用第一目标用户声学模型进行语音合成。另外，需要说明的是，本发明实施例的语音合成方法所使用的第一目标用户声学模型是由前述实施例的用于语音合成的个性化多声学模型的训练方法所生成的。

如图3所示，该语音合成方法可以包括：

S301，获取待合成文本，对待合成文本进行分词。

S302，对分词后的待合成文本进行词性标注，并通过韵律预测模型对词性标注后的待合成文本进行韵律预测，以生成待合成文本的韵律特征。

S303，根据分词结果、词性标注结果和韵律特征对待合成文本进行注音，以生成待合成文本的注音结果。

例如，待合成文本为：我们一家人去上海，可提取该待合成文本的字面特征和词性特征，然后，注音词典根据韵律特征、字面特征和词性特征对待合成文件进行注音，以生成待合成文本的注音结果。

S304，将注音结果、韵律特征及待合成文本的上下文特征输入至第一目标用户声学模型，通过第一目标用户声学模型对待合成文本进行声学预测，以生成待合成文本的声学参数序列。

具体地，可将待合成文本的注音结果、韵律特征及上下文信息输入到声学预测模型中，从而对待合成文本进行声学预测，生成对应的时长、谱、基频等声学参数序列。

S305，根据声学参数序列生成待合成文本的语音合成结果。

具体地，可利用声码器根据声学参数序列合成语音信号，从而生成最终的语音合成结果。

图4是根据本发明另一个实施例的语音合成方法的流程图。在该实施例中，假定用户选择用第二目标用户声学模型进行语音合成。另外，需要说明的是，本发明实施例的语音合成方法所使用的第二目标用户声学模型是由前述实施例的用于语音合成的个性化多声学模型的训练方法所生成的。

如图4所示，该语音合成方法可以包括：

S401，获取待合成文本，对待合成文本进行分词。

S402，对分词后的待合成文本进行词性标注，并通过韵律预测模型对词性标注后的待合成文本进行韵律预测，以生成待合成文本的韵律特征。

S403，根据韵律特征对待合成文本进行注音，以生成待合成文本的注音结果。

S404，将注音结果、韵律特征及待合成文本的上下文特征输入至第二目标用户声学模型，通过第二目标用户声学模型对待合成文本进行声学预测，以生成待合成文本的声学参数序列。

S405，根据声学参数序列生成待合成文本的语音合成结果。

需要说明的是，第二目标用户声学模型可以覆盖更广泛的语言现象，因此，通过第二目标用户声学模型所合成的语音数据更加准确。

为了实现上述实施例，本发明还提出了一种用于语音合成的个性化多声学模型的训练装置。

如图5所示，该用于语音合成的个性化多声学模型的训练装置包括第一模型训练模块 110、获取模块120、第二模型训练模块130、生成模块140和第三模型训练模块150。

具体地，第一模型训练模块110用于基于训练语音数据的第一声学特征数据和与训练语音数据对应的第一文本标注数据，训练基准声学模型。

获取模块120用于获取目标用户的语音数据。

具体地，获取模块120获取目标用户的语音数据的方式有多种，在实际应用中，可根据需要选择，例如，获取模块120可通过采用现场录制的方式获取目标用户的语音数据，或者直接使用目标用户现有的语音数据。

第二模型训练模块130用于根据基准声学模型和语音数据，训练第一目标用户声学模型。

具体地，在获取模块120获取目标用户的语音数据后，第二模型训练模块130可在基准声学模型基础上，利用目标用户的语音数据，通过自适应技术，例如，可通过LSTM(Long Short-Term Memory，长短时记忆网络)神经网络结构或者双向LSTM神经网络结构，训练第一目标用户声学模型，使基准声学模型自适应更新为第一目标用户声学模型。

如图6所示，上述第二模型训练模块130可以包括提取单元131、语音标注模块132和模型训练单元133，其中：

提取单元131用于对语音数据进行声学特征提取，以获取语音数据的第三声学特征数据。

语音标注模块132用于对语音数据进行语音标注，以获取语音数据的第二文本标注数据。

模型训练单元133用于根据基准声学模型、第三声学特征数据和第二文本标注数据，训练第一目标用户声学模型。

其中，第三声学特征数据包含时长、频谱和基频等声学特征。即提取单元131可从语音数据中提取出时长、频谱和基频等声学特征。

模型训练单元133具体用于：获取基准声学模型的神经网络结构，并根据第三声学特征数据、第二文本标注数据以及基准声学模型的神经网络结构，训练第一目标用户声学模型。

生成模块140用于根据第一目标用户声学模型和第一文本标注数据生成第一文本标注数据的第二声学特征数据。

其中，第二声学特征数据包含时长、谱、基频等声学特征。

第三模型训练模块150用于基于第一文本标注数据和第二声学特征数据，训练第二目标用户声学模型。

具体地，第三模型训练模块150可基于隐马尔可夫模型，对第一文本标注数据和第二声学特征数据进行训练，并根据训练结果建立第二目标用户声学模型。

需要说明的是，前述对用于语音合成的个性化多声学模型的训练方法实施例的解释说明也适用于该实施例的用于语音合成的个性化多声学模型的训练装置，此处不再赘述。

为了实现上述实施例，本发明还提出了一种语音合成装置。

图7是根据本发明一个实施例的语音合成装置的结构示意图。需要说明的是，本发明实施例的语音合成装置所使用的第一目标用户声学模型是由上述任一个实施例的用于语音合成的个性化多声学模型的训练装置所生成的。

如图7所示，该语音合成装置可以包括获取模块210、分词模块220、词性标注模块230、韵律预测模块240、注音模块250、声学预测模块260和语音合成模块270，其中：

获取模块210用于获取待合成文本；分词模块220用于对待合成文本进行分词。

词性标注模块230用于对分词后的待合成文本进行词性标注。

韵律预测模块240用于通过韵律预测模型对词性标注后的待合成文本进行韵律预测，以生成待合成文本的韵律特征。

注音模块250用于根据分词结果、词性标注结果和韵律特征对待合成文本进行注音，以生成待合成文本的注音结果。

声学预测模块260用于将注音结果、韵律特征及待合成文本的上下文特征输入至第一目标用户声学模型，通过第一目标用户声学模型对待合成文本进行声学预测，以生成待合成文本的声学参数序列。

语音合成模块270用于根据声学参数序列生成待合成文本的语音合成结果。

需要说明的是，前述对语音合成方法实施例的解释说明也适用于该实施例的语音合成装置，此处不再赘述。

为了实现上述实施例，本发明还提出了一种语音合成装置。

图8是根据本发明另一个实施例的语音合成装置的结构示意图。需要说明的是，本发明实施例的语音合成装置所使用的第二目标用户声学模型是由上述任一个实施例的用于语音合成的个性化多声学模型的训练装置所生成的。

如图8所示，该语音合成装置可以包括获取模块310、分词模块320、词性标注模块330、韵律预测模块340、注音模块350、声学预测模块360和语音合成模块370，其中：

获取模块310用于获取待合成文本；分词模块220用于对待合成文本进行分词。

词性标注模块330用于对分词后的待合成文本进行词性标注。

韵律预测模块340用于通过韵律预测模型对词性标注后的待合成文本进行韵律预测，以生成待合成文本的韵律特征。

注音模块350用于根据分词结果、词性标注结果和韵律特征对待合成文本进行注音，以生成待合成文本的注音结果。

声学预测模块360用于将注音结果、韵律特征及待合成文本的上下文特征输入至第二目标用户声学模型，通过第二目标用户声学模型对待合成文本进行声学预测，以生成待合成文本的声学参数序列。

语音合成模块370用于根据声学参数序列生成待合成文本的语音合成结果。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用，或结合这些指令执行***、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

一种用于语音合成的个性化多声学模型的训练方法，其特征在于，包括以下步骤：

基于训练语音数据的第一声学特征数据和与所述训练语音数据对应的第一文本标注数据，训练基准声学模型；

获取目标用户的语音数据；

根据所述基准声学模型和所述语音数据，训练第一目标用户声学模型；

根据所述第一目标用户声学模型和所述第一文本标注数据生成所述第一文本标注数据的第二声学特征数据；以及

基于所述第一文本标注数据和所述第二声学特征数据，训练第二目标用户声学模型。
如权利要求1所述的方法，其特征在于，所述根据所述基准声学模型和所述语音数据，训练第一目标用户声学模型，具体包括：

对所述语音数据进行声学特征提取，以获取所述语音数据的第三声学特征数据；

对所述语音数据进行语音标注，以获取所述语音数据的第二文本标注数据；

根据所述基准声学模型、所述第三声学特征数据和所述第二文本标注数据，训练所述第一目标用户声学模型。
如权利要求1或2所述的方法，其特征在于，所述根据所述基准声学模型、所述第三声学特征数据和所述第二文本标注数据，训练所述第一目标用户声学模型，具体包括：

获取所述基准声学模型的神经网络结构；

根据所述第三声学特征数据、所述第二文本标注数据以及所述基准声学模型的神经网络结构，训练所述第一目标用户声学模型。
如权利要求1-3中任一项所述的方法，其特征在于，所述基于所述第一文本标注数据和所述第二声学特征数据，训练第二目标用户声学模型，具体包括：

基于隐马尔可夫模型，对所述第一文本标注数据和所述第二声学特征数据进行训练，并根据训练结果建立所述第二目标用户声学模型。
一种使用如权利要求1至4中任一项所述的第一目标用户声学模型进行语音合成的方法，其特征在于，包括：

获取待合成文本，对所述待合成文本进行分词；

对分词后的待合成文本进行词性标注，并通过韵律预测模型对词性标注后的待合成文本进行韵律预测，以生成所述待合成文本的韵律特征；

根据分词结果、词性标注结果和所述韵律特征对所述待合成文本进行注音，以生成所述待合成文本的注音结果；

将所述注音结果、所述韵律特征及所述待合成文本的上下文特征输入至第一目标用户声学模型，通过所述第一目标用户声学模型对所述待合成文本进行声学预测，以生成所述待合成文本的声学参数序列；以及

根据所述声学参数序列生成所述待合成文本的语音合成结果。
一种使用如权利要求1至4中任一项所述的第二目标用户声学模型进行语音合成的方法，其特征在于，包括：

获取待合成文本，对所述待合成文本进行分词；

对分词后的待合成文本进行词性标注，并通过韵律预测模型对词性标注后的待合成文本进行韵律预测，以生成所述待合成文本的韵律特征；

根据分词结果、词性标注结果和所述韵律特征对所述待合成文本进行注音，以生成所述待合成文本的注音结果；

将所述注音结果、所述韵律特征及所述待合成文本的上下文特征输入至第二目标用户声学模型，通过所述第二目标用户声学模型对所述待合成文本进行声学预测，以生成所述待合成文本的声学参数序列；以及

根据所述声学参数序列生成所述待合成文本的语音合成结果。
一种用于语音合成的个性化多声学模型的训练装置，其特征在于，包括：

第一模型训练模块，用于基于训练语音数据的第一声学特征数据和与所述训练语音数据对应的第一文本标注数据，训练基准声学模型；

获取模块，用于获取目标用户的语音数据；

第二模型训练模块，用于根据所述基准声学模型和所述语音数据，训练第一目标用户声学模型；

生成模块，用于根据所述第一目标用户声学模型和所述第一文本标注数据生成所述第一文本标注数据的第二声学特征数据；以及

第三模型训练模块，用于基于所述第一文本标注数据和所述第二声学特征数据，训练第二目标用户声学模型。
如权利要求7所述的装置，其特征在于，所述第二模型训练模块，具体包括：

提取单元，用于对所述语音数据进行声学特征提取，以获取所述语音数据的第三声学特征数据；

语音标注模块，用于对所述语音数据进行语音标注，以获取所述语音数据的第二文本标注数据；

模型训练单元，用于根据所述基准声学模型、所述第三声学特征数据和所述第二文本标注数据，训练所述第一目标用户声学模型。
如权利要求7或8所述的装置，其特征在于，所述模型训练单元，具体用于：

获取所述基准声学模型的神经网络结构，并根据所述第三声学特征数据、所述第二文本标注数据以及所述基准声学模型的神经网络结构，训练所述第一目标用户声学模型。
如权利要求7-9中任一项所述的装置，其特征在于，所述第三模型训练模块，具体用于：

基于隐马尔可夫模型，对所述第一文本标注数据和所述第二声学特征数据进行训练，并根据训练结果建立所述第二目标用户声学模型。
一种使用如权利要求7至10中任一项所述的第一目标用户声学模型进行语音合成的装置，其特征在于，包括：

获取模块，用于获取待合成文本；

分词模块，用于对所述待合成文本进行分词；

词性标注模块，用于对分词后的待合成文本进行词性标注；

韵律预测模块，用于通过韵律预测模型对词性标注后的待合成文本进行韵律预测，以生成所述待合成文本的韵律特征；

注音模块，用于根据分词结果、词性标注结果和所述韵律特征对所述待合成文本进行注音，以生成所述待合成文本的注音结果；

声学预测模块，用于将所述注音结果、所述韵律特征及所述待合成文本的上下文特征输入至第一目标用户声学模型，通过所述第一目标用户声学模型对所述待合成文本进行声学预测，以生成所述待合成文本的声学参数序列；以及

语音合成模块，用于根据所述声学参数序列生成所述待合成文本的语音合成结果。
一种使用如权利要求7至10中任一项所述的第二目标用户声学模型进行语音合成的装置，其特征在于，包括：

获取模块，用于获取待合成文本；

分词模块，用于对所述待合成文本进行分词；

词性标注模块，用于对分词后的待合成文本进行词性标注；

韵律预测模块，用于通过韵律预测模型对词性标注后的待合成文本进行韵律预测，以生成所述待合成文本的韵律特征；

注音模块，用于根据分词结果、词性标注结果和所述韵律特征对所述待合成文本进行注音，以生成所述待合成文本的注音结果；

声学预测模块，用于将所述注音结果、所述韵律特征及所述待合成文本的上下文特征输入至第二目标用户声学模型，通过所述第二目标用户声学模型对所述待合成文本进行声学预测，以生成所述待合成文本的声学参数序列；以及

语音合成模块，用于根据所述声学参数序列生成所述待合成文本的语音合成结果。