CN111667814B

CN111667814B - 一种多语种的语音合成方法及装置

Info

Publication number: CN111667814B
Application number: CN202010454894.7A
Authority: CN
Inventors: 杜慷; 陈孝良; 冯大航
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2020-05-26
Filing date: 2020-05-26
Publication date: 2023-09-12
Anticipated expiration: 2040-05-26
Also published as: CN111667814A

Abstract

本申请公开了一种多语种的语音合成方法及装置。该方法采用预设分析算法，对获取的已知语种类别的待合成文本的音素序列进行分析，获取待合成文本的语义特征；根据语音合成需求，从存储的语料信息库中，获取目标语种类别和目标音色特征；采用预设语音合成算法，对目标语种类别、目标音色特征和待合成文本的语义特征进行合成，得到具有目标语种类别和目标音色特征的合成语音。该方法可以实现合成特定音色和特定语言的合成语音，即实现多语种的语音合成，提高了语音合成设备的合成目标的清晰度。

Description

一种多语种的语音合成方法及装置

技术领域

本申请涉及语音合成的技术领域，尤其涉及一种多语种的语音合成方法及装置。

背景技术

语音合成是通过机器将文字转换为声音的技术，又被称为文语转换(Test-To-Speech，TTS)，目前，语音合成技术在国际上已经取得了普遍发展，各种语言都有各自的语音合成***，为了让***具有更好的重用性、通用性和扩展性，多语种的语音合成便成为了国内外研究的热点，多语种的语音合成是指能够用一个语音合成***取得不同说话人、不同语种的合成语音。

下面以中英双语为例，双语种的语音合成模型训练方式包括：

方式一，将录制的一个说话人的汉语语料和英语语料作为双语种的训练语料对语音合成模型进行训练，然而，训练得到的语音合成模型仅能取得具有该说话人信息(如音色)的中文或英文的合成语音，扩展性不高，且训练语音合成模型需要的双语种的训练语料量较大，导致双语录制成本较高。

方式二，使用多说话人的扩展模型，将录制的每个说话人说出的一种语种的语料作为双语种的训练语料对语音合成模型进行训练。然而，训练得到的语音合成模型，仅能合成与训练语料中音色和语种绑定的合成语音，也就是说，不能合成指定音色、指定语种的合成语音。

发明内容

本申请实施例提供一种多语种的语音合成方法及装置，解决了现有技术存在的上述问题，以实现合成指定音色、指定语种的合成语音。

第一方面，提供了一种多语种的语音合成方法，该方法可以包括：

采用预设分析算法，对获取的已知语种类别的待合成文本的音素序列进行分析，获取所述待合成文本的语义特征；

根据语音合成需求，从存储的语料信息库中，获取目标语种类别和目标音色特征；

采用预设语音合成算法，对所述目标语种类别、所述目标音色特征和所述待合成文本的语义特征进行合成，得到具有所述目标语种类别和所述目标音色特征的合成语音。

在一个可选的实现中，根据语音合成需求，从存储的语料信息库中，获取目标语种类别和目标音色特征之前，所述方法还包括：

获取不同说话人使用不同语种录制的训练音频；

采用预设的信息提取算法，对每个训练音频的语种类别和音色特征进行提取，得到相应训练音频包含的语种类别和音色特征；

存储获取的训练音频中包含的语种类别和音色特征，得到语料信息库。

在一个可选的实现中，采用预设的信息提取算法，对每个训练音频的语种类别和音色特征进行提取，得到相应训练音频包含的语种类别和音色特征，包括：

采用预先训练的音色特征提取模型，对每个训练音频的音色特征进行提取，得到所述每个训练音频包含的音色特征；

采用预设的语种类别提取算法，对每个训练音频的语种类别进行提取，得到所述每个训练音频包含的语种类别；

在一个可选的实现中，所述音色特征提取模型的训练方法包括：

获取当前说话人标识对应的训练音频的声谱特征；

将所述声谱特征输入待训练的DNN-14模型，获取所述待训练的DNN-14模型输出的说话人标识，所述待训练的DNN-14模型包括14个网络层；

根据预设损失算法，对所述当前说话人标识与所述输出的说话人标识进行损失运算，得到损失值；

若根据所述损失值，检测出所述待训练的DNN-14模型处于收敛状态，则将处于收敛状态的DNN-14模型的第12个网络层输出的特征信息确定为所述当前说话人标识对应的音色特征。

在一个可选的实现中，采用预设分析算法，对获取的已知语种类别的待合成文本的音素序列进行分析，获取所述待合成文本的语义特征，包括：

采用预先训练的编码器，对获取的已知语种类别的待合成文本的音素序列进行分析，获取所述待合成文本的语义特征。

在一个可选的实现中，所述编码模型的训练方法包括：

获取不同说话人使用不同语种录制的训练音频，以及所述训练音频对应的训练文本；

将已知语种类别的训练文本的音素序列输入待训练的编码器，获取训练文本的文本信息，所述训练文本的文本信息包括所述训练文本的语义特征、所述已知语种类别和所述训练文本对应的音色特征；

采用说话人对抗损失函数，对所述训练文本的文本信息进行运算，得到所述训练文本对应的音色特征参数和所述音色特征参数对应的更新梯度；所述更新梯度用于修改所述待训练的编码器中所述音色特征参数的权重；

根据所述更新梯度，获取更新后的待训练编码模型；

若将已知语种类别的新训练文本的音素序列输入所述更新后的待训练的编码器，获取到的所述新训练文本的文本信息仅包括所述新训练文本的语义特征，则将所述更新后的待训练的编码模型确定为训练出的编码器。

在一个可选的实现中，所述说话人对抗损失函数表示为：

其中，si为说话人标识，ψs为所述待训练的编码中音色特征参数，Ti为所述文本信息的文本标识，N为所述文本标识的数量。

第二方面，提供了一种多语种的语音合成装置，该装置可以包括：分析单元、获取单元和合成单元；

所述分析单元，用于采用预设分析算法，对获取的已知语种类别的待合成文本的音素序列进行分析，获取所述待合成文本的语义特征；

所述获取单元，用于根据语音合成需求，从存储的语料信息库中，获取目标语种类别和目标音色特征；

所述合成单元，用于采用预设语音合成算法，对所述目标语种类别、所述目标音色特征和所述待合成文本的语义特征进行合成，得到具有所述目标语种类别和所述目标音色特征的合成语音。

在一个可选的实现中，所述装置还包括提取单元和存储单元；

所述获取单元，还用于获取不同说话人使用不同语种录制的训练音频；

所述提取单元，用于采用预设的信息提取算法，对每个训练音频的语种类别和音色特征进行提取，得到相应训练音频包含的语种类别和音色特征；

所述存储单元，用于存储获取的训练音频中包含的语种类别和音色特征，得到语料信息库。

在一个可选的实现中，所述提取单元，还用于采用预先训练的音色特征提取模型，对每个训练音频的音色特征进行提取，得到所述每个训练音频包含的音色特征；

采用预设的语种类别提取算法，对每个训练音频的语种类别进行提取，得到所述每个训练音频包含的语种类别。

在一个可选的实现中，所述装置还包括运算单元和确定单元；

所述获取单元，还用于获取当前说话人标识对应的训练音频的声谱特征；

以及，将所述声谱特征输入待训练的DNN-14模型，获取所述待训练的DNN-14模型输出的说话人标识，所述待训练的DNN-14模型包括14个网络层；

所述运算单元，用于根据预设损失算法，对所述当前说话人标识与所述输出的说话人标识进行损失运算，得到损失值；

所述确定单元，用于若根据所述损失值，检测出所述待训练的DNN-14模型处于收敛状态，则将处于收敛状态的DNN-14模型的第12个网络层输出的特征信息确定为所述当前说话人标识对应的音色特征。

在一个可选的实现中，所述获取单元，还用于采用预先训练的编码器，对获取的已知语种类别的待合成文本的音素序列进行分析，获取所述待合成文本的语义特征。

在一个可选的实现中，所述获取单元，还用于获取不同说话人使用不同语种录制的训练音频，以及所述训练音频对应的训练文本；

根据所述更新梯度，获取更新后的待训练编码模型；

在一个可选的实现中，所述说话人对抗损失函数表示为：

其中，si为说话人标识，ψs为所述待训练的编码音色特征参数，Ti为所述文本信息的文本标识，N为所述文本标识的数量。

第三方面，提供了一种电子设备，该电子设备包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述第一方面中任一所述的方法步骤。

第四方面，提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面中任一所述的方法步骤。

本发明实施例提供的多语种的语音合成方法，采用预设分析算法，对获取的已知语种类别的待合成文本的音素序列进行分析，获取待合成文本的语义特征；根据语音合成需求，从存储的语料信息库中，获取目标语种类别和目标音色特征；采用预设语音合成算法，对目标语种类别、目标音色特征和待合成文本的语义特征进行合成，得到具有目标语种类别和目标音色特征的合成语音。该方法可以实现合成特定音色和特定语言的合成语音，即实现多语种的语音合成，提高了语音合成设备的合成目标的清晰度。

附图说明

图1为本发明实施例提供的一种语音合成设备的结构示意图；

图2为本发明实施例提供的一种多语种的语音合成方法的流程示意图；

图3为本发明实施例提供的一种编码器的训练模型的结构示意图；

图4为本发明实施例提供的一种编码器的训练方法的流程示意图；

图5为本发明实施例提供的一种多语种的语音合成装置的结构示意图；

图6为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，并不是全部的实施例。基于本申请实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本发明实施例提供的多语种的语音合成方法应用在一个语音合成设备中。如图1所示，语音合成设备可以包括TTS前端模块、TTS后端模块和TTS声码器。

TTS前端模块，用于采用预设的文本分析算法，将已知语种类型的待合成文本进行分析，得到已知语种类型的待合成文本对应的音素序列，也就是说，不同语种类型对应不同的音素序列。

其中，TTS前端模型可以包含不同语种类型的文本归一化模型，分词模型，词性标注模型，韵律模型，重音模型，多音字预测模型等。

TTS后端模块，用于采用预设的分析算法，从待合成文本的音素序列中分析出该待合成文本的语义特征(或称“文本特征信息”)，并基于该语义特征以及获取的语音合成需求中指定的目标语种类别和目标音色特征，得到满足语音合成需求的待合成的声谱特征。

TTS后端模块主要在基于声谱预测网络Tacotron-2模型基础上增加跨语种类型的语音合成功能。Tacotron-2模型是一个基于编码器-解码器(encoder-decoder)结构的注意力机制模型。其中，编码器从待合成文本的音素序列中获取语义特征，并传输至解码器；解码器在获取语音合成需求后，基于该语音合成需求，对语义特征进行语音转换，得到满足语音合成需求的待合成的声谱特征。

TTS声码器模块，用于采用预设转换算法，将TTS后端模块得到的待合成的声谱特征转换为具有目标语种类别和目标音色特征的合成语音。该声码器模块可以采用parallelwavenet模型。

该语音合成设备可以位于服务器中，也可以位于终端中。服务器可以是具有较强计算能力的应用服务器或云服务器；终端可以是具有较强的计算能力与语音采集功能的移动电话、智能电话、笔记本电脑、数字广播接收器、个人数字助理(PDA)、平板电脑(PAD)等用户设备(User Equipment，UE)、手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其它处理设备、移动台(Mobile station，MS)、移动终端(Mobile Terminal)等。该终端具备经无线接入网(Radio Access Network，RAN)与一个或多个核心网进行通信的能力。

图2为本发明实施例提供的一种多语种的语音合成方法的流程示意图。如图1所示，该方法可以包括：

步骤210、采用预设分析算法，对获取的已知语种类别的待合成文本的音素序列进行分析，获取待合成文本的语义特征。

语音合成设备中的TTS前端模块可以对已知语种类型的待合成文本进行文本分析，即文本归一化、分词、词性标注、韵律、重音、多音字预测等分析，得到已知语种类型的待合成文本对应的音素序列。

具体的，可以采用预先训练的编码器，对已知语种类别的待合成文本的音素序列进行分析，获取待合成文本的语义特征。也就是说，已知语种类别的待合成文本的音素序列通过预先训练的编码器仅能得到待合成文本的语义特征，不能得到待合成文本的已知语种类别等非语义特征的信息。

步骤220、根据语音合成需求，从存储的语料信息库中，获取目标语种类别和目标音色特征。

在执行该步骤之前，需要获取语料信息库。

具体的，获取不同说话人使用不同语种录制的训练音频。

例如，可以使用500多位说话人录制的音频作为训练音频，每个训练音频可以包括说话人标识、语种类型、音频内容和说话人的声学特征，如音色特征等。

采用预设的信息提取算法，对每个训练音频的语种类别和音色特征进行提取，得到相应训练音频包含的语种类别和音色特征。

具体的，采用预先训练的音色特征提取模型，对每个训练音频的音色特征进行提取，得到每个说话人标识对应的音色特征；以及，采用预设的语种类别识别算法，对每个训练音频的语种类别进行识别，得到每个训练音频包含的语种类别；

之后，存储获取的训练音频中包含的语种类别和音色特征，得到语料信息库。

回到步骤220，根据当前语音合成需求，从存储的语料信息库中，获取目标语种类别和目标音色特征。

可选地，音色特征提取模型的训练过程可以包括：

获取当前说话人标识对应的训练音频的声谱特征；

将声谱特征输入待训练的DNN-14模型，获取待训练的DNN-14模型输出的说话人标识。其中，待训练的DNN-14模型包括14个网络层。

根据预设的标识损失算法，对当前说话人标识与输出的说话人标识进行损失运算，得到损失值；

若根据损失值，检测出待训练的DNN-14模型的模型参数处于收敛状态，即待训练的DNN-14模型处于收敛状态，则将处于收敛状态的DNN-14模型的第12个网络层输出的特征信息确定为当前说话人标识对应的音色特征。

若根据损失值，检测出待训练的DNN-14模型的模型参数未处于收敛状态，则获取损失值对应的梯度值；

根据损失值对应的梯度值，更新待训练的DNN-14模型的模型参数，并将新声谱特征输入更新参数后的待训练的DNN-14模型获取待训练的DNN-14模型输出的说话人标识，然后根据输出的说话人标识与该新声谱特征对应的说话人标识的损失值，判断更新参数后的待训练的DNN-14模型是否处于收敛状态，直到迭代次数达到预设次数阈值，或者不断更新参数后的待训练的DNN-14模型处于收敛状态后，将处于收敛状态的DNN-14模型的第12个网络层输出的特征信息确定为当前说话人标识对应的音色特征。

步骤230、采用预设语音合成算法，对目标语种类别、目标音色特征和待合成文本的语义特征进行合成，得到具有目标语种类别和目标音色特征的合成语音。

将语音合成需求中指定的目标语种类别和目标音色特征嵌入该待合成文本的语义特征以及，得到待合成的声谱特征。

采用预设转换算法，对待合成的声谱特征进行语音转换，得到具有目标语种类别和目标音色特征的合成语音。

需要说明的是，使用直接嵌入的方法，将目标语种类别、目标音色特征嵌入待合成文本的语义特征，可以让解码器更清晰的了解需要合成哪一位说话人的音色，以及需要合成哪一种语种。

由于语义特征和音色特征经过说话人对抗损失函数做了剥离，因此目标语种类别、目标音色特征的嵌入不会发生混淆，可以高效的合成指定说话人和语种的语音。

该方法可以使得整个语音合成设备目标更加清晰，也可以加快语音合成设备训练的对齐效率，同时增加语音合成设备的稳定性。

可选的，如图3所示，在Tacotron-2模型中编码器的训练模型可以包括待训练的编码器，以及说话人对抗损失函数和梯度反转层的组合模型。如图4所示，编码器的训练方法可以包括：

步骤410、获取不同说话人使用不同语种录制的训练音频，以及训练音频对应的训练文本。

该训练音频可以是步骤220中获取的训练音频，也可以是重新获取多位说话人录制的音频作为训练音频，本发明实施例在此不做限定。

获取训练音频对应的已知语种类别的训练文本。其中，由于声音信息是一种复杂的信号数据，其信号特征包含音色特征、场景信息、语音内容等信息，故训练音频和相应的训练文本都包含了说话人的音色特征、场景特征等。

步骤420、将已知语种类别的训练文本的音素序列输入待训练的编码器，获取训练文本的文本信息。

训练文本的文本信息可以包括训练文本的语义特征、已知语种类别和训练文本对应的音色特征。

步骤430、采用说话人对抗损失函数，对训练文本的文本信息进行运算，得到训练文本对应的音色特征和音色特征的更新梯度。

为了使编码器输出纯粹的语义特征，需要尽可能让编码器encoder将文本信息中的语义特征与音色特征剥离。说话人对抗损失函数可以表示为：

其中，si为说话人标识，ψs为待训练的编码中说话人特征参数，即音色特征参数，Ti为文本信息的文本标识，N为文本标识的数量。该计算出的音色特征参数为待训练的编码器中更新后的音色特征参数。

梯度反转层可以将该音色特征参数对应的更新梯度直接返传至待训练的编码器中，或者将该音色特征参数对应的更新梯度按照-λ的倍数缩放后，返传至待训练的编码器中，以修改待训练的编码器中音色特征参数的权重。

可以理解的是，说话人对抗损失函数可以通过领域对抗的方式，强加给文本信息中的每个特征信息，让待训练的编码器学习到一种与说话人的音色特征和语种类型无关的纯粹的文本特征分布，即纯粹的语义特征。

步骤440、根据说话人特征参数的更新梯度，确定待训练编码器是否处于收敛状态，以获取训练出的编码器。

根据说话人特征参数的更新梯度，修改待训练的编码器中训练文本对应的音色特征参数的权重后，获取更新后的待训练编码器；

若将已知语种类别的新训练文本的音素序列输入更新后的待训练的编码器，获取到的新训练文本的文本信息仅包括新训练文本的语义特征，则将更新后的待训练的编码模型确定为训练出的编码模型。

若将已知语种类别的新训练文本的音素序列输入更新后的待训练的编码模型，获取到的新训练文本的文本信息包括新训练文本的语义特征和新训练文本对应的音色特征，则触发梯度反转层向待训练的编码器返传音色特征参数对应的更新梯度，以再次修改更新后的待训练的编码器中新训练文本对应的音色特征参数的权重。

直到更新后的待训练的编码器输出的文本信息仅包括语义特征后，将更新后的待训练的编码器确定为训练出的编码器。

进一步的，对于Tacotron-2模型的整体训练过程可以包括：

将训练音频对应的训练文本的音素序列输入预先训练的编码器，获取训练文本的语义特征，并将其发送至解码器，解码器根据语音训练合成需求和训练文本的语义特征，输出合成的训练语音。其中，语音训练合成需求包括指定语种类别和指定音色特征。

采用预设的语音损失函数，对该合成的训练语音与训练文本对应的训练音频进行损失运算，得到语音损失值；

若根据语音损失值，检测出Tacotron-2模型的模型参数处于收敛状态，即Tacotron-2模型处于收敛状态，则得到训练出的Tacotron-2模型。

否则，获取语音损失值对应的语音梯度，以用于反向更新Tacotron-2模型中解码器的模型参数和预先训练的编码器的模型参数。

根据迭代更新算法，将新训练音频的训练文本的音素序列输入更新后的编码器，获取相应语义特征，并将其发送至更新后的解码器，解码器根据语音训练合成需求和接收的相应语义特征，输出当前合成的训练语音，然后根据当前合成的训练语音与新训练音频间的语音损失值，判断Tacotron-2模型是否处于收敛状态，若迭代次数达到预设次数阈值，或者Tacotron-2模型处于收敛状态，则将处于收敛状态的Tacotron-2模型确定为训练出的目标Tacotron-2模型。

与上述方法对应的，本发明实施例还提供一种多语种的语音合成装置，如图5所示，该多语种的语音合成装置包括：分析单元510、获取单元520和合成单元530；

分析单元510，用于采用预设分析算法，对获取的已知语种类别的待合成文本的音素序列进行分析，获取所述待合成文本的语义特征；

获取单元520，用于根据语音合成需求，从存储的语料信息库中，获取目标语种类别和目标音色特征；

合成单元530，用于采用预设语音合成算法，对所述目标语种类别、所述目标音色特征和所述待合成文本的语义特征进行合成，得到具有所述目标语种类别和所述目标音色特征的合成语音。

在一个可选的实现中，所述装置还包括提取单元540和存储单元550；

获取单元520，还用于获取不同说话人使用不同语种录制的训练音频；

提取单元540，用于采用预设的信息提取算法，对每个训练音频的语种类别和音色特征进行提取，得到相应训练音频包含的语种类别和音色特征；

存储单元550，用于存储获取的训练音频中包含的语种类别和音色特征，得到语料信息库。

在一个可选的实现中，提取单元540，还用于采用预先训练的音色特征提取模型，对每个训练音频的音色特征进行提取，得到所述每个训练音频包含的音色特征；

在一个可选的实现中，所述装置还包括运算单元560和确定单元570；

获取单元520，还用于获取当前说话人标识对应的训练音频的声谱特征；

运算单元560，用于根据预设损失算法，对所述当前说话人标识与所述输出的说话人标识进行损失运算，得到损失值；

确定单元570，用于若根据所述损失值，检测出所述待训练的DNN-14模型处于收敛状态，则将处于收敛状态的DNN-14模型的第12个网络层输出的特征信息确定为所述当前说话人标识对应的音色特征。

在一个可选的实现中，获取单元520，还用于采用预先训练的编码器，对获取的已知语种类别的待合成文本的音素序列进行分析，获取所述待合成文本的语义特征。

在一个可选的实现中，获取单元520，还用于获取不同说话人使用不同语种录制的训练音频，以及所述训练音频对应的训练文本；

以及，将已知语种类别的训练文本的音素序列输入待训练的编码器，获取训练文本的文本信息，所述训练文本的文本信息包括所述训练文本的语义特征、所述已知语种类别和所述训练文本对应的音色特征；

采用说话人对抗损失函数，对所述训练文本的文本信息进行运算，得到所述训练文本对应的说话人特征参数和说话人特征参数对应的更新梯度；所述更新梯度用于修改所述待训练的编码器中说话人特征参数的权重参数；

根据所述更新梯度，获取更新后的待训练编码模型；

在一个可选的实现中，所述说话人对抗损失函数表示为：

本发明上述实施例提供的多语种的语音合成装置的各功能单元的功能，可以通过上述各方法步骤来实现，因此，本发明实施例提供的多语种的语音合成装置中的各个单元的具体工作过程和有益效果，在此不复赘述。

本发明实施例还提供了一种电子设备，如图6所示，包括处理器610、通信接口620、存储器630和通信总线640，其中，处理器610，通信接口620，存储器630通过通信总线640完成相互间的通信。

存储器630，用于存放计算机程序；

处理器610，用于执行存储器630上所存放的程序时，实现如下步骤：

获取不同说话人使用不同语种录制的训练音频；

在一个可选的实现中，采用预设的信息提取算法，对每个训练音频的语种类别和音色特征进行提取，得到相应训练音频包含的语种类别和每个说话人标识对应的音色特征，包括：

获取当前说话人标识对应的训练音频的声谱特征；

在一个可选的实现中，所述编码模型的训练方法包括：

根据所述更新梯度，获取更新后的待训练编码模型；

在一个可选的实现中，所述说话人对抗损失函数表示为：

上述提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

由于上述实施例中电子设备的各器件解决问题的实施方式以及有益效果可以参见图2所示的实施例中的各步骤来实现，因此，本发明实施例提供的电子设备的具体工作过程和有益效果，在此不复赘述。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的多语种的语音合成方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的多语种的语音合成方法。

本领域内的技术人员应明白，本申请实施例中的实施例可提供为方法、***、或计算机程序产品。因此，本申请实施例中可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例中可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请实施例中是参照根据本申请实施例中实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例中的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例中范围的所有变更和修改。

显然，本领域的技术人员可以对本申请实施例中实施例进行各种改动和变型而不脱离本申请实施例中实施例的精神和范围。这样，倘若本申请实施例中实施例的这些修改和变型属于本申请实施例中权利要求及其等同技术的范围之内，则本申请实施例中也意图包含这些改动和变型在内。

Claims

1.一种多语种的语音合成方法，其特征在于，所述方法包括：

采用预设语音合成算法，对所述目标语种类别、所述目标音色特征和所述待合成文本的语义特征进行合成，得到具有所述目标语种类别和所述目标音色特征的合成语音；

其中，采用预设分析算法，对获取的已知语种类别的待合成文本的音素序列进行分析，获取所述待合成文本的语义特征，包括：

采用预先训练的编码器，对获取的已知语种类别的待合成文本的音素序列进行分析，获取所述待合成文本的语义特征；

所述编码器的训练方法包括：

根据所述更新梯度，获取更新后的待训练编码模型；

2.如权利要求1所述的方法，其特征在于，根据语音合成需求，从存储的语料信息库中，获取目标语种类别和目标音色特征之前，所述方法还包括：

获取不同说话人使用不同语种录制的训练音频；

3.如权利要求2所述的方法，其特征在于，采用预设的信息提取算法，对每个训练音频的语种类别和音色特征进行提取，得到相应训练音频包含的语种类别和音色特征，包括：

4.如权利要求3所述的方法，其特征在于，所述音色特征提取模型的训练方法包括：

获取当前说话人标识对应的训练音频的声谱特征；

5.如权利要求1所述的方法，其特征在于，所述说话人对抗损失函数表示为：

6.一种多语种的语音合成装置，其特征在于，所述装置包括：分析单元、获取单元和合成单元；

所述合成单元，用于采用预设语音合成算法，对所述目标语种类别、所述目标音色特征和所述待合成文本的语义特征进行合成，得到具有所述目标语种类别和所述目标音色特征的合成语音；

所述获取单元，还用于采用预先训练的编码器，对获取的已知语种类别的待合成文本的音素序列进行分析，获取所述待合成文本的语义特征；

所述获取单元，还用于获取不同说话人使用不同语种录制的训练音频，以及所述训练音频对应的训练文本；以及，将已知语种类别的训练文本的音素序列输入待训练的编码器，获取训练文本的文本信息，所述训练文本的文本信息包括所述训练文本的语义特征、所述已知语种类别和所述训练文本对应的音色特征；采用说话人对抗损失函数，对所述训练文本的文本信息进行运算，得到所述训练文本对应的说话人特征参数和说话人特征参数对应的更新梯度；所述更新梯度用于修改所述待训练的编码器中说话人特征参数的权重参数；根据所述更新梯度，获取更新后的待训练编码模型；若将已知语种类别的新训练文本的音素序列输入所述更新后的待训练的编码器，获取到的所述新训练文本的文本信息仅包括所述新训练文本的语义特征，则将所述更新后的待训练的编码模型确定为训练出的编码器。

7.一种电子设备，其特征在于，所述电子设备包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存储的程序时，实现权利要求1-5任一所述的方法步骤。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-5任一所述的方法步骤。