CN113539239A

CN113539239A - 语音转换方法、装置、存储介质及电子设备

Info

Publication number: CN113539239A
Application number: CN202110785424.3A
Authority: CN
Inventors: 詹皓粤; 林悦
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2021-07-12
Filing date: 2021-07-12
Publication date: 2021-10-22
Anticipated expiration: 2041-07-12
Also published as: CN113539239B

Abstract

本公开涉及语音处理领域，具体涉及一种语音转换方法、装置、存储介质及电子设备。该语音转换方法包括获取原始语音数据，以及预设音色信息；提取所述原始语音数据的跨语言特征表示和情绪特征表示；基于所述跨语言特征表示、所述情绪特征表示和所述音色信息进行语音转换，以得到目标语音数据。本公开提供的语音转换方法能够解决跨语言、多音色并保留情感的语音转换问题。

Description

语音转换方法、装置、存储介质及电子设备

技术领域

本公开涉及语音处理领域，具体涉及一种语音转换方法、装置、存储介质及电子设备。

背景技术

近几年来，随着机器学习尤其是深度学习领域相关技术研究取得突飞猛进的进展，促进了人机交互方式的极大转变，同时也伴随着越来越多的商业化产品的落地。语音交互作为一种新型模式，不仅带来了崭新的用户体验，也扩大了各个产品设计思路及应用场景，为了在互联网时代保护个人隐私，通常可以将语音进行情感转换处理。

目前常见的情感语音转换方式包括两种方式：一种是录制并制作包含多种情绪的语料库，但使用时受限于语料库中的情绪种类，且不具有通用性；另一种是录制并制作多种固定情绪的小型语料库，再进行过语音情绪转换，但转换后语音情感可控性不强，或者易出现转换失败的情况。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种语音转换方法、装置、存储介质及电子设备，旨在解决跨语言、多音色并保留情感的语音转换问题。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开实施例的一个方面，提供了语音转换方法包括：获取原始语音数据，以及预设音色信息；提取所述原始语音数据的跨语言特征表示和情绪特征表示；基于所述跨语言特征表示、所述情绪特征表示和所述音色信息进行语音转换，以得到目标语音数据。

根据本公开的一些实施例，基于前述方案，提取所述原始语音数据的跨语言特征表示，包括：对所述原始语音数据进行特征提取得到音频特征；将所述音频特征输入预先训练的跨语言特征提取模型，以得到所述跨语言特征表示。

根据本公开的一些实施例，基于前述方案，所述方法还包括预先训练所述跨语言特征提取模型，包括：获取内容相对应的语音样本和文本样本；对所述语音样本进行特征提取得到样本音频特征，以及对所述文本样本进行文本处理得到样本跨语言特征；利用所述样本音频特征和所述样本跨语言特征进行模型训练，以得到所述跨语言特征提取模型。

根据本公开的一些实施例，基于前述方案，所述对所述文本样本进行文本处理得到样本跨语言特征，包括：根据预设的文本内容与统一字符之间的映射关系，将所述文本样本转换成采用统一字符表示的文本字符集合；基于所述文本字符集合得到所述样本跨语言特征。

根据本公开的一些实施例，基于前述方案，在所述文本样本包括一种语言类型时，所述对所述文本样本进行文本处理得到样本跨语言特征，包括：确定所述文本样本的语言类型；根据文本内容与所述语言类型的音素之间的映射关系，将所述文本样本转换成文本音素集合；基于所述文本音素集合得到所述样本跨语言特征。

根据本公开的一些实施例，基于前述方案，提取所述原始语音数据的情绪特征表示，包括：提取所述原始语音数据的情绪信息；将所述情绪信息转换为特征向量以作为所述情绪特征表示。

根据本公开的一些实施例，基于前述方案，所述基于所述跨语言特征表示、所述情绪特征表示和所述音色信息进行语音转换，以得到目标语音数据，包括：将所述跨语言特征表示、所述情绪特征表示和所述音色信息输入预先训练的语音转换模型，以得到输出的所述目标语音数据。

根据本公开的一些实施例，基于前述方案，所述方法还包括预先训练所述语音转换模型，包括：获取语音样本和所述语音样本对应的转换语音样本，以及预设样本音色信息；利用预先训练的跨语言特征提取模型提取所述语音样本的样本跨语言特征表示；以及提取所述语音样本的样本情绪特征表示；利用所述样本跨语言特征表示、所述样本情绪特征表示、所述转换语音样本和所述样本音色信息进行模型训练，以得到所述语音转换模型。

根据本公开实施例的第二个方面，提供了一种语音转换装置，包括：准备模块，用于获取原始语音数据，以及预设音色信息；提取模块，用于提取所述原始语音数据的跨语言特征表示和情绪特征表示；转换模块，用于基于所述跨语言特征表示、所述情绪特征表示和所述音色信息进行语音转换，以得到目标语音数据。

根据本公开实施例的第三个方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如上述实施例中的语音转换方法。

根据本公开实施例的第四个方面，提供了一种电子设备，其特征在于，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上述实施例中的语音转换方法。

本公开示例性实施例可以具有以下部分或全部有益效果：

在本公开的一些实施例所提供的技术方案中，通过提取原始语音数据的跨语言特征表示和情绪特征表示，进而根据提取的跨语言特征表示、情绪特征表示以及预设的音色信息，将原始语音数据转换成目标语音数据。一方面能够提取原始语音数据的跨语言特征表示，对原始语音数据中的语言种类没有限制，也不需要预先构建混合语言的语音数据语料库，简化了前期的转换准备工作；另一方面通过提取情绪特征表示用于语音转换，可以保留语音中的情感特点，使得转换的目标语音数据极大程度地还原原始语音；再一方面可以预设音色信息，得到与该音色相匹配的目标语音数据，进而实现不同音色下的情感语音转换效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示意性示出本公开示例性实施例中一种语音转换方法的流程示意图；

图2示意性示出本公开示例性实施例中一种训练跨语言特征提取模型的流程示意图；

图3示意性示出本公开示例性实施例中一种训练语音转换模型的流程示意图；

图4示意性示出本公开示例性实施例中一种语音转换方法的流程示意图；

图5示意性示出本公开示例性实施例中一种语音转换装置的组成示意图；

图6示意性示出本公开示例性实施例中一种计算机可读存储介质的示意图；

图7示意性示出本公开示例性实施例中一种电子设备的计算机***的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本公开的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

以下对本公开实施例的技术方案的实现细节进行详细阐述。

近几年来，随着机器学习尤其是深度学习领域相关技术研究取得突飞猛进的进展，促进了人机交互方式的极大转变，同时也伴随着越来越多的商业化产品的落地。语音交互作为一种新型模式，不仅带来了崭新的用户体验，也扩大了各个产品设计思路及应用场景，同时互联网时代数据开发利用与个人隐私保护可能是贯穿整个信息时代的命题。

现有的情感语音转换方式包括两种方式：

一、录制并制作包含多种情绪的语料库，实现不同情绪之间的相互转换，该方法的问题是情绪受限于语料库中存在的几种情绪，且转换效果严格与说话人音色绑定，其他音色无法实现类似的情感语音转换效果，且一般不适用于其他语言。

二、录制并制作多种固定情绪的小型语料库，对其他单一风格的语料库进行语音情感转换，该方法的问题是由于不同语料库的音色及情绪表现差异的影响，转换后语音情感不一定与目标情绪保持一致即可控性不强，且由于数据量不足容易出现转换失败的情况，且一般不适用于其他语言。

为此，本公开提供了一种语音转换方法，能够不需要预先收集说话人的混合语言语音数据，实现跨语言的语音转换，并且在转换的同时保留原始语音的情感，转换后音色保持稳定，得到更有人情味、更有趣的语音，达到类似“语音皮肤”的效果。

图1示意性示出本公开示例性实施例中一种语音转换方法的流程示意图。如图1所示，该语音转换方法包括步骤S1至步骤S3：

步骤S1，获取原始语音数据，以及预设音色信息；

步骤S2，提取所述原始语音数据的跨语言特征表示和情绪特征表示；

步骤S3，基于所述跨语言特征表示、所述情绪特征表示和所述音色信息进行语音转换，以得到目标语音数据。

下面，将结合附图及实施例对本示例实施方式中的语音转换方法的各个步骤进行更详细的说明。

步骤S1，获取原始语音数据，以及预设音色信息。

在本公开的一个实施例中，原始语音数据也就是需要进行语音转换的音频。原始语音数据可以包括同一个人对应的语音数据，也可以是多个不同的人对应的语音数据，语音数据可以是一段或多段音频。

在获取原始语音数据时，可以将需要转换的音频输入至ASR(语音识别)模型中，ASR模型是一套自动将语音转换成计算机可理解的字符，文字形式的***。

音色信息是目标语音数据对应的音色标记，有多种音色以供选择，可以根据语音转换后的需求自定义音色信息。需要说明的是，在预设音色信息时，可以指定目标语音数据的不同音频片段具有不同的音色，进而得多音色的语音转换结果。

步骤S2，提取所述原始语音数据的跨语言特征表示和情绪特征表示。

在本公开的一个实施例中，步骤S2的具体内容是：S21，提取所述原始语音数据的跨语言特征表示，以及S22，提取所述原始语音数据的情绪特征表示。

对于步骤S21，提取所述原始语音数据的跨语言特征表示，具体过程包括：对所述原始语音数据进行特征提取得到音频特征；将所述音频特征输入预先训练的跨语言特征提取模型，以得到所述跨语言特征表示。

其中，在提取跨语言特征表示时，需要使用预先训练的跨语言特征提取模型，因此，在步骤S21之前，还需要训练跨语言特征提取模型，具体过程如下：获取内容相对应的语音样本和文本样本；对所述语音样本进行特征提取得到样本音频特征，以及对所述文本样本进行文本处理得到样本跨语言特征；利用所述样本音频特征和所述样本跨语言特征进行模型训练，以得到所述跨语言特征提取模型。

具体而言，首先需要获取成对的语音样本和文本样本，他们的内容是相互对应的；然后对语音样本进行特征提取，对文本样本进行文本处理；最后再用提取和处理的结果采用机器学习的方法训练跨语言特征提取模型。

图2示意性示出本公开示例性实施例中一种训练跨语言特征提取模型的流程示意图。下面，将结合图2对跨语言特征提取模型训练的过程进行详细介绍：

S201，从语料库中提取内容相对应的语音样本和文本样本；

在本公开的一个实施例中，语料库可以预先录制并制作。语料库中包括成对的语音和文本，可以收集不同用户成对的语音和文本，也可以录制音频后将其转换成对应的文字。

S202，对所述语音样本进行特征提取得到样本音频特征；

在本公开的一个实施例中，可以设计特征提取模块以对语音样本进行特征提取。该模块旨在提取得到适用于不同语种的输入特征，所提取的音频特征能否达到完全与说话人的区域语言语种无关同时保留语音的语义内容，这决定了最终的语音转换效果。

需要说明的是，特征提取主要是对音频中的关键特征进行提取，用于与文本处理结果进行特征匹配。提取的特征需要满足以下几点要求：

1)可区分性：对于相同发音的音频，特征在空间上的距离应该尽可能近，而对于不同发音的音频，特征在空间上的距离应该尽可能远；

2)强鲁棒性：说话人可能处于多种多样复杂的环境下，对于相同内容的发音，要求所提特征具有抗环境干扰的能力。

3)可分离性：当语音是人声时，说话人验证为可选项，因此要求特征中说话人信息与语音内容信息之间具有可分离性，若不需要进行说话人验证，可屏蔽说话人相关的特征。

在技术上可以有多种实现方式，除了常用的语音音频特征提取，例如MFCC(MelFrequency Cepstral Coefficents，即梅尔频率倒谱系数)、FBank(FilterBank，即滤波器组特征)，Spectrogram(即语谱图)等，还有无监督神经网络、预训练网络模型等方式提取特征。

以MFCC为例来说，MFCC是在Mel标度频率域提取出来的倒谱参数，是一种在自动语音和说话人识别中广泛使用的特征。是在音频样本点基础上进行预加重、分帧、加汉宁窗，之后再进行段时傅里叶变换得到线性谱，再进行梅尔滤波器处理得到梅尔谱，取对数后经过离散余弦变换，最后得到MFCC特征。

Fbank特征就是一种前端处理算法，以类似于人耳的方式对音频进行处理，可以提高语音识别的性能。获得语音信号的fbank特征的一般步骤是：预加重、分帧、加窗、短时傅里叶变换(STFT)、mel滤波、去均值等。

S203，对所述文本样本进行文本处理得到样本跨语言特征；

对文本样本进行文本处理旨在将不同语言的输入表示统一起来，通过统一的输入表示来辅助不同语言语音进行语音转换。

在本公开的一个实施例中，在进行文本处理时可以采用常用的国际音标进行表示。具体过程包括：根据预设的文本内容与统一字符之间的映射关系，将所述文本样本转换成采用统一字符表示的文本字符集合；基于所述文本字符集合得到所述样本跨语言特征。

也就是对不同语言文本中的数字、字母等特殊字符进行处理，再基于字典等方式映射成音素之后，根据自定义的字典将其映射成国际音标表示，进而将得到的音标作为文本字符，整理后得到样本跨语言特征。样本跨语言特征是以向量的形式表示，向量的长度与语音的长度相关。

需要说明的是，由于是采用语言文本中是通过同一标准的国际音标表示，因此语言文本的语言类型不受限制，多种语言可以适用，单一语言的输入也不影响。

在本公开的一个实施例中，当语料库中的语言文本采用的是单一语言，即文本样本包括一种语言类型时，所述对所述文本样本进行文本处理得到样本跨语言特征，包括：确定所述文本样本的语言类型；根据文本内容与所述语言类型的音素之间的映射关系，将所述文本样本转换成文本音素集合；基于所述文本音素集合得到所述样本跨语言特征。

具体地，针对于具有单一语言的文本时，为了简便样本跨语言特征的提取，可以不采用国际音标，而是使用该语言类型下固定的音素表示。举例来说，如果文本都是中文，那么音素就是汉语拼音，如果文本都是日文，那么音素就是平假名。

基于上述方法，由于本公开提供的语音转换方法能够利用训练好的跨语言特征提取模型提取跨语言特征，因此在构建语料库时，不需要录制同一说话人的混合语言语音数据，即如果需要将不同语言的语音转换为目标说话人的情感语音，只需要收集单一语言的语音识别数据。

S204，利用所述样本音频特征和所述样本跨语言特征进行模型训练，以得到所述跨语言特征提取模型。

训练阶段将从音频中提取的样本音频特征及对应文本提取的样本跨语言特征输入到模型中进行训练，通过信息解耦及压缩等方式使模型学习得到跨语言特征表示，最终得到跨语言特征提取模型。

以利用CNN卷积神经网络与RNN循环神经网络进行模型训练为例，训练时使用文本处理后的字符，设置分类损失函数(如cross entroy)进行梯度下降学习优化，网络结构向量维度会进行压缩以达到信息解耦和压缩的效果。模型训练后得到跨语言特征提取模型中的模型参数，参数主要是指CNN和RNN网络中相关矩阵乘法的系数。

模型的输入是音频特征，例如上文提到的MFCC特征，利用跨语言特征提取模型中各网络的矩阵系数不断相乘后得到的中间输出结果，最终输出文本处理后的字符id。但在训练的时候由于需要计算向量和字符id之间的损失函数，所以训练时还需要将字符id映射成向量。

需要说明的是，本公开中训练的跨语言特征提取模型不局限于某一个特定的模型，常用的机器学习模型均可使用，比如基于深度学习的神经网络，支持向量机等。

在训练好跨语言特征提取模型之后，就可以利用跨语言特征提取模型提取跨语言特征表示。值得注意的是，模型的输入是音频特征，模型的输出结果是字符id，但我们只需要提取跨语言特征表示，也就是提取中间输出结果即可。

所以在执行步骤S21时，首先需要提取原始语音数据的音频特征，可以使用与训练过程相同的特征提取模块对原始语音数据进行特征提取得到音频特征；然后将音频特征输入跨语言特征提取模型，得到跨语言特征表示。

其中，跨语言特征包含了语音的语义、韵律等信息表示，提取跨语言特征是该方法能适用于不同语言语音进行语音转换的关键所在。

对于步骤S22，提取所述原始语音数据的情绪特征表示，包括：提取所述原始语音数据的情绪信息；将所述情绪信息转换为特征向量以作为所述情绪特征表示。

在本公开的一个实施例中，提取情绪特征表示时首先需要提取将语音中存在的情绪信息，然后将其转换为固定长度的特征向量表示。在技术上可以有多种实现方式，如使用常用的语音特征：基频、能量等，还可以使用语音情绪分类特征。提取情绪特征是使转换语音具有更丰富的情感的关键所在。

以基频特征为例，基音周期(Pitch)是声带振动频率的倒数。它指的是人发出浊音时，气流通过声道促使声带振动的周期。声带震动的周期即为基音周期。基音周期的估计称为基音检测(Pitch Detection)。基频包含了大量表征语音情绪的特征，在语音情绪识别中至关重要。

基频变化范围大，50-500Hz，且检测难度较高。常用的基频特征提取方法有：自相关函数法(ACF)，利用时域检测；平均幅度差法(AMFD)，利用时域检测；以及小波法，利用频域检测。

值得注意的是，本公开对步骤S21和S22的执行顺序不做具体限定，可以先执行步骤S21，也可以先执行步骤S22，当然也可以两个步骤同时执行。

在本公开的一个实施例中，步骤S3的过程为：将所述跨语言特征表示、所述情绪特征表示和所述音色信息输入预先训练的语音转换模型，以得到输出的所述目标语音数据。

具体而言，在进行语音转换需要使用预先训练好的语音转换模型，该模型的输入是跨语言特征表示、情绪特征表示、音色信息，输出的则是原始语音数据转换后的目标语音数据。

预先训练所述语音转换模型的过程如下：获取语音样本和所述语音样本对应的转换语音样本，以及预设样本音色信息；利用预先训练的跨语言特征提取模型提取所述语音样本的样本跨语言特征表示；以及提取所述语音样本的样本情绪特征表示；利用所述样本跨语言特征表示、所述样本情绪特征表示、所述转换语音样本和所述样本音色信息进行模型训练，以得到所述语音转换模型。

图3示意性示出本公开示例性实施例中一种训练语音转换模型的流程示意图，下面，结合图3对语音转换模型训练的过程进行详细介绍：步骤S301，获取语音样本；步骤S302，获取语音样本预期转换后的转换语音样本；步骤S303，标记语音样本的音色信息；步骤S304，对语音样本进行特征提取得到样本音频特征；步骤S305，将样本音频特征输入跨语言特征提取模型；步骤S306，获取跨语言特征提取模型输出的样本跨语言特征表示；步骤S307，对语音样本进行情绪提取；步骤S308，获取语音样本的样本情绪特征表示；步骤S309，将样本跨语言特征表示、样本情绪特征表示、转换语音样本、音色标记输入到VC(VoiceConversion，语音转换)模型进行训练，VC表示语音转换技术，将原始说话人的语音转换成另一个说话人的语音。

训练好的语音转换模型作为TTS(语音合成***)的Vocoder(声码器)模型嵌入，TTS***是一套自动将计算机可理解的文字、字符等文本表示转换成语音的***，Vocoder则是语音合成***中将频域的语音声学特征转换为时域的语音样本的模型。

图4示意性示出本公开示例性实施例中一种语音转换方法的流程示意图，参考图4所示，在进行语音转换时，首先需要执行步骤S401，获取原始语音数据，以及执行步骤S402，标记音色信息；然后经过步骤S403对原始语音数据进行特征提取得到音频特征，再执行步骤S404，输入至跨语言特征提取模型，到达步骤S405，获取模型输出的跨语言特征表示；同时执行步骤S406对原始语音数据进行情绪提取，到达步骤S406，获取原始语音数据的情绪特征表示；最后执行步骤S408，将跨语言特征表示、情绪特征表示以及音色信息输入至VC语音转换模型，进而到达步骤S409，得到目标语音数据。

需要说明的是，在训练好语音转换模型后，该模型的输入是跨语言特征表示、情绪特征表示和音色信息，因此，也可以在没有原始语音的基础上，设置不同的输入信息，进而得到相应的目标语音转换数据。也可以在得到语音转换的结果后，改变其中任意一项的输入信息，从而得到新语音转换结果。

基于上述方法，在进行语音转换之前不需要同一说话人的混合语言语音数据，即如果需要将不同语言的语音转换为目标说话人的情感语音，只需要收集单一语言的语音识别数据。并且该方法转换得到的语音除了包含本来语音本身的语义还能保留语音中的情感特点。另外，该语音转换方法可以适用于任意语种，同时还可以通过改变情绪特征表示进行不同情感的语音转换。能够实现跨语言的情感语音转换，给用户提供语音交互体验，扩大了各个产品设计思路及应用场景，为打造语音交互闭环***打下良好的基础。

图5示意性示出本公开示例性实施例中一种语音转换装置的组成示意图，如图5所示，该语音转换装置500可以包括准备模块501、提取模块502以及转换模块503。其中：

准备模块501，用于获取原始语音数据，以及预设音色信息；

提取模块502，用于提取所述原始语音数据的跨语言特征表示和情绪特征表示；

转换模块503，用于基于所述跨语言特征表示、所述情绪特征表示和所述音色信息进行语音转换，以得到目标语音数据。

根据本公开的示例性实施例，所述提取模块502包括第一提取模块，用于对所述原始语音数据进行特征提取得到音频特征；将所述音频特征输入预先训练的跨语言特征提取模型，以得到所述跨语言特征表示。

根据本公开的示例性实施例，所述语音转换装置500还包括第一训练模块(图中未示出)，用于获取内容相对应的语音样本和文本样本；对所述语音样本进行特征提取得到样本音频特征，以及对所述文本样本进行文本处理得到样本跨语言特征；利用所述样本音频特征和所述样本跨语言特征进行模型训练，以得到所述跨语言特征提取模型。

根据本公开的示例性实施例，所述第一训练模块包括文本处理单元，用于根据预设的文本内容与统一字符之间的映射关系，将所述文本样本转换成采用统一字符表示的文本字符集合；基于所述文本字符集合得到所述样本跨语言特征。

根据本公开的示例性实施例，所述文本处理单元还用于在所述文本样本包括一种语言类型时，确定所述文本样本的语言类型；根据文本内容与所述语言类型的音素之间的映射关系，将所述文本样本转换成文本音素集合；基于所述文本音素集合得到所述样本跨语言特征。

根据本公开的示例性实施例，所述提取模块502包括第二提取模块，用于提取所述原始语音数据的情绪信息；将所述情绪信息转换为特征向量以作为所述情绪特征表示。

根据本公开的示例性实施例，所述转换模块503用于将所述跨语言特征表示、所述情绪特征表示和所述音色信息输入预先训练的语音转换模型，以得到输出的所述目标语音数据。

根据本公开的示例性实施例，所述语音转换装置500还包括第二训练模块(图中未示出)，用于获取语音样本和所述语音样本对应的转换语音样本，以及预设样本音色信息；利用预先训练的跨语言特征提取模型提取所述语音样本的样本跨语言特征表示；以及提取所述语音样本的样本情绪特征表示；利用所述样本跨语言特征表示、所述样本情绪特征表示、所述转换语音样本和所述样本音色信息进行模型训练，以得到所述语音转换模型。

上述的语音转换装置500中各模块的具体细节已经在对应的语音转换方法中进行了详细的描述，因此此处不再赘述。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

在本公开的示例性实施例中，还提供了一种能够实现上述方法的存储介质。图6示意性示出本公开示例性实施例中一种计算机可读存储介质的示意图，如图6所示，描述了根据本公开的实施方式的用于实现上述方法的程序产品600，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如手机上运行。然而，本公开的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

在本公开的示例性实施例中，还提供了一种能够实现上述方法的电子设备。图7示意性示出本公开示例性实施例中一种电子设备的计算机***的结构示意图。

需要说明的是，图7示出的电子设备的计算机***700仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图7所示，计算机***700包括中央处理单元(Central Processing Unit，CPU)701，其可以根据存储在只读存储器(Read-Only Memory，ROM)702中的程序或者从存储部分708加载到随机访问存储器(Random Access Memory，RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中，还存储有***操作所需的各种程序和数据。CPU 701、ROM702以及RAM 703通过总线704彼此相连。输入/输出(Input/Output，I/O)接口705也连接至总线704。

以下部件连接至I/O接口705：包括键盘、鼠标等的输入部分706；包括诸如阴极射线管(Cathode Ray Tube，CRT)、液晶显示器(Liquid Crystal Display，LCD)等以及扬声器等的输出部分707；包括硬盘等的存储部分708；以及包括诸如LAN(Local Area Network，局域网)卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器710上，以便于从其上读出的计算机程序根据需要被安装入存储部分708。

特别地，根据本公开的实施例，下文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分709从网络上被下载和安装，和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时，执行本公开的***中限定的各种功能。

需要说明的是，本公开实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本公开各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本公开还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现上述实施例中所述的方法。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本公开实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种语音转换方法，其特征在于，包括：

获取原始语音数据，以及预设音色信息；

提取所述原始语音数据的跨语言特征表示和情绪特征表示；

基于所述跨语言特征表示、所述情绪特征表示和所述音色信息进行语音转换，以得到目标语音数据。

2.根据权利要求1所述的语音转换方法，其特征在于，提取所述原始语音数据的跨语言特征表示，包括：

对所述原始语音数据进行特征提取得到音频特征；

将所述音频特征输入预先训练的跨语言特征提取模型，以得到所述跨语言特征表示。

3.根据权利要求2所述的语音转换方法，其特征在于，所述方法还包括预先训练所述跨语言特征提取模型，包括：

获取内容相对应的语音样本和文本样本；

对所述语音样本进行特征提取得到样本音频特征，以及对所述文本样本进行文本处理得到样本跨语言特征；

利用所述样本音频特征和所述样本跨语言特征进行模型训练，以得到所述跨语言特征提取模型。

4.根据权利要求3所述的语音转换方法，其特征在于，所述对所述文本样本进行文本处理得到样本跨语言特征，包括：

根据预设的文本内容与统一字符之间的映射关系，将所述文本样本转换成采用统一字符表示的文本字符集合；

基于所述文本字符集合得到所述样本跨语言特征。

5.根据权利要求3所述的语音转换方法，其特征在于，在所述文本样本包括一种语言类型时，所述对所述文本样本进行文本处理得到样本跨语言特征，包括：

确定所述文本样本的语言类型；

根据文本内容与所述语言类型的音素之间的映射关系，将所述文本样本转换成文本音素集合；

基于所述文本音素集合得到所述样本跨语言特征。

6.根据权利要求1所述的语音转换方法，其特征在于，提取所述原始语音数据的情绪特征表示，包括：

提取所述原始语音数据的情绪信息；

将所述情绪信息转换为特征向量以作为所述情绪特征表示。

7.根据权利要求1所述的语音转换方法，其特征在于，所述基于所述跨语言特征表示、所述情绪特征表示和所述音色信息进行语音转换，以得到目标语音数据，包括：

将所述跨语言特征表示、所述情绪特征表示和所述音色信息输入预先训练的语音转换模型，以得到输出的所述目标语音数据。

8.根据权利要求7所述的语音转换方法，其特征在于，所述方法还包括预先训练所述语音转换模型，包括：

获取语音样本和所述语音样本对应的转换语音样本，以及预设样本音色信息；

利用预先训练的跨语言特征提取模型提取所述语音样本的样本跨语言特征表示；以及

提取所述语音样本的样本情绪特征表示；

利用所述样本跨语言特征表示、所述样本情绪特征表示、所述转换语音样本和所述样本音色信息进行模型训练，以得到所述语音转换模型。

9.一种语音转换装置，其特征在于，包括：

准备模块，用于获取原始语音数据，以及预设音色信息；

提取模块，用于提取所述原始语音数据的跨语言特征表示和情绪特征表示；

转换模块，用于基于所述跨语言特征表示、所述情绪特征表示和所述音色信息进行语音转换，以得到目标语音数据。

10.一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如权利要求1至8任一项所述的语音转换方法。

11.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至8任一项所述的语音转换方法。