CN117476027B

CN117476027B - 语音转换方法及装置、存储介质、电子装置

Info

Publication number: CN117476027B
Application number: CN202311826046.4A
Authority: CN
Inventors: 司马华鹏; 姚奥; 汤毅平
Original assignee: Nanjing Silicon Intelligence Technology Co Ltd
Current assignee: Nanjing Silicon Intelligence Technology Co Ltd
Priority date: 2023-12-28
Filing date: 2023-12-28
Publication date: 2024-04-23
Anticipated expiration: 2043-12-28
Also published as: CN117476027A

Abstract

本申请实施例提供了一种语音转换方法及装置、存储介质、电子装置，所述方法包括：获取待转换的原始语音与目标说话人的目标语音样本；通过音频特征编码模块识别所述目标语音样本的风格类别，并根据所述目标语音样本的风格类别提取所述目标语音样本的目标音频特征；通过风格特征编码模块获取所述目标语音样本的风格特征；将所述原始语音的原始音频特征、所述目标语音样本的目标音频特征和所述目标语音样本的风格特征进行融合映射得到联合编码特征；对所述联合编码特征进行标准流化操作后解码，得到与所述目标说话人的说话风格对应的目标语音特征，并基于所述目标语音特征对所述原始语音进行转换，得到目标语音。

Description

语音转换方法及装置、存储介质、电子装置

技术领域

本申请涉及数据处理技术领域，具体而言，涉及一种语音转换方法及装置、存储介质、电子装置。

背景技术

目前，相关技术中的声音转换的主要方式是先通过自动语音识别（AutomaticSpeech Recognition，简称为ASR）技术对待转换的语音进行识别并提取巴科斯范式（Backus-Naur form，简称为BNF）特征，进一步通过从文本到语音（Text To Speech，简称为TTS）技术对基于上述识别内容与BNF特征进行语音合成处理进而得到目标语音。上述过程受限于ASR的识别准确度与效率，在实际处理过程中无论是声音转换的准确性亦或实时性均不理想。对此，相关技术进一步提出了端到端的声音转换方式，即不通过ASR进行语音识别而直接对待转换语音实现音色转换，进而得到目标语音，但是，现有的端到端的声音转换方式在音色的转换上存在较多不足，不能理想地复刻目标说话人的音色。

针对相关技术中，端到端的声音转换方式在音色的转换上存在较多不足，不能理想地复刻目标说话人的音色的问题，相关技术中尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种语音转换方法及装置、存储介质、电子装置，以至少解决相关技术中端到端的声音转换方式在音色的转换上存在较多不足，不能理想地复刻目标说话人的音色的问题。

在本申请的一个实施例中，提供了一种语音转换方法，包括：

获取待转换的原始语音与目标说话人的目标语音样本；

通过音频特征编码模块识别所述目标语音样本的风格类别，并根据所述目标语音样本的风格类别提取所述目标语音样本的目标音频特征；其中，所述目标音频特征包含所述目标语音样本的文本特征、韵律特征和音色特征；

通过所述音频特征编码模块提取所述原始语音的原始音频特征，其中，所述原始音频特征包含所述原始语音的文本特征、韵律特征和音色特征；

通过风格特征编码模块获取所述目标语音样本的第一风格特征，并根据所述第一风格特征确定所述目标语音样本的第二风格特征；其中，所述第一风格特征用于指示所述目标语音样本的静态声音特性，所述第二风格特征用于指示在预设时长内对所述第一风格特征的特征偏置量与增益量的预测值；

将所述原始语音的原始音频特征、所述目标语音样本的目标音频特征和所述目标语音样本的第二风格特征进行融合映射得到联合编码特征；

对所述联合编码特征进行标准流化操作后解码，得到与所述目标说话人的说话风格对应的目标语音特征，并基于所述目标语音特征对所述原始语音进行转换，得到目标语音。

在一实施例中，在通过音频特征编码模块提取所述原始语音的音频特征之前，所述方法包括：

使用第一训练样本训练第一聚类模型，其中，所述第一训练样本包括多个说话人的语音样本，且多个说话人的语音样本对应不同的风格类型；所述第一聚类模型用于对所述第一训练样本进行聚类，并根据聚类结果确定所述第一训练样本对应的类别标签；

使用第二训练样本训练第二聚类模型，其中，所述第二训练样本包括多个说话人的语音样本，且多个说话人的语音样本对应不同的风格类型；所述第二聚类模型用于对所述第二训练样本进行聚类，并根据聚类结果确定所述第二训练样本对应的类别标签；所述第一聚类模型和所述第二聚类模型采用不同结构的特征提取器，以从不同的维度进行聚类；

将第三训练样本同时输入训练后的所述第一聚类模型、训练后的所述第二聚类模型以及初始音频特征编码模块，其中，所述第三训练样本包含多个说话人的语音样本；

根据所述初始音频特征编码模块的损失函数训练所述初始音频特征编码模块，同时根据所述第一聚类模型和所述第二聚类模型输出的真实类别标签和所述初始音频特征编码模块输出的预测类别标签，训练所述初始音频特征编码模块至收敛，得到所述音频特征编码模块，其中，所述音频特征编码模块用于根据语音的风格类型进行音频特征的提取。

在一实施例中，所述根据所述初始音频特征编码模块的损失函数训练所述初始音频特征编码模块，包括：

通过以下损失函数的公式训练所述初始音频特征编码模块：

。

其中，表示概率，i表示聚类类别的标识，s_t表示目标向量，/>表示当前特征向量满足目标向量且属于类别i的概率，/>表示当前类别i下可训练的特征向量，sim(.,.)表示计算余弦相似度，/>为超参数，K表示聚类类别的数量，e_k表示聚类类别k下可训练的特征向量。

在一实施例中，所述根据所述第一聚类模型和所述第二聚类模型输出的真实类别标签和所述初始音频特征编码模块输出的预测类别标签，训练所述初始音频特征编码模块至收敛，包括：

对所述初始音频特征编码模块的特征编码单元和类别映射单元进行初始化处理；

通过所述特征编码单元提取所述第三训练样本的音频特征并编码，并通过所述类别映射单元将所述特征编码单元提取的音频特征映射到对应的类别编码，得到所述第三训练样本对应的预测类别标签；

通过所述初始音频特征编码模块的类别编码单元输出所述预测类别标签，基于所述预测类别标签与所述第一聚类模型和所述第二聚类模型输出的真实类别标签，训练所述初始音频特征编码模块至收敛。

在一实施例中，所述基于所述预测类别标签与所述第一聚类模型和所述第二聚类模型输出的真实类别标签，训练所述初始音频特征编码模块至收敛，包括：

最小化所述第一聚类模型输出的真实类别标签与所述预测类别标签第一平均交叉熵，同时最小化所述第二聚类模型输出的真实类别标签与所述预测类别标签第二平均交叉熵，基于最小化后的所述第一平均交叉熵和最小化后的所述第二平均交叉熵，更新所述初始音频特征编码模块的损失函数，同时对所述初始音频编码模块的训练参数进行更新。

在本申请的另一个实施例中，还提供了一种语音转换装置，包括：

第一获取模块，配置为获取待转换的原始语音与目标说话人的目标语音样本；

第一提取模块，配置为通过音频特征编码模块识别所述目标语音样本的风格类别，并根据所述目标语音样本的风格类别提取所述目标语音样本的目标音频特征；其中，所述目标音频特征包含所述目标语音样本的文本特征、韵律特征和音色特征；

第二提取模块，配置为通过所述音频特征编码模块提取所述原始语音的原始音频特征，其中，所述原始音频特征包含所述原始语音的文本特征、韵律特征和音色特征；

第二获取模块，配置为通过风格特征编码模块获取所述目标语音样本的第一风格特征，并根据所述第一风格特征确定所述目标语音样本的第二风格特征；其中，所述第一风格特征用于指示所述目标语音样本的静态声音特性，所述第二风格特征用于指示在预设时长内对所述第一风格特征的特征偏置量与增益量的预测值；

融合映射模块，配置为将所述原始语音的原始音频特征、所述目标语音样本的目标音频特征和所述目标语音样本的第二风格特征进行融合映射得到联合编码特征；

转换模块，配置为对所述联合编码特征进行标准流化操作后解码，得到与所述目标说话人的说话风格对应的目标语音特征，并基于所述目标语音特征对所述原始语音进行转换，得到目标语音。

在本申请的一个实施例中，还提出了一种计算机可读的存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

在本申请的一个实施例中，还提出了一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本申请实施例，获取待转换的原始语音与目标说话人的目标语音样本；通过音频特征编码模块识别所述目标语音样本的风格类别，并根据所述目标语音样本的风格类别提取所述目标语音样本的目标音频特征；通过所述音频特征编码模块提取所述原始语音的原始音频特征；通过风格特征编码模块获取所述目标语音样本的第一风格特征，并根据所述第一风格特征确定所述目标语音样本的第二风格特征；将所述原始语音的原始音频特征、所述目标语音样本的目标音频特征和所述目标语音样本的第二风格特征进行融合映射得到联合编码特征；对所述联合编码特征进行标准流化操作后解码，得到与所述目标说话人的说话风格对应的目标语音特征，并基于所述目标语音特征对所述原始语音进行转换，得到目标语音，解决了相关技术中相关技术中端到端的声音转换方式在音色的转换上存在较多不足，不能理想地复刻目标说话人的音色的问题，通过音频特征编码模块识别目标语音样本的风格类别，并将原始语音的原始音频特征、目标语音样本的目标音频特征和目标语音样本的第二风格特征进行融合映射，可以有效识别目标说话人的说话风格，并将待转换的原始语音按照目标说话人的说话风格进行转换，有效复刻目标说话人的音色。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是本申请实施例的一种语音转换方法的移动终端的硬件结构框图；

图2是根据本申请实施例的一种可选的语音转换方法的流程图；

图3是根据本申请实施例的一种可选的音频特征编码模块的结构示意图；

图4是根据本申请实施例的一种可选的音频特征编码模块的训练过程示意图；

图5是根据本申请实施例的一个可选的音色转换模块的结构示意图；

图6是根据本申请实施例的一种可选的电子装置结构示意图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本申请。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

本申请实施例中所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例，图1是本申请实施例的一种语音转换方法的移动终端的硬件结构框图。如图1所示，移动终端可以包括一个或多个（图1中仅示出一个）处理器102（处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置）和用于存储数据的存储器104，其中，上述移动终端还可以包括用于通信功能的传输装置106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述移动终端的结构造成限定。例如，移动终端还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本申请实施例中的语音转换模型、聚类模型、音频特征编码模块或风格编码模块的训练方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器（Network Interface Controller，简称为NIC），其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频（Radio Frequency，简称为RF）模块，其用于通过无线方式与互联网进行通讯。

图2是根据本申请实施例的一种可选的语音转换方法的流程图，如图2所示，本申请实施例提供的语音转换方法，包括以下步骤：

步骤S202，获取待转换的原始语音与目标说话人的目标语音样本；

步骤S204，通过音频特征编码模块识别所述目标语音样本的风格类别，并根据所述目标语音样本的风格类别提取所述目标语音样本的目标音频特征；其中，所述目标音频特征包含所述目标语音样本的文本特征、韵律特征和音色特征；

步骤S206，通过所述音频特征编码模块提取所述原始语音的原始音频特征，其中，所述原始音频特征包含所述原始语音的文本特征、韵律特征和音色特征；

步骤S208，通过风格特征编码模块获取所述目标语音样本的第一风格特征，并根据所述第一风格特征确定所述目标语音样本的第二风格特征；其中，所述第一风格特征用于指示所述目标语音样本的静态声音特性，所述第二风格特征用于指示在预设时长内对所述第一风格特征的特征偏置量与增益量的预测值；

步骤S210，将所述原始语音的原始音频特征、所述目标语音样本的目标音频特征和所述目标语音样本的第二风格特征进行融合映射得到联合编码特征；

步骤S212，对所述联合编码特征进行标准流化操作后解码，得到与所述目标说话人的说话风格对应的目标语音特征，并基于所述目标语音特征对所述原始语音进行转换，得到目标语音。

需要说明的是，目标语音样本可以是在转换过程中输入，例如用户想针对性的将自己的声音转换为另一特定人的声音，可以在输入自己的原始语音后输入一个目标说话人的一段语音数据。目标语音样本也可以是训练过程中提前输入，比如预先通过几类典型的目标说话人的语音对模型进行训练，在后续使用过程中，用户仅需点选对应的目标说话人，即可完成声音转换。

需要说明的是，在推理和使用阶段，音频特征编码模块不再对原始语音进行识别，但对目标语音样本需要进行识别，并基于目标语音样本的风格类型进行特征提取，不同的风格类型可以使用不同的编码方式提取目标语音样本的目标音频特征，以此达到提高声音变换针对性的效果。

在一实施例中，在通过音频特征编码模块提取所述原始语音的音频特征之前，所述方法还包括：

需要说明的是，相关技术中对音频特征的提取过程的主要方式是通过诸如softhubert，hubert，wav2vec2.0等大规模自监督模型对音频特征进行提取，可以获取更加丰富的特征和知识，但是，从最终的声音变换结果角度分析，目标语音的音色并不能很好的体现目标说话人的音色特性，或目标说话人声音的个性化。具体而言，上述音频特征的提取方式由于并未对目标说话人的音色特征并未针对性的处理，故如若目标说话人的音色较为极端，例如某些声音特别的歌手，则上述音频特征的提取方式在训练过程中会令该目标说话人的音色存在一定程度的“平均化”，即令目标说话人的音色与其他说话人的音色趋于类似，进而无法更完整的体现目标说话人的音色，对应的，最终的声音转换结果也无法达到理想的效果。因此，相关技术中直接通过大规模自监督模型进行音频特征提取的方式其风格转换的效果仍存在一定缺陷。

针对上述缺陷，本申请实施例基于预训练的聚类模型，在音频特征编码模块进行音频特征提取过程中进行聚类处理，通过对特征的聚类提升特征的质量和声音转换的效果，具体如下。

第一步，预先设置两个聚类模型，即上述第一聚类模型与第二聚类模型，上述两个聚类模型可采用k-means模型，但不限于此（K-means聚类、层次聚类（SPSS）、DBSCAN聚类（MATLAB）均可）。上述第一聚类模型与第二聚类模型均包括特征提取器，用于在聚类模型的训练过程中进行特征提取，第一聚类模型与第二聚类模型的特征提取器可以是上述softhubert，hubert，wav2vec2.0三类模型中的任意两个，例如，第一聚类模型的特征提取器采用hubert，第二聚类模型的特征提取器采用wav2vec2.0，第一聚类模型与第二聚类模型采用不同的特征提取器。

第二步，通过通用训练数据分别对上述第一聚类模型与第二聚类模型进行预训练，此处的通用训练数据可基于LibriSpeech-960和AISHELL-3数据，具体而言分别获取200说话人的语音样本数据，聚类簇数为200。通过上述通用训练数据完成第一聚类模型与第二聚类模型的训练，此处训练的目的在于令两个聚类模型可以针对不同说话人的语音样本进行分类处理，两个聚类模型分别采用不同的特征提取器，可分别令其从不同的维度进行聚类，不同的特征提取方式在音色、韵律、说话节奏等方面各有优势，因此，上述不同的特征提取的组合可令后续声音变换***的训练与推理过程中的效果更丰富。

在聚类模型的训练过程中，需人为的对聚类的类别进行类别编码，例如第一聚类模型对语音样本数据进行聚类后得到不同的类别，可分别将其赋予ID1.1、ID1.2、……ID1.9，诸如此类，类似的，第二聚类模型对语音样本数据进行聚类后得到不同的类别，可分别将其赋予ID2.1、ID2.2、…ID2.9，诸如此类。此处，类别编码的目的在于令聚类模型进行聚类后的每一个类别都有唯一的标识用于进行区分，以便后续声音变换***训练过程中进行类别的映射与编码。

需要说明的是，本申请实施例中涉及的聚类模型的训练是无监督的训练方式，即单纯依据样本的相似度对其进行聚类，而不依赖标签。第一训练样本本身是没有类别标签的，在对其进行聚类后，针对不同类型的样本集合再人为赋予类别标签。同时，同一类别标签对应的也不一定是同一说话人，而是风格类似的语音。例如第一训练样本包括100条语音，其均为不同说话人的样本，通过聚类模型，可将其分为10个样本集合，每一个样本集合分别对应某种风格类型，如沙哑男声，清亮女声等等，之后再对这10个样本集合人为的赋予对应的类别标签。

在一实施例中，根据所述初始音频特征编码模块的损失函数训练所述初始音频特征编码模块，包括：

通过以下损失函数的公式训练所述初始音频特征编码模块：

图3是根据本申请实施例的一种可选的音频特征编码模块的结构示意图。需要说明的是，本申请实施例中的音频特征编码模块可以包括以下三个单元，如图3所示：

特征编码单元（backbone network）：以特征编码网络hubert网络结构为基础，用于对音频特征进行提取与编码。

类别映射单元(linear projection)：由一映射层构成，该类别映射单元用于类别编码的映射，即为特征编码单元所提取的音频特征映射对应的类别编码。

类别编码单元(speech units)：由一嵌入层构成，该类别编码模块用于在音频特征编码模块的训练过程中，对特征编码单元所提取的音频特征赋予前述聚类模型的类别编码。

训练过程中，先对于特征编码单元与类别映射单元进行初始化处理，即令hubert网络与映射层的部分参数随机初始化。初始化完成后，仍通过通用训练数据进行模型的训练，此处用于训练的通用模型数据可以与前述聚类模型的训练的样本相同，也可以不同，对此没有限制。

图4是根据本申请实施例的一种可选的音频特征编码模块的训练过程示意图，如图4所示，在一实施例中，所述根据所述第一聚类模型和所述第二聚类模型输出的真实类别标签和所述初始音频特征编码模块输出的预测类别标签，训练所述初始音频特征编码模块至收敛，包括：

需要说明的是，在对音频特征编码模块的训练过程中，除正常对特征编码单元进行训练与参数更新外，本申请实施例中同时基于训练语音样本对应类别编码的预测类别编码与前述聚类模型所得的真实类别编码ID，对音频编码模块进行训练。具体而言，最小化hubert的k-means（第一聚类模型）真实类别编码和音频编码模块的预测类别编码的平均交叉熵，同时最小化wav2vec的k-means（第二聚类模型）真实类别编码和音频编码模块的预测类别编码的平均交叉熵，基于此更新上述loss，同时对音频编码模块的参数更新。通过上述训练方式，进一步令音频编码模块对音色类别的分类能力得以强化。

需要说明的是，前述第一聚类模型与第二聚类模型本身并不参与音频特征编码模块的构建，仅仅在音频特征编码模块的训练阶段为其提供类别编码；对于训练完成的音频特征编码模块，第一聚类模型与第二聚类模型同样不参与实际声音转换过程中的推理工作。对应的，上述聚类模型也不参与后续的推理部分。

在本申请的另一个实施例中，还提供了一种语音转换装置，用于实现上述任一实施例中的语音转换方法，已经论述过的内容此处不再重复。该语音转换装置包括：

针对相关技术中直接通过大规模自监督模型进行音频特征提取的方式其风格转换的效果仍存在一定缺陷的问题，本申请的一个实施例基于预训练的聚类模型，在音频特征编码模块进行音频特征提取过程中进行聚类处理，通过对特征的聚类以在对一些目标说话人个性化较强的声音进行特征提取时，可显著改善对其个性化风格的提取效果，进而令后续声音转换的效果亦能得以提升。

由于前述实施例中采用对特征的聚类处理令对于目标说话人所提取的特征能够更好的表征目标说话人的声音个性化，在此基础上，为实现后续的声音转换过程中，进一步将上述特征所凸显的目标说话人的声音特性用于语音转换，本申请实施例进一步在后续的语音转换过程中，通过对音色转换部分的改进，使之能够更好的采用风格特征来提升音色转换效果。

需要说明的是，本申请实施例中，在音色转换过程中对风格特征所采用的方案是建立在前述对特征的聚类基础上，即通过聚类后的特征，方可进一步通过风格编码模块以及音色转换模块中的相关方案实现对风格的编码与后续音色转换。

本申请的另一个实施例还提供了一种针对音色转换模块的改进方式，主要包括在音色转换过程中结合风格编码模块的风格特征来提升音色转换效果。

图5是根据本申请实施例的一个可选的音色转换模块的结构示意图，如图5所示，该音色转换模块包括：特征编码单元、特征解码单元、音频预估单元和对齐预估单元。

在音色转换过程中，音频特征编码模块获取目标说话人的目标语音样本，并根据所述目标语音样本的风格类别，提取所述目标语音样本的目标音频特征；风格特征编码模块获取所述目标语音样本的第一风格特征，并根据所述第一风格特征确定所述目标语音样本的第二风格特征；其中，所述第一风格特征用于指示所述目标语音样本的静态声音特性，所述第二风格特征用于指示在预设时长内对所述第一风格特征的特征偏置量与增益量的预测值。

在前述处理的基础上，音色转换模块通过以下方式来训练。

特征编码单元，配置为将前述目标音频特征与第二风格特征进行融合，以得到联合特征编码；以及，根据目标音频特征提取隐式特征；

特征解码单元，配置为根据联合特征编码与隐式特征生成目标语音样本的预估值；

音频预估单元，配置为根据目标语音样本的预估值与目标语音样本的真实值训练第一损失函数；其中，第一损失函数用于指示目标语音样本的预估值相对于真实值的损失；

对齐预估单元，配置为将联合特征与隐式特征进行对齐处理以计算对齐矩阵，并根据对齐矩阵训练第二损失函数，所述第二损失函数用于指示所述联合特征与所述隐式特征之间的离散度。

在音色转换模块的训练过程中，还设置了鉴别单元，配置为根据所述目标语音样本的预估值与所述真实值的差异确定鉴别结果，并根据所述鉴别结果训练第三损失函数；音色转换模块根据所述第一损失函数、第二损失函数、第三损失函数得到训练后的音色转换模块，并通过训练后的音色转换模块将待处理语音转换为目标说话人对应的目标语音。

需要说明的是，对一段音频而言，在处理过程中对部分特征是明确知晓其指示音频的音色、韵律，该部分特征则为前述音频特征，部分特征明确知晓其指示个人风格，则该部分特征为前述风格特征。

但是，部分特征在训练前是不知晓其与指示对象相互关系的，仅能从模型训练的结果角度倒推其可能表征音色、韵律、个人风格等，这部分特征统一定义为此处的隐式特征。

其中，风格编码模块可用于对说话人的声音风格进行处理，声音风格包括说话人的音色、韵律等。对于输入的语音而言，风格编码模块可输出对应的风格信息（相当于前述第二风格特征），该风格信息包括说话人的身份、韵律等。具体而言，风格编码模块的构成如下：

频谱处理单元（linear spectrogram）：由一全连接层构成，用于对输入的语音获取其梅尔谱，并转换为特征序列。

时序处理单元：包括一门控卷积层与一残差层，用于获取特征序列中的时序信息。

注意力单元：用于根据时序信息，在第一预设时长内提取相应特征序列对应的风格特征，并重复该操作，第一预设时长为帧级别的短时长，上述操作即在多个短时长中分别提取相应的风格特征；在此基础上，在第二预设时长中，将多个第一预设时长对应的多个风格特征进行平均化处理，得到风格向量，通常而言，第二预设时长为长时长，第二预设时长包括第一预设时长。

风格自适应单元，包括一归一化层与一全连接层，用于根据前述风格向量预测相应的特征偏置与特征增益，并以此作为语音的风格信息。传统的文字到音频TTS中，风格信息的确定是直接根据语音得到的，本发明中，风格信息是根据风格向量变化而自适应变化的，其对风格的复刻更为准确，对训练样本的需求也更小。

音色转换模块在训练过程中以目标说话人预先录制的语音作为训练样本数据进行训练，以下对音色转换模块的具体训练过程详细说明：

音色转换模块的loss由四部分构成：音频重建loss，凯利离散度（Kullback-Leibler divergence，简称KL散度)loss，对抗训练loss，以及风格自适应loss。以下对音色转换模块的训练过程进行说明：

对于音频重建loss的训练：

针对输入的训练样本语音x，获取相应的梅尔谱（该梅尔谱指训练样本语音x的真实的梅尔谱）；同时，后验编码器Posterior encoder基于前述梅尔谱获得隐式特征z（黑盒，更好地识别出来对应的说话人）。最后，通过解码模块获取语音x^，即音色转换模块所预估的目标说话人的音频，然后根据此x^获得估计的梅尔谱/>。在此基础上，音频重建的L1 loss如下：/>。

对于KL离散度loss的训练：

将音频特征编码模块输出的音频特征编码（具体包括文本特征、韵律特征等等）和风格编码模块输出的风格特征编码进行特征融合后得到的联合编码特征C，与目标音频通过后验编码器Posterior encoder获得的隐式特征z，上述两者进行对齐处理后所得对齐矩阵A，进而计算KL离散度。KL离散度loss为：

。

需要说明的是，风格特征编码模块，配置为获取目标语音样本的第一风格特征，并根据第一风格特征确定目标语音样本的第二风格特征；其中，第一风格特征用于指示目标语音样本的静态声音特性，第二风格特征用于指示在预设时长内对第一风格特征的特征偏置量与增益量的预测值。

需要说明的是，在对于C与z进行对齐并计算对齐矩阵A的计算过程中，本申请实施例或找那个采用单向且连续的方式进行对齐计算。具体而言，首先需计算C与z的对数似然函数P，对于第i维的C与第j维的z对应的对数似然函数P_i，j，可以通过第i维的C与第j-1维的z对应的对数似然函数P_i，j-1，以及第i-1维的C与第j-1维的z对应的对数似然函数P_i-1，j-1计算得到。通过上述迭代计算，在确定不同维对应的P的前提下，即可通过回溯计算的方式得到最佳的对齐路径，进而得到对齐矩阵A。

需要说明的是，上述音频特征编码模块在前述完成训练后，在音色转换模块训练时不再参与训练。

对抗训练loss：

本申请实施例在上述网络结构基础上增加一个鉴别器 D参与训练过程，解码器生成的估计G和真实音频x计算loss。

。

其中，T为鉴别器网络的层数，为获得/>个特征的鉴别器的第l层的特征。

通过本申请实施例可以针对音色转换实现两个方面的改进，第一，基于预训练的聚类模型，在音频特征编码模块进行音频特征提取过程中进行聚类处理，通过对特征的聚类提升特征的质量和声音转换的效果；第二，在聚类的基础上，通过对音色转换模型的改进，令声音转换的最终效果得以进一步改善；第三，风格编码模块可用于对说话人的声音风格进行处理，声音风格包括说话人的音色、韵律等，在音色转换过程中，通过风格编码模块获取目标语音样本的风格信息（第二风格特征）后，在训练过程中可以更好地针对目标说话人的说话风格进行训练；然后在音色转换过程中，将目标音频特征与第二风格特征进行融合，以得到联合编码特征，并进一步针对联合编码特征进行训练，可以有效将目标说话人的风格信息融合在训练过程中，可以使得训练后的模型有效识别目标说话人的说话风格，并将待转换的原始语音按照目标说话人的说话风格进行转换，有效复刻目标说话人的音色。

根据本申请实施例的又一个方面，还提供了一种用于实施上述语音转换方法的电子装置，上述电子装置可以但不限于应用于服务器中。如图6所示，该电子装置包括存储器602和处理器604，该存储器602中存储有计算机程序，该处理器604被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，获取待转换的原始语音与目标说话人的目标语音样本；

S2，通过音频特征编码模块识别所述目标语音样本的风格类别，并根据所述目标语音样本的风格类别提取所述目标语音样本的目标音频特征；其中，所述目标音频特征包含所述目标语音样本的文本特征、韵律特征和音色特征；

S3，通过所述音频特征编码模块提取所述原始语音的原始音频特征，其中，所述原始音频特征包含所述原始语音的文本特征、韵律特征和音色特征；

S4，通过风格特征编码模块获取所述目标语音样本的第一风格特征，并根据所述第一风格特征确定所述目标语音样本的第二风格特征；其中，所述第一风格特征用于指示所述目标语音样本的静态声音特性，所述第二风格特征用于指示在预设时长内对所述第一风格特征的特征偏置量与增益量的预测值；

S5，将所述原始语音的原始音频特征、所述目标语音样本的目标音频特征和所述目标语音样本的第二风格特征进行融合映射得到联合编码特征；

S6，对所述联合编码特征进行标准流化操作后解码，得到与所述目标说话人的说话风格对应的目标语音特征，并基于所述目标语音特征对所述原始语音进行转换，得到目标语音。

可选地，本领域普通技术人员可以理解，图6所示的结构仅为示意，电子装置也可以是智能手机、平板电脑、掌上电脑以及移动互联网设备（Mobile Internet Devices，MID）、PAD等终端设备。图6其并不对上述电子装置的结构造成限定。例如，电子装置还可包括比图6中所示更多或者更少的组件（如网络接口等），或者具有与图6所示不同的配置。

其中，存储器602可用于存储软件程序以及模块，如本申请实施例中的语音转换方法和装置对应的程序指令/模块，处理器604通过运行存储在存储器602内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的语音转换方法。存储器602可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器602可进一步包括相对于处理器604远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器602具体可以但不限于用于储存语音转换方法的程序步骤。作为一种示例，如图6所示，上述存储器602中可以但不限于包括上述语音识别神经网络模型中的神经网络滤波器、神经网络编码器、激活函数输出层等。此外，还可以包括但不限于上述语音识别神经网络模型中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置606用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置606包括一个网络适配器（Network Interface Controller，NIC），其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置606为射频（Radio Frequency，RF）模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子装置还包括：显示器608，用于显示语音转换的输入输出信息；和连接总线610，用于连接上述电子装置中的各个模块部件。

本申请的实施例还提供了一种计算机可读的存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，获取待转换的原始语音与目标说话人的目标语音样本；

可选地，存储介质还被设置为存储用于执行上述实施例中的方法中所包括的步骤的计算机程序，本实施例中对此不再赘述。

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器（Read-Only Memory，ROM）、随机存取器（Random Access Memory，RAM）、磁盘或光盘等。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备（可为个人计算机、服务器或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种语音转换方法，其特征在于，包括：

获取待转换的原始语音与目标说话人的目标语音样本；

对所述联合编码特征进行标准流化操作后解码，得到与所述目标说话人的说话风格对应的目标语音特征，并基于所述目标语音特征对所述原始语音进行转换，得到目标语音；

其中，在通过音频特征编码模块提取所述原始语音的原始音频特征之前，所述方法还包括：

2.如权利要求1所述的语音转换方法，其特征在于，所述根据所述初始音频特征编码模块的损失函数训练所述初始音频特征编码模块，包括：

通过以下损失函数的公式训练所述初始音频特征编码模块：

，

3.如权利要求1所述的语音转换方法，其特征在于，所述根据所述第一聚类模型和所述第二聚类模型输出的真实类别标签和所述初始音频特征编码模块输出的预测类别标签，训练所述初始音频特征编码模块至收敛，包括：

4.如权利要求3所述的语音转换方法，其特征在于，所述基于所述预测类别标签与所述第一聚类模型和所述第二聚类模型输出的真实类别标签，训练所述初始音频特征编码模块至收敛，包括：

最小化所述第一聚类模型输出的真实类别标签与所述预测类别标签第一平均交叉熵，同时最小化所述第二聚类模型输出的真实类别标签与所述预测类别标签第二平均交叉熵，基于最小化后的所述第一平均交叉熵和最小化后的所述第二平均交叉熵，更新所述初始音频特征编码模块的损失函数，同时对所述初始音频特征编码模块的训练参数进行更新。

5.一种语音转换装置，其特征在于，包括：

转换模块，配置为对所述联合编码特征进行标准流化操作后解码，得到与所述目标说话人的说话风格对应的目标语音特征，并基于所述目标语音特征对所述原始语音进行转换，得到目标语音；

训练模块，配置为使用第一训练样本训练第一聚类模型，其中，所述第一训练样本包括多个说话人的语音样本，且多个说话人的语音样本对应不同的风格类型；所述第一聚类模型用于对所述第一训练样本进行聚类，并根据聚类结果确定所述第一训练样本对应的类别标签；

6.一种计算机可读的存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行权利要求1至4任一项中所述的方法。

7.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求1至4任一项中所述的方法。