CN112634920A

CN112634920A - 基于域分离的语音转换模型的训练方法及装置

Info

Publication number: CN112634920A
Application number: CN202011509341.3A
Authority: CN
Inventors: 陈闽川; 马骏; 王少军
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-12-18
Filing date: 2020-12-18
Publication date: 2021-04-09
Anticipated expiration: 2040-12-18
Also published as: CN112634920B; WO2022126924A1

Abstract

本发明公开了一种基于域分离的语音转换模型的训练方法及装置，该方法包括：接收训练语音并对训练语音进行特征提取，得到训练语音的梅尔频率倒谱系数；将梅尔频率倒谱系数分别输入到内容编码器和音色编码器中，得到音素特征向量和音色特征向量；分别对音素特征向量、音色特征向量进行分类处理，得到第一分类误差和第二分类误差；将音素特征向量、音色特征向量进行拼接后输入到解码器中，得到重构误差；根据第一分类误差、第二分类误差、重构误差计算语音转换模型的整体损失以对语音转换模型进行更新。本发明基于语音合成技术，通过采用域分离技术对语音转换模型进行训练，不仅能将非平衡语料进行完整的语音转换，而且提高了语音转换准确率。

Description

基于域分离的语音转换模型的训练方法及装置

技术领域

本发明涉及语音语义技术，尤其涉及一种基于域分离的语音转换模型的训练方法及装置。

背景技术

语音转换为用于将A说话人的语音转换成以B说话人的声音来输出A说话人的语音中内容。语音转换不仅可以用在语音合成的后端，还可以用于说话人身份保密，影视作品配音等方面。现有技术中，实现语音转换的方法包括：基于生成式对抗网络、变分自编码器、音素后验图、隐马尔科夫模型等，但是现有技术中训练后的语音转换模型在对存在非平衡语料的音频进行语音转换时，无法将该音频进行完整的语音转换，且该音频转换完成后，得到音频与目标说话者音色的相似度不高。

发明内容

针对上述技术问题，本发明实施例提供了一种基于域分离的语音转换模型的训练方法及装置，通过域分离技术对语音转换模型进行训练，使得训练后的语音转换模型不仅能将非平衡语料进行完整的语音转换，而且提高了语音转换准确率。

第一方面，本发明实施例提供了一种基于域分离的语音转换模型的训练方法，其包括：

接收预设的训练语音并对所述训练语音进行特征提取，得到所述训练语音的梅尔频率倒谱系数；

将所述训练语音的梅尔频率倒谱系数分别输入到内容编码器和音色编码器中，得到所述训练语音的音素特征向量和音色特征向量；

根据预设的分类规则分别对所述音素特征向量、所述音色特征向量进行分类处理，得到第一分类误差和第二分类误差；

将所述音素特征向量、所述音色特征向量进行拼接并将拼接后的特征向量输入到解码器中，得到所述梅尔频率倒谱系数的重构误差；

根据所述第一分类误差、所述第二分类误差以及所述重构误差计算语音转换模型的整体损失并根据所述整体损失更新所述语音转换模型的网络参数。

第二方面，本发明实施例提供了一种基于域分离的语音转换模型的训练装置，其包括：

特征提取单元，用于接收预设的训练语音并对所述训练语音进行特征提取，得到所述训练语音的梅尔频率倒谱系数；

第一输入单元，用于将所述训练语音的梅尔频率倒谱系数分别输入到内容编码器和音色编码器中，得到所述训练语音的音素特征向量和音色特征向量；

第一分类单元，用于根据预设的分类规则分别所述音素特征向量、所述音色特征向量进行分类处理，得到第一分类误差和第二分类误差；

拼接单元，用于将所述音素特征向量、所述音色特征向量进行拼接并将拼接后的特征向量输入到解码器中，得到所述梅尔频率倒谱系数的重构误差；

更新单元，用于根据所述第一分类误差、所述第二分类误差以及所述重构误差计算语音转换模型的整体损失并根据所述整体损失更新所述语音转换模型的网络参数。

第三方面，本发明实施例又提供了一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如上述第一方面所述的基于域分离的语音转换模型的训练方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其中所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的基于域分离的语音转换模型的训练方法。

本发明实施例提供了一种基于域分离的语音转换模型的训练方法及装置，该方法包括：接收预设的训练语音并对所述训练语音进行特征提取，得到所述训练语音的梅尔频率倒谱系数；将所述训练语音的梅尔频率倒谱系数分别输入到内容编码器和音色编码器中，得到所述训练语音的音素特征向量和音色特征向量；根据预设的分类规则分别对所述音素特征向量、所述音色特征向量进行分类处理，得到第一分类误差和第二分类误差；将所述音素特征向量、所述音色特征向量进行拼接并将拼接后的特征向量输入到解码器中，得到所述梅尔频率倒谱系数的重构误差；根据所述第一分类误差、所述第二分类误差以及所述重构误差计算语音转换模型的整体损失并根据所述整体损失更新所述语音转换模型的网络参数。本发明实施例通过域分离技术对语音转换模型进行训练，使得训练后的语音转换模型不仅能将非平衡语料进行完整的语音转换，而且提高了语音转换准确率。

附图说明

图1为本发明实施例提供的基于域分离的语音转换模型的训练方法的流程示意图；

图2为本发明实施例提供的基于域分离的语音转换模型的训练方法的子流程示意图；

图3为本发明实施例提供的基于域分离的语音转换模型的训练方法的另一子流程示意图；

图4为本发明实施例提供的基于域分离的语音转换模型的训练方法的另一子流程示意图；

图5为本发明实施例提供的基于域分离的语音转换模型的训练方法的另一子流程示意图；

图6为本发明实施例提供的基于域分离的语音转换模型的训练方法的另一子流程示意图；

图7为本发明实施例提供的基于域分离的语音转换模型的训练方法的另一子流程示意图；

图8为本发明实施例提供的基于域分离的语音转换模型的训练装置的示意性框图；

图9为本发明实施例提供的基于域分离的语音转换模型的训练装置的子单元示意性框图；

图10为本发明实施例提供的基于域分离的语音转换模型的训练装置的另一子单元示意性框图；

图11为本发明实施例提供的基于域分离的语音转换模型的训练装置的另一子单元示意性框图；

图12为本发明实施例提供的基于域分离的语音转换模型的训练装置的另一子单元示意性框图；

图13为本发明实施例提供的基于域分离的语音转换模型的训练装置的另一子单元示意性框图；

图14为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1，图1为本发明实施例提供的基于域分离的语音转换模型的训练方法的流程示意图。本发明实施例的所述的基于域分离的语音转换模型的训练方法应用于终端设备中，该方法通过安装于终端设备中的应用软件进行执行。其中，终端设备为具备接入互联网功能的终端设备，例如台式电脑、笔记本电脑、平板电脑或手机等设备。需要说明的是，在本发明具体实施例中，所述语音转换模型包括内容编码器、音色编码器以及解码器，所述第一分类器、所述第二分类器、所述ASR***均用于辅助所述语音转换模型的训练，所述语音转换模型训练完成后，通过所述语音转换模型中的内容编码器、音色编码器以及解码器便可完成语音转换。

下面对所述的基于域分离的语音转换模型的训练方法进行详细说明。如图1所示，该方法包括以下步骤S110～S150。

S110、接收预设的训练语音并对所述训练语音进行特征提取，得到所述训练语音的梅尔频率倒谱系数。

接收预设的训练语音并对所述训练语音进行特征提取，得到所述训练语音的梅尔频率倒谱系数。具体的，所述训练语音为用于对语音转换模型进行训练的音频信息，所述训练语音的梅尔频率倒谱系数((Mel-Frequency Cepstral Coefficients，MFCCs))为所述训练语音的语音特征，所述训练语音的梅尔频率倒谱系数包括所述训练语音的说话人的音素特征和音色特征。在本发明实施例中，所述训练语音的语料既可以为平衡预料，也可以为非平衡语料。

在另一实施例中，如图2所示，步骤S110包括子步骤S111和S112。

S111、获取所述训练语音的频谱并将所述训练语音的频谱输入至预置的梅尔滤波器组中，得到所述训练语音的梅尔频谱。

获取所述训练语音的频谱并将所述训练语音的频谱输入至预置的梅尔滤波器组中，得到所述训练语音的梅尔频谱。具体的，终端设备以语音信号的方式接收所述训练语音接收到所述训练语音后，对所述训练语音的每一帧的语音信号进行傅里叶变换，得到所述描述所述训练语音的频谱图。

在另一实施例中，如图3所示，步骤S111包括子步骤S1111和S1112。

S1111、对所述训练语音进行预处理，得到预处理后的训练语音。

对所述训练语音进行预处理，得到预处理后的训练语音。具体的，通常情况下终端设备接收到的训练语音的语音信号整体上不稳定，通过对所述训练语音进行预处理，使得训练语音趋于平稳。终端设备在接收到所述训练语音的语音信号后，首先对训练语音的语音信号进行预加重处理，然后将预加重处理后的语音信号进行分帧，最后对分帧后的语音信号进行加窗处理，便可得到所述预处理后的训练语音。其中，语音信号的预加重处理主要是对语音信号中高频部分进行预加重处理，进而去除***辐射的影响，增加所述语音信号中高频部分的分辨率；语音信号进行预加重处理后，通过将语音信号进行分帧处理，但是分帧处理后的语音信号的每一帧的起始段和末尾端会不连续，导致误差增大，因此分帧后通过加窗处理便可使得分帧后的语音信号平滑连续。

S1112、将所述预处理后的训练语音进行快速傅里叶变换，得到所述训练语音的频谱。

将所述预处理后的训练语音进行快速傅里叶变换，得到所述训练语音的频谱。具体的，所述训练语音在进行预处理后，得到了由每一帧连续的语音信号组成的语音信号，该每一帧连续的语音信号组成的语音信号即为描述所述预处理后的训练语音，然后将所述预处理后的训练语音中每一帧语音信号进行短时傅里叶变换，得到每一帧语音信号的频率，每一帧语音信号的频率即为所述训练语音的频谱中的一个时间段的频率。

S112、将所述训练语音的梅尔频谱进行倒谱分析，得到所述训练语音的梅尔频率倒谱系数。

将所述训练语音的梅尔频谱进行倒谱分析，得到所述训练语音的梅尔频率倒谱系数。具体的，通过将所述训练语音的梅尔频谱进行对数运算，对数运算完成后进行逆傅里叶变换便可得到所述训练语音的梅尔频率倒谱系数。

S120、将所述训练语音的梅尔频率倒谱系数分别输入到内容编码器和音色编码器中，得到所述训练语音的音素特征向量和音色特征向量。

将所述训练语音的梅尔频率倒谱系数分别输入到内容编码器和音色编码器中，得到所述训练语音的音素特征向量和音色特征向量。具体的，所述内容编码器为用于提取共有特征的编码器，所述音色编码器为用于提取源域数据私有特征的源域私有编码器，在本发明实施例中，所述训练语音的中的音素特征向量用于表征所述训练语音的内容，即所述训练语音的内容为所述训练语音的共有特征，所述训练语音中的音色特征向量用于表征所述训练语音的说话人身份，即所述训练语音的说话人身份为所述驯良语音的私有特征，通过将所述训练语音的梅尔频率倒谱系数输入到所述内容编码器中，便可从所述训练语音的梅尔频率倒谱系数中提取所述训练语音的音素特征向量；将所述训练语音的梅尔频率倒谱系数输入到所述音色编码器中，便可从所述训练语音的梅尔频率倒谱系数中提取所述训练语音的音素特征向量。

S130、根据预设的分类规则分别对所述音素特征向量、所述音色特征向量进行分类处理，得到第一分类误差和第二分类误差。

根据预设的分类规则分别对所述音素特征向量、所述音色特征向量进行分类处理，得到第一分类误差和第二分类误差。具体的，所述预设的分类规则为用于分别对所述音素特征向量、所述音色特征向量进行分类处理，进而得到所述音素特征向量的第一分类误差、所述音色特征向量的第二分类误差的规则信息。所述第一分类误差为所述音素特征向量在预置的第一分类器中进行分类产生的误差，所述第二分类误差为所述音色特征向量在预置的第二分类器中进行分类产生的误差。

在另一实施例中，如图4所示，步骤S130包括子步骤S131和S132。

S131、将所述音素特征向量依次通过预置的梯度反转层、预置的第一分类器中，得到所述第一分类误差。

将所述音素特征向量依次通过预置的梯度反转层、预置的第一分类器中，得到所述第一分类误差。具体的，所述梯度反转层为内容编码器和预置的第一分类器之间的连接层并用于实现内容编码器和第一分类器的对抗学习，在所述第一分类器的产生的第一分类误差反向传播过程乘以-λ实现梯度反转，其中λ为一个正数，使得第一分类器和内容编码器的学习目标相反，达到第一分类器和内容编码器的对抗学习的目的，通过所述第一分类误差便可对所述内容编码器的网络参数进行调整，即对所述内容编码器进行训练。

S132、将所述音色特征向量输入至预置的第二分类器中，得到所述第二分类误差。

将所述音色特征向量输入至预置的第二分类器中，得到所述第二分类误差。具体的，所述第二分类器为用于对所述音色特征向量进行标签分类，以便于音色编码器能实现从所述训练语音中提取所述训练语音的私有特征，所述音色特征向量输入到所述第二分类器中便可从所述第二分类器中产生所述第二分类误差，通过所述第二分类误差便可对所述音色编码器的网络参数进行调整，即对所述音色编码器进行训练。

S140、将所述音素特征向量、所述音色特征向量进行拼接并将拼接后的特征向量输入到解码器中，得到所述梅尔频率倒谱系数的重构误差。

将所述音素特征向量、所述音色特征向量进行拼接并将拼接后的特征向量输入到解码器中，得到所述梅尔频率倒谱系数的重构误差。具体的，在进行拼接前，所述音素特征向量的维度与所述音色特征向量的维度相同，通过将所述音素特征向量、所述音色特征向量进行首尾拼接，便可得到所述拼接后的特征向量，所述拼接后的特征向量即包含了从音色编码器中提取的私有特征，也包含了从内容编码器中提取的共有特征，将所述拼接后的特征向量输入到解码器中，便可得到一个新的梅尔频率倒谱系数，同时解码器也会产生重构梅尔频率倒谱系数的重构误差。

S150、根据所述第一分类误差、所述第二分类误差以及所述重构误差计算语音转换模型的整体损失并根据所述整体损失更新所述语音转换模型的网络参数。

根据所述第一分类误差、所述第二分类误差以及所述重构误差计算语音转换模型的整体损失并根据所述整体损失更新所述语音转换模型的网络参数。具体的，通过将表征第一分类误差、第二分类误差以及重构误差的函数以各自的权重进行相加后，便可得到表征所述语音转换模型的整体损失的函数。表征整体损失的函数表示为：L＝L_recon+bL_class1+dL_class2，其中，L为整体损失，L_recon为重构误差，L_class1为第一分类误差，L_class2为第二分类误差，b为第一分类误差的权重、d为第二分类误差的权重。

在另一实施例中，如图5所示，步骤S150包括子步骤S151和S152。

S151、根据弗罗贝尼乌斯范数计算所述音素特征向量与所述音色特征向量的差异损失。

根据弗罗贝尼乌斯范数计算所述音素特征向量与所述音色特征向量的差异损失。具体的，弗罗贝尼乌斯范数又称希尔伯特-施密特范数，当矩阵范数中的P＝2时，便为弗罗贝尼乌斯范数，弗罗贝尼乌斯范数的定义为：

其中A^*表示A的共轭转置，σ_i为A的奇异值，在本发明实施例中，A为音素特征向量对应的转置矩阵与音色特征向量对应的矩阵的乘积，即表征差异损失的函数表示为：

其中，L_difference表示为差异损失，

表示为音素特征向量对应的转置矩阵，h_p表示为音色特征向量对应的矩阵。其中，向量的范数可以理解为向量的长度，或者向量到零点的距离，或者相应的两个点之间的距离。通过添加所述差异损失，进而进一步提高了内容编码器对训练语音中共有特征提取的精确度以及音色编码器对训练语音中私有特征提取的精确度，从而更加突出出转换后说话人的语音特征。

S152、根据所述第一分类误差、所述第二分类误差、所述重构误差以及所述差异损失计算所述语音转换模型的整体损失。

根据所述第一分类误差、所述第二分类误差、所述重构误差以及所述差异损失计算所述语音转换模型的整体损失。在本发明实施例中，所述语音转换模型的整体损失的函数表征为：L＝L_recon+bL_class1+CL_difference+dL_class2，其中，L为整体损失，L_recon为重构误差，L_class1为第一分类误差，L_difference为差异损失，L_class2为第二分类误差，b为第一分类误差的权重、c为差异损失的权重，d为第二分类误差的权重。

在另一实施例中，如图6所示，步骤S152包括子步骤S1521和S1522。

S1521、将所述音素特征向量输入到预设的ASR***中进行音素识别，得到交叉熵损失。

将所述音素特征向量输入到预设的ASR***中进行音素识别，得到交叉熵损失。具体的，所述内容编码器在对所述训练语音进行音素特征向量提取完成后，所述ASR***对所述音素特征向量进行音素识别，进而得到所述交叉熵损失，通过所述交叉熵损失对所述内容编码器的网络参数进行调整，不仅可以提高所述内容编码器训练完成后音素特征提取的精确度，而且加快所述内容编码器的训练效率。另外，在训练过程中，添加所述ASR***还可以防止所述内容编码在训练过程中退化为自编码器的网络。

S1522、根据所述第一分类误差、所述第二分类误差、所述重构误差、所述差异损失以及所述交叉熵损失计算所述语音转换模型的整体损失。

根据所述第一分类误差、所述第二分类误差、所述重构误差、所述差异损失以及所述交叉熵损失计算所述语音转换模型的整体损失。在本发明实施例中，所述语音转换模型的整体损失的函数表征为：L＝L_recon+aL_ce+bL_class1+cL_difference+dL_class2，其中，L为整体损失，L_recon为重构误差，L_ce为交叉熵损失，L_class1为第一分类误差，L_difference为差异损失，L_class2为第二分类误差，a为交叉熵损失的权重，b为第一分类误差的权重、c为差异损失的权重，d为第二分类误差的权重。

在另一实施例中，如图7所示，步骤S150之后还包括步骤S160、S170和S180。

S160、若接收到第一说话人的第一音频，获取所述第一音频的梅尔频率倒谱系数。

若接收到第一说话人的第一音频，获取所述第一音频的梅尔频率倒谱系数。具体的，所述第一说话人的第一音频为需通过已经训练完成后的所述语音转换模型进行语音转换的语音信号，终端设备在接收到所述第一说话人的第一音频后，便可从所述第一音频中获取所述第一音频的梅尔频率倒谱系数。

S170、根据所述音色编码器获取第二说话人中第二音频的音色特征向量并将所述第一音频的梅尔频率倒谱系数输入至所述内容编码器中，得到所述第一音频的音素特征向量。

根据所述音色编码器获取第二说话人中第二音频的音色特征向量并将所述第一音频的梅尔频率倒谱系数输入至所述内容编码器中，得到所述第一音频的音素特征向量。具体的，所述第二说话人为所述第一说话人的第一音频进行语音转换后需要以所述第二说话人的声音来进行表征的人，即所述第一说话人的第一音频在进行语音转换后得到的语音中说话人的音色为所述第二说话人的声音特征，所述第二音频为所述第二说话人任意的音频。当需要将所述第一音频转换成所述第二说话人的语音时，只需从所述第二说话人的第二音频中提取能表征所述第二说话人的身份信息，该身份信息可用所述第二音频的音色特征向量来进行表征，然后将第二音频的音色特征向量与从所述第一音频中提取的音素特征向量进行拼接后，输入到解码器中，便可得到以所述第二说话人的身份输出的语音。

S180、将所述第一音频的音素特征向量与所述第二音频的音色特征向量拼接后输入到所述解码器，得到所述第二说话人的第一音频。

将所述第一音频的音素特征向量与所述第二音频的音色特征向量拼接后输入到所述解码器，得到所述第二说话人的第一音频。具体的，所述第二说话人的第一音频中的音频内容与所述第一说话人的第一音频的音频内容相同，但是所述第一说话人的第一音频中的音色为所述第一说话人的音色，所述第二说话人的第一音频中的音色为所述第二说话人的音色。所述第一音频的音素特征向量与所述第二音频的音色特征向量拼接后，拼接后的特征向量中既包含所述第一音频的音频内容，也包含所述第二说话人的音色信息，拼接后的特征向量通过所述解码器解码后，便可重构所述第一音频的梅尔频率倒谱系数，然后通过重构的梅尔频率倒谱系数便可得到所述第二说话人的第一音频。

在本发明实施例所提供的基于域分离的语音转换模型的训练方法中，通过接收预设的训练语音并对所述训练语音进行特征提取，得到所述训练语音的梅尔频率倒谱系数；将所述训练语音的梅尔频率倒谱系数分别输入到内容编码器和音色编码器中，得到所述训练语音的音素特征向量和音色特征向量；根据预设的分类规则分别对所述音素特征向量、所述音色特征向量进行分类处理，得到第一分类误差和第二分类误差；将所述音素特征向量、所述音色特征向量进行拼接并将拼接后的特征向量输入到解码器中，得到所述梅尔频率倒谱系数的重构误差；根据所述第一分类误差、所述第二分类误差以及所述重构误差计算语音转换模型的整体损失并根据所述整体损失更新所述语音转换模型的网络参数。本发明实施例通过域分离技术对语音转换模型进行训练，使得训练后的语音转换模型不仅能将非平衡语料进行完整的语音转换，而且提高了语音转换准确率。

本发明实施例还提供了一种基于域分离的语音转换模型的训练装置100，该装置用于执行前述基于域分离的语音转换模型的训练方法的任一实施例。具体地，请参阅图8，图8是本发明实施例提供的基于域分离的语音转换模型的训练装置100的示意性框图。

如图8所示，所述的基于域分离的语音转换模型的训练装置100，该装置包括：特征提取单元110、第一输入单元120、第一分类单元130、拼接单元140和更新单元150。

特征提取单元110，用于接收预设的训练语音并对所述训练语音进行特征提取，得到所述训练语音的梅尔频率倒谱系数。

在其他发明实施例中，如图9所示，所述特征提取单元110包括：第一获取单元111和倒谱分析单元112。

第一获取单元111，用于获取所述训练语音的频谱并将所述训练语音的频谱输入至预置的梅尔滤波器组中，得到所述训练语音的梅尔频谱。

在其他发明实施例中，如图10所示，所述第一获取单元111包括：预处理单元1111和变换单元1112。

预处理单元1111，用于对所述训练语音进行预处理，得到预处理后的训练语音。

变换单元1l12，用于将所述预处理后的训练语音进行快速傅里叶变换，得到所述训练语音的频谱。

倒谱分析单元112，用于将所述训练语音的梅尔频谱进行倒谱分析，得到所述训练语音的梅尔频率倒谱系数。

第一输入单元120，用于将所述训练语音的梅尔频率倒谱系数分别输入到内容编码器和音色编码器中，得到所述训练语音的音素特征向量和音色特征向量。

第一分类单元130，用于根据预设的分类规则分别所述音素特征向量、所述音色特征向量进行分类处理，得到第一分类误差和第二分类误差。

在其他发明实施例中，如图11所示，所述第一分类单元130包括：第二分类单元131和第三分类单元132。

第二分类单元131，用于将所述音素特征向量依次通过预置的梯度反转层、预置的第一分类器中，得到所述第一分类误差。

第三分类单元132，用于将所述音色特征向量输入至预置的第二分类器中，得到所述第二分类误差。

拼接单元140，用于将所述音素特征向量、所述音色特征向量进行拼接并将拼接后的特征向量输入到解码器中，得到所述梅尔频率倒谱系数的重构误差。

更新单元150，用于根据所述第一分类误差、所述第二分类误差以及所述重构误差计算语音转换模型的整体损失并根据所述整体损失更新所述语音转换模型的网络参数。

在其他发明实施例中，如图12所示，所述更新单元150包括：第一计算单元151和第二计算单元152。

第一计算单元151，用于根据弗罗贝尼乌斯范数计算所述音素特征向量与所述音色特征向量的差异损失。

第二计算单元152，用于根据所述第一分类误差、所述第二分类误差、所述重构误差以及所述差异损失计算所述语音转换模型的整体损失。

在其他发明实施例中，如图13所示，所述第二计算单元152包括：第二获取单元1521和第三计算单元1522。

第二获取单元1521，用于将所述音素特征向量输入到预设的ASR***中进行音素识别，得到交叉熵损失。

第三计算单元1522，用于根据所述第一分类误差、所述第二分类误差、所述重构误差、所述差异损失以及所述交叉熵损失计算所述语音转换模型的整体损失。

在其他发明实施例中，所述的基于域分离的语音转换模型的训练装置还包括：接收单元160、第二输入单元170和第三输入单元180。

接收单元160，用于若接收到第一说话人的第一音频，获取所述第一音频的梅尔频率倒谱系数。

第二输入单元170，用于根据所述音色编码器获取第二说话人中第二音频的音色特征向量并将所述第一音频的梅尔频率倒谱系数输入至所述内容编码器中，得到所述第一音频的音素特征向量。

第三输入单元180，用于将所述第一音频的音素特征向量与所述第二音频的音色特征向量拼接后输入到所述解码器，得到所述第二说话人的第一音频。

本发明实施例所提供的基于域分离的语音转换模型的训练装置100用于执行上述接收预设的训练语音并对所述训练语音进行特征提取，得到所述训练语音的梅尔频率倒谱系数；将所述训练语音的梅尔频率倒谱系数分别输入到内容编码器和音色编码器中，得到所述训练语音的音素特征向量和音色特征向量；根据预设的分类规则分别对所述音素特征向量、所述音色特征向量进行分类处理，得到第一分类误差和第二分类误差；将所述音素特征向量、所述音色特征向量进行拼接并将拼接后的特征向量输入到解码器中，得到所述梅尔频率倒谱系数的重构误差；根据所述第一分类误差、所述第二分类误差以及所述重构误差计算语音转换模型的整体损失并根据所述整体损失更新所述语音转换模型的网络参数。

请参阅图14，图14是本发明实施例提供的计算机设备的示意性框图。

参阅图14，该设备500包括通过***总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括非易失性存储介质503和内存储器504。

该非易失性存储介质503可存储操作***5031和计算机程序5032。该计算机程序5032被执行时，可使得处理器502执行基于域分离的语音转换模型的训练方法。

该处理器502用于提供计算和控制能力，支撑整个设备500的运行。

该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行基于域分离的语音转换模型的训练方法。

该网络接口505用于进行网络通信，如提供数据信息的传输等。本领域技术人员可以理解，图14中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的设备500的限定，具体的设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现如下功能：接收预设的训练语音并对所述训练语音进行特征提取，得到所述训练语音的梅尔频率倒谱系数；将所述训练语音的梅尔频率倒谱系数分别输入到内容编码器和音色编码器中，得到所述训练语音的音素特征向量和音色特征向量；根据预设的分类规则分别对所述音素特征向量、所述音色特征向量进行分类处理，得到第一分类误差和第二分类误差；将所述音素特征向量、所述音色特征向量进行拼接并将拼接后的特征向量输入到解码器中，得到所述梅尔频率倒谱系数的重构误差；根据所述第一分类误差、所述第二分类误差以及所述重构误差计算语音转换模型的整体损失并根据所述整体损失更新所述语音转换模型的网络参数。

本领域技术人员可以理解，图14中示出的设备500的实施例并不构成对设备500具体构成的限定，在其他实施例中，设备500可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，设备500可以仅包括存储器及处理器502，在这样的实施例中，存储器及处理器502的结构及功能与图14所示实施例一致，在此不再赘述。

应当理解，在本发明实施例中，处理器502可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器502还可以是其他通用处理器502、数字信号处理器502(Digital Signal Processor，DSP)、专用集成电路(Application Specific IntegratedCircuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器502可以是微处理器502或者该处理器502也可以是任何常规的处理器502等。

在本发明的另一实施例中提供计算机存储介质。该存储介质可以为非易失性的计算机可读存储介质。该存储介质存储有计算机程序5032，其中计算机程序5032被处理器502执行时实现以下步骤：接收预设的训练语音并对所述训练语音进行特征提取，得到所述训练语音的梅尔频率倒谱系数；将所述训练语音的梅尔频率倒谱系数分别输入到内容编码器和音色编码器中，得到所述训练语音的音素特征向量和音色特征向量；根据预设的分类规则分别对所述音素特征向量、所述音色特征向量进行分类处理，得到第一分类误差和第二分类误差；将所述音素特征向量、所述音色特征向量进行拼接并将拼接后的特征向量输入到解码器中，得到所述梅尔频率倒谱系数的重构误差；根据所述第一分类误差、所述第二分类误差以及所述重构误差计算语音转换模型的整体损失并根据所述整体损失更新所述语音转换模型的网络参数。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为逻辑功能划分，实际实现时可以有另外的划分方式，也可以将具有相同功能的单元集合成一个单元，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台设备500(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于域分离的语音转换模型的训练方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于域分离的语音转换模型的训练方法，其特征在于，所述对所述训练语音进行特征提取，得到所述训练语音的梅尔频率倒谱系数，包括：

获取所述训练语音的频谱并将所述训练语音的频谱输入至预置的梅尔滤波器组中，得到所述训练语音的梅尔频谱；

将所述训练语音的梅尔频谱进行倒谱分析，得到所述训练语音的梅尔频率倒谱系数。

3.根据权利要求2所述的基于域分离的语音转换模型的训练方法，其特征在于，所述获取所述训练语音的频谱，包括：

对所述训练语音进行预处理，得到预处理后的训练语音；

将所述预处理后的训练语音进行快速傅里叶变换，得到所述训练语音的频谱。

4.根据权利要求1所述的基于域分离的语音转换模型的训练方法，其特征在于，所述根据预设的分类规则分别对所述音素特征向量、所述音色特征向量进行分类处理，得到第一分类误差和第二分类误差，包括：

将所述音素特征向量依次通过预置的梯度反转层、预置的第一分类器中，得到所述第一分类误差；

将所述音色特征向量输入至预置的第二分类器中，得到所述第二分类误差。

5.根据权利要求4所述的基于域分离的语音转换模型的训练方法，其特征在于，所述根据所述第一分类误差、所述第二分类误差以及所述重构误差计算语音转换模型的整体损失，包括：

根据弗罗贝尼乌斯范数计算所述音素特征向量与所述音色特征向量的差异损失；

根据所述第一分类误差、所述第二分类误差、所述重构误差以及所述差异损失计算所述语音转换模型的整体损失。

6.根据权利要求5所述的基于域分离的语音转换模型的训练方法，其特征在于，所述根据所述第一分类误差、所述第二分类误差、所述重构误差以及所述差异损失计算所述语音转换模型的整体损失，包括：

将所述音素特征向量输入到预设的ASR***中进行音素识别，得到交叉熵损失；

根据所述第一分类误差、所述第二分类误差、所述重构误差、所述差异损失以及所述交叉熵损失计算所述语音转换模型的整体损失。

7.根据权利要求1-6中任意一项所述的基于域分离的语音转换模型的训练方法，其特征在于，所述根据所述整体损失更新所述语音转换模型的网络参数之后，还包括：

若接收到第一说话人的第一音频，获取所述第一音频的梅尔频率倒谱系数；

根据所述音色编码器获取第二说话人中第二音频的音色特征向量并将所述第一音频的梅尔频率倒谱系数输入至所述内容编码器中，得到所述第一音频的音素特征向量；

将所述第一音频的音素特征向量与所述第二音频的音色特征向量拼接后输入到所述解码器，得到所述第二说话人的第一音频。

8.一种基于域分离的语音转换模型的训练装置，其特征在于，包括：

9.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的基于域分离的语音转换模型的训练方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至7任一项所述的基于域分离的语音转换模型的训练方法。