CN104123933A

CN104123933A - 基于自适应非平行训练的语音转换方法

Info

Publication number: CN104123933A
Application number: CN201410377091.0A
Authority: CN
Inventors: 王飞跃; 孔庆杰; 熊刚; 朱凤华; 朱春雷
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2014-08-01
Filing date: 2014-08-01
Publication date: 2014-10-29

Abstract

本发明公开了一种基于自适应非平行训练的语音转换方法，该方法包括以下步骤：从采集到的语音样本中检测出有效语音信号，对有效语音信号进行预处理；对于预处理后得到的有效语音信号提取语音特征参数；基于语音特征参数进行UBM训练，得到一个与说话人无关的UBM模型；基于所述UBM模型，得到与说话人有关的独立说话人语音模型，基于所述独立说话人语音模型，得到频谱参数和基频参数的转换函数；将待转换语音的语音特征参数输入到转换函数中，得到转换后的目标说话人的语音特征参数；将转换后的目标说话人的语音特征参数进行合成，得到目标语音。本发明不仅具有较好的转换性能，而且具有很好的***扩展性。

Description

基于自适应非平行训练的语音转换方法

技术领域

本发明涉及语音信号分析、语音信号处理、语音转换以及语音合成等领域，具体涉及一种基于自适应非平行训练的语音转换方法，属于语音信号处理领域中的语音转换分支。

背景技术

语音转换是指在保持语义内容不变的前提下，改变说话人的个性特征，使源说话人的语音在经过变换后听起来像是目标说话人说的一样。语音转换是对语音综合与识别技术的深度发展，语音转换作为语音信号处理领域的新的分支，具有高度的理论研究价值和应用前途。借鉴语音分析与合成、语音识别技术、语音编解码技术、语音增强以及说话人确认和辨识等领域的知识，为语音转换技术的发展提供技术支持，而语音转换技术的研究，又将促进这些领域的发展，为这些领域的进一步研究提供极具价值的参考意义。

目前，语音转换从大的类别上可分为同种语言之间的语音转换和跨语言的语音转换。对于同种语言之间的语音转换，在训练阶段，因语料的选择不同，又分为平行语料训练和非平行语料训练。对于跨语言的语音转换，要获得平行语料是不可能的，只能通过非平行语料来进行训练。通过几代人的努力，语音转换的研究取得了很大的发展，很多学者提出了不同的转换方法，总结起来，大致有以下几类：矢量量化方法，线性多变量回归法，人工神经网络法，多说话人插值转换法，高斯混合模型等。但以上的方法都是基于平行语料联合训练的语音转换，在实际应用中还存在一些问题：1.很多情况下平行语料很难获得甚至得不到；2.基于联合特征矢量的训练计算量很大，并且对语音成分对准的精度要求很高；3.联合语音模型采用联合训练的方法使得***的扩展不方便，灵活性很差。

针对这些问题，尽管近些年来研究人员进行了非平行语料下语音转换的研究，但是这些方法大都还是局限于解决平行语料的限制采用的是联合语音训练方法，还不能解决第二、三个问题。比如Mouchtaris等人于2006年发表在《IEEE Transactions on Audio,Speech and Language Processing(音频，语音和语言处理IEEE学报)》的第14卷第3期的名为《Nonparalleltraining for voice conversion based on a parameter adaptation approach(基于参数自适应方法的非平行训练语音转换)》的论文采用参数自适应的方法去转换频谱包络；陶建华等人于2010年发表在《IEEE Transactions on Audio,Speech and Language Processing(音频，语音和语言处理IEEE会刊)》的第18卷第5期的名为《Supervisory Data Alignment for Text-IndependentVoice Conversion(基于监督数据对齐的与文本无关的声音转换)》的论文提出了对非平行语料进行监督数据排列的方法实现语音转换；Ling-HuiChen等人于2011年的《IEEE International Conference on Acoustics,Speechand Signal Processing(声学，语音和信号处理的IEEE国际会议)》上发表了名为《Non-Parallel Training For Voice Conversion Based On FT-GMM(基于FT-GMM模型的非平行训练语音转换)》的论文中采用特征变换的高斯混合模型(FT-GMM)进行了非平行训练语音转换的研究；Daojian Zeng等人于2010年的《2010 IEEE 10th International Conference on SignalProcessing(2010年IEEE学会信号处理国际会议)》上发表了名为《VoiceConversion Using Structrued Gaussian Mixture Model(基于结构化高斯混合模型的语音转换)》的论文中运用结构化高斯混合模型实现了基于独立说话人模型的语音转换。

由于基于平行语料的语音转换方法受到了上述种种约束，导致了语音转换技术难以全面的走向实际应用，如通过非平行训练方法得到独立的说话人语音模型，改变源说话人的个性特征参数，加入目标说话人的个性特征，实现源-目标之间的转换，这对语音转换领域的发展将是巨大的贡献。

发明内容

为了克服上述现有技术的不足，本发明提供了一种新的非平行语料训练的语音转换方法，以解决平行语料联合训练语音转换方法中存在的以下问题：1、传统语音转换***中需要平行语料训练得到转换函数，而平行语料很难获取；2、传统语音转换***需要对特征矢量进行联合训练；3、传统语音转换***的扩展不方便。

本发明方法首先提取所有语音信号的基频和短时谱，从短时谱获得相应的LPCC参数，然后对所有的特征参数进行通用背景模型(UBM：Universal Background Model)训练，再利用最大后验概率(MAP:Maximuma Posterior Probability)自适应方法导出具体的说话人模型，最终得到相应的转换函数进行语音转换。

具体地，本发明提出的一种自适应非平行训练的语音转换方法包括以下步骤：

步骤1，从采集到的语音样本中检测出有效语音信号，对所述有效语音信号进行预处理；

步骤2，对于预处理后得到的有效语音信号提取语音特征参数；

步骤3，基于所述语音特征参数进行UBM训练，得到一个与说话人无关的UBM模型；

步骤4，基于所述UBM模型，得到与说话人有关的独立说话人语音模型，基于所述独立说话人语音模型，得到频谱参数和基频参数的转换函数；

步骤5，将待转换语音的语音特征参数输入到所述步骤4得到的转换函数中，得到转换后的目标说话人的语音特征参数；

步骤6，将转换后的目标说话人的语音特征参数进行合成，得到目标语音。

与现有技术相比，本发明的优点在于：

传统的语音转换方法大都采用平行语料训练源-目标说话人联合语音模型并由此推导相应的语音转换函数，但实际应用中不仅难以得到完全平行的语料，而且训练联合语音模型需要消耗大量的计算、***扩展不方便。本发明避免了平行训练对语料的严苛要求，采用非平行语料进行训练和转换，无需联合训练，而且***扩展灵活方便。

附图说明

图1是本发明优化自适应非平行训练的语音转换方法的流程图；

图2是本发明频谱参数转换函数的推导示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

图1是本发明采用的优化自适应非平行训练的语音转换方法的流程图，如图1所示，所述方法包括以下步骤：

在本发明一实施例中，所述预处理包括预加重、加汉明窗和分帧等处理。

所述语音特征参数可以为基音频率、线性预测倒谱系数(LPCC)、梅尔倒频谱系数(MFCC)，线谱对(LSP)等语音特征参数。

在本发明一实施例中，将所有的有效语音信号通过STRAIGHT平台获得每帧信号的基音频率F0和短时谱参数，基于求得的短时谱参数利用Levenson-Durbin算法求取每帧语音信号的LPC系数，然后将LPC系数转化为LPCC系数，即获得所有参与训练的说话人的语音特征参数，其中，用于获取基音频率F0的基音频率模型使用一阶的高斯分布来描述。

该步骤中，在进行UBM训练时，首先平衡说话人性别上的差异和每个说话人训练语料库的大小，然后融合所有用于训练的语音特征参数，通过EM算法训练得到UBM模型。其中，初始UBM模型中各成分的初始化权重均为1/M，M为UBM模型中混合高斯分量数。

UBM(通用背景模型)是一个与说话人无关的全局背景模型，全局背景模型本质上是一个大型的高斯混合模型(GMM)，一般由大量的说话人的语料训练得到，它的思想就是所有说话人的信息都包含在混合高斯密度函数所形成的超矢量中，它反映了所有说话人声音特征的统计平均分布特性，从而消除了个性特征。作为标准模型，UBM涵盖了多个子空间，其中每个子空间对应一个聚类中心，用高斯概率密度函数来描述，每一个子空间描述了特征空间的一个局部。

所述步骤4进一步包括以下步骤：

步骤41，对源说话人和目标说话人的训练语音分别进行预处理；

步骤42，分别提取两者的LPCC参数和基频参数；

步骤43，基于LPCC参数，分别从UBM模型中得到源说话人和目标说话人的GMM模型；

在本发明一实施例中，通过MAP自适应的方法分别从UBM模型中得到源说话人和目标说话人的GMM模型。

每个说话人的GMM模型都是由均值向量、协方差矩阵和混合权重来描述，表示为：

λ = {ω_{i}, μ_{i}, {\overset{&RightArrow;}{Σ}}_{i}}, i = 1,2, \cdot \cdot \cdot, M,

且有其中，ω_i表示混合权重，μ_i表示参数均值向量，表示协方差矩阵，M是GMM模型的阶数，一个M阶的GMM模型的概率密度函数是由M个高斯概率密度函数加权求和得到的。

设已经训练得到一个UBM模型λ＝{ω_i,μ_i,Σ_i}，某个说话人的特征矢量表示为X＝{x₁...,x_t...,x_T}，则通过MAP自适应的方法分别从UBM模型中得到源说话人和目标说话人的GMM模型的具体步骤如下：

首先，计算GMM模型中每个高斯分量的权重：

\Pr (i | x_{t}) = \frac{w_{i} p_{i} (x_{t} | μ_{i}, Σ_{i})}{Σ_{j = 1}^{M} w_{j} p_{j} (x_{t} | μ_{j}, Σ_{j})},

其中，x_t表示第t维特征矢量，w_i表示第i个高斯分量的权重，p_i(x_t|μ_i,Σ_i)表示高斯分量i的后验概率，μ_i表示均值向量，Σ_i表示协方差矩阵，w_j表示高斯分量j的权重，p_j(x_t|μ_j,Σ_j)表示高斯分量j的后验概率。

然后，利用求出的权重Pr(i|x_t)和特征分量x_t计算用于更新均值和方差的统计量n_i：

n_{i} = Σ_{t = 1}^{T} \Pr (i | x_{t}),

其中，T表示训练矢量的长度(即帧数)。

接着，利用统计量n_i和旧的UBM模型参数针对于每个高斯分量i的均值和方差进行更新，进而得到源说话人和目标说话人的GMM模型。

其中，利用统计量n_i和旧的UBM模型参数针对于每个高斯分量i的均值和方差进行更新的公式如下所示：

{\hat{μ}}_{i} = \frac{Σ_{t = 1}^{T} \Pr (i | x_{t}) x_{t} + τ μ_{i}}{n_{i} + τ},

{\hat{σ}}_{i}^{2} = \frac{{τσ}_{i}^{2} + τ ({\hat{μ}}_{i} - μ_{i}) {({\hat{μ}}_{i} - μ_{i})}^{T} + Σ_{t = 1}^{T} \Pr (i | x_{t}) (x_{t} - {\hat{μ}}_{i}) {(x_{t} - {\hat{μ}}_{i})}^{T}}{n_{i} + τ},

其中，表示更新后的高斯分量i的均值，表示更新后的高斯分量i的方差，表示原高斯分量i的方差，τ为一固定值，在本发明一实施例中，τ＝20。

由上，从训练的UBM模型中，自适应后可获得与说话人有关的GMM模型。这些模型都是从UBM这个基准模型中自适应得到的，所有模型的各分量与UBM中的各分量保持一致，因而这些模型的各分量之间是自动按顺序对应对齐的。这样，模型的转换就转化为各高斯分量之间的转换，通过推导，可获得频谱参数和基频的转换函数。

步骤44，求取基频参数的均值和方差，并使用一阶的高斯模型对其进行建模；

步骤45，根据所述步骤43得到的GMM模型和所述步骤44得到的基频参数模型，得到频谱参数和基频参数的转换函数。

该步骤中，频谱参数的转换函数的推导过程如下：

图2描述了源说话人和目标说话人个性特征的两个高斯分量之间的关系，分别用(μ_s,σ_s)和(μ_t,σ_t)表示，X表示源说话人的待转换频谱参数，Y表示转换后的目标说话人的频谱参数，从图2中可以推导出下面的公式：

\frac{Y - μ_{t}}{X - μ_{x}} = \frac{σ_{t}}{σ_{s}},

从而有：

Y = μ_{t} + \frac{σ_{t}}{σ_{s}} (x - μ_{s}),

考虑所有高斯分量的加权求和后，频谱参数的转换函数表示为：

F (X) = Σ_{i = 1}^{Q} p_{i} (X) [μ_{i}^{T} + \frac{Σ_{i}^{T}}{Σ_{i}^{S}} (X - μ_{i}^{S})],

其中，p_i(X)是源说话人GMM模型的第i个高斯分量的后验概率，Q表示高斯分量的维数，是源说话人GMM模型的第i个高斯分量的均值和协方差矩阵，是目标说话人GMM模型的第i个高斯分量的均值和协方差矩阵。

该步骤中，采用高斯模型转换法得到基频参数的转换函数，该方法假定源说话人的基音频率和目标说话人的基音频率都服从正态分布，则所述基频参数的转换函数表示为：

F_{0}^{T} = μ^{T} + \frac{σ^{T}}{σ^{S}} (F_{0}^{S} - μ^{S}),

其中，μ^S和μ^T分别表示源和目标说话人语音基频的均值，σ^S和σ^T表示源和目标说话人语音基频的方差，是源说话人语音的基音频率。

该步骤进一步包括以下步骤：

步骤51，提取源说话人待转换语音的短时谱和基频F0；

在本发明一实施例中，使用STRAIGHT提取源说话人待转换语音的短时谱和基频F0。

步骤52，由短时谱包络提取出LPCC参数；

步骤53，分别根据所述频谱参数转换函数和基频参数转换函数对源说话人的LPCC参数和基频F0进行转换，得到目标说话人的LPCC参数和基频参数。

该步骤进一步包括以下步骤：

步骤61，基于转换后的LPCC参数重估出目标说话人的短时谱包络；

步骤62，结合所述短时谱包络和转换后的基频F0，得到具有目标说话人特征的语音。

所述步骤62中，通过STRAIGHT平台对于所述短时谱包络和转换后的基频F0进行合成。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于自适应非平行训练的语音转换方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述预处理包括但不限于预加重、加汉明窗和分帧处理。

3.根据权利要求1所述的方法，其特征在于，所述语音特征参数包括但不限于基音频率、线性预测倒谱系数LPCC、梅尔倒频谱系数MFCC和线谱对LSP。

4.根据权利要求1所述的方法，其特征在于，所述步骤2中，首先获得每帧有效语音信号的基音频率F0和短时谱参数；然后基于求得的短时谱参数求取每帧语音信号的LPC系数；然后将LPC系数转化为LPCC系数。

5.根据权利要求1所述的方法，其特征在于，所述步骤3中，在进行UBM训练时，首先平衡说话人性别上的差异和每个说话人训练语料库的大小；然后融合所有用于训练的语音特征参数，通过EM算法训练得到UBM模型。

6.根据权利要求1所述的方法，其特征在于，所述步骤4进一步包括以下步骤：

步骤42，分别提取两者的LPCC参数和基频参数；

7.根据权利要求6所述的方法，其特征在于，通过MAP自适应方法分别从UBM模型中得到源说话人和目标说话人的GMM模型。

8.根据权利要求6所述的方法，其特征在于，所述频谱参数的转换函数表示为：

F (X) = Σ_{i = 1}^{Q} p_{i} (X) [μ_{i}^{T} + \frac{Σ_{i}^{T}}{Σ_{i}^{S}} (X - μ_{i}^{S})],

其中，p_i(X)是源说话人GMM模型的第i个高斯分量的后验概率，Q表示高斯分量的维数，是源说话人GMM模型的第i个高斯分量的均值和协方差矩阵，是目标说话人GMM模型的第i个高斯分量的均值和协方差矩阵；

所述基频参数的转换函数表示为：

F_{0}^{T} = μ^{T} + \frac{σ^{T}}{σ^{S}} (F_{0}^{S} - μ^{S}),

9.根据权利要求1所述的方法，其特征在于，所述步骤5进一步包括以下步骤：

步骤51，提取源说话人待转换语音的短时谱和基频F0；

步骤52，由短时谱包络提取出LPCC参数；

10.根据权利要求1所述的方法，其特征在于，所述步骤6进一步包括以下步骤：