CN102184731A

CN102184731A - 一种韵律类和音质类参数相结合的情感语音转换方法

Info

Publication number: CN102184731A
Application number: CN2011101220344A
Authority: CN
Inventors: 毛峡; 韩林
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2011-05-12
Filing date: 2011-05-12
Publication date: 2011-09-14

Abstract

本发明提出了韵律类参数(基频、时长和能量)和音质类参数(共振峰)相结合的情感语音转换方法。其主要步骤包括：步骤一：对BHUDES情感语音样本(包含中性语音以及悲伤、愤怒、高兴和惊奇四种情感语音)进行特征参数的提取分析；步骤二：根据提取的特征参数，制定情感语音转换规则，定义各项转换常数；步骤三：对待转换的中性语音进行特征参数提取和基音同步标注；步骤四：通过步骤二的情感转换规则设定各项转换常数，对基频曲线，时长和能量进行修改，再基音同步叠加合成语音信号。步骤五：对步骤四的语音信号进行LPC分析，通过传递函数的极点对共振峰进行更改。最终得到富有表现力的情感语音。

Description

一种韵律类和音质类参数相结合的情感语音转换方法

技术领域

本发明涉及语音信号处理和人工智能领域，主要涉及一种韵律类和音质类参数相结合的情感语音转换方法。

背景技术

语音合成是人机交互中的一个重要组成部分。现在人们所希望听到的已不再是有很高可懂度的枯燥的机器音，而是能够表达情感的具有人情味的语音。现有的语音合成水平，解决的还是从文字到语音合成这个阶段，也就是文语转换(TTS：Text to Speech)，语音中的情感信息并不能得到很好的表达。

另外情感语音还可以和其它多媒体技术结合，比如将情感语音配以相应的面部特征来表达情感，使声音和表情同步，这就是当前比较热门的“视觉语音(visualspeech)”技术。

从语音信号中提取情感特征，分析人的感情与语音信号的关联，将情感特征应用于语音合成方面的研究，是国内外该领域中近几年刚刚兴起的研究课题。但是，大量的模型还没有得到很好的解决。情感语音合成研究是情感计算与语音合成这两个领域的交叉课题，其中语音合成研究比较悠久，而情感计算则是相对年轻的研究领域。

PSOLA(Pitch Synchronous Overlap Add)是用于语音合成技术的一种波形拼接算法。它和早期的波形拼接有原则性的差别：该算法在调整语音单元拼接之前，能够对拼接单元进行基频，时长和能量的调整，并且在调整时以基音周期而不是传统的帧长为单位进行波形修改，把基音周期的完整性作为保证波形及频谱的平滑连续的基本前提。

在情感语音的转换中，PSOLA应用还不成熟，而且它只能对语音信号的韵律类参数进行修改，不能改变音质类参数。因此提出一种更加高效的转换方法具有很强的现实意义。

发明内容

本发明提出了一种同时更改韵律类参数和音质类参数的方法完成情感语音的转换。

本发明的主要内容为：对情感语音样本进行特征参数的提取统计，制定转换规则，然后根据规则更改语音的基频曲线以及共振峰位置，完成中性语音到四种情感语音(悲伤、愤怒、高兴和惊奇)的转换。

该方法的具体步骤如下：

步骤一：对情感语音样本(包含中性语音以及悲伤、愤怒、高兴和惊奇四种情感语音)进行特征参数的提取分析；

步骤二：根据提取的特征参数，制定情感语音转换规则，定义各项转换参数；

步骤三：对待转换的中性语音进行特征参数提取和基音同步标注；

步骤四：通过步骤二的情感转换规则设定修改参数，对基频曲线，时长和能量进行修改，再进行基音同步叠加合成语音信号；

步骤五：对步骤四的语音信号进行LPC分析，通过改变传递函数的极点对共振峰进行更改。

其中，在步骤一中，选取的语料为BHUDES(北航情感语音数据库)，提取的特征参数包括基频、时长和能量以及共振峰。

在步骤二中，分别提取中性语音和四种情感语音的基频，时长和能量等特征参数，经过统计得出如下的转换规则：

在上面转换规则的基础上，定义UP_POSITION(上扬位置)，DOWN_POSITION(下降位置)，MEANf0(整体基频改变量)，DUR_POSITION(延时位置)，DUR_LEN(延时长度)，ENERGY_SCALE(能量因子)等常数。

在步骤三中，首先要对输入的语音信号x(n)进行语音段和静音段以及清浊音的判决。

语音段和静音段判决采用基于短时能量和短时过零率的双门限法。

清浊判决方法采用预测残差能量e_r和第一阶反射系数r₁相结合的方法，判决条件为：

若r₁＞0.2&e_r＞threshold，则该帧为浊音；否则为清音。

r_{1} = \frac{R_{ss} (1)}{R_{ss} (0)} - - - (1)

R_{ss} (0) = \frac{1}{N} Σ_{n = 1}^{N} x (n) x (n) - - - (2)

R_{ss} (1) = \frac{1}{N} Σ_{n = 1}^{N - 1} x (n) x (n + 1) - - - (3)

其中N为帧长，e_r为进行线性预测后的残差能量。

对浊音部分进行基音标注，对于清音部分采取等间距标注，方便计算。根据步骤二的转换规则，设定各项相关参数。

对已经完成基音同步标注的语音信号与一系列的基音同步窗函数相乘，得到一些列有重叠的短时分析信号。一般采用标准汉宁(Hanning)窗或汉明(Hamming)窗，窗长为两个基音周期，相邻的短时分析信号之间有大约50％的重叠部分。基音周期的准确性和起始位置非常重要，它将对合成语音的质量有很大的影响。本方法采用汉明(Hamming)窗，窗函数如式5所示：

ω (n) = \{\begin{matrix} 0.54 - 0.46 (2 πn / (N - 1)) & 0 \leq n \leq N - 1 \\ 0 & else \end{matrix} - - - (5)

原始信号x(n)与一系列的基音同步窗函数ω_m(n)相乘的到的短时分析信号为：

x_m(n)＝ω_m(n_m-n)×x(n) (6)

式中n_m为基音标注点。

根据情感转换规则，建立转换波形与原始波形之间的基音周期的映射关系，见图2，再由此映射关系确定合成时所需要的短时合成信号序列。

将短时信号序列与目标基音周期同步排列，并重叠相加得到合成波形。此时，合成的语音波形y(n)就具有所期望的情感特征。

在步骤四中，设定步骤二中的UP_POSITION(上扬位置)，DOWN_POSITION(下降位置)，MEANf0(整体基频改变量)，DUR_POSITION(延时位置)，DUR_LEN(延时长度)，ENERGY_SCALE(能量因子)等常数。

在步骤五中，先对语音信号进行LPC分析，在本方法中，分析阶数取12阶，流程见图3。对得到的传递函数的极点进行更改，从而对共振峰进行频率上的移动。

本发明的优点以及积极效果在于：由于本发明对语音的韵律类特征(基频、能量和时长)和音质类特征(共振峰)同时进行了更改，使转换后的情感语音更加自然。同时，在对基频曲线进行更改时，通过设定必要的参数，可以使韵律修改效果更好。

附图说明

图1 情感语音转换流程图

图2 基音周期的映射关系示意图

图3 LPC更改共振峰流程图

具体实施方式

本发明是一种将中性语音转换为四种情感语音的新方法。

本发明的主要内容为：对选取的BHUDES情感语音样本进行特征参数的提取统计，制定转换规则，然后根据规则更改语音的基频曲线以及共振峰位置，完成中性语音到四种情感语音(悲伤、愤怒、高兴和惊奇)的转换。

为了更清晰的阐述本发明的目的、技术方案及优点，以下结合附图，以中性语音转换为惊奇语音为实例做进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

具体实施方式见图1流程图，主要步骤如下：

步骤一：对情感语音样本(包含中性语音以及悲伤、愤怒、高兴和惊奇四种情感语音)进行特征参数的提取分析，提取的特征参数包括基频、时长和能量以及共振峰；

步骤二：根据提取的中性语音和四种情感语音的基频，时长和能量等特征参数，制定情感语音转换规则，定义各项转换常数；

步骤三：从步骤二的情感语音转换规则中抽取出惊奇语音的转换规则。

由转换规则可知惊奇的平均基频稍高，基频范围稍高，基频曲线的尾部存在上扬，能量稍高和共振峰位置稍高，时长较短。

首先要对输入的语音信号x(n)进行语音段和静音段以及清浊音的判决。

若r₁＞0.2&e_r＞threshold，则该帧为浊音；否则为清音。

r_{1} = \frac{R_{ss} (1)}{R_{ss} (0)} - - - (1)

R_{ss} (0) = \frac{1}{N} Σ_{n = 1}^{N} x (n) x (n) - - - (2)

R_{ss} (1) = \frac{1}{N} Σ_{n = 1}^{N - 1} x (n) x (n + 1) - - - (3)

其中N为帧长，e_r为进行线性预测后的残差能量。

ω (n) = \{\begin{matrix} 0.54 - 0.46 (2 πn / (N - 1)) & 0 \leq n \leq N - 1 \\ 0 & else \end{matrix} - - - (5)

x_m(n)＝ω_m(n_m-n)×x(n) (6)

式中n_m为基音标注点。

根据情感转换规则，建立转换波形与原始波形之间的基音周期的映射关系，再由此映射关系确定合成所需要的短时合成信号序列。

步骤四：通过步骤二的情感转换规则设定UP_POSITION(上扬位置)，DOWN_POSITION(下降位置)，MEANf0(整体基频改变量)，DUR_POSITION(延时位置)，DUR_LEN(延时长度)，ENERGY_SCALE(能量因子)等常数。然后对基频曲线，时长和能量进行修改，再基音同步叠加合成语音信号。

步骤五：对步骤四的语音信号进行LPC分析，通过传递函数的极点对共振峰进行更改。最终得到待转换的情感语音。

Claims

1.本发明提出了韵律类参数(基频、时长和能量)和音质类参数(共振峰)相结合的情感语音转换方法，该方法的具体步骤如下：

步骤一：对BHUDES情感语音样本(包含中性语音以及悲伤、愤怒、高兴和惊奇四种情感语音)进行特征参数的提取分析；

步骤二：根据提取的特征参数，制定情感语音转换规则，定义各项转换常数

步骤四：通过步骤二的情感转换规则设定修改参数，对基频曲线，时长和能量进行修改，再基音同步叠加合成语音信号；

步骤五：对步骤四的语音信号进行LPC分析，通过传递函数的极点对共振峰进行更改。

2.根据权利要求1所述方法，所述步骤一的主要特征在于对中性以及悲伤、愤怒、高兴和惊奇四种情感语音的参数提取。

3.根据权利要求1所述方法，所述步骤二的主要特征为：分别提取中性语音和四种情感语音的基频，时长和能量等特征参数，经过统计分析得出转换规则，并在上面转换规则的基础上，定义UP_POSITION(上扬位置)，DOWN_POSITION(下降位置)，MEANf0(整体基频改变量)，DUR_POSITION(延时位置)，DUR_LEN(延时长度)，ENERGY_SCALE(能量因子)等常数。

4.根据权利要求1所述方法，所述步骤三中的主要特征为：首先要对输入的语音信号x(n)进行语音段和静音段以及清浊音的判决，语音段和静音段判决采用基于短时能量和短时过零率的双门限法；

清浊判决方法采用预测残差能量e_r和第一阶反射系数r₁相结合的方法，判决条件为：若r₁＞0.2&e_r＞threshold，则该帧为浊音，否则为清音；

r_{1} = \frac{R_{ss} (1)}{R_{ss} (0)} - - - (1)

R_{ss} (0) = \frac{1}{N} Σ_{n = 1}^{N} x (n) x (n) - - - (2)

R_{ss} (1) = \frac{1}{N} Σ_{n = 1}^{N - 1} x (n) x (n + 1) - - - (3)

其中e_r为进行线性预测后的残差能量，N为帧长；

对浊音部分进行基音标注，对于清音部分采取等间距标注；根据步骤二的转换规则，设定各项相关参数；对已经完成基音同步标注点语音信号与一系列的基音同步窗函数相乘，得到一些列有重叠的短时分析信号，本方法采用汉明(hamming)窗，窗长为两个基音周期，相邻的短时分析信号之间有大约50％的重叠部分，窗函数如式5所示：

ω (n) = \{\begin{matrix} 0.54 - 0.46 (2 πn / (N - 1)) & 0 \leq n \leq N - 1 \\ 0 & else \end{matrix} - - - (5)

x_m(n)＝ω_m(n_m-n)×x(n) (6)

式中n_m为基音标注点。

5.根据权利要求1所述方法，所述步骤四中的主要特征为：根据情感转换规则，建立转换波形与原始波形之间的基音周期的映射关系，再由此映射关系确定合成所需要的短时合成信号序列，将短时信号序列与目标基音周期同步排列，并重叠相加得到合成波形。

6.根据权利要求5所述方法，其主要特征为：对语音信号进行LPC分析，在本方法中，分析阶数取12阶，对得到的传递函数的极点进行更改，从而改变声道传递函数，进而改变共振峰位置。