CN101419800B

CN101419800B - 基于频谱平移的情感说话人识别方法

Info

Publication number: CN101419800B
Application number: CN2008101624505A
Authority: CN
Inventors: 杨莹春; 吴朝晖; 单振宇
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2008-11-25
Filing date: 2008-11-25
Publication date: 2011-12-14
Anticipated expiration: 2028-11-25
Also published as: CN101419800A

Abstract

本发明公开了一种基于频谱平移的情感说话人识别方法，包括如下步骤：(1)采集待测音频信号后，对音频信号依次进行采样量化、去零漂、预加重和加窗，得到加窗后的语音帧；(2)加窗后的语音帧经过快速傅立叶变换得到频谱信号，采用频谱平移方法得到多组分别拥有不同共振峰分布的频谱信号；(3)采用美尔滤波器对上述频谱进行滤波，再采用离散余弦压缩得到语音特征；(4)按步骤(1)～步骤(3)的流程提取的待测音频信号的语音特征，采用最大得分方法计算气氛得分，并给出识别结果。本发明方法改变中性情感语音的共振峰分布情况，合成具有不同共振峰分布的语音频谱，增强***对各种情感语音的熟悉程度，提高***识别率。

Description

基于频谱平移的情感说话人识别方法

技术领域

本发明涉及信号处理和模式识别，主要是一种基于频谱平移的情感说话人识别方法。

背景技术

说话人识别技术是指利用信号处理和模式识别方法，根据说话人的语音识别其身份的技术。情感说话人识别是训练语音和测试语音中包含情感语音的说话人识别。在情感说话人识别中，由于受到测试语音和训练语音情感不一致的影响，***的识别率将降大幅降低。本专利提出的方法就是为了减弱训练和测试语音情感不一致引起的***性能的下降。

目前说话人识别方法主要分成两个步骤，第一个步骤为特征提取，主要的特征提取方法有梅尔倒谱系数(MFCC)，线形预测编码倒谱系数(LPCC)，感觉加权的线性预测系数(PLP)。第二个步骤为说话人识别过程，包括说话人建模和训练。主要的建模方法有高斯混合模型法(GMM)，通用背景模型法(GMM-UBM)，支持向量机(SVM)。

在情感说话人识别中，训练语音通常为中性情感语音，而测试语音包括各种情感的语音，比如高兴情感语音，悲伤情感语音。所以，解决情感问题的关键是在训练时也能得到除中性情感语音之外的情感语音。如果只是让用户提供各种各样的情感语音，显然是不符合应用要求的。一般情况下，用户只能提供中性语音，因此提出了采用中性情感语音得到与各种情感语音等效的语音频谱。

发明内容

本发明提供了一种基于频谱平移的情感说话人识别方法。该方法通过平移语音信号的短时频谱，将中性语音频谱转换成情感语音等效的语音频谱，降低情感变化因素对说话人识别性能的影响。

共振峰位置的不同是各类情感语音的一个主要差别，通过改变中性语音的共振峰位置，可以得到与情感语音等效的语音频谱，让***在训练的时候熟悉各种情感语音，从而提高情感说话人识别的性能。本专利提出了一种基于频谱平移的情感说话人识别方法。通过平移中性语音的频谱来改变共振峰分布，从而得到与情感语音等效的语音频谱。

本发明首先采用平移中性语音频谱的方法，得到和中性语音有不同共振峰分布的频谱，再从这些频谱中提取情感语音特征，然后采用高斯混合模型对各类情感特征建立模型，最后采用最大得分方法求出测试语音得分，并进行识别。

一种基于频谱平移的情感说话人识别方法，包括如下步骤：

(1)音频预处理

采集待测音频信号后，对音频信号依次进行采样量化、去零漂、预加重和加哈明窗，得到加哈明窗后的语音帧；

(2)频谱平移

加窗后的语音帧经过快速傅立叶变换得到频谱信号，采用频谱平移方法得到多组分别拥有不同共振峰分布的频谱信号；

由于说话人处于不同情感状态下的语音频谱的共振峰分布情况不同，通过改变中性语音频谱的共振峰分布就等效于得到该说话人不同情感状态下的语音的特征；

(3)特征提取

采用美尔滤波器对频谱信号进行滤波，再采用离散余弦压缩得到语音特征；

(4)说话人识别

训练：采用频谱平移方法对每个说话人的语音提取多种情感语音，并对每种情感的语音建立一个高斯混合模型；

测试：将按步骤(1)～步骤(3)的流程提取的待测音频信号的语音特征，计算待测音频信号在各种情感语音高斯混合模型下的得分，采用最大得分方法计算待测音频信号的得分，得到识别结果。

步骤(1)的音频预处理包括：

1)采样量化

A)用对采集得到的音频信号s_a(t)进行滤波，滤波时奈奎斯特频率F_N为4KHZ，音频采样率F＝2F_N，滤波后得到数字音频信号(即数字化的音频信号)的振幅序列

B)用脉冲编码调制对数字音频信号的振幅序列s(n)进行量化编码，得到振幅序列的量化表示s’(n)；

其中t表示该信号是时间连续信号，n则表示离散信号序列，n取值时一般可取为连续的自然数。

2)去零漂

A)计算振幅序列的量化表示s’(n)的平均值

B)将振幅序列中的每个振幅值分别减去平均值

，得到去零漂后平均值为0的振幅序列s”(n)；

3)预加重

将去零漂后的振幅序列s”(n)通过数字滤波器进行预加重，预加重时数字滤波器的传递函数为H(z)＝1-αz^-1，得到预加重的振幅序列s”’(n)。

对语音信号进行预加重，使信号频谱变得平坦，压缩信号器的动态范围，提高信噪比。这样处理可以使低频到高频的整个频带内能用相同的信噪比来求频谱。预加重部分可采用6dB/倍频程来增强语音信号的高频部分，经预加重，语音信号的高频部分可与中频部分(1～2kHz)的能量大致相等。；

4)加哈明窗

A)把预加重后的振幅序列s”’(n)划分成若干音频帧F_m，每一音频帧F_m的帧长为N、帧移量为T，且满足：

\frac{N}{F} = 0.032

\frac{T}{F} = 0.010

其中，F是音频采样率，单位为Hz；一般每一音频帧F_m的帧长为N、帧移量为T在划分振幅序列s”’(n)前预先计算出来。

B)计算哈明窗函数：

式中N为每一音频帧F_m的帧长；

C)利用公式F′_m(n)：F′_m(n)＝ω_H(n)×F_m(n)对每一音频帧F_m加哈明窗，得到加哈明窗后的音频帧F′_m(n)。

步骤(2)的频谱平移包括：

1)音频信号转换成频谱信号

对加哈明窗后的音频帧F′_m(n)进行快速傅立叶变换，得到频谱信号f_m，频谱信号f_m的能量谱为E_m；

2)平移频谱信号

对频谱信号f_m进行平移，得到平移后频谱信号f′_m，平移后频谱信号f′_m的能量谱E′_m；

平移公式为：

E′_m(f)＝E_m(f+h)

其中h表示频谱信号f_m平移的距离，单位为Hz。平移后的能量谱E′_m在频率为fHz处的能量和原能量谱E_m在频率f+hHz处相等。

其目的是得到和中性语音的频谱信号f_m具有不同共振峰分布的语音信号，具有不同共振峰分布的语音帧包含该说话人的情感语音信息。

步骤(3)的音频特征提取包括：

美尔滤波器的实施步骤分为三步：

1)计算梅尔域刻度：

M_{i} = \frac{i}{p} \times 2595 \log (1 + \frac{8000 / 2.0}{700.0}), (i = 0,1,2, K, p)

p表示需计算的美尔刻度的个数；

2)计算梅尔域刻度M_i处对应的频谱刻度：

f_{i} = 700 \times e^{\frac{M_{i}}{2595} \ln 10} - 1, (i = 0,1,2, K, p)

3)计算每个梅尔域通道φ_j上的对数能量谱E_j：

其中

表示梅尔域通道φ_j的权重，

其中k为滤波器的个数。上述三步完成了对美尔滤波器的构建。

上述频谱信号经过美尔滤波器后，再采用离散余弦变换压缩对对数能量谱E_j进行压缩，得到语音特征。

步骤(4)的所述说话人识别中，训练时采集说话人的中性语音作为测试语音，采用频谱平移的方法得到各种情感的语音特征，然后为每个说话人的每种情感语音建立一个高斯混合模型。训练高斯混合模型的方法采用期望最大化方法。

测试时测试语音在提取特征之后，对应每种情感的高斯混合模型计算后验概率，作为测试语音的得分。并根据设定的阀值接收或拒绝该测试语音。

本发明方法中提及的梅尔域刻度可参见：JOSEPH P.CAMPBELL，JR.，“Speaker Recognition：A Tutorial”，PROCEEDINGS OF THE IEEE，VOL.85，NO.9，PP.1437-1462，SEPTEMBER 1997.

本发明方法中提及的期望最大化方法：DouglasA.Reynolds，Richard C.Rose，“Robust Text-Independent Speaker Identification Using GaussianMixture Speaker Modes”，IEEE TRANSACTIONS ON SPEECH ANDAUDIO PROCESSING，VOL.3，no.1，pp.72-83，JANUARY 1995.

本发明有益的效果是：采用频谱平移的方法，改变中性情感语音的共振峰分布情况，生成具有不同共振峰分布的与情感语音等效的语音频谱，增强***对各种情感语音的熟悉程度，提高***识别率。

具体实施方式

本发明方法实施时：

第一步：音频预处理

音频预处理分为采样量化，去零漂，预加重和加窗四个部分。

1、采样量化

A)用锐截止滤波器对采集得到的待测音频信号进行滤波，使其奈奎斯特频率F_N为4KHZ；

B)设置音频采样率F＝2F_N；

C)对音频信号s_a(t)按周期进行采样，得到数字音频信号的振幅序列

s (n) = s_{a} (\frac{n}{F});

D)用脉冲编码调制(PCM)对s(n)进行量化编码，得到振幅序列的量化表示s’(n)。

2、去零漂

A)计算量化的振幅序列的平均值

B)将每个振幅值减去平均值，得到去零漂后平均值为0的振幅序列s”(n)。

3、预加重

A)设置数字滤波器的Z传递函数H(z)＝1-αz^-1中的预加重系数α，α可取比1稍小的值，可取为0.97；

B)s”(n)通过数字滤波器，得到音频信号的高、中、低频幅度相当的振幅序列s”’(n)。

4、加哈明窗

A)预先计算音频帧的帧长N(32毫秒)和帧移量T(10毫秒)，分别满足：

\frac{N}{F} = 0.032

\frac{T}{F} = 0.010

这里F是音频采样率，单位为Hz；

B)以帧长为N、帧移量为T，把s”’(n)划分成一系列的音频帧F_m，每一音频帧包含N个音频信号样本；

C)计算哈明窗函数：

D)对每一音频帧F_m加哈明窗：

利用公式F′_m(n)：F′_m(n)＝ω_H(n)×F_m(n)对每一音频帧F_m加哈明窗，得到加哈明窗后的音频帧F′_m(n)。

第二步：频谱平移

音频帧上的频谱平移包括快速傅立叶变换和频谱平移。

1、时域到频域的变化：采用快速傅立叶变换，转变{F′_m(n)}得到频谱信号f_m，频谱信号f_m的能量谱为E_m。快速傅立叶变化时其大小可取为512。

2、平移频谱信号：

E_m(f)＝E_m(f+h)

第三步、特征提取

采用美尔滤波器对上述频谱进行滤波，再采用离散余弦变化得到特征。

1、计算梅尔域刻度：

M_{i} = \frac{i}{p} \times 2595 \log (1 + \frac{8000 / 2.0}{700.0}), (i = 0,1,2, K, p)

p表示需计算的美尔刻度的个数；

2、计算对应的频域刻度：

f_{i} = 700 \times e^{\frac{M_{i}}{2595} \ln 10} - 1, (i = 0,1,2, K, p)

3、计算每个梅尔域通道φ_j上的对数能量谱：

其中

k为通道个数，

为每个梅尔域通道的权重，可以都取为1，表示每个通道的权重相同。也可以根据需要取不同的数值。一般情况下梅尔域通道的个数为40个或者60个。

4、采用离散余弦变换(DCT)对梅尔域通道上的能量谱进行压缩得到特征。压缩后，取DCT变化的前13或者16维作为特征。

第四步、说话人建模及识别

采用高斯混合模型对各种情感语音特征建模，得到各种情感语音模型，也可以称为说话人训练；

模型训练中包括两个部分，第一部分是采用似然估计法得到语音模型(高斯混合模型)；第二部分采用中性和情感语音转化算法。

高斯混合模型的训练

GMM参数包括权重(ω_i)，均值(μ_i)和方差(R_i)，其定义如下：

P (x | λ) = Σ_{i = 1}^{M} w_{i} g_{i} (u_{i}, R_{i}, x)

M为混合模型的阶数，g_i为高斯分量。

训练是一个迭代的估计过程，其过程可分为两步，计算训练数据在第i阶时的概率，这一步称为求期望；然后以上一步的参数(λ(ω_i，μ_i，R_i))估计下一步GMM的参数(λ′(ω′_i，μ′_i，R′_i))，这一步被称为求最大化。

ω_{i}^{'} = \frac{Σ_{t = 1}^{T} r_{i} (i)}{Σ_{t = 1}^{T} Σ_{i = 1}^{M} r_{t} (i)} = \frac{1}{T} Σ_{t = 1}^{T} P (i_{t} = i / z_{t}, λ)

μ_{i}^{'} = \frac{Σ_{t = 1}^{T} r_{t} (i) z_{t}}{Σ_{t = 1}^{T} r_{t} (i)} = \frac{Σ_{t = 1}^{T} P (i_{t} = i / z_{t}, λ) z_{t}}{Σ_{t = 1}^{T} P (i_{t} = i / z_{t}, λ)}

R_{i}^{'} = \frac{Σ_{t = 1}^{T} P (i_{t} = i / z_{t}, λ) {(z_{t} - μ_{i}^{'})}^{T} (z_{t} - μ_{i}^{'})}{Σ_{t = 1}^{T} P (i_{t} = i / z_{t}, λ)}

其中，z_t表示训练的语音特征，其总数为T。

用户的每种情感特征建立一个高斯混合模型，每个高斯混合模型代表了其情感语音特征的分布情况。如果，有ne种情感，那么每个说话人都拥有ne个高斯混合模型。

计算测试语句在各种情感语音模型下的得分，采用最大得分方法计算该语句的最后得分，并做出判断。

根据贝叶斯理论，在输入语音特征X下，符合声纹模型λ_i的概率为：

P (λ_{i} | X) = \frac{P (X | λ_{i}) * P (λ_{i})}{P (X)}

同一个说话人有ne个模型，对于一个语音帧可以得到ne个得分，那么把这些得分中的最高得分当成该语音帧的最后得分：

P (λ | X) = \max_{i = 1}^{ne} P (λ_{i} | X)

那么对于该测试语句的所有语音帧的最后得分为：

P (λ | X) = Σ_{i = 1}^{N} \log (P (λ | X_{i}))

其中num为测试语音帧的总帧数。

在说话人鉴别中，其中在所有模型中得分最高的模型拥有者被认为是该测试语音对应的用户。在说话人确认中，需要设定一个阀值，如果得分高于该阀值就被接受；否则被拒绝。

效果测试

实验中采用的数据库为中文情感语音数据库(MASC)。该数据库包括68人，其中女性23人。一共录制了5种情感的语音，分别为：中性，生气，高兴，愤怒和悲伤。每个说话人要在每种情感情况下说出5个单词和20句语句3遍。

实验中，采用中性的20句话的前5句的三遍，一共15句话用于训练，组成训练语音集。五种情感的后15句语音(三遍)用于测试，组成测试语音集合(共15*3*68)。实验中，模拟的是说话人鉴别的过程。共有两组实验：

1.对比实验：在频谱平移方法中，采用的平移量为0，也就是得到一组特征。由于训练语音为中性语音，该组特征就是该说话人中性语音的特征。

2.频谱平移：采用本发明方法，采用的平移为±1，±2，±3±4，±5单位，单位的大小为8000/512＝15.625Hz。

两组实验的识别率分别为：45.17％和54.43％。说明采用本发明移动频谱方法得到的识别结果要优于未采用移动频谱的方法。

Claims

1.一种基于频谱平移的情感说话人识别方法，其特征在于，包括如下步骤：

(1)音频预处理

所述的采样量化的步骤为：

A)用对采集得到的音频信号s_a(t)进行滤波，滤波时奈奎斯特频率F_N为4KHz，音频采样率F＝2F_N，滤波后得到数字音频信号的振幅序列

所述的去零漂的步骤为：

A)计算振幅序列的量化表示s’(n)的平均值

B)将振幅序列中的每个振幅值分别减去平均值

得到去零漂后平均值为0的振幅序列s”(n)；

所述的预加重的步骤为：

将去零漂后的振幅序列s”(n)通过数字滤波器来增强信号的高频部分，经预加重，语音信号的高频部分与中频部分的能量相当，得到预加重后的振幅序列s”’(n)；

所述的加哈明窗的步骤为：

\frac{N}{F} = 0.032

\frac{T}{F} = 0.010

其中，F是音频采样率，单位为Hz；

B)计算哈明窗函数：

式中N为每一音频帧F_m的帧长；

C)利用公式F′_m(n)：F′_m(n)＝ω_H(n)×F_m(n)对每一音频帧F_m加哈明窗，得到加哈明窗后的音频帧F′_m(n)；

(2)频谱平移

加窗后的语音帧经过快速傅立叶变换得到频谱信号，采用频谱平移方法对频谱信号进行平移得到多组分别拥有不同共振峰分布的频谱信号，不同的共振峰分布表示信号不同的情感类型；

所述的频谱平移步骤为：

对进行快速傅立叶变换后得到频谱信号f_m进行平移，得到平移后频谱信号f′_m，平移后频谱信号f′_m的能量谱E′_m；

平移公式为：

E′_m(f)＝E_m(f+h)；

其中E_m为频谱信号f_m的能量谱，h表示频谱信号f_m平移的距离，单位为Hz，平移后的能量谱E′_m在频率为fHz处的能量和原能量谱E_m在频率f+h Hz处相等；

(3)特征提取

所述的美尔滤波器的构建步骤为：

A)计算梅尔域刻度：

M_{i} = \frac{i}{p} \times 2595 \log (1 + \frac{8000 / 2.0}{700.0}), (i = 0,1,2, K, p)

p表示需计算的美尔刻度的个数；

B)计算梅尔域刻度M_i处对应的频谱刻度：

f_{i} = 700 \times e^{\frac{M_{i}}{2595} \ln 10} - 1, (i = 0,1,2, K, p)

C)计算每个梅尔域通道φ_j上的对数能量谱E_j；

其中

表示梅尔域通道φ_j的权重，

其中k为滤波器的个数；

(4)说话人识别

采用频谱平移方法将每个说话人的中性语音频谱转换成各种情感语音频谱，并利用每种情感语音频谱建立说话人的相应情感下的模型；

将按步骤(1)～步骤(3)的流程提取的待测音频信号的语音特征，计算待测音频信号在各种情感语音的说话人模型下的得分，采用最大得分方法计算待测音频信号的得分，得到识别结果。